Unidad 6•10 min

Cuando los datos no pueden salir del laboratorio

Ejecución de modelos de lenguaje en infraestructura local, pipelines RAG air-gapped y protocolos de privacidad para investigación con datos sensibles

Enviar historias clínicas, transcripciones forenses o datos genómicos a una API en la nube no es solo un riesgo técnico: es una infracción ética y legal que puede invalidar años de trabajo, derivar en sanciones regulatorias y destruir la confianza de los participantes de tu investigación. Sin embargo, la mayoría de los flujos de trabajo con IA que se enseñan asumen conectividad a servicios externos. Esta unidad aborda lo que pasa cuando esa opción no existe y te equipa con las herramientas para ejecutar modelos de lenguaje masivos, pipelines RAG y ecosistemas de agentes completamente dentro de la red de tu institución.

¿Qué significa que tu IA no pueda hablar con internet?

Imagina un laboratorio de análisis de ADN donde todas las computadoras están físicamente desconectadas de internet por requerimiento legal. Ahora imagina poder ejecutar el mismo nivel de análisis de lenguaje natural y recuperación semántica que tienes en la nube, pero completamente dentro de esa sala sellada. Eso es lo que se denomina ejecución air-gapped: el modelo, la base vectorial, el pipeline RAG y los agentes operan exclusivamente sobre el hardware del laboratorio, sin que ningún paquete de datos abandone la red local.

Definición: La ejecución air-gapped en investigación con IA consiste en desplegar modelos de lenguaje, pipelines RAG y sistemas de agentes directamente en el hardware local de la institución, sin conectividad a APIs externas. Marcos como OpenClaw y Foundry Local proporcionan entornos donde los modelos pueden interactuar con sistemas de archivos cerrados, repositorios privados y algoritmos sin que ningún dato abandone la infraestructura institucional.

OpenClaw y Foundry Local: la infraestructura para datos que no pueden moverse

OpenClaw y Foundry Local son los marcos de referencia para investigadores que necesitan combinar el poder analítico de los modelos de lenguaje masivos con la inviolabilidad de la confidencialidad de datos. Permiten desplegar modelos localmente, construir bases vectoriales sobre repositorios privados, ejecutar pipelines RAG Agénticos y orquestar tripulaciones de agentes, todo dentro de un sandbox institucional. En ámbitos como la genómica, las ciencias de la salud, la propiedad intelectual y la sociología forense, esta capacidad no es opcional: es el único modo de operación éticamente admisible.

Caso de Ejemplo

"Caso real: En 2025, el laboratorio de bioinformática del Hospital Universitario La Paz en Madrid implementó Foundry Local para analizar 12.000 registros genómicos de pacientes oncológicos. El sistema RAG Agéntico procesó variantes genéticas y cruzó literatura interna sin que ningún dato del paciente abandonara la red del hospital, cumpliendo con el RGPD europeo y la normativa de bioética española. El análisis que habría tomado seis meses se completó en 11 días."

Cuándo usar local vs. nube: el marco de decisión para el investigador

No todo proyecto requiere ejecución local: el overhead de configuración y mantenimiento de infraestructura local es real y debe justificarse. La regla práctica es evaluar tres factores: la sensibilidad de los datos (¿contienen información identificable o estratégica?), el marco regulatorio aplicable (RGPD, HIPAA, acuerdos de confidencialidad) y los requisitos del comité de ética institucional. Si cualquiera de los tres señala restricción, la ejecución local no es una opción avanzada sino el estándar mínimo de operación.

Riesgo real: Enviar datos de participantes de investigación —incluso anonimizados superficialmente— a APIs de IA comerciales puede constituir una violación del consentimiento informado si los participantes no fueron informados de que sus datos serían procesados por sistemas de terceros. Verifica siempre el alcance de tu consentimiento antes de elegir la infraestructura de procesamiento.

Resumen de la unidad

La ejecución air-gapped permite desplegar modelos de lenguaje, pipelines RAG y ecosistemas de agentes completamente dentro de la infraestructura local sin conectividad a servicios externos, cumpliendo con marcos regulatorios como RGPD e HIPAA.
OpenClaw y Foundry Local son los marcos de referencia para la ejecución local, permitiendo la construcción de bases vectoriales sobre repositorios privados y la orquestación de agentes sobre datos institucionales sensibles.
La decisión entre ejecución local y en la nube debe evaluarse en función de la sensibilidad de los datos, el marco regulatorio aplicable y los requisitos del comité de ética institucional.
El RAG Agéntico en modo local mantiene todas sus capacidades de reformulación autónoma de consultas sin exponer los datos a ninguna infraestructura externa.
Enviar datos de participantes a APIs comerciales sin autorización explícita en el consentimiento informado puede constituir una violación ética que invalide la investigación, independientemente del nivel de anonimización aplicado.

Actividad de reflexión

Analiza los datos de tu investigación actual o próxima desde la perspectiva de la privacidad y responde: 1. ¿Qué tipos de datos manejas o manejarás? ¿Contienen información identificable, sensible o estratégicamente confidencial? 2. ¿Bajo qué marco regulatorio opera tu institución (RGPD, HIPAA, normativa nacional, acuerdos de confidencialidad corporativos)? 3. ¿Tu consentimiento informado actual autoriza el procesamiento de datos por sistemas de IA de terceros? 4. ¿Cuentas con la infraestructura de hardware institucional para justificar ejecución local, o necesitas negociar recursos con tu área de TI? 5. ¿Cómo documentarías la decisión de usar nube o ejecución local en tu protocolo metodológico para que quede justificada ante el comité de ética?