Unidad 5•12 min

RAG: cuando el modelo necesita saber lo que no aprendió

Entiende cómo los sistemas de recuperación de información aumentan a los modelos con conocimiento externo y por qué la versión básica no es suficiente

Los modelos de lenguaje tienen una memoria fija: saben lo que estaba en sus datos de entrenamiento, nada más. Cuando tu empresa tiene documentos internos, políticas actualizadas o datos recientes que el modelo no conoce, necesitas una arquitectura que los conecte. Eso es RAG, y entenderlo cambia lo que puedes construir.

Un modelo sin RAG es un experto brillante que no sabe nada de tu empresa

Imagina contratar al mejor abogado del mundo, pero que nunca ha leído ningún contrato de tu empresa. Puede razonar sobre derecho con brillantez, pero no puede responder si tu cláusula 7.3 te protege en este caso concreto porque nunca la vio. RAG es el mecanismo que le entrega ese contrato justo antes de que responda. No modifica el modelo, sino que enriquece el contexto que recibe antes de generar su respuesta.

RAG (Retrieval-Augmented Generation) es la arquitectura que combina un sistema de recuperación de información con un modelo generativo. El flujo básico: ingestar documentos, dividirlos en fragmentos (chunking), calcular representaciones matemáticas multidimensionales (embeddings) y almacenarlas en una base de datos vectorial. Cuando el usuario hace una pregunta, el sistema recupera los fragmentos más relevantes semánticamente y los inyecta en el contexto del modelo antes de que genere la respuesta.

El problema del RAG básico: cuando la pregunta y la respuesta no hablan el mismo idioma

El RAG básico tiene un fallo estructural conocido: asimetría del espacio semántico. Un usuario pregunta '¿cuál es la política de devoluciones?' con lenguaje conversacional y ambiguo. La respuesta correcta está en un documento técnico legal que no usa esas palabras exactas. La búsqueda vectorial compara una pregunta corta contra documentos densos y falla porque los vectores matemáticos de ambos no son similares aunque el significado sí lo sea. Este fallo no es un bug: es una limitación del diseño.

HyDE y Reranking: cómo los sistemas avanzados superan la asimetría

HyDE (Hypothetical Document Embeddings) invierte el flujo clásico. En lugar de buscar documentos similares a la pregunta, el sistema le pide al modelo que genere primero una respuesta hipotética a la pregunta, aunque contenga inexactitudes. Luego vectoriza esa respuesta hipotética y la usa como query de búsqueda. Busca una respuesta ideal contra respuestas reales en vez de una pregunta vaga contra respuestas reales. La mejora en precisión de recuperación es consistente y documentada.

Las tres técnicas avanzadas que elevan un RAG básico a uno de producción:

HyDE: el sistema genera una respuesta hipotética a la consulta y usa su vector como query, superando la asimetría consulta-documento.
Búsqueda híbrida: combina búsqueda vectorial semántica con búsqueda exacta por palabras clave (BM25), fusionando resultados con Reciprocal Rank Fusion (RRF).
Reranking con cross-encoder: un modelo clasificador evalúa los documentos recuperados y los reordena antes de inyectarlos al modelo, mitigando el problema 'lost in the middle'.

Caso de Ejemplo

"En 2024, un equipo de operaciones de una aseguradora en Monterrey implementó RAG sobre su base de pólizas para responder consultas de agentes. Con RAG básico, la precisión de recuperación era del 64%. Al agregar búsqueda híbrida BM25+vectorial y un cross-encoder reranker de Vertex AI, la precisión subió al 91% en las mismas consultas de prueba. El tiempo promedio de respuesta del agente bajó de 4 minutos a 40 segundos."

Advertencia: la estrategia de chunking (cómo divides los documentos en fragmentos) afecta directamente la calidad de recuperación. Fragmentos demasiado cortos pierden contexto; demasiado largos generan ruido. No hay un tamaño universal: necesitas experimentar con tu corpus específico.

Resumen de la unidad

RAG conecta un modelo de lenguaje con documentos externos, inyectando los fragmentos más relevantes en el contexto antes de que el modelo genere su respuesta.
El RAG básico falla por asimetría semántica: las preguntas conversacionales cortas no son vectorialmente similares a las respuestas documentales densas.
HyDE supera esa asimetría generando primero una respuesta hipotética y usándola como query de búsqueda, comparando respuesta con respuesta.
Los sistemas de producción combinan búsqueda vectorial semántica con búsqueda exacta por palabras clave (BM25) y un reranker de cross-encoder para máxima precisión.
La estrategia de chunking es una variable crítica que debe calibrarse para cada corpus específico.

Actividad de reflexión

Imagina que debes construir un sistema RAG para tu empresa o equipo. Describe el caso de uso usando estos campos: