Unidad 8•10 min

Evaluar prompts como si fueran código de producción

Aprende a medir objetivamente la calidad de tus prompts con métricas automatizadas y el paradigma LLM-as-a-Judge

Si cambias un prompt en producción sin medirlo antes y después, no estás ingeniería: estás adivinando. Los equipos que escalan sistemas de IA tratan sus prompts como código: los versionan, los testean y los evalúan con métricas concretas antes de desplegar cualquier cambio. Esta unidad te introduce al ecosistema de evaluación que hace eso posible.

Por qué las métricas clásicas de texto fallan con las salidas de IA

Las métricas como BLEU y ROUGE funcionan bien para traducciones donde existe una respuesta de referencia exacta: cuentan cuántas palabras coinciden. Con prompts de IA, el problema es que dos respuestas completamente diferentes en palabras pueden ser igualmente correctas y útiles. Una métrica de solapamiento de tokens no puede capturar eso. Necesitas evaluadores que entiendan el significado, no solo la superficie.

LLM-as-a-Judge es el paradigma donde un modelo de lenguaje de alta capacidad (como GPT-4 o Claude 3.5 Sonnet) actúa como evaluador de las respuestas generadas por el modelo bajo prueba. El evaluador recibe una rúbrica detallada y califica dimensiones como precisión factual, adherencia a instrucciones, tono y formato. Esto escala la evaluación a miles de casos sin intervención humana, manteniendo una calidad de juicio cercana a la evaluación experta.

Promptfoo: el estándar de evaluación automatizada para prompts

Promptfoo es el framework de código abierto más adoptado para construir matrices de evaluación de prompts. Funciona con archivos YAML de configuración donde defines los prompts a evaluar, los conjuntos de datos de prueba y las aserciones que deben cumplirse. Una misma plantilla de prompt puede evaluarse simultáneamente contra múltiples variantes, múltiples modelos y múltiples criterios. El resultado es una tabla comparativa que hace visible qué versión del prompt es objetivamente mejor.

Los tres tipos de aserciones que usa Promptfoo para evaluar prompts:

Aserciones deterministas (Exact Match, Contains, Regex): verifican coincidencias textuales exactas. Útiles para formato JSON, presencia de palabras clave, longitud máxima.
Aserciones semánticas (Cosine Similarity): calculan la distancia vectorial entre la respuesta generada y una respuesta esperada de referencia. Capturan el mismo significado con palabras distintas.
Rúbricas LLM-as-a-Judge: un modelo evaluador califica la respuesta según criterios cualitativos definidos en una rubrica. Evalúa tono, profundidad, adherencia a instrucciones complejas.

CI/CD para prompts: integra evaluación en tu flujo de desarrollo

El paso final en la madurez de un equipo de IA es integrar las evaluaciones de prompts en el pipeline de integración y despliegue continuo (CI/CD). Cada cambio en un prompt dispara automáticamente la suite de evaluación. Si la puntuación baja de un umbral definido, el cambio se bloquea. Esto convierte la evaluación de prompts de una actividad manual periódica a un control de calidad automático en cada iteración, exactamente como las pruebas unitarias funcionan para el código.

Caso de Ejemplo

"El equipo de IA de una plataforma SaaS de recursos humanos en Santiago de Chile implementó evaluación CI/CD con Promptfoo en Q2 2024. Antes, cada cambio en el prompt del asistente de entrevistas requería dos días de evaluación manual con 50 casos de prueba. Con la suite automatizada de 200 casos (100 deterministas + 100 LLM-as-a-Judge con GPT-4), cada PR que modifica un prompt recibe un reporte de calidad en 4 minutos. Los regresos de calidad no detectados bajaron de 3 por trimestre a 0."

Consejo FLOW: Empieza con cinco casos de prueba manuales para tu prompt más crítico. No necesitas Promptfoo para comenzar: define las aserciones en papel primero. La disciplina de pensar en métricas antes de escribir el prompt cambia la calidad del prompt desde el diseño.

Resumen de la unidad

Las métricas clásicas como BLEU y ROUGE no son suficientes para evaluar prompts porque miden solapamiento de tokens, no calidad de significado.
LLM-as-a-Judge usa un modelo de alta capacidad como evaluador con una rúbrica explícita, escalando la evaluación cualitativa sin intervención humana constante.
Promptfoo permite construir matrices de evaluación con aserciones deterministas, semánticas y de rúbrica, comparando variantes de prompts en una tabla objetiva.
Integrar la evaluación de prompts en CI/CD convierte el control de calidad en un proceso automático que bloquea regresiones antes de que lleguen a producción.

Actividad de reflexión

Elige el prompt más crítico que uses en tu trabajo (el que más impacto tiene si falla). Diseña una suite mínima de evaluación para ese prompt: describe al menos 5 casos de prueba con su entrada esperada y el criterio de éxito que usarías para evaluar la salida. Especifica qué tipo de aserción aplica a cada caso (determinista, semántica o rúbrica cualitativa).