¿Importa cómo formateas el prompt o solo importan las palabras?
La arquitectura del formato determina la consistencia de los resultados tanto como el vocabulario que eliges
Hay tres maneras de hablarle a un modelo de IA generativa: en lenguaje natural conversacional, con Markdown estructurado, o con JSON paramétrico. Cada formato tiene un nivel de control diferente y un costo diferente en tokens. Saber cuándo usar cada uno es una de las habilidades más prácticas que puedes desarrollar como diseñador que trabaja con IA a escala profesional.
El lenguaje natural es cómodo, pero tiene una trampa invisible
Escribir en lenguaje natural es como entregar un brief creativo sin estructura: el cliente lo entiende por contexto cultural compartido. Pero el modelo no tiene ese contexto. Cuando procesa un párrafo extenso, el algoritmo sufre "dilución del contexto": mezcla atributos del fondo con los del sujeto, altera iluminación de forma errática al ajustar un solo adjetivo, y pierde la jerarquía entre lo principal y lo secundario. Funciona para iteraciones rápidas; no funciona cuando necesitas consistencia en múltiples generaciones.
Definición: Markdown es un lenguaje de marcado ligero que usa texto plano para crear documentos formateados. Aplicado a un prompt, transforma una solicitud de flujo de conciencia en un documento estructurado con jerarquías claras que el modelo procesa de forma aislada y predecible.
Markdown: el equilibrio entre legibilidad y control
Markdown actúa como un contrato explícito con el modelo. Los encabezados separan roles y escenarios, las listas fuerzan al modelo a procesar atributos secuencialmente en lugar de fusionarlos, la negrita señala los elementos críticos que no pueden omitirse. Investigaciones en sistemas de recuperación y generación confirman que Markdown mantiene intacto el contexto durante la segmentación y no infla significativamente el consumo de tokens como lo hace el JSON.
Elementos de Markdown más útiles en prompts visuales:
- Encabezados (##): dividen el prompt en secciones como 'Sujeto', 'Entorno', 'Iluminación' y 'Formato de salida'.
- Listas (- o 1.): evitan que el modelo fusione atributos de distintas categorías visuales.
- Negrita (**texto**): marca los elementos críticos que el generador no puede omitir o variar.
- Bloques de código: aíslan textos que deben aparecer renderizados dentro de la imagen o formatos de salida exactos.
JSON Prompting: control matemático extremo para producción masiva
El JSON Prompting no es para todos los proyectos, pero para campañas de e-commerce masivas o generación automatizada via API es una herramienta sin equivalente. Cada parámetro visual —ángulo de cámara, valores hexadecimales de la paleta, pose del sujeto, intensidad de iluminación— se aisla en un par clave-valor. Cambiar un solo campo, como "lighting": "neon_night", garantiza que el resto de los componentes visuales queden anclados sin mutar por error.
Caso de Ejemplo
"Ejemplo de JSON Prompting: { "subject": "golden retriever puppy, wet fur, sitting", "environment": "minimalist studio, red cushion", "lighting": "soft natural light, diffused", "camera": { "lens": "85mm", "angle": "eye level", "depth_of_field": "shallow" }, "style": "hyperrealistic, editorial photography, 4K", "palette": ["#F5E6C8", "#D4A853", "#8B4513"] }. Esta estructura permite experimentación controlada: modificar 'lighting' de 'soft natural light' a 'golden hour' no afecta ningún otro parámetro."
La trampa de los tokens en JSON
El control que ofrece JSON tiene un costo directo: la inflación de tokens. Cada llave, corchete, coma y comilla doble consume tokens preciosos sin aportar información visual. Los estudios de rendimiento de incrustaciones de lenguaje muestran que JSON incrementa el consumo de tokens entre un 15% y un 20% respecto a Markdown, y en arquitecturas con anidamiento profundo puede duplicarlo. En integraciones por API de pago por uso, ese sobrecoste impacta directamente el presupuesto operativo.
Riesgo real: en modelos de menor capacidad, el exceso de jerarquías y corchetes del JSON puede hacer que el contexto sintáctico se rompa. El modelo puede malinterpretar las relaciones entre los datos o fallar en reconstruir el significado original de la escena, generando resultados incoherentes precisamente cuando buscas mayor control.
Resumen de la unidad
Lo que te llevas:
- El lenguaje natural es flexible pero genera dilución de contexto en prompts extensos o de múltiples atributos.
- Markdown ofrece estructura legible sin penalización significativa de tokens, ideal para la mayoría de proyectos profesionales.
- JSON Prompting aísla cada parámetro visual en pares clave-valor, habilitando experimentación controlada y modificaciones quirúrgicas.
- JSON incrementa el consumo de tokens entre un 15% y 20% frente a Markdown, con riesgo de duplicarse en jerarquías complejas.
- La elección del formato debe estar guiada por el volumen de producción y la necesidad de consistencia, no por preferencia personal.
Actividad de reflexión
Toma un prompt visual que hayas usado recientemente (o inventa uno para un proyecto real). Escríbelo primero en lenguaje natural, luego en Markdown estructurado. ¿Cuál de las dos versiones crees que produciría resultados más consistentes si lo ejecutaras diez veces? ¿Por qué?
