Unidad 1•10 min

¿Por qué tus imágenes de IA salen genéricas aunque pongas muchas palabras?

La diferencia entre un prompt de aficionado y uno profesional no está en cuánto escribes, sino en qué componentes incluyes

Si alguna vez generaste una imagen con IA y el resultado fue decepcionante —demasiado genérico, con la iluminación equivocada o con elementos que no pediste— no fue culpa del modelo. Fue culpa del prompt. Esta unidad te enseña a ver un prompt como lo que realmente es: un documento de especificaciones técnicas, no una petición en lenguaje coloquial.

El modelo no adivina: rellena los vacíos con lo más probable

Imagina que le das instrucciones a un asistente de diseño recién contratado y solo le dices: "hazme una foto de un perro". Él tendrá que decidir raza, tamaño, entorno, iluminación, ángulo y docenas de detalles más. Elegirá lo más común estadísticamente. Eso es exactamente lo que hace un modelo de difusión cuando tu prompt deja espacios vacíos: los rellena con los parámetros más frecuentes en su corpus de entrenamiento, produciendo resultados predecibles pero genéricos.

Definición técnica: Un prompt es un conjunto de instrucciones que guía matemáticamente al modelo a través de su espacio latente. Cada parámetro visual que especificas reduce el espacio de posibilidades y acerca el resultado a tu intención creativa.

Los cinco pilares de un prompt profesional

Un prompt robusto cubre cinco vectores visuales de forma simultánea. Omitir cualquiera de ellos equivale a firmar un contrato con cláusulas en blanco: el algoritmo las llenará por ti, y rara vez con el resultado que imaginabas.

Los cinco vectores que no pueden faltar:

Sujeto principal: definido con atributos precisos (no "un perro", sino "un cachorro de golden retriever con pelaje húmedo").
Contexto o entorno: dónde y cuándo sucede la escena, incluyendo fondo, elementos circundantes y hora del día.
Iluminación: directiva explícita como "luz natural suave", "iluminación de hora dorada" o "iluminación cinematográfica lateral".
Especificaciones técnicas de cámara: profundidad de campo, ángulo (picado, contrapicado, nivel), tipo de lente o estilo fotográfico.
Modificadores de estilo y acabado: términos como "hiperrealista", "fotografía editorial", "estilo ciberpunk" o "render PBR".

Lenguaje afirmativo: dile qué quieres, no qué no quieres

Hay un error de principiante que aparece constantemente: usar instrucciones negativas como "sin fondo blanco" o "que no salga borroso". El modelo no procesa bien las negaciones porque su espacio latente no tiene un "opuesto matemático" directo para cada concepto. Decirle qué debe aparecer —"fondo de estudio en gris carbón", "foco nítido en primer plano"— produce resultados mucho más predecibles y consistentes.

Riesgo real: incluir modificadores contradictorios como "minimalista pero altamente detallado" o "oscuro pero brillante" introduce ruido semántico que degrada la coherencia de la imagen. Elige una dirección estética clara antes de escribir el prompt.

Caso de Ejemplo

"Ejemplo real: Prompt débil — "foto de un gato en una tienda". Prompt profesional — "A tabby cat with amber eyes sitting on a vintage wooden counter inside a small bookstore, warm afternoon sunlight through dusty windows, shallow depth of field, shot on 85mm lens, editorial photography style, photorealistic, 4K". El segundo prompt define sujeto, entorno, iluminación, óptica y estilo en una sola instrucción sin ambigüedades."

Resumen de la unidad

Lo que te llevas:

Un prompt profesional actúa como un documento de especificaciones técnicas, no como una petición casual.
El modelo rellena los espacios vacíos del prompt con los valores estadísticamente más comunes de su entrenamiento.
Los cinco vectores esenciales son: sujeto, entorno, iluminación, óptica y modificadores de estilo.
Las instrucciones afirmativas producen resultados más consistentes que las negativas.
Los modificadores contradictorios generan ruido semántico que degrada la calidad del resultado.

Actividad de reflexión

Elige una imagen que necesites generar para un proyecto real o imaginario. Redacta el prompt usando los cinco vectores: sujeto, entorno, iluminación, óptica y estilo. Luego identifica cuál de los cinco te resultó más difícil de definir y por qué.