Unidad 2•11 min

ChatGPT no siempre "piensa" — y tú controlas cuánto lo hace

Domina los Thinking Tokens y la gestión del contexto para obtener respuestas más precisas sin disparar costos

Probablemente hayas notado que a veces ChatGPT responde de forma brillante y otras veces comete errores sorprendentes en problemas que parecen simples. La diferencia raramente está en la pregunta que escribiste: está en cuánto está procesando internamente antes de responderte. En 2026, los modelos GPT-5.4 tienen un mecanismo explícito de razonamiento que puedes activar, calibrar y apagar. Entender cómo funciona — y cómo gestionarlo junto al historial de conversación — es la diferencia entre usar ChatGPT como una calculadora lenta y aprovecharlo como un asistente que realmente piensa antes de hablar.

El modelo que 'borra el borrador' antes de mostrarte la respuesta

Imagina a un cirujano que antes de operar hace un repaso mental completo del procedimiento, anticipa complicaciones y verifica el protocolo — todo en silencio, sin que el paciente lo vea. Eso es exactamente lo que hacen los Thinking Tokens: el modelo genera texto interno invisible para el usuario, descompone el problema en subproblemas, considera múltiples enfoques y corrige errores antes de producir la respuesta final. El paciente solo ve el resultado del proceso, no el borrador.

Definición: Los Thinking Tokens (tokens de razonamiento) son tokens internos que el modelo GPT-5.4 genera antes de producir su respuesta visible. Son invisibles para el usuario final, pero consumen espacio en la ventana de contexto y se facturan a la misma tarifa que los tokens de salida estándar. Permiten al modelo 'pensar en voz baja' antes de responder.

Cómo controlar el esfuerzo de razonamiento

El parámetro reasoning.effort de la API — o sus equivalentes en la interfaz gráfica — acepta cinco niveles: none (sin razonamiento adicional, máxima velocidad), low, medium, high y xhigh (también llamado Extended). El nivel none es óptimo para extracción de datos simples donde la velocidad importa más que la profundidad. Los niveles low y medium cubren la programación habitual y tareas analíticas estándar. El nivel xhigh se reserva para demostración de teoremas, auditorías de código complejas o situaciones donde las evaluaciones empíricas demuestran que el costo adicional en latencia y precio está justificado. Usar xhigh para clasificar correos es tan ineficiente como usar un bisturí para abrir una caja de cartón.

Atención: Aunque los Thinking Tokens son invisibles para ti, no son gratuitos. Se facturan a la misma tarifa que los tokens de salida estándar y ocupan espacio en la ventana de contexto. En conversaciones largas o tareas de alto volumen, usar reasoning.effort=xhigh por defecto puede triplicar tu costo sin mejorar la calidad percibida.

El problema silencioso: cuando el contexto se llena

Las ventanas de contexto extensas de GPT-5.4 — hasta un millón de tokens — crean una ilusión de infinitud. En la práctica, a medida que una conversación crece, cada nueva solicitud arrastra todo el historial previo. Esto inyecta latencia creciente y multiplica los costos financieros de forma exponencial. La arquitectura de compactación resuelve este problema de dos formas: la compactación del lado del servidor (Server-Side Compaction) sintetiza automáticamente el historial cuando supera un umbral configurable (compact_threshold), conservando solo el resumen comprimido del estado cognitivo. La compactación independiente (Standalone Compaction) genera un elemento de contexto cifrado y opaco via el endpoint /responses/compact, diseñado para arquitecturas de Cero Retención de Datos donde la privacidad es crítica.

Caso de Ejemplo

"Caso real — Bufete de abogados con política ZDR (Q1 2026): Un equipo legal usaba conversaciones extensas con ChatGPT para revisar contratos, pero el historial acumulado elevaba la latencia de respuesta a 45 segundos por consulta. Implementando Standalone Compaction con el endpoint /responses/compact, redujeron el contexto activo en un 78% en cada sesión, bajaron la latencia media a 8 segundos y cumplieron su política de Cero Retención de Datos sin perder coherencia entre sesiones."

Resumen de la unidad

Lo que debes recordar:

Los Thinking Tokens son tokens de razonamiento internos e invisibles que el modelo genera antes de responder; mejoran la precisión pero tienen costo económico real.
El parámetro reasoning.effort controla cuánto razona el modelo: 'none' maximiza velocidad, 'xhigh' maximiza precisión, y los niveles intermedios cubren la mayoría de casos profesionales.
Los Thinking Tokens consumen espacio en la ventana de contexto y se facturan igual que los tokens de salida, por lo que calibrarlos correctamente impacta directamente el costo.
La compactación del lado del servidor sintetiza automáticamente el historial al superar un umbral configurable, reduciendo latencia en conversaciones largas.
La compactación independiente genera contexto cifrado y opaco, compatible con arquitecturas de Cero Retención de Datos para entornos con restricciones legales estrictas.

Actividad de reflexión

Lista al menos 3 tipos de tareas que realizas con ChatGPT y asigna a cada una el nivel de reasoning.effort que usarías (none / low / medium / high / xhigh). Justifica brevemente tu elección en cada caso.