FLOW

Curso

ChatGPT Avanzado 2026

energIA acumulada: 0 / 170

Unidad 312 min

ChatGPT ya no solo habla — ahora puede usar tu computadora

Aprende a activar el Modo Agente, automatizar interfaces gráficas y hacerlo de forma segura

Hasta hace poco, la automatización con IA significaba escribir código para conectar APIs. En 2026 eso cambió radicalmente. ChatGPT puede ahora operar directamente programas, navegar sitios web, hacer clic en botones y escribir en formularios — exactamente como lo haría un asistente humano frente a una pantalla. Esta capacidad, llamada Computer Use, redefine qué tipo de tareas puedes delegar. Pero también introduce riesgos reales que ignorar puede costar caro. Esta unidad te enseña a aprovecharla y a protegerte.

Un asistente que ve tu pantalla y actúa sobre ella

Imagina contratar a alguien que no necesita que le expliques dónde está cada botón: le dices el objetivo y él navega la interfaz como lo haría cualquier persona. Así funciona Computer Use: el modelo recibe capturas de pantalla del estado actual de la interfaz, analiza el contenido visual, identifica los elementos relevantes y devuelve coordenadas de acción precisas — clic en posición X,Y, escribir este texto, desplazarse hacia abajo. Un bucle de software ejecuta esas instrucciones, toma una nueva captura y se la devuelve al modelo para planificar el siguiente paso.

Definición: Computer Use es la capacidad de los modelos GPT-5.4 de interactuar con interfaces gráficas de usuario operando software como lo haría un humano. El sistema funciona mediante un ciclo de: captura de pantalla → análisis visual → instrucción de acción (coordenadas) → ejecución → nueva captura, repitiendo hasta completar la tarea.

El comando /agent y el ecosistema Atlas

En la interfaz web convencional o en el navegador dedicado Atlas, el Modo Agente se activa con el comando /agent seguido de instrucciones orientadas a objetivos, no a pasos individuales. En lugar de decir 'abre este sitio, luego haz clic en X', dices 'investiga el mercado de energía solar en España, compila los datos y organízalos en una hoja de Google Drive'. El sistema encadena múltiples herramientas de forma nativa, navega sitios simultáneamente, espera a que se carguen páginas dinámicas e inicia sesión en aplicaciones con la debida autorización. El cambio mental clave es la latencia: estas misiones pueden tardar entre 5 y 30 minutos en ejecutarse en segundo plano. Los planes ChatGPT Plus limitan estas interacciones pesadas a aproximadamente 40 mensajes de agente por mes.

Más allá de las capturas de pantalla: el árbol de accesibilidad

El enfoque basado en capturas de pantalla tiene un talón de Aquiles: es frágil ante cambios mínimos en el diseño de píxeles o notificaciones emergentes inesperadas. La alternativa avanzada es interactuar directamente con la API de accesibilidad del sistema operativo, que expone un árbol estructurado de elementos de interfaz con coordenadas matemáticas exactas. Este método elimina la dependencia de la visión por computadora, funciona con mayor precisión en tareas de OCR denso y no puede ser bloqueado por las técnicas de detección de bots que bloquean a los navegadores automatizados. Para aplicaciones profesionales o de producción, este enfoque es significativamente más robusto.

Atención crítica: Los laboratorios de Computer Use deben construirse únicamente en entornos completamente aislados — contenedores Docker desechables que ejecutan escritorios virtuales con acceso a la red restringido. Nunca se debe ejecutar un agente con acceso completo al sistema en un entorno de producción sin un humano en el bucle que autorice explícitamente las acciones que alteren el estado del sistema o manipulen datos de terceros no confiables.

Caso de Ejemplo

"Caso real — Agencia de marketing digital (febrero 2026): El equipo necesitaba recopilar semanalmente datos de rendimiento de campañas desde cinco plataformas distintas (Meta, Google Ads, LinkedIn, TikTok, Semrush) y consolidarlos en un reporte. Implementaron un agente con Computer Use en un contenedor Docker aislado que ejecutaba el proceso cada lunes a las 6am. El tiempo de recopilación bajó de 4 horas manuales a 28 minutos automatizados, con un humano revisando el resultado final antes de distribuirlo."

Resumen de la unidad

Lo que debes recordar:

  • Computer Use permite a GPT-5.4 operar interfaces gráficas como lo haría un humano, mediante un ciclo de captura de pantalla, análisis visual, instrucción de acción y ejecución.
  • El Modo Agente se activa con el comando /agent y requiere instrucciones orientadas a objetivos, no a pasos individuales; las misiones pueden tardar de 5 a 30 minutos en ejecutarse.
  • El método de árbol de accesibilidad del sistema operativo es más robusto que el basado en capturas de pantalla, con coordenadas exactas y sin vulnerabilidad a detección de bots.
  • Los agentes de Computer Use deben ejecutarse siempre en entornos aislados (contenedores Docker) con acceso a la red restringido y un humano que autorice las acciones críticas.
  • ChatGPT Plus limita las interacciones de Modo Agente a aproximadamente 40 mensajes pesados por mes, por lo que reservarlos para tareas de alto valor es estratégico.

Actividad de reflexión

Identifica una tarea repetitiva en tu trabajo que implique navegar entre varias herramientas o plataformas. Descríbela respondiendo: (1) cuánto tiempo te lleva hacerla manualmente, (2) qué pasos sigue, (3) qué riesgos tendría automatizarla con un agente, (4) qué medidas de seguridad implementarías.

Contactar por WhatsApp