Nota: este artículo es un resumen técnico de un video de unos 103 minutos publicado por @DeRonin_ en X. Video original: https://twitter.com/DeRonin_/status/2048823420977119727

Introducción

La app de escritorio OpenAI Codex es una plataforma integral de agentes IA que va mucho más allá de la asistencia al programar, cubriendo diseño, creación de documentos, investigación y automatización. Este artículo resume la guía completa en video de 103 minutos.

¿Qué hace exactamente Codex Desktop?

A continuación, las funciones clave que se introducen al inicio del video.

Gestión de proyectos y organización de archivos

Codex gestiona los chats en unidades llamadas "proyectos", cada una vinculada 1:1 a una carpeta local en el computador. Los archivos generados a través del chat se guardan automáticamente en una carpeta outputs/ dentro del directorio del proyecto, y cualquier archivo en esa carpeta puede referenciarse con @filename. La carpeta se puede abrir al instante con el botón "Open in Finder".

Multitarea en paralelo

Es posible correr múltiples hilos de chat simultáneamente. Incluso mientras un agente trabaja, se pueden iniciar nuevas tareas en otro chat. Aparece una notificación con un punto azul cuando una tarea termina, para revisar resultados y dar la siguiente instrucción de inmediato.

Skills y plugins

Las skills son "recetas reutilizables", los plugins son "paquetes instalables que llevan esas recetas a Codex". Existen cientos de plugins prearmados para servicios como Google Calendar, Gmail, Figma y Remotion. También se pueden combinar APIs externas con el skill creator para construir skills propias. Una vez creadas, las skills se invocan en futuras sesiones con /skill-name o @skill-name.

Automatizaciones

Se configuran tareas recurrentes en lenguaje natural, por ejemplo: "cada viernes a las 4am, resume mi calendario semanal y envíalo por correo." Las automatizaciones se ven, prueban y editan desde la pestaña Automations.

Control del computador

El agente literalmente controla el mouse y el teclado. Esto habilita el trabajo con apps GUI sin API, como construir aplicaciones en Xcode o navegar un browser.

Generación de imágenes en la app

Genera imágenes a partir de prompts y las usa directamente en el flujo de trabajo. El video demuestra la generación de imágenes de productos para una marca de zapatillas y 10 variantes de íconos para una app iOS. También soporta generación con fondo transparente.

Función Steer

Aunque un agente esté procesando, se puede pegar texto o imágenes y redirigirlo de inmediato ("arregla esta parte"). Normalmente los prompts hacen cola y esperan turno, pero el botón "Steer" permite interrumpir al instante.

Integración con terminal (Claude Code)

Para tareas con foco en diseño, Claude Code se lanza desde terminal con claude --dangerously-skip-permissions. En el video, Claude Code se usa para finalizar landing pages y slide decks cuando la precisión de diseño de Codex llega a su límite.

Exportación a Canva

Los archivos PowerPoint creados se abren en Canva con un solo clic para terminar manualmente el último 5-10%.

¿Cuál es la diferencia entre skills y plugins?

La sección intermedia del video usa la skill Excalidraw para autogenerar un diagrama de estructura.

Estructura de Skill y Plugin diagramada con Excalidraw
Estructura de Skill y Plugin diagramada con Excalidraw
Nota: forma simple de recordar: Skill = receta reutilizable. Plugin = paquete instalable que lleva esa receta a Codex.

Integración con herramientas de diseño (Paper / Figma)

Landing page autogenerada en Paper Alpha
Landing page autogenerada en Paper Alpha

Codex se integra con Paper (Alpha), una herramienta de diseño tipo Figma.

  • Prompt: "usando la nueva imagen del logo de la empresa Noo Shoo, crea una landing page directamente en Paper".
  • Codex confirma las acciones del Paper MCP y selecciona una hero image transparente.
  • Codex decide automáticamente la dirección de diseño: estilo editorial-tech, neutro cercano al negro cálido, acentos cian.
  • Construye automáticamente 4 secciones: Hero, Performance Strip, Product Story, CTA/Footer.
Nota: Paper es una herramienta de diseño construida para colaboración con agentes IA, ofreciendo operación más intuitiva que la edición directa en Figma.

Automatizaciones en la práctica

Pantalla de configuración de automatizaciones
Pantalla de configuración de automatizaciones

Las automatizaciones se crean simplemente escribiendo "haz X cada semana" en el chat. El video demuestra dos:

Resumen semanal de calendario. Tras conectar los plugins de Google Calendar y Gmail, basta con decir "cada viernes a las 4am, resume la agenda de esta semana y envíala por correo". Listo. Se puede ver de inmediato cuándo está agendada la próxima ejecución.

Reporte mensual de YouTube. Tras crear una skill YouTube Researcher con la API de SuperData, se instruye: "el último día de cada mes, usa esa skill para analizar los videos del mes y compilarlos en un documento Word." El reporte resultante incluye análisis de hooks y una tabla rankeada por views, entregada automáticamente.

Parte 2: 6 proyectos en paralelo

En la segunda mitad del video, usando "Chorus (una app de aprendizaje sobre agentes IA)" como sujeto, se crean los siguientes 6 proyectos simultáneamente.

La clave es: tras dar instrucciones a cada tarea, pasar a la siguiente sin esperar. La acumulación serial de tareas se vuelve multitarea efectiva.

Resumen

La app de escritorio Codex es una plataforma integral de agentes IA que cubre no solo el coding, sino también diseño, documentos, investigación y automatización.

  • Skills + Plugins: automatizar cualquier flujo de trabajo.
  • Automatizaciones: automatización completa de investigación recurrente y creación de reportes.
  • Integración con herramientas de diseño: aplicable a flujos de trabajo de no programadores.
  • Multitarea (dar instrucciones y seguir): es la habilidad central de la era IA.
  • Combinación Codex + Claude Code: Codex para orquestación general, Claude Code para tareas de precisión en diseño.

La capacidad de elegir modelo y carga de procesamiento según el tamaño de la tarea y la precisión requerida es otra fortaleza de Codex.

Parte 1: dominio de los conceptos básicos

Descarga y gestión de proyectos

Buscar "Codex app download" en el browser y descargar desde chatgpt.com. La pantalla inicial parece la interfaz de chat de ChatGPT, pero internamente es completamente distinta.

La función distintiva de Codex es la gestión de proyectos vinculada a carpetas locales. Antes de iniciar un chat, se especifica en qué carpeta trabajar. Esa carpeta se vuelve el "proyecto", y todos los archivos creados por el agente se autoguardan en su carpeta outputs/.

Desde el panel lateral del proyecto se puede abrir la carpeta en Finder o referenciar archivos con @filename. Incluso con más de 30 proyectos, la búsqueda Command+G permite encontrar cualquier chat al instante por nombre o contenido.

En la configuración de permisos, el modo "Full Access" permite que el agente trabaje sin prompts de aprobación. Los defaults recomendados son modelo GPT-5.4 y carga de procesamiento Extra High.

Demo práctica: automatizar con Google Calendar + Gmail

Instalar el plugin de Google Calendar es tan simple como seleccionar "Google Calendar" desde Plugins e iniciar sesión vía browser.

Una vez conectado, estas operaciones se completan en una sola conversación:

  • "Lista todos mis eventos de esta semana" da como resultado todos los eventos del calendario.
  • "Envíame un resumen semanal por correo" se envía vía Gmail de inmediato.
  • "Configura esto como una automatización cada viernes a las 4am" queda registrado como tarea semanal.

La pestaña Automations muestra la próxima ejecución, el estado y un botón de prueba. Tras crearla, se edita en lenguaje natural con frases como "siempre usa la skill de Gmail".

Generar diseños con Figma y Paper MCP

El uso principal del plugin de Figma es "convertir tableros Figma existentes a código". No sirve para la dirección inversa (que la IA genere diseños y los coloque en Figma).

Paper (Alpha) cubre ese rol. Es una herramienta de diseño construida para colaboración con agentes IA. Codex también tiene una función Steer. Normalmente los prompts hacen cola mientras la IA trabaja, pero al presionar "Steer" se puede interrumpir al instante. Se puede pegar una captura y decir "esta parte se está superponiendo, arréglala", y el agente corrige el rumbo en pleno trabajo.

Construir una skill personalizada: YouTube Researcher

Combinando APIs externas, se pueden agregar capacidades que Codex no tiene de forma nativa. Aquí el proceso usando como ejemplo una skill que obtiene transcripciones de YouTube:

Paso 1: encontrar una API. Preguntar a Codex "dame las top 5 APIs para obtener transcripciones de YouTube". Sugiere SuperData, Transcript API, YouTube Transcript.io, entre otras. SuperData es gratis hasta 100 requests al mes.

Paso 2: crear la skill. En un chat nuevo, ingresar:

Código
Usa skill creator para construir una skill que obtenga y resuma
las últimas 10 transcripciones de video de un canal específico usando la API de SuperData.
API key: [pegar acá]

Escribir skill creator activa un modo enfocado en creación de skills.

Paso 3: usar la skill. Tras la creación, abrir un chat nuevo y escribir "YouTube Researcher" para invocarla.

¿Vale la pena vs. Claude Code o Cursor?

CriterioCodex DesktopClaude Code (CLI)Cursor
FocoAgente integral (coding + diseño + docs)Coding terminal-firstEditor IDE-first
Skills/pluginsSí, ecosistema centenasNo equivalenteLimitado
Control del SOMouse + teclado nativoSolo terminalEditor sandbox
AutomatizacionesSí, lenguaje naturalNo nativoNo
Modelo recomendadoGPT-5.4 Extra HighClaude Sonnet 4.6Multi-modelo

La combinación que la guía sugiere es Codex para orquestación general, Claude Code para precisión en diseño cuando el límite de Codex aparece.

Disponibilidad y costo en LATAM

La app es descarga gratuita desde chatgpt.com, pero el uso intensivo en modo Extra High consume créditos del plan ChatGPT Plus (USD 20/mes) o Pro (USD 200/mes). Para equipos en Chile que ya pagan ChatGPT Plus, la app funciona sin costo adicional. La generación de imágenes y el control del computador requieren conexión activa, sin modo offline.