GPT-5.6 Sol bate a Claude Mythos 5 pero el gobierno limita acceso

El nuevo buque insignia de OpenAI lidera benchmarks de coding agéntico y matchea a Mythos en ciberseguridad, pero Washington bloquea el lanzamiento abierto y la empresa critica la decisión.

Publicado el 27 de junio de 2026 · 06:30 p. m.3 min de lectura

Al grano

OpenAI lanzó GPT-5.6 Sol, Terra y Luna; Sol supera a Claude Mythos 5 en Terminal-Bench 2.1 (88,8% vs 88%).

El gobierno de EE.UU. restringe el acceso a socios selectos vía API y Codex; OpenAI critica abiertamente la decisión.

Sol cuesta USD 5 input y USD 30 output por millón de tokens; en julio corre en Cerebras a 750 tokens/segundo.

Por qué importa

El benchmark más interesante no es Terminal-Bench sino ExploitBench: Sol matchea a Mythos Preview usando un tercio de los tokens. Si esa eficiencia se sostiene en producción, no estamos viendo un modelo apenas más capaz sino uno cualitativamente más barato por tarea ejecutada. La frustración pública de OpenAI con el acceso restringido también marca un quiebre: la era de presentaciones triunfales con disponibilidad inmediata terminó.

OpenAI estrenó GPT-5.6 Sol, una nueva generación construida para competir con la clase Mythos de Anthropic. El preview limitado solo está abierto a un puñado de socios a través de la API y Codex, por instrucción explícita del gobierno de Estados Unidos. El mismo gobierno retiró del mercado recientemente al modelo Fable 5 de Anthropic, también clase Mythos.

OpenAI no oculta su frustración con la decisión regulatoria.

"No creemos que este tipo de proceso de acceso gubernamental deba convertirse en el default de largo plazo. Mantiene las mejores herramientas alejadas de usuarios, desarrolladores, empresas, defensores de ciberseguridad y socios globales que las necesitan", declaró la compañía en su anuncio.

¿Qué modelos componen la familia GPT-5.6?

GPT-5.6 además trae un esquema de nombres en capas que se parece bastante al de Claude. El número (x.6) marca la generación, y Sol, Terra y Luna son niveles permanentes de rendimiento que pueden evolucionar por separado:

Sol: el buque insignia, con el costo más alto
Terra: matchea a GPT-5.5 a la mitad del precio
Luna: la opción presupuesto, orientada a tareas livianas

Encima de eso hay un modo "max" para razonamiento más profundo y un modo "ultra" que delega tareas complejas a sub-agentes ejecutados en paralelo. Es la misma lógica del sistema Mythos Ultra de Anthropic que motivó la respuesta competitiva.

¿Vale la pena Sol vs Claude Mythos 5 en coding?

Los benchmarks publicados por OpenAI ponen a Sol levemente por delante de Claude Mythos 5 en coding agéntico. En Terminal-Bench 2.1, Sol obtiene 88,8%. Sol Ultra llega a 91,9%, Claude Mythos 5 aterriza en 88% y Fable 5 queda atrás con 84,3%. Google Gemini 3.1 Pro Preview cierra el ranking con 70,7%.

Sol también muestra mejoras en biología. En GeneBench v1, un benchmark para genómica y biología cuantitativa, supera a GPT-5.5 (30% vs 22% en mejor caso) quemando menos tokens.

En ExploitBench, que evalúa qué tan bien los agentes de IA pueden encontrar y explotar fallos de seguridad reales en el motor V8 de JavaScript de Google hasta ejecución de código completa, Sol matchea el rendimiento del Mythos Preview usando aproximadamente un tercio de los tokens de salida, según OpenAI. Mythos 5 sigue al frente con cerca de 80% en otra variante del test, pero sin datos de eficiencia comparables.

En ExploitGym, un benchmark armado por investigadores de UC Berkeley junto a OpenAI y otros laboratorios, los tres modelos GPT-5.6 mejoran a medida que sube el esfuerzo de razonamiento. Eso apunta a margen para escalar con más compute. Los números de Claude para este benchmark todavía no están disponibles.

¿Es Sol el modelo más peligroso de OpenAI hasta ahora?

OpenAI llama a Sol su modelo más capaz en ciberseguridad hasta la fecha, pero lo enmarca como defensor, no atacante. Es mejor detectando y arreglando fallos que ejecutando ataques punta a punta por sí solo, según la empresa. Mythos consiguió eso último en un benchmark distinto.

En pruebas con Chromium y Firefox, Sol encontró bugs y primitivas de explotación, pero nunca produjo un exploit de cadena completa autónomo. OpenAI afirma que GPT-5.6 Sol sigue por debajo del umbral "Cyber Critical" en su Preparedness Framework.

Precios, disponibilidad y lanzamiento en Cerebras

Por millón de tokens, OpenAI cobra USD 5 de input y USD 30 de output para Sol, USD 2,50 y USD 15 para Terra, y USD 1 y USD 6 para Luna. La compañía también renovó su sistema de prompt caching con breakpoints explícitos y un tiempo de vida mínimo garantizado de 30 minutos. Las escrituras de cache cuestan 1,25 veces el precio regular de input. Las lecturas de cache mantienen el descuento del 90%.

Como Sol usa menos tokens para matchear o superar a la competencia en varios benchmarks, el costo efectivo por tarea podría terminar siendo más bajo que el de generaciones previas. Eso empujaría contra la tendencia de modelos de IA cada vez más caros con cada lanzamiento, una crítica frecuente últimamente y un punto débil competitivo frente a modelos chinos más baratos.

En julio, Sol se lanzará en Cerebras a hasta 750 tokens por segundo, una velocidad de inferencia que ningún proveedor de GPU iguala hoy. Para desarrolladores latinoamericanos que actualmente pagan latencia adicional vía API en us-east-1, el throughput de Cerebras podría justificar la integración por su cuenta incluso pagando el premium de la infraestructura especializada.

GPT-5.6 Sol bate a Claude Mythos 5 pero el gobierno limita acceso

Al grano

Por qué importa

¿Qué modelos componen la familia GPT-5.6?

¿Vale la pena Sol vs Claude Mythos 5 en coding?

¿Es Sol el modelo más peligroso de OpenAI hasta ahora?

Precios, disponibilidad y lanzamiento en Cerebras

Seguir leyendo

NVIDIA Isaac Lab acelera sim-to-real con 8 papers en ICRA 2026

NVIDIA empuja a las telcos a vender tokens AI en vez de GPU por hora

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

NVIDIA Dynamo: limpiar el header de Claude Code baja 5x la latencia

→Al grano

✦Por qué importa

¿Qué modelos componen la familia GPT-5.6?

¿Vale la pena Sol vs Claude Mythos 5 en coding?

¿Es Sol el modelo más peligroso de OpenAI hasta ahora?

Precios, disponibilidad y lanzamiento en Cerebras

Seguir leyendo

NVIDIA Isaac Lab acelera sim-to-real con 8 papers en ICRA 2026

NVIDIA empuja a las telcos a vender tokens AI en vez de GPU por hora

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

NVIDIA Dynamo: limpiar el header de Claude Code baja 5x la latencia

Al grano

Por qué importa