OpenAI estrenó GPT-5.6 Sol, una nueva generación construida para competir con la clase Mythos de Anthropic. El preview limitado solo está abierto a un puñado de socios a través de la API y Codex, por instrucción explícita del gobierno de Estados Unidos. El mismo gobierno retiró del mercado recientemente al modelo Fable 5 de Anthropic, también clase Mythos.
OpenAI no oculta su frustración con la decisión regulatoria.
"No creemos que este tipo de proceso de acceso gubernamental deba convertirse en el default de largo plazo. Mantiene las mejores herramientas alejadas de usuarios, desarrolladores, empresas, defensores de ciberseguridad y socios globales que las necesitan", declaró la compañía en su anuncio.
¿Qué modelos componen la familia GPT-5.6?
GPT-5.6 además trae un esquema de nombres en capas que se parece bastante al de Claude. El número (x.6) marca la generación, y Sol, Terra y Luna son niveles permanentes de rendimiento que pueden evolucionar por separado:
- Sol: el buque insignia, con el costo más alto
- Terra: matchea a GPT-5.5 a la mitad del precio
- Luna: la opción presupuesto, orientada a tareas livianas
Encima de eso hay un modo "max" para razonamiento más profundo y un modo "ultra" que delega tareas complejas a sub-agentes ejecutados en paralelo. Es la misma lógica del sistema Mythos Ultra de Anthropic que motivó la respuesta competitiva.
¿Vale la pena Sol vs Claude Mythos 5 en coding?
Los benchmarks publicados por OpenAI ponen a Sol levemente por delante de Claude Mythos 5 en coding agéntico. En Terminal-Bench 2.1, Sol obtiene 88,8%. Sol Ultra llega a 91,9%, Claude Mythos 5 aterriza en 88% y Fable 5 queda atrás con 84,3%. Google Gemini 3.1 Pro Preview cierra el ranking con 70,7%.
Sol también muestra mejoras en biología. En GeneBench v1, un benchmark para genómica y biología cuantitativa, supera a GPT-5.5 (30% vs 22% en mejor caso) quemando menos tokens.
En ExploitBench, que evalúa qué tan bien los agentes de IA pueden encontrar y explotar fallos de seguridad reales en el motor V8 de JavaScript de Google hasta ejecución de código completa, Sol matchea el rendimiento del Mythos Preview usando aproximadamente un tercio de los tokens de salida, según OpenAI. Mythos 5 sigue al frente con cerca de 80% en otra variante del test, pero sin datos de eficiencia comparables.
En ExploitGym, un benchmark armado por investigadores de UC Berkeley junto a OpenAI y otros laboratorios, los tres modelos GPT-5.6 mejoran a medida que sube el esfuerzo de razonamiento. Eso apunta a margen para escalar con más compute. Los números de Claude para este benchmark todavía no están disponibles.
¿Es Sol el modelo más peligroso de OpenAI hasta ahora?
OpenAI llama a Sol su modelo más capaz en ciberseguridad hasta la fecha, pero lo enmarca como defensor, no atacante. Es mejor detectando y arreglando fallos que ejecutando ataques punta a punta por sí solo, según la empresa. Mythos consiguió eso último en un benchmark distinto.
En pruebas con Chromium y Firefox, Sol encontró bugs y primitivas de explotación, pero nunca produjo un exploit de cadena completa autónomo. OpenAI afirma que GPT-5.6 Sol sigue por debajo del umbral "Cyber Critical" en su Preparedness Framework.
Precios, disponibilidad y lanzamiento en Cerebras
Por millón de tokens, OpenAI cobra USD 5 de input y USD 30 de output para Sol, USD 2,50 y USD 15 para Terra, y USD 1 y USD 6 para Luna. La compañía también renovó su sistema de prompt caching con breakpoints explícitos y un tiempo de vida mínimo garantizado de 30 minutos. Las escrituras de cache cuestan 1,25 veces el precio regular de input. Las lecturas de cache mantienen el descuento del 90%.
Como Sol usa menos tokens para matchear o superar a la competencia en varios benchmarks, el costo efectivo por tarea podría terminar siendo más bajo que el de generaciones previas. Eso empujaría contra la tendencia de modelos de IA cada vez más caros con cada lanzamiento, una crítica frecuente últimamente y un punto débil competitivo frente a modelos chinos más baratos.
En julio, Sol se lanzará en Cerebras a hasta 750 tokens por segundo, una velocidad de inferencia que ningún proveedor de GPU iguala hoy. Para desarrolladores latinoamericanos que actualmente pagan latencia adicional vía API en us-east-1, el throughput de Cerebras podría justificar la integración por su cuenta incluso pagando el premium de la infraestructura especializada.




