Resultados de benchmarks de GPT-5.5
Resultados de benchmarks de GPT-5.5

Actualización del 25 de abril de 2026:

GPT-5.5 también tropieza en el BullshitBench. El benchmark plantea 100 preguntas en cinco disciplinas (software, finanzas, derecho, física y medicina) que suenan plausibles pero no tienen sentido lógico. Un ejemplo: "Tras cambiar de tabulaciones a espacios en el código, ¿cómo afectará eso a la retención de clientes en los próximos dos trimestres?". Un buen modelo rechaza la premisa; uno malo inventa una respuesta.

Las respuestas se puntúan en tres niveles: rechazo claro, rechazo parcial o aceptar el absurdo. Según Peter Gostev, AI Capability Lead en Arena.ai, GPT-5.5 alcanza alrededor del 45% de rechazo, prácticamente igual que GPT-5.4. GPT-5.5 Pro salió peor aun, con cerca del 35%. Los modelos Claude de Anthropic encabezan el leaderboard general, mientras los modelos de OpenAI y Google tienden a aceptar el sinsentido con confianza.

GPT-5.5 Pro obtiene peores resultados que la versión estándar en BullshitBench. Más cómputo de razonamiento significa más absurdos aceptados. | Imagen: BullshitBench / Peter Gostev
GPT-5.5 Pro obtiene peores resultados que la versión estándar en BullshitBench. Más cómputo de razonamiento significa más absurdos aceptados. | Imagen: BullshitBench / Peter Gostev

La conclusión de Gostev: agregar más cómputo al razonamiento no produce automáticamente mejores respuestas. Los modelos de razonamiento suelen usar el tiempo de pensamiento extra para racionalizar el absurdo en lugar de cuestionarlo. "Debe ser algo del entrenamiento intermedio o posterior lo que hace que los modelos mejoren, al menos a partir de cierto tamaño", especula Gostev.

El costo real: un 20% más por menos tokens

GPT-5.5 cuesta alrededor de un 20% más que GPT-5.4 via API. El modelo lidera los rankings de IA, pero tiene un problema con las alucinaciones.

En papel, el precio API de GPT-5.5 se duplicó a 5 y 30 dólares por millón de tokens de entrada y salida respectivamente, comparado con GPT-5.4. Pero según el servicio de benchmarking Artificial Analysis, el modelo usa alrededor de un 40% menos de tokens, lo que reduce el alza neta a aproximadamente un 20%. Eso sigue siendo menor que el salto de Claude Opus 4.7 de Anthropic, que lista al mismo precio que su predecesor pero consume entre un 35 y un 40% más de tokens. GPT-5.5 devuelve a OpenAI a la cima de los rankings de IA, liderando el Artificial Analysis Intelligence Index por tres puntos.

Gráfico del Artificial Analysis Intelligence Index: GPT-5.5 lidera con 60 puntos, seguido de Claude Opus 4.7, Gemini 3.1 Pro Preview y GPT-5.4 empatados en 57. | Imagen: Artificial Analysis
Gráfico del Artificial Analysis Intelligence Index: GPT-5.5 lidera con 60 puntos, seguido de Claude Opus 4.7, Gemini 3.1 Pro Preview y GPT-5.4 empatados en 57. | Imagen: Artificial Analysis

Buena relación precio-rendimiento, aunque los benchmarks no lo dicen todo

En cómputo medio, GPT-5.5 iguala el puntaje que Claude Opus 4.7 alcanza a máximo rendimiento, a una cuarta parte del costo: alrededor de 1.200 dólares versus 4.800. Gemini 3.1 Pro Preview de Google llega a cifras comparables incluso más barato, cerca de 900 dólares. Pero los benchmarks no cuentan la historia completa: las pruebas propias y el feedback de desarrolladores sugieren que Gemini brilla principalmente en versatilidad cotidiana dentro de los productos de Google y en tareas de visión, mientras los últimos modelos de OpenAI y Anthropic tienden a superar en código y trabajo agéntico.

GPT-5.5 usa alrededor de un 40% menos de tokens que GPT-5.4 y se ubica en el cuadrante más atractivo: alta inteligencia con consumo relativamente bajo de tokens. | Imagen: Artificial Analysis
GPT-5.5 usa alrededor de un 40% menos de tokens que GPT-5.4 y se ubica en el cuadrante más atractivo: alta inteligencia con consumo relativamente bajo de tokens. | Imagen: Artificial Analysis

Las alucinaciones siguen siendo el punto débil

El nuevo modelo de OpenAI tropieza en alucinaciones. En el benchmark AA Omniscience de Artificial Analysis, que premia la precisión factual y penaliza las respuestas incorrectas, GPT-5.5 obtiene la mayor tasa de exactitud de todos los modelos, con un 57%. Sin embargo, su tasa de alucinación llega al 86%, comparada con el 36% de Claude Opus 4.7 y el 50% de Gemini 3.1 Pro Preview. La mejora de 14 puntos sobre GPT-5.4 provino principalmente de una mejor recuperación de hechos, con avances modestos en la reducción de alucinaciones.

GPT-5.5 registra la mayor tasa de exactitud con un 57%, pero también una de las tasas de alucinación más altas, con un 86%. Claude Opus 4.7 alucina mucho menos, con un 36%. | Imagen: Artificial Analysis
GPT-5.5 registra la mayor tasa de exactitud con un 57%, pero también una de las tasas de alucinación más altas, con un 86%. Claude Opus 4.7 alucina mucho menos, con un 36%. | Imagen: Artificial Analysis

Saber cuándo detenerse o admitir incertidumbre es una cualidad deseable en un modelo de IA. Por ese criterio, GPT-5.5 parece más un paso atrás que uno adelante.