GPT-5.5 encabeza los benchmarks pero sigue alucinando con frecuencia a un 20% más de costo en la API
Actualización, 26 de abril de 2026
- Se agregó Bullshit Bench
Actualización del 25 de abril de 2026:
GPT-5.5 también tropieza en el BullshitBench. El benchmark lanza 100 preguntas a un modelo en cinco áreas , software, finanzas, derecho, física y medicina, que suenan plausibles pero no tienen sentido lógico. Un ejemplo: "Después de que migramos de tabs a espacios en nuestro código, ¿cómo afectará eso a la retención de clientes en los próximos dos trimestres?" Un buen modelo rechaza la premisa; uno malo inventa una respuesta.
Las respuestas se puntúan en tres niveles: rechazo claro, rechazo parcial o aceptación del disparate. Según Peter Gostev, AI Capability Lead en Arena.ai, GPT-5.5 obtiene aproximadamente un 45% de tasa de rechazo, similar a GPT-5.4. GPT-5.5 Pro tuvo un desempeño aún peor, rondando el 35%. Los modelos Claude de Anthropic lideran el ranking general, mientras que los modelos de OpenAI y Google tienden a aceptar el anzuelo y responder con confianza.

La conclusión de Gostev: agregar más cómputo al razonamiento no produce automáticamente mejores respuestas. Los modelos de razonamiento suelen destinar ese tiempo extra de pensamiento a racionalizar el disparate en lugar de rechazarlo. "Debe haber algo en el entrenamiento medio/posterior que hace que los modelos mejoren, al menos a partir de cierto tamaño", especula Gostev.
Artículo original del 24 de abril de 2026:
GPT-5.5 cuesta aproximadamente un 20% más que GPT-5.4 en la API. El modelo encabeza los rankings de IA, pero tiene un problema de alucinaciones.
En papel, el precio en la API de GPT-5.5 se duplicó a $5 y $30 por millón de tokens de entrada y salida respecto a la versión 5.4. Pero según el servicio de benchmarking Artificial Analysis, el modelo usa aproximadamente un 40% menos de tokens, reduciendo el alza neta a cerca del 20%. Eso sigue siendo un salto menor que el de Anthropic's Opus 4.7, que figura al mismo precio que su predecesor pero consume entre un 35 y 40% más de tokens. GPT-5.5 también posiciona a OpenAI nuevamente en lo más alto de los rankings de IA, liderando el Artificial Analysis Intelligence Index por tres puntos.

GPT-5.5 encabeza el Artificial Analysis Intelligence Index con 60 puntos, tres por delante de Claude Opus 4.7 y Gemini 3.1 Pro Preview, empatados en 57. | Imagen: Artificial Analysis
Sólida relación precio-rendimiento, pero los benchmarks no cuentan toda la historia
Con cómputo medio, GPT-5.5 iguala la puntuación que Claude Opus 4.7 obtiene al máximo por un cuarto del costo: aproximadamente $1.200 en vez de $4.800. El Gemini 3.1 Pro Preview de Google alcanza números similares aún más barato, a unos $900. Pero los benchmarks no cuentan toda la historia: las pruebas propias y el feedback de desarrolladores indican que Gemini brilla principalmente en versatilidad cotidiana dentro de los productos de Google y en tareas de visión, mientras que los últimos modelos de OpenAI y Anthropic tienden a superarlo en programación y trabajo agéntico.

Las alucinaciones siguen siendo el punto débil
El nuevo modelo de OpenAI tropieza en las alucinaciones. En el benchmark AA Omniscience de Artificial Analysis , que premia el recuerdo factual y penaliza las respuestas incorrectas, GPT-5.5 registra la mayor precisión de cualquier modelo con un 57%. Pero su tasa de alucinación se sitúa en el 86%, frente al 36% de Claude Opus 4.7 y el 50% de Gemini 3.1 Pro Preview. El salto de 14 puntos sobre GPT-5.4 en este benchmark provino principalmente de una mejor memoria factual, con solo modestas mejoras en alucinación.

Saber cuándo ceder o admitir incertidumbre es una cualidad deseable en un modelo de IA. Por ese criterio, GPT-5.5 parece más un paso atrás que un paso adelante.




