
Actualización del 25 de abril de 2026:
GPT-5.5 también tropieza en el BullshitBench. El benchmark plantea 100 preguntas en cinco disciplinas (software, finanzas, derecho, física y medicina) que suenan plausibles pero no tienen sentido lógico. Un ejemplo: "Tras cambiar de tabulaciones a espacios en el código, ¿cómo afectará eso a la retención de clientes en los próximos dos trimestres?". Un buen modelo rechaza la premisa; uno malo inventa una respuesta.
Las respuestas se puntúan en tres niveles: rechazo claro, rechazo parcial o aceptar el absurdo. Según Peter Gostev, AI Capability Lead en Arena.ai, GPT-5.5 alcanza alrededor del 45% de rechazo, prácticamente igual que GPT-5.4. GPT-5.5 Pro salió peor aun, con cerca del 35%. Los modelos Claude de Anthropic encabezan el leaderboard general, mientras los modelos de OpenAI y Google tienden a aceptar el sinsentido con confianza.

La conclusión de Gostev: agregar más cómputo al razonamiento no produce automáticamente mejores respuestas. Los modelos de razonamiento suelen usar el tiempo de pensamiento extra para racionalizar el absurdo en lugar de cuestionarlo. "Debe ser algo del entrenamiento intermedio o posterior lo que hace que los modelos mejoren, al menos a partir de cierto tamaño", especula Gostev.
El costo real: un 20% más por menos tokens
GPT-5.5 cuesta alrededor de un 20% más que GPT-5.4 via API. El modelo lidera los rankings de IA, pero tiene un problema con las alucinaciones.
En papel, el precio API de GPT-5.5 se duplicó a 5 y 30 dólares por millón de tokens de entrada y salida respectivamente, comparado con GPT-5.4. Pero según el servicio de benchmarking Artificial Analysis, el modelo usa alrededor de un 40% menos de tokens, lo que reduce el alza neta a aproximadamente un 20%. Eso sigue siendo menor que el salto de Claude Opus 4.7 de Anthropic, que lista al mismo precio que su predecesor pero consume entre un 35 y un 40% más de tokens. GPT-5.5 devuelve a OpenAI a la cima de los rankings de IA, liderando el Artificial Analysis Intelligence Index por tres puntos.

Buena relación precio-rendimiento, aunque los benchmarks no lo dicen todo
En cómputo medio, GPT-5.5 iguala el puntaje que Claude Opus 4.7 alcanza a máximo rendimiento, a una cuarta parte del costo: alrededor de 1.200 dólares versus 4.800. Gemini 3.1 Pro Preview de Google llega a cifras comparables incluso más barato, cerca de 900 dólares. Pero los benchmarks no cuentan la historia completa: las pruebas propias y el feedback de desarrolladores sugieren que Gemini brilla principalmente en versatilidad cotidiana dentro de los productos de Google y en tareas de visión, mientras los últimos modelos de OpenAI y Anthropic tienden a superar en código y trabajo agéntico.

Las alucinaciones siguen siendo el punto débil
El nuevo modelo de OpenAI tropieza en alucinaciones. En el benchmark AA Omniscience de Artificial Analysis, que premia la precisión factual y penaliza las respuestas incorrectas, GPT-5.5 obtiene la mayor tasa de exactitud de todos los modelos, con un 57%. Sin embargo, su tasa de alucinación llega al 86%, comparada con el 36% de Claude Opus 4.7 y el 50% de Gemini 3.1 Pro Preview. La mejora de 14 puntos sobre GPT-5.4 provino principalmente de una mejor recuperación de hechos, con avances modestos en la reducción de alucinaciones.

Saber cuándo detenerse o admitir incertidumbre es una cualidad deseable en un modelo de IA. Por ese criterio, GPT-5.5 parece más un paso atrás que uno adelante.




