GPT-5.5 lidera rankings de IA pero sigue alucinando y cuesta 20% más

El nuevo modelo de OpenAI lidera el Artificial Analysis Intelligence Index con 60 puntos, pero registra una tasa de alucinación del 86% en benchmarks factuales, casi el triple que Claude Opus 4.7.

Publicado el 27 de abril de 2026 · 10:18 p. m.3 min de lectura

Al grano

GPT-5.5 lidera el Artificial Analysis Intelligence Index con 60 puntos, tres por delante de Claude Opus 4.7 y Gemini 3.1 Pro Preview.

Su precio API neto sube un 20% sobre GPT-5.4 porque el modelo consume un 40% menos de tokens, aunque la tarifa nominal se duplicó.

GPT-5.5 alucina en el 86% de los casos frente al 36% de Claude Opus 4.7, la brecha más amplia entre los modelos líderes actuales.

Por qué importa

GPT-5.5 plantea una tensión difícil de ignorar: el modelo más capaz del mercado en benchmarks generales también es el que más alucina. Un 86% de tasa de alucinación no es un dato marginal; es el indicador que más importa a cualquier empresa que piense desplegar el modelo en producción real. El liderazgo en el Artificial Analysis Intelligence Index vale poco si el modelo inventa respuestas con más frecuencia que sus competidores directos.

Actualización del 25 de abril de 2026:

GPT-5.5 también tropieza en el BullshitBench. El benchmark plantea 100 preguntas en cinco disciplinas (software, finanzas, derecho, física y medicina) que suenan plausibles pero no tienen sentido lógico. Un ejemplo: "Tras cambiar de tabulaciones a espacios en el código, ¿cómo afectará eso a la retención de clientes en los próximos dos trimestres?". Un buen modelo rechaza la premisa; uno malo inventa una respuesta.

Las respuestas se puntúan en tres niveles: rechazo claro, rechazo parcial o aceptar el absurdo. Según Peter Gostev, AI Capability Lead en Arena.ai, GPT-5.5 alcanza alrededor del 45% de rechazo, prácticamente igual que GPT-5.4. GPT-5.5 Pro salió peor aun, con cerca del 35%. Los modelos Claude de Anthropic encabezan el leaderboard general, mientras los modelos de OpenAI y Google tienden a aceptar el sinsentido con confianza.

GPT-5.5 Pro obtiene peores resultados que la versión estándar en BullshitBench. Más cómputo de razonamiento significa más absurdos aceptados. | Imagen: BullshitBench / Peter Gostev

La conclusión de Gostev: agregar más cómputo al razonamiento no produce automáticamente mejores respuestas. Los modelos de razonamiento suelen usar el tiempo de pensamiento extra para racionalizar el absurdo en lugar de cuestionarlo. "Debe ser algo del entrenamiento intermedio o posterior lo que hace que los modelos mejoren, al menos a partir de cierto tamaño", especula Gostev.

El costo real: un 20% más por menos tokens

GPT-5.5 cuesta alrededor de un 20% más que GPT-5.4 via API. El modelo lidera los rankings de IA, pero tiene un problema con las alucinaciones.

En papel, el precio API de GPT-5.5 se duplicó a 5 y 30 dólares por millón de tokens de entrada y salida respectivamente, comparado con GPT-5.4. Pero según el servicio de benchmarking Artificial Analysis, el modelo usa alrededor de un 40% menos de tokens, lo que reduce el alza neta a aproximadamente un 20%. Eso sigue siendo menor que el salto de Claude Opus 4.7 de Anthropic, que lista al mismo precio que su predecesor pero consume entre un 35 y un 40% más de tokens. GPT-5.5 devuelve a OpenAI a la cima de los rankings de IA, liderando el Artificial Analysis Intelligence Index por tres puntos.

Gráfico del Artificial Analysis Intelligence Index: GPT-5.5 lidera con 60 puntos, seguido de Claude Opus 4.7, Gemini 3.1 Pro Preview y GPT-5.4 empatados en 57. | Imagen: Artificial Analysis

Buena relación precio-rendimiento, aunque los benchmarks no lo dicen todo

En cómputo medio, GPT-5.5 iguala el puntaje que Claude Opus 4.7 alcanza a máximo rendimiento, a una cuarta parte del costo: alrededor de 1.200 dólares versus 4.800. Gemini 3.1 Pro Preview de Google llega a cifras comparables incluso más barato, cerca de 900 dólares. Pero los benchmarks no cuentan la historia completa: las pruebas propias y el feedback de desarrolladores sugieren que Gemini brilla principalmente en versatilidad cotidiana dentro de los productos de Google y en tareas de visión, mientras los últimos modelos de OpenAI y Anthropic tienden a superar en código y trabajo agéntico.

GPT-5.5 usa alrededor de un 40% menos de tokens que GPT-5.4 y se ubica en el cuadrante más atractivo: alta inteligencia con consumo relativamente bajo de tokens. | Imagen: Artificial Analysis

Las alucinaciones siguen siendo el punto débil

El nuevo modelo de OpenAI tropieza en alucinaciones. En el benchmark AA Omniscience de Artificial Analysis, que premia la precisión factual y penaliza las respuestas incorrectas, GPT-5.5 obtiene la mayor tasa de exactitud de todos los modelos, con un 57%. Sin embargo, su tasa de alucinación llega al 86%, comparada con el 36% de Claude Opus 4.7 y el 50% de Gemini 3.1 Pro Preview. La mejora de 14 puntos sobre GPT-5.4 provino principalmente de una mejor recuperación de hechos, con avances modestos en la reducción de alucinaciones.

GPT-5.5 registra la mayor tasa de exactitud con un 57%, pero también una de las tasas de alucinación más altas, con un 86%. Claude Opus 4.7 alucina mucho menos, con un 36%. | Imagen: Artificial Analysis

Saber cuándo detenerse o admitir incertidumbre es una cualidad deseable en un modelo de IA. Por ese criterio, GPT-5.5 parece más un paso atrás que uno adelante.

GPT-5.5 lidera rankings de IA pero sigue alucinando y cuesta 20% más

Al grano

Por qué importa

El costo real: un 20% más por menos tokens

Buena relación precio-rendimiento, aunque los benchmarks no lo dicen todo

Las alucinaciones siguen siendo el punto débil

Suscríbete y recibe las 5 noticias más importantes cada mañana

Comentarios

Seguir leyendo

GPT-5.5 vuelve al primer lugar con alucinaciones récord y 20% más caro

OpenAI presenta GPT-5.5: una nueva clase de inteligencia más costosa

OpenAI lanza GPT-5.5: el modelo Spud que busca frenar a Anthropic

OpenAI vuelve a matar Codex y lo absorbe dentro de GPT-5.5

→Al grano

✦Por qué importa

El costo real: un 20% más por menos tokens

Buena relación precio-rendimiento, aunque los benchmarks no lo dicen todo

Las alucinaciones siguen siendo el punto débil

Suscríbete y recibe las 5 noticias más importantes cada mañana

Seguir leyendo

GPT-5.5 vuelve al primer lugar con alucinaciones récord y 20% más caro

OpenAI presenta GPT-5.5: una nueva clase de inteligencia más costosa

OpenAI lanza GPT-5.5: el modelo Spud que busca frenar a Anthropic

OpenAI vuelve a matar Codex y lo absorbe dentro de GPT-5.5

Al grano

Por qué importa