La ARC Prize Foundation revisó 160 partidas y trazas de razonamiento de GPT-5.5 (OpenAI) y Opus 4.7 (Anthropic) en el benchmark ARC-AGI-3. Los resultados revelan tres patrones de error sistemáticos que explican por qué ambos modelos quedan bajo el 1%.

Los benchmarks de IA suelen mostrar sólo si un modelo aprobó o falló. La ARC Prize Foundation lleva el ejercicio un paso más allá con un nuevo análisis: el equipo evaluó 160 replays y trazas de razonamiento de GPT-5.5 (OpenAI) y Opus 4.7 (Anthropic) en los entornos interactivos de ARC-AGI-3.

El benchmark, lanzado a fines de marzo de 2026, evalúa sistemas de IA en entornos de juego interactivos por turnos. A diferencia de sus predecesores, que dependían del reconocimiento estático de patrones, los agentes tienen que explorar los entornos por su cuenta, formar hipótesis y ejecutar planes de acción sin recibir instrucciones.

Cada modelo de frontera puesto a prueba hasta ahora puntúa bajo el 1%, mientras que los humanos resuelven las mismas tareas sin conocimiento previo. Los últimos resultados no son distintos: GPT-5.5 llega a 0,43% con un costo cercano a USD 10.000 por corrida, mientras que Opus 4.7 apenas alcanza 0,18%.

En el leaderboard de ARC-AGI-3 ningún modelo de frontera supera el 1%. GPT-5.5 lidera con 0,43% a un costo cercano a USD 10.000.
En el leaderboard de ARC-AGI-3 ningún modelo de frontera supera el 1%. GPT-5.5 lidera con 0,43% a un costo cercano a USD 10.000.

Según los desarrolladores del benchmark, lo más interesante son los motivos detrás de las fallas. Las trazas de razonamiento registradas, donde el modelo documenta sus intentos de solución, permiten reconstruir exactamente en qué paso formó una hipótesis, dónde rechazó una correcta y en qué momento se atascó en una equivocada.

¿Qué tres errores cometen los modelos en ARC-AGI-3?

El análisis identificó tres patrones de error sistemáticos que ambos modelos comparten, aunque de formas distintas. El más frecuente: los modelos captan correctamente efectos locales pero no logran convertirlos en un modelo del mundo funcional. Un modelo puede reconocer que una acción rota un objeto, pero no llega a inferir que esa rotación define qué lado recibe un nuevo valor y que el objeto necesita estar alineado antes de la siguiente acción.

Según el análisis, en el juego cd82 Opus 4.7 ya sabía en el paso 4 que ACTION3 rota un contenedor. Para el paso 6 reconoció que ACTION5 vierte pintura. Pero el modelo nunca conectó esas observaciones para entender que debía alinear el balde y luego inclinarlo para reproducir la imagen objetivo en la esquina superior izquierda.

Opus 4.7 entiende que ACTION3 rota objetos, pero no logra captar las mecánicas globales del juego.
Opus 4.7 entiende que ACTION3 rota objetos, pero no logra captar las mecánicas globales del juego.

Un patrón similar apareció en cn04: Opus dio con la interacción correcta de rotar y luego colocar en el paso 23, pero a continuación optimizó hacia un objetivo equivocado y empezó a rastrear una barra de progreso que no existía.

¿Por qué confunden los entornos desconocidos con juegos del dataset?

El segundo patrón de error: los modelos confunden entornos desconocidos con juegos familiares de su dataset de entrenamiento. A lo largo de las corridas, los modelos repetidamente confundieron mecánicas desconocidas con Tetris, Frogger, Sokoban, Breakout, Pong o Boulder Dash.

Un parecido visual difuso se infla hasta convertirse en una teoría completa de gameplay, y el modelo gasta sus acciones en mecánicas equivocadas. GPT-5.5, por ejemplo, interpretó el entorno ls20 como Breakout cuando en realidad se trataba de combinaciones de teclas.

"Por otro lado, podría ser más como 'Breakout', con ladrillos arriba y una paleta. El objeto central podría ser la pelota", escribió el modelo en sus trazas de razonamiento. Esa suposición sin base destruyó cualquier chance de progreso, un error que un humano familiarizado con Breakout casi nunca cometería.

GPT-5.5 confunde el entorno ls20 con el clásico de los arcades Breakout.
GPT-5.5 confunde el entorno ls20 con el clásico de los arcades Breakout.

Resolver un nivel no es entender el juego

El tercer patrón puede ser el más relevante. Incluso cuando un modelo resuelve un nivel, ese éxito no se traduce en una comprensión más profunda porque el modelo nunca verifica por qué su estrategia funcionó.

En ka59, Opus resolvió el nivel 1 en 37 acciones pero a partir de una teoría falsa: asumió que un clic teletransportaría al personaje activo. En realidad, el juego requiere coincidencia de figuras y empujes. El nivel 1 sólo se resolvió porque su estructura simple terminaba conduciendo al objetivo incluso con la mecánica equivocada.

Como el modelo trató su éxito como confirmación de la teoría de teletransporte, el supuesto erróneo se endureció en "clic en cada objetivo para llenarlo" hacia el nivel 2. El modelo no se recuperó de ese error.

Opus 4.7 queda atrapado en un loop de clics en ka59 después de que una teoría falsa pareciera confirmarse en el nivel 1.
Opus 4.7 queda atrapado en un loop de clics en ka59 después de que una teoría falsa pareciera confirmarse en el nivel 1.

En ar25 ocurrió lo mismo en otro nivel: Opus resolvió el nivel 1 con la intuición correcta sobre el movimiento espejo e incluso detectó la nueva mecánica de un eje móvil en el nivel 2. Pero en lugar de seguir con esa observación correcta, el modelo se desvió hacia reglas alucinadas e intentó "perforar" o reflejar objetos. El enfoque correcto quedó sepultado bajo hipótesis falsas.

Ambos casos muestran que sin examinar por qué se ganó un nivel, los modelos arrastran las concepciones equivocadas al siguiente.

Opus se aferra a teorías equivocadas, GPT-5.5 no se compromete con las correctas

Según el análisis, Opus 4.7 es mejor para captar mecánicas temprano. En ar25 identificó casi de inmediato la estructura de espejo y resolvió el nivel 1. Pero Opus tiende a aferrarse agresivamente a una regla falsa y no soltarla. En cn04, por ejemplo, inventó una teoría de progreso y conversión y gastó la primera parte del juego haciendo clic sin rumbo dentro de ese marco. Tenía una teoría, pero la equivocada.

GPT-5.5 muestra el problema opuesto. Su generación de hipótesis es más amplia, así que tiene más chance de dar con la idea correcta, pero no logra convertirla en un plan de acción. En ar25 identificó correctamente el efecto espejo, pero después siguió expandiendo el espacio de posibilidades, ciclando entre Tetris, Frogger, Pong y Tower of Hanoi en lugar de comprometerse. El modelo vio el camino correcto pero no logró seguirlo.

"La diferencia se reduce a la compresión. Opus comprimió sus observaciones en una teoría confiada pero equivocada. GPT-5.5 tuvo dificultades incluso para comprimir", escribe Greg Kamradt de la ARC Prize Foundation.

¿Qué implica esto fuera del benchmark?

La ARC Prize Foundation argumenta que estos patrones de error son directamente relevantes para los agentes de IA reales. Cada uno de los 135 entornos fue resuelto por al menos dos humanos sin entrenamiento especial.

Lo que hace difíciles las tareas para los modelos es lo mismo que enfrentan los agentes de IA en entornos de trabajo reales: navegar algo completamente desconocido, formar una teoría, probarla y actualizarla cuando los datos no cuadran. Da lo mismo si es un sitio web desconocido, una herramienta interna o una API sin documentación.

"Los puntajes te dicen lo que un modelo logró. Los replays te dicen si el razonamiento es probable que generalice", escribe Kamradt. La fundación planea seguir auditando cada release importante de frontera con ARC-AGI-3.

Otros estudios apuntan a la misma conclusión

El análisis probablemente fortalecerá a los críticos de la IA que llevan años argumentando que los grandes modelos de lenguaje son sofisticados emparejadores de patrones que carecen de comprensión real. Cuando GPT-5.5 etiqueta reflejamente un entorno desconocido como Breakout, ilustra la idea de que los modelos de lenguaje interpolan entre patrones aprendidos en lugar de formar reglas abstractas. Y Opus 4.7 resolviendo un nivel por casualidad y tomando la teoría falsa detrás como confirmada calza con la crítica de que los sistemas de IA actuales no construyen modelos causales del mundo, sino que persiguen correlaciones estadísticas.

Varios estudios han llegado a conclusiones similares. Investigadores de Apple mostraron que los modelos de razonamiento no sólo fallan cuando aumenta la complejidad en entornos controlados de puzzles, sino que paradójicamente razonan menos. Un análisis a gran escala desde la ciencia cognitiva sobre más de 171.000 trazas de razonamiento halló que los modelos de lenguaje recurren a estrategias por defecto en lugar de razonar de verdad cuando enfrentan tareas difíciles. Y un estudio médico mostró que incluso modelos de razonamiento vigentes en su momento, como DeepSeek-R1 y o3-mini, fallan ante preguntas levemente reformuladas, lo que sugiere emparejamiento de patrones más que comprensión genuina.