Punto clave de esta nota

Claude Opus 4.7 lidera MirrorCode con 56%, GPT-5.5 con 44% y Gemini 3.1 Pro Preview con 32%.

Punto clave de esta nota

Una tarea costó USD 2.600 con 19 días de inferencia continua sin intervención humana, según Epoch AI.

Punto clave de esta nota

Opus 4.7 reconstruyó la librería gotree con 16.000 líneas en Go en 14 horas por USD 251.

Opus 4.7 lidera MirrorCode con 56% reconstruyendo programas

En la nueva benchmark de Epoch AI y METR, GPT-5.5 alcanza 44% y Gemini 3.1 Pro un 32%; una tarea costó USD 2.600 y 19 días de inferencia continua sin intervención humana.

Publicado el 28 de junio de 2026 · 12:38 a. m.2 min de lectura

Al grano

Claude Opus 4.7 lidera MirrorCode con 56%, GPT-5.5 con 44% y Gemini 3.1 Pro Preview con 32%.
Una tarea costó USD 2.600 con 19 días de inferencia continua sin intervención humana, según Epoch AI.
Opus 4.7 reconstruyó la librería gotree con 16.000 líneas en Go en 14 horas por USD 251.

Por qué importa

El dato fuerte no es que Opus 4.7 lidere; es que la curva de costo-rendimiento se está partiendo en dos. Reconstruir 16.000 líneas por USD 251 es trabajo que un junior tardaría meses en hacer; gastar USD 2.600 en una sola tarea ya es decisión presupuestaria, no técnica. MirrorCode también deja una pregunta incómoda: si Epoch AI no puede descartar memorización con código abierto, ¿qué significa realmente el 56%?

Epoch AI y METR lanzaron MirrorCode, una benchmark que pone a prueba si los modelos de lenguaje pueden reimplementar programas completos sin tener acceso al código fuente original. Los 25 programas objetivo cubren utilidades Unix, serialización de datos, bioinformática, intérpretes, análisis estático, criptografía y compresión. Cada solución generada por la IA debe reproducir exactamente la salida del programa original, incluyendo tests end-to-end ocultos que el modelo nunca ve durante el desarrollo.

A diferencia de otras pruebas que limitan el costo de inferencia a entre USD 1 y USD 10 por tarea, MirrorCode habilita presupuestos extensos. Según Epoch AI, una de las tareas más grandes consumió USD 2.600 en una sola corrida y la IA trabajó de forma continua durante 19 días sin intervención humana.

¿Qué modelos lideran el ranking y por cuánto?

Claude Opus 4.7 encabeza la tabla con un 56% de tasa de resolución. Le siguen GPT-5.5 con 44% y Gemini 3.1 Pro Preview con 32%. Incluso cuando los modelos fallan en reimplementar un programa completo, suelen aprobar 90% o más de los tests.

El ejemplo más comentado del experimento es Opus 4.7 reconstruyendo gotree, un toolkit bioinformático de aproximadamente 16.000 líneas en Go con más de 40 comandos. Un ingeniero humano sin asistencia de IA necesitaría entre 2 y 17 semanas para hacer el mismo trabajo. Opus 4.7 terminó en 14 horas por USD 251.

¿Qué tareas siguen siendo imposibles para todos los modelos?

El benchmark divide los programas en tres categorías: pequeños, medianos y grandes. Los pequeños como uuid o parseqsv los resuelven todos los modelos. Los más grandes, en cambio, derrotan a cada uno de los modelos probados.

Los investigadores destacan un avance acelerado: modelos líderes de hace un año habrían anotado apenas 30% y solo en utilidades simples como un calendario. Los costos no siguen un patrón claro: GPT-5.5 cuesta tres veces más que GPT-5 para las mismas tareas, mientras que Claude Opus 4.7 corre tres veces más barato que Claude Opus 4.1.

¿Cuánto pesa la memorización en el resultado?

Epoch AI liberó como open source el scaffold y 22 de los 25 programas objetivo, cubriendo 132 instancias de tareas en seis lenguajes de programación. Tres programas se mantienen privados para testing futuro.

Los autores advierten un riesgo claro: como MirrorCode usa programas open source como blancos, los modelos podrían haber visto el código original durante su entrenamiento. Tests iniciales sugieren que "los resultados no fueron dominados por la memorización, pero no podemos descartar que la memorización contribuya al rendimiento", escriben los investigadores.

Opus 4.7 lidera MirrorCode con 56% reconstruyendo programas

Al grano

Por qué importa

¿Qué modelos lideran el ranking y por cuánto?

¿Qué tareas siguen siendo imposibles para todos los modelos?

¿Cuánto pesa la memorización en el resultado?

Seguir leyendo

GLM-5.2 iguala a Opus 4.7 a un quinto del costo en Snowflake

GLM-5.2 alcanza a Claude Opus 4.8 en coding maratónico

Claude Opus 4.8: más juicio agéntico y menos alucinaciones

Agentes IA aciertan el archivo pero fallan las líneas clave

→Al grano

✦Por qué importa

¿Qué modelos lideran el ranking y por cuánto?

¿Qué tareas siguen siendo imposibles para todos los modelos?

¿Cuánto pesa la memorización en el resultado?

Seguir leyendo

GLM-5.2 iguala a Opus 4.7 a un quinto del costo en Snowflake

GLM-5.2 alcanza a Claude Opus 4.8 en coding maratónico

Claude Opus 4.8: más juicio agéntico y menos alucinaciones

Agentes IA aciertan el archivo pero fallan las líneas clave

Al grano

Por qué importa