Epoch AI y METR lanzaron MirrorCode, una benchmark que pone a prueba si los modelos de lenguaje pueden reimplementar programas completos sin tener acceso al código fuente original. Los 25 programas objetivo cubren utilidades Unix, serialización de datos, bioinformática, intérpretes, análisis estático, criptografía y compresión. Cada solución generada por la IA debe reproducir exactamente la salida del programa original, incluyendo tests end-to-end ocultos que el modelo nunca ve durante el desarrollo.
A diferencia de otras pruebas que limitan el costo de inferencia a entre USD 1 y USD 10 por tarea, MirrorCode habilita presupuestos extensos. Según Epoch AI, una de las tareas más grandes consumió USD 2.600 en una sola corrida y la IA trabajó de forma continua durante 19 días sin intervención humana.
¿Qué modelos lideran el ranking y por cuánto?
Claude Opus 4.7 encabeza la tabla con un 56% de tasa de resolución. Le siguen GPT-5.5 con 44% y Gemini 3.1 Pro Preview con 32%. Incluso cuando los modelos fallan en reimplementar un programa completo, suelen aprobar 90% o más de los tests.
El ejemplo más comentado del experimento es Opus 4.7 reconstruyendo gotree, un toolkit bioinformático de aproximadamente 16.000 líneas en Go con más de 40 comandos. Un ingeniero humano sin asistencia de IA necesitaría entre 2 y 17 semanas para hacer el mismo trabajo. Opus 4.7 terminó en 14 horas por USD 251.
¿Qué tareas siguen siendo imposibles para todos los modelos?
El benchmark divide los programas en tres categorías: pequeños, medianos y grandes. Los pequeños como uuid o parseqsv los resuelven todos los modelos. Los más grandes, en cambio, derrotan a cada uno de los modelos probados.
Los investigadores destacan un avance acelerado: modelos líderes de hace un año habrían anotado apenas 30% y solo en utilidades simples como un calendario. Los costos no siguen un patrón claro: GPT-5.5 cuesta tres veces más que GPT-5 para las mismas tareas, mientras que Claude Opus 4.7 corre tres veces más barato que Claude Opus 4.1.
¿Cuánto pesa la memorización en el resultado?
Epoch AI liberó como open source el scaffold y 22 de los 25 programas objetivo, cubriendo 132 instancias de tareas en seis lenguajes de programación. Tres programas se mantienen privados para testing futuro.
Los autores advierten un riesgo claro: como MirrorCode usa programas open source como blancos, los modelos podrían haber visto el código original durante su entrenamiento. Tests iniciales sugieren que "los resultados no fueron dominados por la memorización, pero no podemos descartar que la memorización contribuya al rendimiento", escriben los investigadores.




