¿Cómo cambió el rol del programador en Anthropic?
"En mayo de 2026, más del 80% del código que integramos en la base de código de Anthropic fue creado por Claude". Quienes revelan ese dato son dos investigadores de Anthropic que han publicado uno de los textos más reveladores sobre el presente y futuro de los modelos de IA de la empresa. Uno que nos habla de un concepto fascinante e inquietante a partes iguales llamado automejora recursiva.
El impacto de estas herramientas de programación agéntica en el trabajo de los ingenieros de Anthropic está siendo espectacular. Según datos internos de mayo de 2026, esa generación de código de forma autónoma ha provocado que hoy en día un ingeniero de Anthropic produzca ocho veces más líneas de código por trimestre que durante el periodo 2021-2025. Los programadores humanos de Anthropic ya no programan: dirigen y revisan el código generado por la IA.
¿Cuál ha sido la evolución tecnológica hasta 2026?
Los cambios que hemos vivido han sido fascinantes, explican en Anthropic. Entre 2021 y 2023, los ingenieros escribían todo el código a mano en sus equipos. En 2024 comenzaron a usar chatbots para generar pequeños fragmentos de código que luego copiaban y pegaban. En 2025 llegaron los agentes capaces de trabajar de forma autónoma sobre archivos enteros.
Para visualizar el impacto de esta automatización en el flujo de trabajo diario dentro de los laboratorios de desarrollo de Anthropic, podemos observar la siguiente captura del entorno de trabajo:

Esta imagen muestra la interfaz de despliegue donde los agentes de IA gestionan los repositorios, permitiendo a los ingenieros supervisar cambios masivos en tiempo real en lugar de escribir cada línea manualmente.
¿Qué capacidad tienen los nuevos modelos?
Según el benchmark METR que mide la capacidad de la IA para completar tareas complejas, en 2022 GPT-3.5 apenas podía aguantar unos 35 segundos operando de forma autónoma sin cometer errores graves. A mediados de 2026, Claude Opus 4.6 ya es capaz de trabajar 16 horas seguidas en tareas complejas. En Anthropic señalan que la longitud de las tareas que podía acometer un modelo de IA se doblaba cada siete meses, pero ahora se dobla cada cuatro. Si esta tendencia se mantiene, tareas que le llevan a una persona días podrían automatizarse con IA. En 2027, los sistemas de IA podrían ser capaces de trabajar en tareas que le llevan a una persona semanas.
Los benchmarks de la industria están viéndose "saturados" por los nuevos modelos de IA, que alcanzan ya casi el 100% de la puntuación posible. Por ejemplo, SWE-bench, que medía la capacidad de los modelos para programar, ya casi está superado por los modelos más recientes. En 2025, Claude Opus lograba optimizar el código que le daban haciendo que corriese 3x más rápido. En abril de 2026, Claude Mythos Preview ya lograba un 52x de aceleración.
El despliegue de estas capacidades de automejora requiere una infraestructura de evaluación constante, tal como se ilustra en este gráfico de auditoría de rendimiento:
El gráfico anterior detalla cómo los modelos auditores comparan las versiones generadas por la IA contra las métricas de latencia y uso de CPU, asegurando que la automejora no sacrifique la estabilidad del sistema.
Este concepto de automejora recursiva plantea un escenario donde el modelo genera datos, corrige sus fallos y se entrena a sí mismo. Eso abre la puerta a un crecimiento exponencial, pero reabre un debate sobre los riesgos de esta evolución. Tradicionalmente, los humanos limpiaban los datos; ahora, con la automejora recursiva, la IA genera datos sintéticos para su siguiente generación.
Para evitar el escenario Terminator, en Anthropic implementan esta evolución en entornos aislados. Además, usan modelos de evaluación independientes que actúan como árbitros para auditar los modelos que evolucionan por sí mismos. En Anthropic señalan cómo, a medida que la IA escribe más código, el verdadero cuello de botella es el ser humano que debe revisar el resultado, aplicando la ley de Amdahl.
Vía Xataka.



