Anthropic, la compañía que hace apenas unas semanas declaró que su modelo Mythos era demasiado poderoso para liberarlo, ahora dice que tal vez la industria deba pausar el desarrollo de IA. Lo hace mientras al mismo tiempo le enseña a su modelo a construirse a sí mismo.

El 4 de junio la empresa publicó un informe titulado "When AI builds itself" donde reconoce que Claude ya escribe más del 80% del código que se integra a su propio codebase de producción, una cifra que estaba en un dígito antes de que Claude Code llegara a su preview de investigación en febrero del año pasado. La compañía argumenta que ese bucle empezó a acelerar el desarrollo de IA de una manera que eventualmente podría dejar a los humanos sin capacidad para controlar los sistemas que se construyen.

El Anthropic Institute, brazo de investigación de la firma, encuadra la tendencia como un movimiento temprano hacia el autoperfeccionamiento recursivo: el punto en que un modelo diseña y construye a su sucesor sin participación humana significativa. El informe advierte que las raras desalineaciones que se observan hoy podrían "crecer más frecuentes y menos comprendidas hasta que perdamos el control".

Una lectura más completa del posteo, sumada al contexto del ecosistema entero de modelos frontera, revela otra verdad incómoda que también deben enfrentar quienes desarrollan IA de punta: el compute.

La pérdida de control como hipótesis

Anthropic plantea tres escenarios para los próximos años y reserva una advertencia particularmente sombría para el caso en que los modelos sean capaces de perfeccionarse a sí mismos por completo. En esa hipótesis, el progreso quedaría marcado casi enteramente por el compute disponible, los ingenieros humanos serían empujados al rol de verificadores, y un modelo autoperfeccionado podría llegar a dominar a medida que sus capacidades superan a las de quienes lo construyeron.

La firma describe la tarea de mantener el comportamiento de un sistema atado a la intención humana como la parte del futuro sobre la que tiene menos certezas. Un modelo capaz y bien alineado podría descubrir nuevas formas de mantener seguros a sus sucesores, o podría ocurrir lo contrario: que la desalineación se acumule generación tras generación. El informe admite incluso que un modelo suficientemente sabio podría elegir detener su propio desarrollo.

La idea de una máquina ultrainteligente que diseña máquinas todavía mejores, la llamada "singularidad", circula desde hace décadas. El matemático británico I. J. Good la formuló en los años 60 con su tesis de la "explosión de inteligencia": esa máquina sería "la última invención que el ser humano necesitaría hacer", siempre que se mantuviera "lo suficientemente dócil" como para decirnos cómo controlarla. Geoffrey Hinton, el "padrino de la IA", ha situado la probabilidad de que la IA cause la extinción humana dentro de tres décadas entre 10% y 20%.

El International AI Safety Report, presidido por Yoshua Bengio y publicado en enero de 2025 con contribución de más de 100 expertos de 30 países, define la pérdida de control como el escenario en que los sistemas de IA operan fuera del alcance de cualquier persona sin un camino claro para recuperarlo.

¿Qué tan creíbles son los números?

Cada cifra detrás de la advertencia de Anthropic surge de datos internos sin auditoría independiente. Entre esos datos: la firma asegura que en el segundo trimestre de 2026 el ingeniero típico de Anthropic mergea ocho veces más código por día que en 2024. En las tareas de programación más difíciles y peor especificadas, Claude tuvo éxito el 76% de las veces en mayo de 2026, una subida de 50 puntos porcentuales en seis meses.

En una prueba interna que pide a cada modelo nuevo acelerar código de entrenamiento, los resultados pasaron de aproximadamente triplicar la velocidad original con Claude Opus 4 en mayo de 2025 a multiplicarla por 52 veces con el modelo no liberado Mythos Preview hacia abril de 2026. Para conseguir una mejora de 4×, un investigador humano calificado necesita entre cuatro y ocho horas.

En honor a la transparencia, Anthropic admite que las líneas de código son un proxy pobre y que la cifra de "ocho veces" casi con seguridad sobreestima la ganancia real. Su estudio de juicio de investigación, en el que los modelos superaron al humano en el siguiente paso 64% de las veces, se basó en 129 momentos elegidos a propósito porque la elección humana tenía margen para mejorar, así que no es una comparación apareada.

El informe no incluye un desglose que aísle cuánto del avance reciente proviene del bucle de autoperfeccionamiento y cuánto del compute, los datos o la investigación humana. El científico cognitivo Gary Marcus lo calificó de "bait and switch" en su Substack y argumentó que la empresa mostró programación más veloz dirigida por humanos, no un sistema que se perfecciona a sí mismo. Noah Giansiracusa, matemático de Bentley University, le dijo a Scientific American: "No creo que sea un llamado genuino a desacelerar".

¿Anthropic es el único en este bucle?

No. Sundar Pichai, CEO de Google, escribió en un posteo de abril que 75% del código nuevo en Google es generado por IA y aprobado por ingenieros, una subida respecto al 50% del otoño anterior. Jakub Pachocki, de OpenAI, describió al agente Codex como "una versión muy temprana de un investigador de IA", y la compañía ha dicho que apunta a construir uno completamente automatizado. La desarrolladora china MiniMax comercializó su modelo M2.7 en marzo como "autoevolutivo", asegurando que corría sus propias rondas de optimización del scaffold y manejaba una porción grande de su propia investigación en aprendizaje por refuerzo, aunque los benchmarks son internos y sin replicación.

Las mediciones independientes apoyan en parte la tendencia de mejora rápida, sin confirmar la fuga descontrolada de la que hablan los laboratorios. METR, por ejemplo, encontró el año pasado que la duración de la tarea que una IA puede completar con 50% de confiabilidad se duplica más o menos cada siete meses. En su benchmark RE-Bench, los mejores agentes superaron a expertos humanos en ventanas de dos horas, pero los humanos los pasaron a las ocho horas y aproximadamente duplicaron el puntaje del mejor agente a las 32 horas. La ventaja actual de la IA está en ráfagas cortas y bien definidas, no en el trabajo abierto y sostenido del que depende la investigación de punta.

¿Cuándo se rompe el bucle? El cuello de botella real es compute

Anthropic deja medio enterrado el dato más relevante: el compute es la restricción que ata todo el resto. La empresa nombra la fabricación de chips, la expansión de la red eléctrica y el ancho de banda de los interconnects como los factores que podrían frenar el avance antes que la propia inteligencia.

Los límites son sólidos en el estado actual: SK hynix y Micron vendieron toda su producción de HBM del año, los transformadores de alta potencia tienen plazos de entrega de tres a cinco años, los switchgear están reservados hasta 2028, y las colas de interconexión a la red eléctrica corren entre tres y siete años.

Un análisis de Sightline Climate estimó que entre 30% y 50% de los grandes centros de datos previstos para 2026 se atrasarán o cancelarán. Los datacenters de EE.UU. usaron aproximadamente el 4,4% de la electricidad nacional en 2023, una cuota que el Lawrence Berkeley National Laboratory del Departamento de Energía espera que llegue al 6,7% o 12% hacia 2028. Mientras tanto, los cuatro hyperscalers más grandes van camino a gastar más de USD 650.000 millones en infraestructura de IA solo este año.

Si el compute termina poniendo un techo a cualquier bucle de autoperfeccionamiento descontrolado es un debate sin resolver. Tom Davidson, investigador de Forethought, argumenta que hay posibilidad de que los cuellos de botella de compute no "frenen una explosión de inteligencia por software hasta sus etapas tardías". Epoch AI responde que si compute y trabajo cognitivo son complementarios, no sustitutos, la aceleración solo por software se estanca al chocar contra el muro del compute.

"Pausá tú primero", la jugada retórica

¿Y la pausa? Anthropic dice que solo lo hará si los laboratorios rivales en la frontera o cerca de ella hacen lo mismo de manera verificable, y aclara que si una sola empresa frena no cambia quién lidera el rumbo.

La sugerencia raya en lo retórico. Ningún laboratorio que llegó hasta acá, menos Anthropic, va a aflojar el acelerador. Especialmente cuando el propio informe funciona también como pieza de marketing sobre la velocidad con la que Claude puede construir a Claude. Plantear en la misma frase que la IA debería pausarse y "pero los demás tienen que hacerlo primero" es, cuanto menos, una jugada interesante.

El informe llegó además pocos días después de que Anthropic presentara confidencialmente su solicitud de salida a bolsa con una valoración cercana a los USD 965.000 millones, una yuxtaposición flagrante que se lee como un líder de la industria haciendo lobby por los límites que él mismo está en posición de ayudar a definir. En abril, Anthropic ya había realizado una autoevaluación en la que afirmó que su modelo Mythos Preview había encontrado miles de vulnerabilidades severas, una afirmación que después generó reparos sobre cuánto del resultado descansaba en una muestra manual pequeña.