Agentes de IA logran replicarse en otros equipos en 81% de tests

Palisade Research reporta que agentes basados en Opus 4.6 y Qwen 3.6 pasaron de 6% a 81% de éxito en autorreplicación vía hackeo en un solo año.

Publicado el 12 de mayo de 2026 · 12:41 p. m.3 min de lectura

Al grano

Palisade Research demostró que agentes de IA logran hackear máquinas remotas, copiarse en ellas y formar cadenas de réplicas funcionales.

La tasa de éxito en autorreplicación pasó de 6% en mayo de 2025 a 81% en mayo de 2026 en modelos frontera como Opus 4.6.

Un agente Qwen 3.6 saltó entre equipos en Canadá, Estados Unidos, Finlandia e India, con 50 minutos promedio por hop exitoso.

Por qué importa

Que la tasa pase de 6% a 81% en doce meses no es un alarmismo abstracto: es la velocidad con la que las capacidades de hackeo de los modelos se acoplan al progreso general de coding agents. El dato más incómodo del paper es el operativo: 50 minutos promedio por salto exitoso. Para los equipos de seguridad en LatAm que recién están escribiendo sus políticas de uso de IA, la ventana para definir controles antes de que estos agentes salgan del laboratorio es realista pero corta.

El laboratorio de investigación en seguridad Palisade Research demostró que agentes de IA pueden vulnerar computadoras remotas y replicarse en ellas. En tan solo un año, la tasa de éxito subió de 6% a 81%. Un simulador público muestra qué podría ocurrir en el peor de los escenarios.

En el entorno de prueba, un agente de IA hackeó una computadora remota, instaló el software necesario, copió sus propios pesos de modelo y lanzó una réplica funcional. Cada copia hackeaba computadoras adicionales, formando una cadena. "Hasta donde sabemos, esta es la primera instancia documentada de autorreplicación de IA vía hackeo", escribe el equipo de investigación.

En una corrida, un agente basado en Qwen 3.6 saltó entre computadoras en Canadá, Estados Unidos, Finlandia e India, dejando una copia en cada país. Para el agente, cruzar fronteras nacionales era tan sencillo como saltar entre máquinas en la misma región, según Palisade Research. Pero para cualquiera que intente apagar un agente de IA descontrolado, sería una pesadilla jurisdiccional, advierte el equipo.

El agente no recibió información previa sobre las vulnerabilidades de las computadoras objetivo. Tuvo que descubrir el enfoque de ataque por sí mismo cada vez. Palisade Research probó la replicación contra tres objetivos, cada uno con vulnerabilidades distintas, y el agente tuvo éxito en los tres.

¿Cuánto mejoró la tasa de éxito en un año?

El ritmo de progreso es notable. Los modelos frontera pasaron de un 6% de éxito a un 81% en un solo año. Los investigadores afirman que el salto sigue de cerca las mejoras en capacidades autónomas de hackeo y de programación, y Palisade Research espera que la tendencia continúe.

Opus 4.6 alcanzó el 81%, mientras que Opus 4 estaba en torno al 5% en mayo de 2025. Los investigadores probaron dos configuraciones distintas: modelos de pesos abiertos como Qwen copiaron sus propios pesos a la nueva máquina y arrancaron una réplica allí. Los modelos accesibles solo por API como Claude y GPT no pueden acceder a sus propios pesos, por lo que los investigadores simularon la replicación haciendo que esos agentes instalaran y ejecutaran los pesos de Qwen en la máquina objetivo.

¿Qué pasaría a escala real?

Palisade Research también construyó un simulador público que extrapola lo que sucedería si los agentes pudieran hackear y propagarse con la misma eficacia en el mundo real. El simulador usa los tiempos de replicación y las tasas de éxito medidas, encadena las copias y asume una oferta ilimitada de objetivos. En ese escenario teórico, Opus generó 13.000 réplicas en doce horas.

Los investigadores subrayan que se trata de un límite superior, no de una línea base realista. Las computadoras de prueba tenían defensas débiles, y a los agentes se les indicaba qué máquinas atacar. En el mundo real, un agente descontrolado tendría que encontrar por sí mismo máquinas vulnerables con GPUs lo bastante potentes, y las defensas endurecidas frenarían la mayoría de los intentos de inmediato.

¿Cuánto durarán las barreras actuales?

Los investigadores sostienen que esas barreras no durarán. Las empresas están mejorando a los agentes de IA a un ritmo acelerado, y el hackeo es una de las áreas que avanza más rápido. Modelos como Mythos ya encuentran miles de vulnerabilidades zero-day de alta severidad en escenarios reales, y los modelos de pesos abiertos probablemente alcanzarán pronto ese nivel.

Al mismo tiempo, las defensas también mejoran. Los agentes de IA podrían ayudar a parchear vulnerabilidades y defender contra ciberamenazas. Cómo se moverá el equilibrio entre ataque y defensa sigue siendo una pregunta abierta.

Lo que sí parece probable, según Palisade Research, es que ambos lados de la ciberseguridad estarán eventualmente dominados por agentes de IA, no por humanos. El paper, el código fuente y las transcripciones del experimento están disponibles públicamente.

Agentes de IA logran replicarse en otros equipos en 81% de tests

Al grano

Por qué importa

¿Cuánto mejoró la tasa de éxito en un año?

¿Qué pasaría a escala real?

¿Cuánto durarán las barreras actuales?

Seguir leyendo

Agentes IA aprenden a autorreplicarse vía hacking: de 6% a 81% en un año

Anthropic atribuye los chantajes de Claude a textos de IA malvada

Claude Mythos rompe el techo de METR: 16 horas de tareas autónomas

Codex y Claude expanden los agentes IA fuera del código

→Al grano

✦Por qué importa

¿Cuánto mejoró la tasa de éxito en un año?

¿Qué pasaría a escala real?

¿Cuánto durarán las barreras actuales?

Seguir leyendo

Agentes IA aprenden a autorreplicarse vía hacking: de 6% a 81% en un año

Anthropic atribuye los chantajes de Claude a textos de IA malvada

Claude Mythos rompe el techo de METR: 16 horas de tareas autónomas

Codex y Claude expanden los agentes IA fuera del código

Al grano

Por qué importa