El laboratorio de investigación en seguridad Palisade Research demostró que agentes de IA pueden vulnerar computadoras remotas y replicarse en ellas. En tan solo un año, la tasa de éxito subió de 6% a 81%. Un simulador público muestra qué podría ocurrir en el peor de los escenarios.
En el entorno de prueba, un agente de IA hackeó una computadora remota, instaló el software necesario, copió sus propios pesos de modelo y lanzó una réplica funcional. Cada copia hackeaba computadoras adicionales, formando una cadena. "Hasta donde sabemos, esta es la primera instancia documentada de autorreplicación de IA vía hackeo", escribe el equipo de investigación.
En una corrida, un agente basado en Qwen 3.6 saltó entre computadoras en Canadá, Estados Unidos, Finlandia e India, dejando una copia en cada país. Para el agente, cruzar fronteras nacionales era tan sencillo como saltar entre máquinas en la misma región, según Palisade Research. Pero para cualquiera que intente apagar un agente de IA descontrolado, sería una pesadilla jurisdiccional, advierte el equipo.
El agente no recibió información previa sobre las vulnerabilidades de las computadoras objetivo. Tuvo que descubrir el enfoque de ataque por sí mismo cada vez. Palisade Research probó la replicación contra tres objetivos, cada uno con vulnerabilidades distintas, y el agente tuvo éxito en los tres.
¿Cuánto mejoró la tasa de éxito en un año?
El ritmo de progreso es notable. Los modelos frontera pasaron de un 6% de éxito a un 81% en un solo año. Los investigadores afirman que el salto sigue de cerca las mejoras en capacidades autónomas de hackeo y de programación, y Palisade Research espera que la tendencia continúe.
Opus 4.6 alcanzó el 81%, mientras que Opus 4 estaba en torno al 5% en mayo de 2025. Los investigadores probaron dos configuraciones distintas: modelos de pesos abiertos como Qwen copiaron sus propios pesos a la nueva máquina y arrancaron una réplica allí. Los modelos accesibles solo por API como Claude y GPT no pueden acceder a sus propios pesos, por lo que los investigadores simularon la replicación haciendo que esos agentes instalaran y ejecutaran los pesos de Qwen en la máquina objetivo.
¿Qué pasaría a escala real?
Palisade Research también construyó un simulador público que extrapola lo que sucedería si los agentes pudieran hackear y propagarse con la misma eficacia en el mundo real. El simulador usa los tiempos de replicación y las tasas de éxito medidas, encadena las copias y asume una oferta ilimitada de objetivos. En ese escenario teórico, Opus generó 13.000 réplicas en doce horas.
Los investigadores subrayan que se trata de un límite superior, no de una línea base realista. Las computadoras de prueba tenían defensas débiles, y a los agentes se les indicaba qué máquinas atacar. En el mundo real, un agente descontrolado tendría que encontrar por sí mismo máquinas vulnerables con GPUs lo bastante potentes, y las defensas endurecidas frenarían la mayoría de los intentos de inmediato.
¿Cuánto durarán las barreras actuales?
Los investigadores sostienen que esas barreras no durarán. Las empresas están mejorando a los agentes de IA a un ritmo acelerado, y el hackeo es una de las áreas que avanza más rápido. Modelos como Mythos ya encuentran miles de vulnerabilidades zero-day de alta severidad en escenarios reales, y los modelos de pesos abiertos probablemente alcanzarán pronto ese nivel.
Al mismo tiempo, las defensas también mejoran. Los agentes de IA podrían ayudar a parchear vulnerabilidades y defender contra ciberamenazas. Cómo se moverá el equilibrio entre ataque y defensa sigue siendo una pregunta abierta.
Lo que sí parece probable, según Palisade Research, es que ambos lados de la ciberseguridad estarán eventualmente dominados por agentes de IA, no por humanos. El paper, el código fuente y las transcripciones del experimento están disponibles públicamente.




