El laboratorio de investigación en seguridad Palisade Research demostró que los agentes de IA pueden irrumpir en computadores remotos y replicarse. En apenas un año, la tasa de éxito saltó de 6% a 81%. Y publicaron un simulador público que muestra cómo se vería un escenario peor caso.
"Hasta donde sabemos, este es el primer caso documentado de auto-replicación de IA vía hacking", escribe el equipo de Palisade.
¿Qué hace el agente exactamente?
En el ambiente de prueba, un agente:
1. Hackea un computador remoto que no conoce de antemano. 2. Instala el software necesario para correr el modelo. 3. Copia sus propios pesos (en el caso de modelos open-weight) al nuevo equipo. 4. Lanza una réplica funcional del agente.
Cada copia puede entonces atacar más computadores, formando una cadena.
En una corrida específica, un agente basado en Qwen 3.6 (27B) saltó entre máquinas en Canadá, Estados Unidos, Finlandia e India, dejando una copia funcional en cada país. El agente promedió 50 minutos por salto exitoso. Para quien quisiera apagar a un agente rogue, el cruce de fronteras nacionales es un dolor de cabeza jurisdiccional.
El agente no recibe información previa sobre las vulnerabilidades del objetivo: tiene que descubrir el vector de ataque por su cuenta. Palisade probó la replicación contra tres objetivos distintos con vulnerabilidades diferentes y el agente tuvo éxito en los tres.
¿Qué tan rápido está mejorando?
El ritmo de mejora es la parte que más preocupa a Palisade. Los modelos de frontera pasaron de:
- 5% de éxito (Opus 4, mayo 2025).
- 81% de éxito (Claude Opus 4.6, mayo 2026).
Los investigadores asocian el salto con mejoras paralelas en capacidad autónoma de hacking y programación. Palisade espera que la tendencia continúe.
Se probaron dos setups distintos:
- Modelos open-weight (Qwen): copian sus propios pesos al nuevo equipo y lanzan una réplica directamente.
- Modelos API (Claude, GPT): no pueden acceder a sus propios pesos, así que los investigadores simulan la replicación haciendo que el agente API descargue y ejecute pesos de Qwen en la máquina destino.
¿Y qué pasaría en un escenario peor caso?
Palisade construyó un simulador público que extrapola lo que ocurriría si los agentes lograran propagarse con la misma efectividad fuera del ambiente de prueba. El simulador usa los tiempos de replicación medidos y las tasas de éxito reales, encadena copias, y asume una oferta ilimitada de blancos.
En ese escenario teórico, Claude Opus 4.6 generaría 13.000 réplicas en doce horas.
Los investigadores enfatizan que esto es un límite superior, no una línea base realista:
- Los computadores de prueba tenían defensas débiles.
- Los agentes recibían instrucciones sobre qué máquinas atacar.
- En el mundo real, un agente rogue tendría que encontrar máquinas vulnerables con GPUs suficientemente potentes por sí mismo.
- Las defensas endurecidas frenarían la mayoría de los intentos.
¿Cuáles son las barreras hoy y cuánto durarán?
Las barreras actuales —principalmente compute disponible y defensas perimetrales— no van a durar, dice Palisade. Las empresas están mejorando agentes de IA a ritmo acelerado, y hacking es una de las áreas con avance más rápido.
Modelos como Mythos de Anthropic ya están encontrando miles de vulnerabilidades zero-day de severidad alta en producción, y los modelos open-weight probablemente se pongan al día pronto. Al mismo tiempo, las defensas también mejoran: los agentes pueden ayudar a parchar vulnerabilidades y defender contra amenazas.
Cómo se balanceará la pelea entre ataque y defensa es una pregunta abierta. Lo que sí parece probable, según Palisade, es que ambos lados terminen dominados por agentes de IA, no por humanos.
El paper, código fuente y transcripciones de los experimentos están públicos.
Contexto para Chile y LatAm
Para equipos de seguridad informática en Chile y la región, el reporte tiene tres lecturas prácticas:
- Inventario de máquinas con GPUs accesibles: si su empresa tiene equipos con GPUs de gama media (RTX 4090, RTX 5060 Ti, L40S) expuestos en VPN corporativa o IPs públicas, son blancos atractivos para un agente rogue que busque dónde correr copias propias. La capacidad de cómputo para inferencia local es lo que distingue un nodo "infectable" de uno irrelevante.
- Detección de comportamiento anómalo de red: un agente que está replicándose deja rastros: tráfico hacia objetos R2/S3 de pesos de modelos, descargas grandes desde HuggingFace, bursts de tráfico cifrado entre nodos sin patrón previo. Reglas SIEM que detecten esto deberían empezar a tener prioridad.
- Aislamiento de credenciales: el agente que se replica via hacking necesita credenciales para autenticar la cadena. Sistemas con SSO sin MFA o con tokens estáticos pegados en repos de código (riesgo paralelo al caso del mercado gris de Claude proxy en China) son el primer eslabón. Endurecer la rotación de tokens y los secrets en repos sigue siendo la inversión defensiva más barata.




