UK AISI: la IA dobla capacidad ofensiva cada 4 meses

El AI Security Institute británico recalculó por segunda vez en tres meses el período de duplicación de los modelos frontera en tareas de ciberseguridad: pasó de 8 meses a menos de 4.7.

Publicado el 16 de mayo de 2026 · 11:59 a. m.3 min de lectura

Al grano

El UK AI Security Institute (AISI) recalibró el período de duplicación de capacidad ofensiva de los modelos frontera a menos de 4.7 meses tras Claude Mythos Preview y GPT-5.5.

Claude Sonnet 4.5 cubre lo que un experto humano hace en 16 minutos con 80% de confiabilidad y 2.5M tokens.

Mythos Preview resolvió 6/10 veces el ataque simulado de 32 pasos The Last Ones, frente a Opus 4.6 que en febrero llegaba a máximo 22/32.

Por qué importa

Lo que cambió no es la capacidad ofensiva absoluta sino la pendiente. Una curva de duplicación que se acorta tres veces en seis meses obliga a recalcular cualquier supuesto defensivo a 12-18 meses. Para los CISO en LatAm importa: prácticas que hoy parecen de bajo riesgo (credenciales largas, parches mensuales, timeouts generosos) pueden quedar obsoletas antes del próximo presupuesto. La pregunta operativa es cuánto invertir ya en automatización defensiva.

El AI Security Institute (AISI) del Reino Unido publicó nuevos resultados de su benchmark de capacidad ofensiva de los modelos frontera y la conclusión es inquietante: el período en que esos modelos duplican el trabajo humano que pueden ejecutar autónomamente en tareas de ciberseguridad sigue contrayéndose.

AISI mide esto con su "time window benchmark for cybersecurity", que estima cuánto trabajo de un humano experto puede replicar una IA. Con esa metodología encontraron, por ejemplo, que Claude Sonnet 4.5 completa lo que un experto humano hace en 16 minutos con un 80% de confiabilidad, asumiendo un presupuesto de 2.5 millones de tokens. Si esos tokens no estuvieran topeados arbitrariamente, los modelos probablemente irían más lejos.

¿Cuánto se aceleró la curva de capacidad cíber?

En febrero de 2026, AISI ya había reducido internamente el período de duplicación de 8 meses (estimación de noviembre de 2025) a 4.7 meses. Con los lanzamientos posteriores de Anthropic Mythos Preview y OpenAI GPT-5.5, debió comprimir el período de nuevo.

"En febrero de 2026 estimamos que el horizonte de tiempo cíber con 80% de confiabilidad de los modelos frontera se había duplicado cada 4.7 meses desde la aparición de los modelos de razonamiento a fines de 2024, con un límite de 2.5M tokens", explicó AISI en su blog. "Esto era cerca de la mitad de nuestra estimación de noviembre de 2025, que era de 8 meses tanto para 50% como para 80% de confiabilidad. Claude Mythos Preview y GPT-5.5 desde entonces superaron significativamente esa tendencia."

El nuevo período recalculado es incluso menor a 4.7 meses, aunque AISI no entrega un valor específico. La organización apunta a estimaciones similares en habilidades más amplias de ingeniería de software medidas por la organización sin fines de lucro METR, que sitúa el tiempo de duplicación en 4.2 meses y "cerca de 4 meses" con el último checkpoint de Mythos Preview.

¿Qué tan lejos llegan los modelos en ataques simulados?

AISI también reportó resultados sobre dos escenarios sintéticos. En "The Last Ones", un ataque simulado de red corporativa de 32 pasos, Mythos Preview resolvió el escenario completo en 6 de cada 10 intentos, y además completó por primera vez "Cooling Tower", un ataque de 7 pasos sobre sistemas de control industrial, en 3 de cada 10 intentos.

Como punto de comparación, Claude Opus 4.6, evaluado en febrero de 2026, alcanzaba como máximo el paso 22 de 32 en The Last Ones, llegando al hito 6, que implicaba aplicar ingeniería inversa a un binario de servicio de Windows para acceder a credenciales cifradas, escalar privilegios vía suplantación de tokens y recuperar una clave criptográfica de un servicio de mando y control.

¿Significa esto que la IA reemplaza a los pros de ciberseguridad?

AISI advierte explícitamente que no. El benchmark mide tiempos humanos en tareas acotadas, no capacidad amplia. "La capacidad cíber y de software autónoma de la IA frontera avanza rápido: la duración de tareas que los modelos pueden completar autónomamente se ha duplicado en meses, no en años", concluye el instituto. "Lo que esta evidencia no nos dice es cómo evolucionará el ritmo de progreso, cuándo la IA alcanzará algún umbral particular, o cómo estas capacidades se traducirán contra sistemas reales defendidos."

El proyecto curl entrega un contraste útil sobre el mundo real: Mythos encontró solo una vulnerabilidad confirmada en su codebase pese al hype.

Publicado originalmente en The Register.

UK AISI: la IA dobla capacidad ofensiva cada 4 meses

Al grano

Por qué importa

¿Cuánto se aceleró la curva de capacidad cíber?

¿Qué tan lejos llegan los modelos en ataques simulados?

¿Significa esto que la IA reemplaza a los pros de ciberseguridad?

Seguir leyendo

ESP-IDF v2.1.0 para VS Code: EIM, IA y nuevo debug visual

Una réplica de C-3PO con Raspberry Pi 5 que conversa con LLM

Arm: USD 2.000M en pedidos por su CPU AGI de 136 cores

Un clon de Wipeout corre nativo sobre el ESP32-S3 a 60 fps

→Al grano

✦Por qué importa

¿Cuánto se aceleró la curva de capacidad cíber?

¿Qué tan lejos llegan los modelos en ataques simulados?

¿Significa esto que la IA reemplaza a los pros de ciberseguridad?

Seguir leyendo

ESP-IDF v2.1.0 para VS Code: EIM, IA y nuevo debug visual

Una réplica de C-3PO con Raspberry Pi 5 que conversa con LLM

Arm: USD 2.000M en pedidos por su CPU AGI de 136 cores

Un clon de Wipeout corre nativo sobre el ESP32-S3 a 60 fps

Al grano

Por qué importa