Punto clave de esta nota

Mythos Preview de Anthropic construyó exploits funcionales para 8 vulnerabilidades en Firefox SpiderMonkey en unas 12 horas, 18 días antes del release.

Punto clave de esta nota

Sobre 21 vulnerabilidades del kernel de Windows, encontró 18 en menos de 6 horas y construyó 8 cadenas de escalada SYSTEM por USD 15.700 totales.

¿Costo promedio por cadena completa de escalada de privilegios?

unos USD 2.000 en créditos API, sin conocimientos especializados.

Anthropic: la IA convierte parches en exploits en horas, no semanas

Al grano

Mythos Preview de Anthropic construyó exploits funcionales para 8 vulnerabilidades en Firefox SpiderMonkey en unas 12 horas, 18 días antes del release.
Sobre 21 vulnerabilidades del kernel de Windows, encontró 18 en menos de 6 horas y construyó 8 cadenas de escalada SYSTEM por USD 15.700 totales.
Costo promedio por cadena completa de escalada de privilegios: unos USD 2.000 en créditos API, sin conocimientos especializados.

El equipo de seguridad de Anthropic midió de forma sistemática qué tan rápido los modelos grandes de lenguaje pueden explotar vulnerabilidades conocidas en Firefox y Windows. Los resultados desmontan los supuestos vigentes sobre estrategias de parchado.

Cuando los fabricantes de software cierran un agujero de seguridad, arranca una carrera. Los atacantes pueden analizar el parche, reconstruir la vulnerabilidad desde él y golpear los sistemas que todavía no aplicaron la actualización. Según el reporte de brechas de datos de Verizon citado por Anthropic, estas vulnerabilidades llamadas N-Day son responsables de una parte enorme del daño real. Hacer ingeniería reversa sobre los parches solía ser un trabajo lento y especializado, y ese ritmo le compraba tiempo a la defensa.

El nuevo estudio dice que ese colchón se evaporó. "Un operador solitario hoy puede convertir un mes entero de parches en exploits funcionales en una sola tarde, por unos pocos miles de dólares y sin conocimientos especializados", escriben los investigadores.

Los parches funcionan ahora como mapas para el atacante

Un parche de seguridad le dice implícitamente al atacante dónde estaba el bug. Comparando el código viejo con el nuevo se identifica la falla. Históricamente eso tomaba semanas. En un análisis de Mandiant de 2020, 16 de 25 vulnerabilidades requirieron un mes o más para ser explotadas en producción.

Anthropic midió cuánto aceleran ese trabajo los modelos grandes. Probaron seis modelos Claude, incluyendo Mythos Preview, que aún no está disponible al público.

¿Qué tan rápido cae SpiderMonkey de Firefox?

La primera prueba usó 18 parches de seguridad de SpiderMonkey, el motor JavaScript de Firefox. La elección no fue al azar: según Anthropic, el navegador es el mejor escenario posible para la defensa, porque se actualiza solo y Mozilla aumentó hace poco la frecuencia de las actualizaciones menores de mensuales a semanales. Si incluso con esos intervalos cortos alcanza, el resto del software está en peor pie.

Los resultados:

Mythos Preview: hizo crashear 14 de las 18 vulnerabilidades, prueba de que entendió cada bug. La primera demostración llegó a los 12 minutos, otras 13 dentro de los 40 minutos siguientes. La 14ª tardó unas tres horas.
Opus 4.5: solo 2 vulnerabilidades.
Opus 4.8: 11 vulnerabilidades.

En pruebas de confiabilidad con 50 corridas por vulnerabilidad, Mythos Preview reprodujo siete de los 18 bugs en cada intento, sin fallar. Opus 4.8 y Opus 4.6 solo alcanzaron esa consistencia para una vulnerabilidad cada uno.

Más importante que un crash es si el modelo logra explotar la vulnerabilidad para ejecutar código ajeno en el sistema objetivo. Ahí Mythos Preview sacó ventaja clara: produjo 8 exploits funcionales en unas 12 horas. Opus 4.8 logró dos, mientras que Opus 4.6 y Sonnet 4.6 consiguieron uno cada uno. El primer exploit estuvo listo a la hora de publicado el parche, 18 días antes de que Firefox 148 fuera enviado a los usuarios.

Kernel de Windows sin código fuente: 8 cadenas completas

La segunda prueba fue mucho más dura: 21 vulnerabilidades del kernel de Windows correspondientes a los Patch Tuesdays de enero y febrero de 2026, todas con capacidad de saltar desde una cuenta restringida hasta privilegios de administrador.

A diferencia de Firefox, Windows no es de código abierto. El modelo tuvo que trabajar con binarios compilados, símbolos públicos de debug, una descompilación generada por la herramienta Ghidra, un diff de las funciones modificadas y el advisory público de Microsoft.

Mythos Preview: encontró 18 de las 21 vulnerabilidades en menos de seis horas, con un costo total de unos USD 2.200 en créditos de API.
Opus 4.8: 15 vulnerabilidades.
Sonnet 4.6 y Opus 4.7: 13 cada uno.

Para escalada completa de privilegios, desde una cuenta de usuario restringida hasta el nivel máximo SYSTEM, Mythos Preview fue el único modelo que lo logró. Construyó 8 cadenas de ataque distintas por un total aproximado de USD 15.700, lo que arroja un promedio de unos USD 2.000 por exploit. Opus 4.8 desarrolló componentes individuales pero no logró encadenarlos en una secuencia funcional.

Microsoft había clasificado 14 de las 21 vulnerabilidades como "menos probable que se explote" o "poco probable que se explote". Mythos Preview craqueó 13 de esas 14, y consiguió escalada total de privilegios incluso en una marcada como "poco probable". Según Anthropic, la calificación de Microsoft está calibrada para investigadores de seguridad humanos. Cuando modelos de la clase Mythos se vuelvan más accesibles, esa calibración va a tener que cambiar.

El problema del tiempo: "N-Hour" reemplaza a "N-Day"

El timing empeora el cuadro. Incluso con el servicio Windows Autopatch corriendo, toma siete días que el 90% de los dispositivos registrados reciba un parche, y once días para forzar el reinicio. Las ocho cadenas de ataque de Mythos Preview ya estaban completas antes de que un solo dispositivo hubiera aplicado el parche de forma automática.

Métrica	Antes (Mandiant 2020)	Ahora (Mythos Preview, 2026)
Tiempo a primer exploit funcional	semanas o meses	menos de 1 hora
Costo de desarrollo de exploit	miles a millones USD	~USD 2.000 por cadena
Vulns explotadas en menos de 1 mes	9 de 25 (36%)	18 de 21 (86%)
Conocimiento experto requerido	alto	mínimo

El ritmo clásico de release mensual y rollouts escalonados está obsoleto, argumenta Anthropic. Estaba construido sobre el supuesto de que explotar un parche requería semanas de trabajo experto. El término común N-Day, que mide días entre el parche y el exploit, ya queda corto. "N-Hour describe mejor la nueva realidad", escriben los autores.

¿Qué hacer si una organización no puede parchar rápido?

Los investigadores reconocen que un ataque real requiere más pasos: encontrar objetivos vulnerables, entregar el código malicioso y burlar sistemas de detección. Pero el paso históricamente más caro, el desarrollo del exploit en sí, ahora se mide en horas. Los sistemas difíciles o lentos de actualizar enfrentan el mayor riesgo, entre ellos sistemas de control industrial, dispositivos médicos y equipamiento de red con ventanas fijas de mantenimiento o software amarrado a un proveedor.

Anthropic destaca que los modelos Claude ya disponibles al público también pueden desarrollar exploits cuando se desactivan los filtros de seguridad, aunque con menos éxito. Modelos de otras compañías y modelos abiertos probablemente tienen capacidades similares, lo que amplía considerablemente el universo de potenciales atacantes.

Una solución más durable que parchar más rápido es reducir las fuentes mismas de los bugs: lenguajes seguros en memoria como Rust o protecciones a nivel de hardware que eliminen clases enteras de ataques de una sola vez. Para las industrias chilenas que operan equipamiento OT (control industrial) con ventanas de mantenimiento mensuales o trimestrales, el mensaje es directo: los parches dejaron de ser un parachoques temporal, y conviene apurar inversión en arquitecturas que no dependan exclusivamente del ciclo de actualizaciones.

El reporte fue publicado antes del lanzamiento de Claude Fable 5, la variante Mythos de Anthropic con restricciones de seguridad reforzadas.

Anthropic: la IA convierte parches en exploits en horas, no semanas

Al grano

Por qué importa

Los parches funcionan ahora como mapas para el atacante

¿Qué tan rápido cae SpiderMonkey de Firefox?

Kernel de Windows sin código fuente: 8 cadenas completas

El problema del tiempo: "N-Hour" reemplaza a "N-Day"

¿Qué hacer si una organización no puede parchar rápido?

Seguir leyendo

Guardarrailes de IA frenan a la ciberseguridad ofensiva

Mythos AI de Anthropic rompió casi todos los sistemas clasificados

Anthropic triplica Project Glasswing a 200 organizaciones

Claude Mythos halla 10.000 bugs críticos en un mes

→Al grano

✦Por qué importa

Los parches funcionan ahora como mapas para el atacante

¿Qué tan rápido cae SpiderMonkey de Firefox?

Kernel de Windows sin código fuente: 8 cadenas completas

El problema del tiempo: "N-Hour" reemplaza a "N-Day"

¿Qué hacer si una organización no puede parchar rápido?

Seguir leyendo

Guardarrailes de IA frenan a la ciberseguridad ofensiva

Mythos AI de Anthropic rompió casi todos los sistemas clasificados

Anthropic triplica Project Glasswing a 200 organizaciones

Claude Mythos halla 10.000 bugs críticos en un mes

Al grano

Por qué importa