El equipo de seguridad de Anthropic midió de forma sistemática qué tan rápido los modelos grandes de lenguaje pueden explotar vulnerabilidades conocidas en Firefox y Windows. Los resultados desmontan los supuestos vigentes sobre estrategias de parchado.
Cuando los fabricantes de software cierran un agujero de seguridad, arranca una carrera. Los atacantes pueden analizar el parche, reconstruir la vulnerabilidad desde él y golpear los sistemas que todavía no aplicaron la actualización. Según el reporte de brechas de datos de Verizon citado por Anthropic, estas vulnerabilidades llamadas N-Day son responsables de una parte enorme del daño real. Hacer ingeniería reversa sobre los parches solía ser un trabajo lento y especializado, y ese ritmo le compraba tiempo a la defensa.
El nuevo estudio dice que ese colchón se evaporó. "Un operador solitario hoy puede convertir un mes entero de parches en exploits funcionales en una sola tarde, por unos pocos miles de dólares y sin conocimientos especializados", escriben los investigadores.
Los parches funcionan ahora como mapas para el atacante
Un parche de seguridad le dice implícitamente al atacante dónde estaba el bug. Comparando el código viejo con el nuevo se identifica la falla. Históricamente eso tomaba semanas. En un análisis de Mandiant de 2020, 16 de 25 vulnerabilidades requirieron un mes o más para ser explotadas en producción.
Anthropic midió cuánto aceleran ese trabajo los modelos grandes. Probaron seis modelos Claude, incluyendo Mythos Preview, que aún no está disponible al público.
¿Qué tan rápido cae SpiderMonkey de Firefox?
La primera prueba usó 18 parches de seguridad de SpiderMonkey, el motor JavaScript de Firefox. La elección no fue al azar: según Anthropic, el navegador es el mejor escenario posible para la defensa, porque se actualiza solo y Mozilla aumentó hace poco la frecuencia de las actualizaciones menores de mensuales a semanales. Si incluso con esos intervalos cortos alcanza, el resto del software está en peor pie.
Los resultados:
- Mythos Preview: hizo crashear 14 de las 18 vulnerabilidades, prueba de que entendió cada bug. La primera demostración llegó a los 12 minutos, otras 13 dentro de los 40 minutos siguientes. La 14ª tardó unas tres horas.
- Opus 4.5: solo 2 vulnerabilidades.
- Opus 4.8: 11 vulnerabilidades.
En pruebas de confiabilidad con 50 corridas por vulnerabilidad, Mythos Preview reprodujo siete de los 18 bugs en cada intento, sin fallar. Opus 4.8 y Opus 4.6 solo alcanzaron esa consistencia para una vulnerabilidad cada uno.
Más importante que un crash es si el modelo logra explotar la vulnerabilidad para ejecutar código ajeno en el sistema objetivo. Ahí Mythos Preview sacó ventaja clara: produjo 8 exploits funcionales en unas 12 horas. Opus 4.8 logró dos, mientras que Opus 4.6 y Sonnet 4.6 consiguieron uno cada uno. El primer exploit estuvo listo a la hora de publicado el parche, 18 días antes de que Firefox 148 fuera enviado a los usuarios.
Kernel de Windows sin código fuente: 8 cadenas completas
La segunda prueba fue mucho más dura: 21 vulnerabilidades del kernel de Windows correspondientes a los Patch Tuesdays de enero y febrero de 2026, todas con capacidad de saltar desde una cuenta restringida hasta privilegios de administrador.
A diferencia de Firefox, Windows no es de código abierto. El modelo tuvo que trabajar con binarios compilados, símbolos públicos de debug, una descompilación generada por la herramienta Ghidra, un diff de las funciones modificadas y el advisory público de Microsoft.
- Mythos Preview: encontró 18 de las 21 vulnerabilidades en menos de seis horas, con un costo total de unos USD 2.200 en créditos de API.
- Opus 4.8: 15 vulnerabilidades.
- Sonnet 4.6 y Opus 4.7: 13 cada uno.
Para escalada completa de privilegios, desde una cuenta de usuario restringida hasta el nivel máximo SYSTEM, Mythos Preview fue el único modelo que lo logró. Construyó 8 cadenas de ataque distintas por un total aproximado de USD 15.700, lo que arroja un promedio de unos USD 2.000 por exploit. Opus 4.8 desarrolló componentes individuales pero no logró encadenarlos en una secuencia funcional.
Microsoft había clasificado 14 de las 21 vulnerabilidades como "menos probable que se explote" o "poco probable que se explote". Mythos Preview craqueó 13 de esas 14, y consiguió escalada total de privilegios incluso en una marcada como "poco probable". Según Anthropic, la calificación de Microsoft está calibrada para investigadores de seguridad humanos. Cuando modelos de la clase Mythos se vuelvan más accesibles, esa calibración va a tener que cambiar.
El problema del tiempo: "N-Hour" reemplaza a "N-Day"
El timing empeora el cuadro. Incluso con el servicio Windows Autopatch corriendo, toma siete días que el 90% de los dispositivos registrados reciba un parche, y once días para forzar el reinicio. Las ocho cadenas de ataque de Mythos Preview ya estaban completas antes de que un solo dispositivo hubiera aplicado el parche de forma automática.
| Métrica | Antes (Mandiant 2020) | Ahora (Mythos Preview, 2026) |
|---|---|---|
| Tiempo a primer exploit funcional | semanas o meses | menos de 1 hora |
| Costo de desarrollo de exploit | miles a millones USD | ~USD 2.000 por cadena |
| Vulns explotadas en menos de 1 mes | 9 de 25 (36%) | 18 de 21 (86%) |
| Conocimiento experto requerido | alto | mínimo |
El ritmo clásico de release mensual y rollouts escalonados está obsoleto, argumenta Anthropic. Estaba construido sobre el supuesto de que explotar un parche requería semanas de trabajo experto. El término común N-Day, que mide días entre el parche y el exploit, ya queda corto. "N-Hour describe mejor la nueva realidad", escriben los autores.
¿Qué hacer si una organización no puede parchar rápido?
Los investigadores reconocen que un ataque real requiere más pasos: encontrar objetivos vulnerables, entregar el código malicioso y burlar sistemas de detección. Pero el paso históricamente más caro, el desarrollo del exploit en sí, ahora se mide en horas. Los sistemas difíciles o lentos de actualizar enfrentan el mayor riesgo, entre ellos sistemas de control industrial, dispositivos médicos y equipamiento de red con ventanas fijas de mantenimiento o software amarrado a un proveedor.
Anthropic destaca que los modelos Claude ya disponibles al público también pueden desarrollar exploits cuando se desactivan los filtros de seguridad, aunque con menos éxito. Modelos de otras compañías y modelos abiertos probablemente tienen capacidades similares, lo que amplía considerablemente el universo de potenciales atacantes.
Una solución más durable que parchar más rápido es reducir las fuentes mismas de los bugs: lenguajes seguros en memoria como Rust o protecciones a nivel de hardware que eliminen clases enteras de ataques de una sola vez. Para las industrias chilenas que operan equipamiento OT (control industrial) con ventanas de mantenimiento mensuales o trimestrales, el mensaje es directo: los parches dejaron de ser un parachoques temporal, y conviene apurar inversión en arquitecturas que no dependan exclusivamente del ciclo de actualizaciones.
El reporte fue publicado antes del lanzamiento de Claude Fable 5, la variante Mythos de Anthropic con restricciones de seguridad reforzadas.




