Cloudflare probó Mythos Preview, el modelo de seguridad de Anthropic, sobre más de 50 de sus propios repositorios bajo Project Glasswing. La diferencia con generaciones anteriores no fue solo la cantidad de bugs detectados, sino la capacidad de encadenar varias vulnerabilidades pequeñas hasta un exploit funcional, compilando y ejecutando código de prueba por sí mismo para demostrar que el ataque era real.

¿Qué hace distinto a Mythos Preview?

Los modelos frontier previos encontraban bugs individuales y en ocasiones entregaban análisis sólidos, según el CSO de Cloudflare, Grant Bourzikas. El problema era el armado: dejaban cadenas incompletas y la pregunta sobre si el bug era explotable terminaba abierta. Mythos Preview produjo, según el reporte, menos hallazgos especulativos, pasos de reproducción más claros y menor necesidad de seguimiento humano para decidir entre arreglar o descartar.

El modelo no se limita al análisis estático. Escribe el proof-of-concept, lo compila, lo corre y verifica que la cadena de fallas se concrete. Esa autonomía es lo que cambia el flujo de trabajo: el equipo de seguridad pasa de validar conjeturas a revisar exploits ya demostrados sobre código real.

¿Cómo se evita que la IA invente fallas?

Cloudflare es enfático en que un único agente no alcanza. La compañía levantó un harness multi-etapa con hasta 50 agentes en paralelo y revisión adversarial: un segundo agente intenta refutar cada hallazgo del primero antes de elevarlo. Esa capa de contraste filtra falsos positivos sin requerir intervención humana en cada paso.

El planteo va en línea con cómo se viene midiendo la calidad de los agentes de seguridad en 2026: no basta con que un modelo encuentre algo, tiene que demostrar que sirve y resistir el contra-argumento de otro agente. La iteración entre el "encontrador" y el "refutador" es la que produce el reporte final que llega al equipo humano.

La advertencia que Cloudflare no esquiva

Las mismas capacidades estarán al alcance de actores ofensivos, reconoce Cloudflare. Un modelo capaz de fabricar y validar exploits reduce la barrera técnica para automatizar campañas de ataque sobre código abierto y comercial. Para equipos blue team el corolario es operativo: si la defensa necesita 50 agentes en paralelo y revisión cruzada para mantenerse al día, el costo de operar seguridad ofensiva con la misma stack también baja del lado contrario.

Datos clave del experimento

  • Repositorios analizados: más de 50, todos propios de Cloudflare, bajo el paraguas de Project Glasswing.
  • Agentes en el harness: hasta 50 en paralelo, con un segundo agente que refuta cada hallazgo antes de elevarlo.
  • Capacidad clave: cadenas de vulnerabilidades pequeñas convertidas en exploits funcionales con código compilado y ejecutado por la IA.
  • Modelo: Mythos Preview, la familia security-focused de Anthropic, todavía en acceso restringido sin fecha de disponibilidad general comunicada.

Mythos Preview sigue en preview restringida y Anthropic no comunicó fecha de disponibilidad general. Cloudflare publicó el detalle del experimento en su blog corporativo bajo el paraguas de Project Glasswing, sin liberar los repositorios analizados ni la lista específica de cadenas detectadas.