Microsoft construyó un sistema agéntico multi-modelo que utiliza más de 100 agentes de IA especializados para detectar vulnerabilidades de software, y lo usó para encontrar 16 fallas nuevas en Windows que entraron al Patch Tuesday del 12 de mayo de 2026.
El sistema de seguridad, llamado MDASH (Multi-Model Agentic Scanning Harness), está diseñado para encontrar automáticamente vulnerabilidades en software. A diferencia de los enfoques que dependen de un solo modelo de IA como Claude Mythos, MDASH orquesta más de 100 agentes de IA especializados a lo largo de un ensamblaje de modelos frontera y modelos destilados, según Microsoft.
¿Qué encontró MDASH en Windows?
En el Patch Tuesday del 12 de mayo de 2026, Microsoft reportó 16 vulnerabilidades nuevas (CVEs) en el stack de red y autenticación de Windows, descubiertas por MDASH. La compañía clasifica cuatro de ellas como críticas, incluidas vulnerabilidades de ejecución remota de código (RCE) en:
- tcpip.sys, componente del kernel de Windows.
- ikeext.dll, servicio IKEv2.
- netlogon.dll, encargado del logon de red.
- dnsapi.dll, librería de DNS.
10 de las 16 vulnerabilidades afectan modo kernel, y la mayoría son accesibles desde la red sin autenticación, asegura Microsoft. La empresa subraya que su propia base de código es especialmente difícil de auditar: Windows, Hyper-V y Azure son propietarios y no forman parte de los datos públicos de entrenamiento.
¿Cómo funciona el flujo de 100 agentes?
El sistema opera en un flujo de cuatro etapas:
1. Análisis estático. Primero, analiza el código fuente y mapea la superficie de ataque. 2. Auditores. Agentes auditores especializados escanean el código en busca de áreas sospechosas. 3. Debaters. Un segundo grupo de agentes, a los que Microsoft llama "debaters", argumentan a favor y en contra de la explotabilidad de cada hallazgo. Los duplicados se fusionan. 4. Evidence Leaders. Agentes "Evidence Leaders" intentan gatillar la vulnerabilidad con entradas específicas en la etapa final.
El sistema es agnóstico al modelo: cuando aparece un modelo nuevo, se lo puede testear contra el anterior con solo cambiar la configuración. Plugins permiten a expertos inyectar conocimiento de dominio específico, como convenciones de llamada del kernel o límites de confianza de IPC, que ningún modelo fundacional conoce por sí solo.
¿Qué puntaje sacó en CyberGym y cuánto vale esa cifra?
En el benchmark público CyberGym, que contiene 1.507 vulnerabilidades reales, el sistema obtuvo 88,45%, el mejor resultado de la tabla pública y aproximadamente cinco puntos por delante del siguiente mejor modelo.
La comparación es engañosa, sin embargo, ya que Microsoft está enfrentando un framework completo contra modelos individuales, que probablemente puntuarían más alto envueltos en un arnés similar.
El blog post no revela qué modelos exactos usó Microsoft para alcanzar ese puntaje. La compañía solo se refiere a "modelos SOTA" como razonadores pesados, "modelos destilados" como debaters de bajo costo, y un "segundo modelo SOTA separado" como contraparte independiente. Si vienen de OpenAI, Anthropic, los propios laboratorios de Microsoft o terceros, sigue sin estar claro.
¿Quién está detrás del sistema?
MDASH está respaldado por el Autonomous Code Security Team de Microsoft. Algunos de sus integrantes vienen de Team Atlanta, ganador del DARPA AI Cyber Challenge, según Microsoft. Para esa competencia, el equipo construyó un sistema autónomo de razonamiento cibernético que detectaba y arreglaba bugs en proyectos open source complejos.
Por ahora MDASH está disponible solo en un private preview limitado para clientes externos. El detalle técnico está disponible en el blog de Microsoft.
Otras compañías como OpenAI y Anthropic también empujan más profundo en ciberseguridad con IA, apuntando a usar sus modelos para defender contra las mismas amenazas que los sistemas de IA ayudaron a amplificar.




