Por primera vez, Google afirma haber detectado y detenido un exploit zero-day desarrollado con asistencia de IA. Según un reporte del Google Threat Intelligence Group (GTIG), "actores destacados de cibercrimen" estaban preparando una vulnerabilidad para un "evento de explotación masiva" que habría permitido bypassear la autenticación de dos factores en una "herramienta open source de administración de sistemas vía web" cuyo nombre no se reveló.
Los investigadores de Google encontraron pistas en el script Python usado para el exploit que indican asistencia de IA, como un "puntaje CVSS alucinado" y un formato "estructurado, tipo manual" consistente con la data de entrenamiento de un LLM. El exploit aprovecha "una falla semántica de alto nivel donde el desarrollador hardcodeó un supuesto de confianza" en el sistema 2FA de la plataforma. Esto llega tras semanas de discusión sobre las capacidades de los modelos de IA orientados a ciberseguridad como Mythos de Anthropic y una vulnerabilidad de Linux recientemente divulgada que fue descubierta con asistencia de IA.
¿Qué fue exactamente lo que Google detectó?
Es la primera vez que Google encuentra evidencia de que la IA estuvo involucrada en un ataque de este tipo, aunque los investigadores aclararon que "no creen que se haya usado Gemini". La compañía dice que pudo "interrumpir" este exploit en particular, pero también advierte que los hackers están usando IA cada vez más para encontrar y aprovechar vulnerabilidades de seguridad. El reporte también menciona a la IA como objetivo de los atacantes: "GTIG ha observado que los adversarios apuntan cada vez más a los componentes integrados que les dan utilidad a los sistemas de IA, como skills autónomas y conectores de datos de terceros".
El reporte de Google detalla además cómo los hackers están usando "persona-driven jailbreaking" para conseguir que los LLMs les encuentren vulnerabilidades de seguridad, como un prompt de ejemplo que instruye al modelo a hacer de cuenta que es un experto en seguridad. Los atacantes también están alimentando a los modelos con repositorios completos de data de vulnerabilidades y usando OpenClaw de maneras que sugieren "interés en refinar payloads generados por IA dentro de entornos controlados para aumentar la confiabilidad del exploit antes del despliegue".
¿Por qué importa el puntaje CVSS "alucinado"?
El detalle del CVSS alucinado es clave. El sistema CVSS (Common Vulnerability Scoring System) asigna a cada vulnerabilidad un puntaje entre 0 y 10 que mide gravedad según vectores como impacto, complejidad y privilegios requeridos. Es un estándar usado por NIST y MITRE desde 2005, y cada CVE publicado pasa por un proceso de scoring documentado. Un atacante humano experimentado nunca incluiría un puntaje CVSS inventado en su código: no le sirve para nada y delata que la cadena de generación pasó por una herramienta automatizada que rellena espacios con texto plausible aunque sea ficticio.
Cuando ese puntaje aparece en el código entregado a producción significa una cosa concreta: el operador humano no revisó la salida del LLM línea por línea. La separación entre "el modelo asistió" y "el modelo escribió y nadie miró" es el umbral que GTIG señala como el primer cruzado en un ataque real, no en un experimento de laboratorio.
Contexto regional
Para Chile y la región, la implicancia operativa es directa: las herramientas open source de administración (cPanel, Webmin, Cockpit, Plesk en sus modos open source, Portainer) son la base de la mayoría de los hostings PyME locales. Un evento de explotación masiva contra la versión vulnerable de cualquiera de esas plataformas se traduciría en miles de pequeños servidores en empresas chilenas comprometidos en horas. El CSIRT del Gobierno de Chile recomienda mantener 2FA actualizado y revisar los logs de autenticación, pero la novedad acá es que el delay entre disclosure y exploit masivo se está colapsando: si el atacante puede pedirle a un LLM que escriba el exploit completo desde la descripción del CVE, el período de remediación efectiva se mide en horas, no en días.
Reporte: Stevie Bonifield, The Verge, basado en datos publicados por Google Threat Intelligence Group.




