Los modelos de IA de frontera están ganando capacidades cibernéticas más rápido de lo que cualquiera había previsto. El AI Security Institute (AISI) del Reino Unido revisó al alza su estimación dos veces en pocos meses: en noviembre de 2025 calculaba que esas capacidades se duplicaban cada ocho meses, en febrero de 2026 bajó el tiempo a 4,7 meses, y ahora sostiene que Claude Mythos Preview de Anthropic y GPT-5.5 de OpenAI "superaron sustancialmente" incluso esa proyección acelerada.

Si la tendencia se mantiene o si se trata de un salto puntual es algo que el propio AISI admite no poder responder todavía. El comportamiento de los últimos modelos saturó el entorno de prueba de la agencia y rompió las curvas que venía usando para anticipar el progreso.

¿Qué hizo exactamente Claude Mythos Preview en las pruebas?

El mayor avance apareció en los cyber ranges del AISI, simulaciones complejas que reproducen ataques realistas contra infraestructura. Uno de los rangos plantea un ataque de 32 pasos sobre una red corporativa que un experto humano tardaría unas 20 horas en completar. El último checkpoint de Mythos Preview lo cerró en 6 de 10 intentos, contra los 3 de 10 que había logrado la versión anterior.

El segundo rango, llamado Cooling Tower, simula un sistema de control industrial (ICS). Mythos Preview lo resolvió en 3 de 10 intentos, algo que ningún modelo previo había conseguido. Sus mejores corridas llegaron incluso a la etapa nueve, la toma total de la red.

"La dirección del movimiento es clara: las capacidades cibernéticas avanzan rápido y los modelos recientes representan un salto real sobre lo anterior", escribió el AISI, que ya está construyendo evaluaciones más duras con defensas activas para acompañar la curva.

Lo que vio XBOW: precisión sin precedentes leyendo código

La firma de seguridad ofensiva XBOW probó Mythos Preview de forma independiente con un equipo de diez especialistas. Comparado con Claude Opus 4.6, el nuevo modelo redujo los falsos negativos en 42% sin acceso al código fuente, y en 55% cuando se le permitió leerlo. Incluso detectó vulnerabilidades dentro del sandbox V8 de Chromium, una zona donde los modelos anteriores solo producían falsos positivos.

"Mythos Preview escribe código de forma impresionante, pero es todavía más impresionante leyéndolo", resume el reporte de XBOW.

La compañía también marcó los límites del modelo. Acceder a un sistema en funcionamiento suele importar más que acceder al código, porque muchas vulnerabilidades emergen de la configuración, de las dependencias o de la interacción entre componentes individualmente seguros. En benchmarks donde la falla existe solo en el código, quitarle al modelo el acceso al sistema vivo afectó más su rendimiento que quitarle el acceso al código.

¿Vale la pena el precio?

Anthropic anunció que Mythos Preview puede costar hasta cinco veces más que un modelo Opus. Normalizado por costo operativo estimado, XBOW lo califica como "no terriblemente ineficiente, al menos si se busca alta precisión, pero tampoco lo mejor de su clase". La alternativa, según la firma, es darle a un agente potenciado por GPT-5.5 más tiempo, lo que suele entregar resultados equivalentes o mejores a menor costo.

La recomendación práctica de XBOW es desplegar "un cuadro de modelos" en lugar de apostar todo a uno solo. Mythos Preview destacó en detección de vulnerabilidades web y en el sandbox V8, pero quedó en zonas "mediocres" o "regulares" en tareas más amplias de juicio y planificación.

"Dentro de un año, Mythos se va a ver tonto"

Logan Graham, líder del red-teaming de Project Glasswing en Anthropic, puso los resultados en perspectiva. Los socios de Glasswing usaron Mythos Preview para encontrar "muchos miles de vulnerabilidades estimadas de severidad alta y crítica" en pocas semanas, "a veces el doble de lo que habrían encontrado en un año".

"Dentro de un año, Mythos probablemente se vea bastante tonto en comparación con otros modelos nuevos", advirtió Graham. El mensaje, según él, no es destacar un modelo sino preparar a la industria para un mundo donde los sistemas sean "mejores, más rápidos, más baratos y más creativos que algunos de los mejores expertos humanos" en capacidades de doble uso. Otros proveedores podrían liberar modelos abiertos o sin restricciones con desempeño similar al de Mythos.

El plano geopolítico

Anthropic presentó Claude Mythos a comienzos de abril y limitó el acceso a alrededor de 50 empresas alegando razones de seguridad. Los críticos consideraron la medida exagerada o una jugada de relaciones públicas. La realidad probablemente está en el medio: Mythos no es un valor atípico inédito, pero sí es el primer modelo anunciado públicamente con capacidades cibernéticas que superan claramente lo conocido hasta ahora.

El gobierno de Estados Unidos ya está examinando y probando el modelo de cerca. Anthropic, en paralelo, bloqueó el acceso desde China y aparentemente también desde la Unión Europea. OpenAI sí abrió conversaciones con la UE sobre acceso temprano a GPT-5.5-Cyber. El cuadro deja en evidencia cuánto depende Europa de la buena voluntad de los grandes proveedores estadounidenses, en parte porque no existe un equivalente europeo competitivo.

Para integradores y equipos de seguridad en Chile y Latinoamérica, el dato operativo es concreto: la próxima generación de auditorías de código podría incluir un agente IA capaz de cerrar en horas tareas que antes ocupaban a un equipo durante semanas. El acceso, sin embargo, sigue concentrado en EE.UU. y en una lista corta de socios.