El gobierno de Estados Unidos ordenó a Anthropic desactivar el acceso mundial a sus dos modelos más potentes, Fable 5 y Mythos 5, citando preocupaciones de seguridad nacional. La compañía está cumpliendo la directiva, pero la rechaza en público y promete entregar más detalles en las próximas 24 horas.
La directiva de control de exportaciones prohíbe todo acceso a Fable 5 y Mythos 5 a ciudadanos extranjeros, estén dentro o fuera del territorio estadounidense. La medida alcanza incluso a los propios empleados internacionales de Anthropic. Para cumplirla, la empresa optó por cortar el servicio a la totalidad de su base de clientes en el mundo. Los demás modelos de Anthropic siguen disponibles, según el comunicado oficial de la compañía. Anthropic califica la orden de "malentendido" y dice estar trabajando para restaurar el acceso lo antes posible.
¿En qué consiste el jailbreak que detectó el gobierno?
Según Anthropic, el gobierno asegura haber encontrado una técnica para sortear las medidas de seguridad de Fable 5. La empresa revisó una demostración del método y concluyó que solo identifica "un pequeño número de vulnerabilidades menores ya conocidas" que otros modelos públicos también pueden detectar.
El supuesto jailbreak, descrito hasta ahora solo de manera verbal por el gobierno, se reduce a pedirle al modelo que lea una base de código específica y arregle bugs de software. Anthropic revisó el informe que sustenta la directiva y concluyó que las capacidades demostradas "están ampliamente disponibles en otros modelos", incluido GPT-5.5 de OpenAI. Investigadores de ciberseguridad usan esas capacidades a diario para proteger sistemas.
El propio marketing de Anthropic le pasa la cuenta
Antes del lanzamiento, el modelo fue testeado durante miles de horas combinadas por el gobierno estadounidense, el UK AI Safety Institute (UK AISI), organizaciones privadas y equipos internos. Las medidas de seguridad son "sustancialmente más efectivas que las de cualquier modelo desplegado antes", afirma Anthropic. De hecho, varios usuarios se quejaron de que eran demasiado restrictivas.
Ningún tester encontró un jailbreak universal, una técnica capaz de desactivar transversalmente las medidas de seguridad y desbloquear un rango amplio de capacidades cibernéticas. Pero Anthropic también admite que la resistencia perfecta a jailbreaks no es posible para ningún proveedor en este momento, un hecho bien documentado dada la enorme cantidad de vectores de ataque que ofrecen los LLMs. Toda salvaguarda industrial es vulnerable a jailbreaks no universales que pueden extraer información en casos específicos.
Sabiendo eso, la compañía dice perseguir una estrategia que llama defense in depth: mantener los jailbreaks acotados o costosos de ejecutar, combinado con monitoreo amplio para detectar y bloquear ataques exitosos. Parte de esa estrategia incluye una retención de datos de 30 días para data de clientes, algo que según Anthropic genera "costos reales con clientes" pero habilita la investigación y mitigación de jailbreaks.
La ironía es notoria para quienes habían criticado a la firma por marketing basado en miedo. Anthropic pasó meses advirtiendo en voz alta sobre los riesgos cibernéticos de los modelos clase Mythos, trabajando duro para mostrar lo superior que era el modelo. Ahora tiene que argumentar que modelos ya en el mercado tienen capacidades similares.
Anthropic alerta sobre un precedente peligroso
Anthropic cumple la orden, pero deja sus objeciones claras.
"Discrepamos de que el hallazgo de un jailbreak potencial y acotado deba ser motivo para retirar un modelo comercial desplegado para cientos de millones de personas."
Si ese estándar se aplicara al resto de la industria, "detendría de facto todos los nuevos despliegues de modelos de cualquier proveedor de frontera", afirma la compañía. En declaraciones públicas previas, Anthropic había argumentado que el gobierno debe tener el poder de bloquear despliegues inseguros, pero a través de un proceso legal "transparente, justo, claro y basado en hechos técnicos". La acción actual no cumple esos principios, dice la empresa, dejando entrever que esto podría ser otro capítulo del choque continuo entre Anthropic y el gobierno estadounidense.
El ejecutivo federal emitió hace poco una orden que permite a los desarrolladores de IA someter sus modelos a una revisión gubernamental de seguridad antes del lanzamiento. Anthropic dio la bienvenida al enfoque, pero el proceso aparentemente aún no estaba operativo cuando bajó esta directiva.
El punto débil estructural de los LLMs
Los jailbreaks y el problema asociado de las prompt injections son un dolor de cabeza sin solución desde los primeros días de los modelos de lenguaje. Ningún proveedor es inmune. La vulnerabilidad está documentada al menos desde GPT-3 y afecta a todos los sistemas basados en LLMs. ChatGPT y Claude todavía pueden ser atacados vía prompt injection bajo ciertas condiciones, aunque sus creadores hayan sumado contramedidas.
Incluso los esfuerzos de seguridad dirigidos se han quedado cortos. Hace cerca de un año, Anthropic construyó una defensa especializada contra intentos de manipulación y la sometió a un desafío público de jailbreaking. Tras cinco días, más de 300.000 mensajes y unas 3.700 horas/hombre colectivas de trabajo, el sistema fue completamente vulnerado, incluido un jailbreak universal.




