La administración Trump elevó la presión sobre Anthropic y le exigió que demuestre que las guardrails de Claude Fable 5 son técnicamente inviolables antes de permitir su relanzamiento, según reportó Wired. La compañía mantuvo el lunes una reunión técnica con el Departamento de Comercio y la Oficina del Director Nacional Cibernético, encabezada por Sean Cairncross, para defender su posición: las preocupaciones del gobierno son exageradas y los efectos prácticos de los jailbreaks documentados son mínimos. La administración respondió que ese argumento ya no está en discusión.

El punto de inflexión fue la Agencia de Seguridad Nacional. La NSA concluyó que existen formas concretas de deshabilitar las guardrails de Fable 5, que están diseñadas para impedir el acceso a capacidades sensibles del modelo Mythos relacionadas con ciberseguridad, química y biología. Funcionarios consultados por Wired aseguran que, con ese dictamen sobre la mesa, "la administración esencialmente ve la situación como un problema de Anthropic".

¿Qué exige el gobierno exactamente?

Según tres personas familiarizadas con las discusiones, ni el Centro de Estándares e Innovación en IA del Departamento de Comercio ni la NSA tienen el personal ni la capacidad para perseguir cada jailbreak posible en cada modelo que llega al mercado. La consecuencia política es que la administración cree que Anthropic debería autoauditarse, testeando proactivamente no solo a Fable 5 sino a todos sus modelos de frontera para detectar vulnerabilidades y reportarlas al gobierno por iniciativa propia.

El problema es que, a un nivel más fundamental, no queda claro cómo Anthropic debería impedir el jailbreaking. La compañía sostiene desde hace días que los efectos prácticos de los jailbreaks documentados son acotados, posición que reiteró en el encuentro con el regulador el lunes pasado.

¿Es posible diseñar guardrails inviolables?

Acá entra el dato más relevante para la industria. Investigadores independientes en ciberseguridad vienen sosteniendo desde 2024 que las guardrails de los modelos de IA son soluciones provisorias, no barreras permanentes. Usuarios con habilidades suficientes, sumados a futuros modelos cada vez más capaces, encontrarán formas de saltar las restricciones. Lo que la Casa Blanca parece pedir, en otras palabras, no puede entregarse con el estado del arte actual.

Esta postura no es nueva en la academia. La novedad es que la NSA llegue a la misma conclusión sobre Fable 5, y que esa conclusión se vuelva el estándar regulatorio implícito de la administración Trump. La pregunta incómoda queda servida: si ningún laboratorio puede garantizar guardrails inviolables, ¿qué política de relanzamiento es realista?

El contexto del bloqueo

La disputa empezó la semana pasada cuando el Departamento de Comercio invocó controles de exportación para forzar a Anthropic a sacar offline tanto Fable 5 como la familia Mythos. La carta confidencial mencionaba preocupaciones específicas sobre jailbreaks. Anthropic argumenta, en público y en privado, que el impacto real es menor del comunicado por la administración. Un vocero de la Casa Blanca declinó comentar sobre el estado actual de las negociaciones.

En paralelo, la administración insiste en que el rol del Estado no es perseguir cada vulnerabilidad: ese trabajo debería recaer sobre el laboratorio. La industria, mientras tanto, observa con atención porque el resultado de esta negociación va a marcar la línea sobre qué se exige para licenciar un modelo de frontera de cara a futuro.