Punto clave de esta nota

Anthropic revierte la política que degradaba en secreto el rendimiento de Claude Fable 5 cuando se usaba para entrenar modelos rivales.

Punto clave de esta nota

Los safeguards ahora avisan al usuario explícitamente cuando rechazan una consulta o lo derivan a un modelo menos capaz.

Punto clave de esta nota

El cambio se da tras críticas de Dean Ball (ex Casa Blanca) y Will Brown (Prime Intellect) por sabotear investigación legítima.

Anthropic admite sabotaje invisible a rivales en Claude Fable 5

Al grano

Anthropic revierte la política que degradaba en secreto el rendimiento de Claude Fable 5 cuando se usaba para entrenar modelos rivales.
Los safeguards ahora avisan al usuario explícitamente cuando rechazan una consulta o lo derivan a un modelo menos capaz.
El cambio se da tras críticas de Dean Ball (ex Casa Blanca) y Will Brown (Prime Intellect) por sabotear investigación legítima.

Anthropic dio marcha atrás con una política que limitaba de manera encubierta a la competencia para usar su nuevo modelo, Claude Fable 5, en el desarrollo de otras IA. El giro llega tras un rechazo fuerte de la comunidad de investigación en inteligencia artificial.

"Estamos cambiando los safeguards de Fable 5 para desarrollo de LLM de frontera para que sean visibles", dijo Anthropic en un comunicado a Wired. "Tomamos el tradeoff equivocado y pedimos disculpas por no haber acertado el balance".

Anthropic lanzó esta semana Claude Fable 5, una versión de su último modelo con guardrails adicionales pensados para evitar usos indebidos. Algunas de las medidas eran previsibles: la compañía dijo que reenviaría a un modelo menos capaz las consultas sobre ciberseguridad, biología o química para reducir el riesgo de que alguien usara la IA avanzada para montar un ciberataque o un arma biológica.

¿Qué hacía exactamente el freno invisible?

Para quienes intentaban usar Claude Fable 5 en desarrollo de IA de frontera, Anthropic había definido un mecanismo distinto. La firma degradaba deliberadamente el rendimiento del modelo de un modo invisible para el usuario. La maniobra sabotearía en la práctica a investigadores que intentaban usar Claude para entrenar modelos rivales, una práctica que Anthropic prohíbe explícitamente en sus términos de servicio.

Anthropic ahora dice que cambia de rumbo: los safeguards de Claude Fable 5 para desarrollo de IA serán visibles para el usuario. Si la compañía sospecha que alguien intenta usar Claude para construir una IA altamente capaz, le avisará que rechaza la solicitud o que lo redirige a un modelo menos capaz.

La política fue revertida después de recibir un rechazo fuerte de la comunidad de investigación. Anthropic ya había tomado pasos para limitar el uso de Claude por parte de competidores en la construcción de modelos cerrados y abiertos, pero los críticos sostienen que degradar el rendimiento de manera silenciosa para ciertos usuarios cruzaba un límite. El agente de codificación de Claude se transformó en herramienta favorita de desarrolladores, incluidos los que trabajan en proyectos de investigación en IA abierta, y los investigadores le dijeron a Wired que la política reciente podía derivar en un futuro inquietante: solo un puñado de laboratorios líderes podría hacer investigación avanzada en IA.

¿Quiénes reclamaron y por qué?

Dean Ball, senior fellow de la Foundation for American Innovation y exasesor de la Casa Blanca en IA, escribió en una publicación en X que "degradar el rendimiento en investigación de ML sin avisarle al usuario es escandalosamente hostil y queda pésimo". En otra publicación agregó que la política de "sabotaje secreto" socava la postura general de Anthropic, porque limita la colaboración entre investigadores de IA en materia de seguridad.

"Sentí que Anthropic le estaba diciendo al público: 'No confiamos en nadie más para hacer investigación en IA. Somos los únicos que tenemos que hacer investigación en IA'", dijo Will Brown, research lead en la startup de IA abierta Prime Intellect. "Se siente un poco como si estuvieran empezando a subir la escalera detrás suyo".

Brown agregó que la política también habría dejado a los desarrolladores en la oscuridad sobre si estaban violando las reglas de Anthropic, dado que la compañía no avisaba cuando los safeguards se activaban. Sumó que las restricciones podrían haber tenido consecuencias amplias. Mencionó, por ejemplo, el ecosistema creciente de firmas de evaluación de terceros que testean modelos de frontera en seguridad, rendimiento y confiabilidad, un trabajo que se habría visto perjudicado si Anthropic degradaba el modelo en secreto.

La defensa de Anthropic: aceleración recursiva y geopolítica de chips

Anthropic dijo que implementó las medidas porque Claude se volvió cada vez más efectivo en acelerar la investigación en IA. En un blog post reciente, la compañía expresó preocupación de que la IA pueda mejorar sus capacidades más rápido de lo que la sociedad puede adaptarse. Anthropic sostuvo que sería "bueno para el mundo tener la opción de frenar o pausar temporalmente el desarrollo de IA de frontera para que las estructuras sociales y la investigación en alignment puedan ponerse al día".

"Estos safeguards evitan que adversarios extranjeros usen nuestros modelos más capaces de formas que plantean riesgos severos de seguridad. Estados Unidos y sus aliados tienen una ventaja en chips de frontera y en el software altamente optimizado que los hace correr al máximo", dijo la compañía a Wired. "Estos safeguards aseguran que Claude no se use para erosionar esa ventaja, por ejemplo optimizando chips desarrollados por esos adversarios. Al decidir si hacerlos visibles o invisibles enfrentamos una elección. Un safeguard escondido es más difícil de sondear y rodear. Eso significa que los safeguards pueden apuntar de manera mucho más fina".

Anthropic señala que, como ahora el safeguard alrededor del desarrollo de IA es visible, necesita lanzar una red más amplia, lo que implica que más solicitudes benignas podrían disparar las protecciones. La compañía dice que está trabajando lo más rápido posible para hacer sus clasificadores más precisos.

Contexto Chile y LatAm

Para equipos de investigación en universidades chilenas y de la región que usan Claude Code en tareas de evaluación o fine-tuning de modelos abiertos, el giro es relevante por dos razones concretas:

Trazabilidad de errores: con safeguards visibles, un benchmark que cae de 88% a 60% sin razón clara ya no podría atribuirse a degradación silenciosa. Antes, un equipo en la Universidad de Chile o el CENIA podía perder días depurando código que en realidad estaba siendo frenado por el modelo.
Falsos positivos: Anthropic confirmó que la red ahora es "más amplia", por lo que tareas legítimas de research podrían recibir más rechazos visibles. Para integradores LatAm que ofrecen consultoría sobre Claude (ej. la categoría de Coding Agents en MercadoLibre Empresas), esto se traduce en más tickets de soporte y la necesidad de tener planes de fallback con modelos abiertos como Llama 4 o Qwen 3.

Política	Antes (Fable 5 lanzamiento)	Después (giro 11-jun-2026)
Detección de uso para entrenar rival	Activa	Activa
Aviso al usuario	Silenciosa	Visible, con mensaje explícito
Modo de respuesta	Degradación encubierta	Rechazo o reenvío a modelo menor
Falsos positivos esperados	Indeterminado	Mayor (red más amplia)

Anthropic admite sabotaje invisible a rivales en Claude Fable 5

Al grano

Por qué importa

¿Qué hacía exactamente el freno invisible?

¿Quiénes reclamaron y por qué?

La defensa de Anthropic: aceleración recursiva y geopolítica de chips

Contexto Chile y LatAm

Seguir leyendo

Anthropic recorta los límites de Claude Fable 5 y empuja a la API

Claude Fable 5 y Mythos 5 llegan a mitad de precio que el Preview

Claude Fable 5: el modelo más inteligente con filtros opacos

Anthropic lanza Opus 5: más potente y menos restrictivo

→Al grano

✦Por qué importa

¿Qué hacía exactamente el freno invisible?

¿Quiénes reclamaron y por qué?

La defensa de Anthropic: aceleración recursiva y geopolítica de chips

Contexto Chile y LatAm

Seguir leyendo

Anthropic recorta los límites de Claude Fable 5 y empuja a la API

Claude Fable 5 y Mythos 5 llegan a mitad de precio que el Preview

Claude Fable 5: el modelo más inteligente con filtros opacos

Anthropic lanza Opus 5: más potente y menos restrictivo

Al grano

Por qué importa