Claude Fable 5 encabeza el Artificial Analysis Intelligence Index y deja marcas nuevas en varios benchmarks. La diferencia con su antecesor, sin embargo, es estrecha y el costo más que se duplica.

El nuevo modelo insignia de Anthropic, Claude Fable 5, alcanza 64,9 puntos en el Artificial Analysis Intelligence Index y se queda con el primer puesto. La distancia con el mejor modelo no-Anthropic, GPT-5.5, es de cerca de cinco puntos. Anthropic acapara ahora los dos primeros lugares de la tabla.

El precio de la corona

Esa corona se paga cara. Fable 5 cobra USD 10 por millón de tokens de entrada y USD 50 por millón de salida, justo el doble de los USD 5 y USD 25 que cuesta Opus 4.8. Una corrida completa del índice llega a USD 9.940 versus USD 4.970 de Opus 4.8 con razonamiento máximo. Esa prima compra 5,7% de mejora en rendimiento.

Opus 4.8 y 4.7 ya habían seguido el mismo patrón frente a Opus 4.6, con saltos de precio fuertes para mejoras chicas. La propia Anthropic calificó el avance de 4.8 sobre 4.7 como "modesto pero tangible".

Las empresas deberán sopesar con cuidado qué casos de uso justifican pagar el doble por aproximadamente cinco por ciento más de capacidad. Los escépticos de los benchmarks recordarán que ninguna batería de tests captura del todo el desempeño real. Al menos el AA Index agrega diez evaluaciones, dándole una base más ancha que cualquier benchmark aislado.

Según The Decoder, dependiendo de la región la cuenta mensual por uso empresarial intensivo podría equiparar el costo de desarrolladores con experiencia. Los datos de Artificial Analysis dejan en claro que la economía se vuelve un factor central en la elección de modelo.

Récord en cinco de diez benchmarks

Los números crudos son notables. Fable 5 marca récords en cinco de los diez benchmarks del Intelligence Index. En AA-Omniscience, la prueba de conocimiento y alucinaciones, llega a 40 puntos, siete por encima del líder anterior Gemini 3.1 Pro Preview. Ese liderazgo viene principalmente de mayor precisión, no de menor tasa de alucinación. En alucinaciones queda justo en la mitad del pelotón, con 55%.

Artificial Analysis observa un vínculo fuerte entre precisión en AA-Omniscience y tamaño del modelo entre los pesos abiertos. Eso sugiere que Fable 5 podría ser más grande que cualquier modelo público anterior de Anthropic.

En tareas agénticas Fable 5 amplía la ventaja de Anthropic. En GDPval-AA, un benchmark de trabajo de conocimiento del mundo real, alcanza un Elo de 1.932, 2,2% sobre los 1.890 de Opus 4.8. También lidera Terminal-Bench Hard en codificación agéntica y Tau2-bench Telecom en uso de herramientas.

En Humanity's Last Exam el modelo marca 53%, más de siete puntos arriba de Opus 4.8. Una sola corrida de HLE con fallback cuesta cerca de USD 2.200, la más cara de cualquier modelo testeado por Artificial Analysis. Los Opus anteriores tenían techo en USD 1.974.

Filtros de seguridad encarecen la cuenta

Fable 5 usa el mismo modelo base que Claude Mythos 5 según Anthropic, más resguardos adicionales para consultas que toquen ciberseguridad, biología, química y destilación de modelos. Cuando un filtro se activa, un mecanismo de fallback redirige la consulta a Opus 4.8. Esas consultas redirigidas igual se facturan, elevando el costo total.

Anthropic dice que menos del 5% de las sesiones se ven afectadas. Pero Artificial Analysis midió ruteo de fallback en cerca del 8% de las tareas durante su evaluación, sobre todo en preguntas de ciencia de GPQA, AA-Omniscience y Humanity's Last Exam. En el test HLE solo, la tasa de fallback llegó al 9%.

¿Hasta cuándo está disponible?

Fable 5 mantiene la misma ventana de contexto de un millón de tokens que Opus 4.8. Los suscriptores Pro, Max, Team y Enterprise pueden usarlo hasta el 22 de junio, con consumo contabilizado al doble de la tasa de Opus. Después pasa a facturación por créditos, lo que lo hace todavía más caro de lo que sugieren las tarifas por token. Anthropic dice que el acceso por suscripción volverá cuando lo permita la capacidad.

Análisis externos ya detectaron que los filtros de seguridad bloquean cantidades importantes de pedidos inocuos, desde preguntas de física médica hasta revisiones básicas de seguridad. La system card de Anthropic también reveló throttling invisible que degrada el desempeño de Fable cuando los usuarios intentan construir modelos frontera competidores, aunque la compañía dio marcha atrás parcial en ese punto.

¿Vale la pena pagar el doble?

Para integradores en Chile y América Latina la pregunta es muy concreta: la diferencia de 5,7% que justifica duplicar el costo solo paga si el caso de uso queda dentro de ese margen estrecho de tareas donde el techo de capacidad importa. Para coding agentico, soporte conversacional y RAG empresarial, Opus 4.8 a USD 5/USD 25 sigue ofreciendo la mejor relación precio-rendimiento del catálogo Anthropic.