Los precios de los modelos de Anthropic vuelven a subir sin que la empresa lo diga en voz alta. Un estudio independiente de la firma Artificial Analysis muestra que Claude Sonnet 5 consume alrededor de un 40% más de tokens de salida por tarea que Sonnet 4.6 y ejecuta hasta tres veces más ciclos de agente, lo que casi duplica su costo real de operación aunque las tarifas por token no se movieron.
¿Dónde queda Sonnet 5 en el ranking de inteligencia?
El AA Intelligence Index v4.1, un promedio ponderado de varios benchmarks, ubica a Sonnet 5 en el quinto puesto con 53 puntos, empatado con GPT-5.5 en configuración "high". Por encima quedan cuatro modelos: GPT-5.5 en configuración "xhigh" con 55, Opus 4.7 con 54, Opus 4.8 con 56 y Claude Fable 5, disponible de nuevo desde el 1 de julio, con 60 puntos.
El salto respecto de Sonnet 4.6, que alcanzaba 47 puntos, es de 6 unidades. Es un avance sólido en tareas específicas: +9 puntos en Terminal-Bench v2.1, +10 puntos en Humanity's Last Exam y +7 puntos en SciCode. En el resto de las evaluaciones los resultados quedaron parejos.
Mismas tarifas por token, costo por tarea casi el doble
En papel, Sonnet 5 mantiene las tarifas de su predecesor: USD 3 por millón de tokens de entrada y USD 15 por millón de tokens de salida. Opus 4.8 sigue en USD 5 y USD 25. Pero cuando Artificial Analysis midió el costo promedio de una tarea del Intelligence Index, Sonnet 5 quedó en USD 2,29 contra USD 1,97 del propio Opus 4.8, y frente a los USD 1,20 que costaba una tarea con Sonnet 4.6.
En su modo de máximo rendimiento ("max"), el nuevo modelo quema alrededor de un 40% más de tokens de salida por tarea. En benchmarks pesados en agentes como AA-Briefcase y GDPval-AA, ejecuta cerca de tres veces más ciclos de agente que Sonnet 4.6.
Anthropic mantiene una tarifa promocional de USD 2 y USD 10 por millón hasta el 1 de septiembre, pero el estudio se hizo con la lista de precios estándar.
¿Es sólido Sonnet 5 en razonamiento pesado?
En pruebas de razonamiento frontera Sonnet 5 aún queda detrás de los modelos mayores. En CritPt, el test de razonamiento en física del Argonne National Labs y la Universidad de Illinois, obtuvo un 17% de aciertos. Son 14 puntos por sobre Sonnet 4.6, pero por debajo de GLM-5.2, Claude Opus, Fable y GPT-5.5 en sus configuraciones altas.
Un patrón que se repite en Anthropic
No es la primera vez. Cuando llegó Opus 4.7, las tarifas por token quedaron intactas en el papel pero un nuevo tokenizador partía el mismo texto en aproximadamente un 30% más de tokens, inflando la factura real. El desarrollador Abhishek Ray midió un aumento de entre 1,325x y 1,47x, y un análisis comunitario sobre 483 submissions detectó un 37,4% de tokens adicionales por request.
Con Sonnet 5 el efecto tokenizador se combina con un comportamiento mucho más orientado a agentes, que triplica el gasto de tokens en tareas prolongadas.
Los modelos de Anthropic se encarecen generación tras generación, a veces de forma marcada, pero las listas de precios oficiales no lo reflejan. Ese encarecimiento silencioso complica la venta cuando competidores chinos como DeepSeek V4 Pro y GLM-5.2 ofrecen desempeño competitivo por una fracción del costo en el segmento de rango medio donde Sonnet compite.
¿Qué pueden hacer los equipos LatAm que usan Sonnet en producción?
Para integradores chilenos y latinoamericanos que facturan servicios de agente en dólares, el patrón implica revisar el margen contra el tipo de cambio del peso chileno y auditar los ciclos de agente promedio por ejecución. Un mismo caso de uso que costaba unos CLP 1.150 mensuales por 1.000 tareas con Sonnet 4.6 hoy pasaría a unos CLP 2.150 al migrar a Sonnet 5, sin cambio en la lista de precios oficial de Anthropic.
La industria empieza a pedir métricas de precio más honestas, como costo por tarea estandarizada o costo por trabajo de conocimiento del mundo real, en lugar de tarifas por token que pierden significado cuando el modelo consume más tokens para la misma tarea.




