Anthropic liberó Claude Sonnet 5, el modelo intermedio que la propia compañía califica como el más agentic de la serie Sonnet: puede armar planes por su cuenta, usar herramientas como navegadores y terminales, y trabajar de forma autónoma en un nivel que hace pocos meses solo alcanzaban modelos más grandes y caros. Los benchmarks publicados muestran una mejora consistente sobre Sonnet 4.6 y una brecha reducida con Opus 4.8.
¿Qué muestran los benchmarks?
Los datos oficiales dibujan un salto claro sobre el modelo anterior y una convergencia con la serie Opus:
| Benchmark | Sonnet 5 | Sonnet 4.6 | Opus 4.8 |
|---|---|---|---|
| SWE-bench Pro (coding agentic) | 63,2% | 58,1% | 69,2% |
| Terminal-Bench 2.1 | 80,4% | 67,0% | — |
| Humanity's Last Exam (con herramientas) | 57,4% | — | 57,9% |
| OSWorld-Verified (uso de computador) | 81,2% | 78,5% | — |
| GDPval-AA v2 (trabajo cognitivo real) | 1.618 | — | 1.615 |
El dato más comentado por Anthropic es el GDPval-AA v2, un benchmark orientado a tareas reales de conocimiento donde Sonnet 5 no solo mejora sino que supera al Opus 4.8 más caro con 1.618 puntos frente a 1.615. Feedback de socios en early access apunta en la misma dirección: el modelo actúa mucho más agentic que las versiones previas, algo que se refleja en cómo maneja tareas de búsqueda.
En BrowseComp, según los gráficos publicados, Sonnet 5 supera con claridad a Sonnet 4.6 en todos los niveles de esfuerzo mientras ofrece puntos de entrada más económicos. Opus 4.8 sigue por delante en las configuraciones de máximo esfuerzo, pero la distancia se acortó.
¿Cómo maneja Anthropic los riesgos de ciberseguridad?
El contexto es relevante: el gobierno de Estados Unidos bloqueó las dos capacidades más avanzadas de Anthropic, Mythos 5 y Fable 5, por riesgos de ciberseguridad. Ese antecedente pesa sobre el lanzamiento de Sonnet 5 y la compañía se anticipó al escrutinio.
Según Anthropic, el modelo no fue entrenado para tareas de ciberseguridad y en los tests de capacidades riesgosas — como escribir exploits — obtiene puntajes muy por debajo tanto de Opus 4.8 como de Mythos 5. En la evaluación de exploit sobre Firefox 147, Sonnet 5 no logró desarrollar un exploit completamente funcional aunque sí muestra un rate de control parcial de 13,2%, ligeramente superior al de su antecesor.
Como respuesta, Anthropic activó por defecto los cyber safeguards: el sistema flaggea y bloquea uso ciber riesgoso en tiempo real, con protecciones equivalentes a las de Claude Opus 4.7 y 4.8. Están calibradas por debajo de las guardrails de Fable 5, que provocaron quejas inmediatas de los usuarios apenas se activaron. La compañía dice ver el riesgo global de ciberseguridad de Sonnet 5 como bajo.
En el frente de safety, el modelo rechaza mejor las solicitudes maliciosas y resiste inyecciones de prompt con mayor efectividad que Sonnet 4.6. Las alucinaciones y el comportamiento sycophantic — la tendencia a coincidir con cualquier cosa que diga el usuario — también bajaron. La evaluación completa está en el Claude Sonnet 5 System Card.
¿Cuánto cuesta y cómo se accede?
Claude Sonnet 5 está disponible desde hoy en todos los planes. Es el nuevo modelo por defecto para usuarios Free y Pro, y los suscriptores Max, Team y Enterprise también pueden acceder. Los desarrolladores lo tienen en Claude Code y en la Claude Platform. En la API se identifica como claude-sonnet-5. El corte de entrenamiento es enero de 2026 y la ventana de contexto es de un millón de tokens.
Hasta el 31 de agosto de 2026, Anthropic cobra USD 2 por millón de tokens de entrada y USD 10 por millón de tokens de salida. Después de esa fecha, el precio sube a USD 3 y USD 15 respectivamente, alineado con las tarifas históricas de la serie Sonnet.
Los costos reales pueden contar otra historia. Como el modelo trabaja de forma más agentic, es probable que consuma más tokens por tarea. Incluso al mismo precio por token, correr Sonnet 5 podría terminar costando más que sus antecesores. Es exactamente lo que pasó cuando Opus subió de 4.6 a 4.7.
¿Qué implica para el mercado LatAm?
Para desarrolladores en Chile y la región que ya integran Claude en pipelines de código o análisis, el punto de entrada más barato (USD 2/M input hasta agosto) abre una ventana concreta: dos meses para migrar workloads desde Sonnet 4.6 sin ajuste de presupuesto. La contraparte es que la mayor autonomía agentic empuja más loops de tool-use por request, por lo que la factura mensual puede subir aunque la tarifa por token baje.




