Claude Sonnet 5 alcanza a Opus 4.8 en trabajo cognitivo

El nuevo modelo agentic de Anthropic mejora en cada benchmark sobre Sonnet 4.6, se acerca a Opus 4.8 y en el test GDPval-AA v2 lo supera con 1.618 puntos frente a 1.615.

Publicado el 1 de julio de 2026 · 08:58 a. m.4 min de lectura

Al grano

Claude Sonnet 5 es el nuevo modelo intermedio agentic de Anthropic, con ventana de 1 millón de tokens y corte de entrenamiento en enero 2026.

Supera a Sonnet 4.6 en cada benchmark probado y en GDPval-AA v2 alcanza 1.618 puntos, superando por 3 al más caro Opus 4.8.

Precio de introducción hasta el 31 de agosto de 2026: USD 2 por millón de entrada y USD 10 de salida; después sube a USD 3 y USD 15.

Por qué importa

Anthropic construye la narrativa de Sonnet 5 sobre dos apuestas simultáneas. La primera es cerrar la brecha con Opus 4.8 en trabajo cognitivo real, y el 1.618 vs 1.615 del GDPval-AA v2 le da el titular. La segunda es despejar el bloqueo regulatorio que frenó a Mythos 5 y Fable 5: destacar deliberadamente los puntajes bajos en tareas ciber es una señal política, no técnica. Lo que no dicen es cómo se descompone el costo real cuando un modelo más agentic quema más tokens por tarea.

Anthropic liberó Claude Sonnet 5, el modelo intermedio que la propia compañía califica como el más agentic de la serie Sonnet: puede armar planes por su cuenta, usar herramientas como navegadores y terminales, y trabajar de forma autónoma en un nivel que hace pocos meses solo alcanzaban modelos más grandes y caros. Los benchmarks publicados muestran una mejora consistente sobre Sonnet 4.6 y una brecha reducida con Opus 4.8.

¿Qué muestran los benchmarks?

Los datos oficiales dibujan un salto claro sobre el modelo anterior y una convergencia con la serie Opus:

Benchmark	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro (coding agentic)	63,2%	58,1%	69,2%
Terminal-Bench 2.1	80,4%	67,0%	—
Humanity's Last Exam (con herramientas)	57,4%	—	57,9%
OSWorld-Verified (uso de computador)	81,2%	78,5%	—
GDPval-AA v2 (trabajo cognitivo real)	1.618	—	1.615

El dato más comentado por Anthropic es el GDPval-AA v2, un benchmark orientado a tareas reales de conocimiento donde Sonnet 5 no solo mejora sino que supera al Opus 4.8 más caro con 1.618 puntos frente a 1.615. Feedback de socios en early access apunta en la misma dirección: el modelo actúa mucho más agentic que las versiones previas, algo que se refleja en cómo maneja tareas de búsqueda.

En BrowseComp, según los gráficos publicados, Sonnet 5 supera con claridad a Sonnet 4.6 en todos los niveles de esfuerzo mientras ofrece puntos de entrada más económicos. Opus 4.8 sigue por delante en las configuraciones de máximo esfuerzo, pero la distancia se acortó.

¿Cómo maneja Anthropic los riesgos de ciberseguridad?

El contexto es relevante: el gobierno de Estados Unidos bloqueó las dos capacidades más avanzadas de Anthropic, Mythos 5 y Fable 5, por riesgos de ciberseguridad. Ese antecedente pesa sobre el lanzamiento de Sonnet 5 y la compañía se anticipó al escrutinio.

Según Anthropic, el modelo no fue entrenado para tareas de ciberseguridad y en los tests de capacidades riesgosas — como escribir exploits — obtiene puntajes muy por debajo tanto de Opus 4.8 como de Mythos 5. En la evaluación de exploit sobre Firefox 147, Sonnet 5 no logró desarrollar un exploit completamente funcional aunque sí muestra un rate de control parcial de 13,2%, ligeramente superior al de su antecesor.

Como respuesta, Anthropic activó por defecto los cyber safeguards: el sistema flaggea y bloquea uso ciber riesgoso en tiempo real, con protecciones equivalentes a las de Claude Opus 4.7 y 4.8. Están calibradas por debajo de las guardrails de Fable 5, que provocaron quejas inmediatas de los usuarios apenas se activaron. La compañía dice ver el riesgo global de ciberseguridad de Sonnet 5 como bajo.

En el frente de safety, el modelo rechaza mejor las solicitudes maliciosas y resiste inyecciones de prompt con mayor efectividad que Sonnet 4.6. Las alucinaciones y el comportamiento sycophantic — la tendencia a coincidir con cualquier cosa que diga el usuario — también bajaron. La evaluación completa está en el Claude Sonnet 5 System Card.

¿Cuánto cuesta y cómo se accede?

Claude Sonnet 5 está disponible desde hoy en todos los planes. Es el nuevo modelo por defecto para usuarios Free y Pro, y los suscriptores Max, Team y Enterprise también pueden acceder. Los desarrolladores lo tienen en Claude Code y en la Claude Platform. En la API se identifica como claude-sonnet-5. El corte de entrenamiento es enero de 2026 y la ventana de contexto es de un millón de tokens.

Hasta el 31 de agosto de 2026, Anthropic cobra USD 2 por millón de tokens de entrada y USD 10 por millón de tokens de salida. Después de esa fecha, el precio sube a USD 3 y USD 15 respectivamente, alineado con las tarifas históricas de la serie Sonnet.

Los costos reales pueden contar otra historia. Como el modelo trabaja de forma más agentic, es probable que consuma más tokens por tarea. Incluso al mismo precio por token, correr Sonnet 5 podría terminar costando más que sus antecesores. Es exactamente lo que pasó cuando Opus subió de 4.6 a 4.7.

¿Qué implica para el mercado LatAm?

Para desarrolladores en Chile y la región que ya integran Claude en pipelines de código o análisis, el punto de entrada más barato (USD 2/M input hasta agosto) abre una ventana concreta: dos meses para migrar workloads desde Sonnet 4.6 sin ajuste de presupuesto. La contraparte es que la mayor autonomía agentic empuja más loops de tool-use por request, por lo que la factura mensual puede subir aunque la tarifa por token baje.

Claude Sonnet 5 alcanza a Opus 4.8 en trabajo cognitivo

Al grano

Por qué importa

¿Qué muestran los benchmarks?

¿Cómo maneja Anthropic los riesgos de ciberseguridad?

¿Cuánto cuesta y cómo se accede?

¿Qué implica para el mercado LatAm?

Seguir leyendo

NVIDIA Isaac Lab acelera sim-to-real con 8 papers en ICRA 2026

NVIDIA empuja a las telcos a vender tokens AI en vez de GPU por hora

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

NVIDIA Dynamo: limpiar el header de Claude Code baja 5x la latencia

→Al grano

✦Por qué importa

¿Qué muestran los benchmarks?

¿Cómo maneja Anthropic los riesgos de ciberseguridad?

¿Cuánto cuesta y cómo se accede?

¿Qué implica para el mercado LatAm?

Seguir leyendo

NVIDIA Isaac Lab acelera sim-to-real con 8 papers en ICRA 2026

NVIDIA empuja a las telcos a vender tokens AI en vez de GPU por hora

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

NVIDIA Dynamo: limpiar el header de Claude Code baja 5x la latencia

Al grano

Por qué importa