A medida que la capacidad de ejecutar agentes se convierte en un requisito fundamental para las empresas de modelos de lenguaje, Anthropic lanza Claude Sonnet 5, una versión más potente y orientada a agentes de su modelo de tamaño medio.
“Puede hacer planes, utilizar herramientas como navegadores y terminales, y ejecutarse de forma autónoma a un nivel que, hace apenas unos meses, requería modelos más grandes y costosos”, señaló Anthropic en una publicación de blog.
Este enfoque refleja las estrategias recientes de OpenAI y Google. El modelo GPT-5.6 Sol de OpenAI se lanzó en vista previa la semana pasada como su propuesta más orientada a agentes, permitiendo a los usuarios dividir el trabajo entre subagentes para tareas autónomas prolongadas. Por su parte, Gemini 3.5 Flash de Google, lanzado en mayo, fue presentado como una transición desde un chatbot conversacional hacia una herramienta agente capaz de planificar, construir e iterar sobre trabajo real con mínima intervención humana.
¿Es la capacidad de agentes el nuevo estándar del mercado?
La propuesta de Sonnet 5 confirma que la capacidad de agentes es la nueva expectativa base en todos los niveles de precio. Actualmente, el diferenciador no será quién puede realizar el trabajo de agente de la mejor manera, sino quién puede hacerlo de forma más económica y confiable sin supervisión humana.
Sonnet 5 promete un rendimiento cercano al de Opus 4.8, pero a costos significativamente menores. Desde este martes, Claude Sonnet 5 es el modelo predeterminado para los planes gratuitos y Pro, estando disponible para todas las suscripciones.
¿Cuánto cuesta utilizar Claude Sonnet 5?
En su lanzamiento, Sonnet 5 tiene un precio de 2 USD por millón de tokens de entrada y 10 USD por millón de tokens de salida hasta el 31 de agosto. Después de esa fecha, el precio aumentará a 3 USD por millón de tokens de entrada y 15 USD por millón de tokens de salida. Esto posiciona a Sonnet 5 como una opción más económica que Opus 4.8, GPT-5.5 de OpenAI y Gemini 3.1 Pro de Google, aunque sigue siendo más costoso que Gemini 3.5 Flash.
El nuevo modelo también demuestra mejoras significativas sobre su predecesor, Sonnet 4.6, lanzado en febrero, en rendimiento de agentes como razonamiento, uso de herramientas, programación de software y trabajo de conocimiento, según Anthropic.
Por ejemplo, en un benchmark, Sonnet 5 obtiene un 63.2% en codificación mediante agentes, comparado con el 69.2% de Opus 4.8 y el 58.1% de Sonnet 4.6. En un benchmark de trabajo de conocimiento, Sonnet 5 supera ligeramente a Opus 4.8, modelo reconocido por resolver problemas complejos que requieren juicios sutiles e investigación profunda.
“Opus 4.8 sigue siendo el modelo preferido para una mayor precisión en estas tareas, pero Sonnet 5 ofrece a los desarrolladores opciones a menor precio que son de mucha mayor calidad que lo disponible anteriormente”, afirma Anthropic. “Entre Sonnet 5 y Opus 4.8, los usuarios pueden ajustar el nivel de esfuerzo para encontrar el equilibrio adecuado entre costo y rendimiento”.
De acuerdo con los evaluadores citados en el blog, Sonnet 5 destaca en finalizar tareas complejas donde versiones anteriores se detenían y “verifica su propia salida sin que se le solicite explícitamente”.
“Asignamos a Claude Sonnet 5 un trabajo de dos partes —actualizar los niveles de cuentas de Salesforce y enviar un anuncio de lanzamiento a contactos empresariales— y lo terminó de principio a fin”, declaró Daniel Shepard, ingeniero senior en Zapier. “Eso solía estancarse a mitad de camino. Para la automatización diaria, es una solución obvia”.
En cuanto a seguridad, Sonnet 5 demuestra una menor tasa de “comportamientos indeseables”, como la cooperación en usos indebidos o engaños, en comparación con su predecesor. Es más eficaz rechazando solicitudes maliciosas y evitando intentos de secuestro en ataques de inyección de prompts. También presenta alucinaciones y comportamientos complacientes a una tasa menor que Sonnet 4.6.
No obstante, no alcanza el nivel de Opus 4.8 y Claude Mythos Preview en cuanto a comportamiento desalineado. “Las evaluaciones también muestran que tiene una capacidad mucho menor para realizar tareas de ciberseguridad peligrosas que nuestros modelos Opus actuales”, indica la publicación.
Fabian Hedin, cofundador de Lovable, afirmó que Claude Sonnet 5 “rechaza solicitudes inseguras de manera limpia y consistente”.
“En Lovable, ponemos herramientas poderosas en manos de millones de constructores”, comentó Hedin. “Un modelo que sabe cuándo decir que no es tan importante como uno que sabe cómo construir”.
Nota: Actualizado para corregir que el precio de los tokens de salida es de 15 USD por millón después del 31 de agosto.
Cuando usted compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta nuestra independencia editorial.
Vía TechCrunch.




