El desarrollador independiente Simon Willison publicó hoy su análisis técnico de Claude Opus 4.8, el modelo que Anthropic acaba de liberar. Su lectura tiene dos puntos editoriales y varios datos concretos sobre la API que vale la pena retener.
Su detalle favorito del anuncio es una nota que rara vez se lee en notas de prensa de un laboratorio de IA:
Los usuarios encontrarán que Opus 4.8 es una mejora modesta pero tangible sobre su predecesor. Todavía hay más por hacer: estamos trabajando en desarrollar y liberar modelos que provean muchas de las mismas capacidades de Opus a menor costo.
Willison celebra el tono: "es tan refrescante ver a un laboratorio de IA describir honestamente un lanzamiento como una mejora menor incremental sobre el modelo anterior".
La honestidad como tema repetido
El otro punto que rescata del anuncio es el énfasis en la honestidad del modelo:
Una de las mejoras más prominentes en Opus 4.8 es su honestidad. (...) Los testers tempranos reportan que Opus 4.8 es más probable de señalar incertidumbres sobre su trabajo y menos probable de hacer afirmaciones no respaldadas. Esto se confirma en nuestras evaluaciones, que muestran que Opus 4.8 es alrededor de cuatro veces menos probable que su predecesor de dejar pasar fallas en código que escribió sin marcarlas.
El System Card asociado agrega un dato: Claude Opus 4.8 tuvo la tasa de respuestas incorrectas más baja entre seis modelos en todos los benchmarks, la medida más directa de alucinación factual. Lo logró principalmente absteniéndose en preguntas sobre las cuales tenía incertidumbre, en lugar de responder más preguntas correctamente.
¿Qué cambió en la API frente a Opus 4.7?
Willison resume los parámetros del modelo:
- Precio: igual que Opus 4.5/4.6/4.7, USD 5 por millón de tokens de entrada y USD 25 por millón de salida.
- Modo rápido: cuesta el doble del precio base. Una reducción significativa respecto a versiones anteriores, donde el modo rápido en 4.6/4.7 se mantiene en USD 30/USD 150. El modo rápido sólo está disponible en research preview para organizaciones que coordinen con su account manager.
- Knowledge cutoff y training cutoff: enero de 2026, igual que 4.7.
- Contexto: 1.000.000 tokens.
- Output máximo: 128.000 tokens.
El documento What's new in Claude Opus 4.8 trae dos cambios que llaman la atención:
Mensajes de sistema a mitad de conversación. Claude Opus 4.8 acepta mensajes conrole: "system"inmediatamente después de un turno de usuario en el arreglomessages(sujeto a reglas de ubicación). Esto permite agregar instrucciones actualizadas más tarde en una conversación de larga duración sin reescribir el prompt de sistema completo, lo que preserva los hits del prompt cache en los turnos anteriores y reduce el costo de entrada en loops agénticos.
Willison señala que esta capacidad podría romper la abstracción de su LLM library, que asume un único prompt de sistema por conversación. Su rediseño reciente, sin embargo, debería manejarlo sin problemas. También enlaza el commit en el SDK Python de Anthropic que habilita el cambio.
Mínimo de caché del prompt bajado. La longitud mínima del prompt cacheable en Claude Opus 4.8 es 1.024 tokens, menor que en Claude Opus 4.7.
Para comparar: en Opus 4.7 el mínimo era 4.096 tokens. El cuarto del umbral abre el caché a prompts de sistema más cortos.
¿Qué tan bien dibuja pelícanos?
Willison cierra su nota con el test que aplica a cada modelo nuevo: pedirle SVGs de pelícanos en bicicleta. Esta vez los corrió en los cinco niveles de pensamiento, low, medium, high, xhigh y max:




Esta vez los corrió usando LLM CLI, exportó los logs a Markdown y luego le pidió al propio Claude Opus 4.8 que le construyera una herramienta HTML capaz de renderizar Markdown con bloques de código svg como SVGs en la página. Después usó GPT-5.5 xhigh en Codex para revisar el código y cerrar posibles agujeros XSS, aunque admite que Claude probablemente podría haberlo hecho si se lo hubiera pedido.
El resultado del nivel "max" fue claramente el mejor, pero consumió 25 tokens de entrada y 17.167 de salida, con un costo de 43 centavos de dólar por una sola generación.




