Simon Willison disecciona Claude Opus 4.8: precios y caché

El desarrollador celebra que Anthropic admita una mejora 'modesta pero tangible' y repasa los cambios técnicos: mensajes de sistema a mitad de conversación y caché mínimo bajado a 1.024 tokens.

Publicado el 30 de mayo de 2026 · 08:33 a. m.3 min de lectura

Al grano

Simon Willison celebra que Anthropic describa Opus 4.8 como mejora modesta pero tangible, en lugar de inflar el lanzamiento.

El precio se mantiene en USD 5/USD 25 por millón de tokens; el modo rápido cuesta el doble, mucho menos que los USD 30/USD 150 de Opus 4.7.

El mínimo del prompt cache bajó de 4.096 a 1.024 tokens, y ahora se pueden inyectar mensajes de sistema a mitad de conversación sin romper el caché.

Por qué importa

El detalle que más nos importa a los que pagamos cuenta API no es el pelícano sino el mínimo del prompt cache bajando de 4.096 a 1.024 tokens. Cuatro veces menos overhead para que un prompt de sistema corto califique al descuento del caché es una micro-optimización con efecto macro en agentes que corren con context steering frecuente. Sumado a los mensajes de sistema a mitad de conversación, Anthropic está atacando el costo de iterar prompts en producción, no solo el costo por token bruto.

El desarrollador independiente Simon Willison publicó hoy su análisis técnico de Claude Opus 4.8, el modelo que Anthropic acaba de liberar. Su lectura tiene dos puntos editoriales y varios datos concretos sobre la API que vale la pena retener.

Su detalle favorito del anuncio es una nota que rara vez se lee en notas de prensa de un laboratorio de IA:

Los usuarios encontrarán que Opus 4.8 es una mejora modesta pero tangible sobre su predecesor. Todavía hay más por hacer: estamos trabajando en desarrollar y liberar modelos que provean muchas de las mismas capacidades de Opus a menor costo.

Willison celebra el tono: "es tan refrescante ver a un laboratorio de IA describir honestamente un lanzamiento como una mejora menor incremental sobre el modelo anterior".

La honestidad como tema repetido

El otro punto que rescata del anuncio es el énfasis en la honestidad del modelo:

Una de las mejoras más prominentes en Opus 4.8 es su honestidad. (...) Los testers tempranos reportan que Opus 4.8 es más probable de señalar incertidumbres sobre su trabajo y menos probable de hacer afirmaciones no respaldadas. Esto se confirma en nuestras evaluaciones, que muestran que Opus 4.8 es alrededor de cuatro veces menos probable que su predecesor de dejar pasar fallas en código que escribió sin marcarlas.

El System Card asociado agrega un dato: Claude Opus 4.8 tuvo la tasa de respuestas incorrectas más baja entre seis modelos en todos los benchmarks, la medida más directa de alucinación factual. Lo logró principalmente absteniéndose en preguntas sobre las cuales tenía incertidumbre, en lugar de responder más preguntas correctamente.

¿Qué cambió en la API frente a Opus 4.7?

Willison resume los parámetros del modelo:

Precio: igual que Opus 4.5/4.6/4.7, USD 5 por millón de tokens de entrada y USD 25 por millón de salida.
Modo rápido: cuesta el doble del precio base. Una reducción significativa respecto a versiones anteriores, donde el modo rápido en 4.6/4.7 se mantiene en USD 30/USD 150. El modo rápido sólo está disponible en research preview para organizaciones que coordinen con su account manager.
Knowledge cutoff y training cutoff: enero de 2026, igual que 4.7.
Contexto: 1.000.000 tokens.
Output máximo: 128.000 tokens.

El documento What's new in Claude Opus 4.8 trae dos cambios que llaman la atención:

Mensajes de sistema a mitad de conversación. Claude Opus 4.8 acepta mensajes con role: "system" inmediatamente después de un turno de usuario en el arreglo messages (sujeto a reglas de ubicación). Esto permite agregar instrucciones actualizadas más tarde en una conversación de larga duración sin reescribir el prompt de sistema completo, lo que preserva los hits del prompt cache en los turnos anteriores y reduce el costo de entrada en loops agénticos.

Willison señala que esta capacidad podría romper la abstracción de su LLM library, que asume un único prompt de sistema por conversación. Su rediseño reciente, sin embargo, debería manejarlo sin problemas. También enlaza el commit en el SDK Python de Anthropic que habilita el cambio.

Mínimo de caché del prompt bajado. La longitud mínima del prompt cacheable en Claude Opus 4.8 es 1.024 tokens, menor que en Claude Opus 4.7.

Para comparar: en Opus 4.7 el mínimo era 4.096 tokens. El cuarto del umbral abre el caché a prompts de sistema más cortos.

¿Qué tan bien dibuja pelícanos?

Willison cierra su nota con el test que aplica a cada modelo nuevo: pedirle SVGs de pelícanos en bicicleta. Esta vez los corrió en los cinco niveles de pensamiento, low, medium, high, xhigh y max:

Esta vez los corrió usando LLM CLI, exportó los logs a Markdown y luego le pidió al propio Claude Opus 4.8 que le construyera una herramienta HTML capaz de renderizar Markdown con bloques de código svg como SVGs en la página. Después usó GPT-5.5 xhigh en Codex para revisar el código y cerrar posibles agujeros XSS, aunque admite que Claude probablemente podría haberlo hecho si se lo hubiera pedido.

El resultado del nivel "max" fue claramente el mejor, pero consumió 25 tokens de entrada y 17.167 de salida, con un costo de 43 centavos de dólar por una sola generación.

Simon Willison disecciona Claude Opus 4.8: precios y caché

Al grano

Por qué importa

La honestidad como tema repetido

¿Qué cambió en la API frente a Opus 4.7?

¿Qué tan bien dibuja pelícanos?

Seguir leyendo

Claude Opus 4.8: más juicio agéntico y menos alucinaciones

Anthropic lanza Claude Opus 4.8 con Dynamic Workflows

Claude Managed Agents suma sandboxes propios y túneles MCP

Anthropic mide el uso programatico de Claude y Codex gana terreno

→Al grano

✦Por qué importa

La honestidad como tema repetido

¿Qué cambió en la API frente a Opus 4.7?

¿Qué tan bien dibuja pelícanos?

Seguir leyendo

Claude Opus 4.8: más juicio agéntico y menos alucinaciones

Anthropic lanza Claude Opus 4.8 con Dynamic Workflows

Claude Managed Agents suma sandboxes propios y túneles MCP

Anthropic mide el uso programatico de Claude y Codex gana terreno

Al grano

Por qué importa