El desarrollador Steven Chong publicó pxpipe, una herramienta open source que reduce entre 59% y 70% el costo de tokens al usar Claude Code y Fable 5. La técnica es simple pero contraintuitiva: convierte texto largo en imágenes PNG antes de mandarlo al modelo.

El truco funciona por la forma en que Anthropic factura las imágenes. El texto cuesta aproximadamente un token por carácter, mientras que las imágenes cuestan un número fijo de tokens según sus dimensiones en píxeles, sin importar cuánto contenido tengan dentro. Al renderizar bloques densos como código o JSON como imagen, cada token-imagen puede empaquetar cerca de 3,1 caracteres.

¿Cómo funciona pxpipe exactamente?

La herramienta se instala como proxy local. Intercepta los requests que van hacia Claude Code y renderiza como imágenes las partes voluminosas y estáticas del contexto: system prompts, documentación de herramientas e historial antiguo del chat. Los mensajes recientes y las respuestas del modelo pasan como texto normal.

Chong muestra un ejemplo concreto en el repositorio. Cerca de 48.000 caracteres de system prompt más documentación de tools se comprimen en una sola página PNG densamente empaquetada. Como texto, ese payload costaría alrededor de 25.000 tokens. Como imagen, cuesta aproximadamente 2.700 tokens, una reducción de casi 10x.

En una demostración con Fable 5, el costo de la sesión bajó de 42,21 dólares a 6,06 dólares. Chong reporta que si la técnica se masifica, las empresas de IA podrían responder subiendo el precio del procesamiento de imágenes para cerrar el arbitraje.

¿Cuál es el tradeoff en precisión y velocidad?

El enfoque tiene contras. Es lossy y strings exactos como hashes pueden salir corruptos cuando el modelo los lee desde la imagen. El procesamiento también es más lento, porque el modelo tiene que pasar los renders por su vision encoder en lugar de leer texto directamente.

Por defecto, pxpipe soporta Claude Fable 5 y GPT 5.6. Los benchmarks están documentados en el repositorio. Fable 5 alcanza 100% de precisión en problemas de matemática con números aleatorios frescos que el modelo no pudo memorizar en su entrenamiento.

Según Chong, Opus 4.7 y 4.8 leen mal cerca del 7% de las imágenes renderizadas, y GPT 5.5 también rinde peor con contexto en imagen. Ambos modelos vienen desactivados por defecto y solo pueden habilitarse manualmente.

Ejemplos de ahorro

  • Sesión Fable 5 (dato del repo): 42,21 USD → 6,06 USD (86% de ahorro).
  • System prompt de 48.000 chars: 25.000 tokens → 2.700 tokens (9,3x compresión).
  • Densidad promedio: 3,1 caracteres por token-imagen (vs 1 char/token en texto plano).

No es una idea completamente nueva

Alimentar texto a modelos como imágenes comprimidas no lo inventó pxpipe. Deepseek publicó un sistema OCR que procesa documentos de texto como imágenes y, según su paper técnico, los comprime hasta un factor de 10x conservando el 97% de la información. La diferencia práctica es que pxpipe apunta al flujo diario de un desarrollador: interceptar las llamadas de la IDE al proveedor sin cambiar el modelo ni el cliente.

Para integradores LatAm que pagan tokens Anthropic en dólares con IVA agregado, la técnica es interesante: una cuenta enterprise que gasta USD 500-1.000/mes puede caer a USD 150-300 con el mismo throughput, siempre que el trabajo tolere la pérdida ocasional de exactitud sobre strings críticos.