Los ingenieros de OpenAI comentaron a colegas a comienzos de mes que lograron cortar a más de la mitad el costo de inferencia, es decir el gasto de correr los modelos de IA ya entrenados, según una fuente familiar con las conversaciones citada por The Information.

¿A qué producto se aplicó la reducción?

El ajuste corrió específicamente sobre ChatGPT en el modo de visitantes que no tienen cuenta. Como resultado, la cantidad de GPUs NVIDIA necesarias para atender a esos usuarios cayó a apenas unos pocos cientos. No trascendió ni el número de GPUs que se usaba antes ni las técnicas concretas que aplicaron los ingenieros para conseguirlo.

Los usuarios guest acceden a un conjunto muy limitado de funcionalidades de ChatGPT. Si el mismo tipo de mejora se puede llevar al producto completo, con memoria, herramientas y modelos de mayor tamaño, es una pregunta abierta.

Deepseek publicó un método open source con 60-85% de aceleración

En paralelo al reporte, Deepseek liberó un método open source que acelera las peticiones de inferencia entre 60% y 85%. La empresa china viene marcando el paso en optimizaciones a nivel de kernels y muestreo, y en este caso publicó la técnica para que cualquiera pueda replicarla en su propio stack.

La coincidencia temporal es sugerente. Que OpenAI haya conseguido su recorte "internamente" mientras Deepseek publica un truco abierto de magnitud comparable refuerza la lectura de que la inferencia todavía tiene mucho margen para bajar en costo, sin necesidad de esperar la próxima generación de chips.

¿En qué se traduce el ahorro?

Los recursos liberados pueden ir a escalar servicios, entregar modelos mejores, dar respuestas más rápidas o mejorar márgenes. Pero el buildout de data centers avanza con lentitud, y la fricción entre demanda proyectada y capacidad instalada sigue tensa.

Por eso, mejoras como esta probablemente le den más aire a los laboratorios sin morder la demanda de chips. Es aire para ejecutar planes ya trazados, no dinero devuelto a los proveedores. En términos prácticos, el mismo pool de GPUs NVIDIA da ahora para mucho más tráfico anónimo, y el foco vuelve a estar en cómo escalar el producto pago sin quemar capacidad.

El contexto: guerra por el costo por token

Los grandes proveedores dejaron de competir sólo por capacidad de modelo. En 2026 la métrica que mueve la aguja es el costo por millón de tokens servidos. NVIDIA ya reportó bajar hasta 5× el costo por token de DeepSeek V4 en Blackwell. Google y Anthropic apuntan a lo mismo con cachés jerárquicas y muestreo especulativo.

El reporte de The Information encaja en esa narrativa. Un recorte de más del 50% en el segmento anónimo, hecho sin cambiar de silicio, sugiere que hay optimizaciones de software con margen suficiente para redibujar el mapa competitivo antes de que los data centers previstos entren en línea.