OpenAI corta a la mitad el costo de ChatGPT para invitados

The Information reveló que la compañía optimizó la inferencia para visitantes sin cuenta y bajó a unos pocos cientos las GPU NVIDIA necesarias.

Publicado el 1 de julio de 2026 · 07:46 p. m.2 min de lectura

Al grano

OpenAI redujo más del 50% el costo de inferencia de ChatGPT para usuarios sin cuenta según fuentes de The Information.

La compañía bajó a apenas unos pocos cientos las GPUs NVIDIA necesarias para servir a los invitados anónimos.

No trascendieron las técnicas, pero coincide con un método open source de Deepseek que acelera la inferencia entre 60% y 85%.

Por qué importa

El ajuste es una foto elocuente del mercado 2026: los proveedores ya no compiten por resolver problemas, compiten por bajar el costo por token. Cortar a la mitad el gasto de servir a visitantes anónimos libera capacidad. Pero como el buildout de data centers avanza lento, ese aire extra probablemente vaya a márgenes y escala interna, no a bajar la demanda de chips. En Chile y LatAm todavía se usa ChatGPT gratis sin restricción severa. Habrá que ver cuánto dura.

Los ingenieros de OpenAI comentaron a colegas a comienzos de mes que lograron cortar a más de la mitad el costo de inferencia, es decir el gasto de correr los modelos de IA ya entrenados, según una fuente familiar con las conversaciones citada por The Information.

¿A qué producto se aplicó la reducción?

El ajuste corrió específicamente sobre ChatGPT en el modo de visitantes que no tienen cuenta. Como resultado, la cantidad de GPUs NVIDIA necesarias para atender a esos usuarios cayó a apenas unos pocos cientos. No trascendió ni el número de GPUs que se usaba antes ni las técnicas concretas que aplicaron los ingenieros para conseguirlo.

Los usuarios guest acceden a un conjunto muy limitado de funcionalidades de ChatGPT. Si el mismo tipo de mejora se puede llevar al producto completo, con memoria, herramientas y modelos de mayor tamaño, es una pregunta abierta.

Deepseek publicó un método open source con 60-85% de aceleración

En paralelo al reporte, Deepseek liberó un método open source que acelera las peticiones de inferencia entre 60% y 85%. La empresa china viene marcando el paso en optimizaciones a nivel de kernels y muestreo, y en este caso publicó la técnica para que cualquiera pueda replicarla en su propio stack.

La coincidencia temporal es sugerente. Que OpenAI haya conseguido su recorte "internamente" mientras Deepseek publica un truco abierto de magnitud comparable refuerza la lectura de que la inferencia todavía tiene mucho margen para bajar en costo, sin necesidad de esperar la próxima generación de chips.

¿En qué se traduce el ahorro?

Los recursos liberados pueden ir a escalar servicios, entregar modelos mejores, dar respuestas más rápidas o mejorar márgenes. Pero el buildout de data centers avanza con lentitud, y la fricción entre demanda proyectada y capacidad instalada sigue tensa.

Por eso, mejoras como esta probablemente le den más aire a los laboratorios sin morder la demanda de chips. Es aire para ejecutar planes ya trazados, no dinero devuelto a los proveedores. En términos prácticos, el mismo pool de GPUs NVIDIA da ahora para mucho más tráfico anónimo, y el foco vuelve a estar en cómo escalar el producto pago sin quemar capacidad.

El contexto: guerra por el costo por token

Los grandes proveedores dejaron de competir sólo por capacidad de modelo. En 2026 la métrica que mueve la aguja es el costo por millón de tokens servidos. NVIDIA ya reportó bajar hasta 5× el costo por token de DeepSeek V4 en Blackwell. Google y Anthropic apuntan a lo mismo con cachés jerárquicas y muestreo especulativo.

El reporte de The Information encaja en esa narrativa. Un recorte de más del 50% en el segmento anónimo, hecho sin cambiar de silicio, sugiere que hay optimizaciones de software con margen suficiente para redibujar el mapa competitivo antes de que los data centers previstos entren en línea.

OpenAI corta a la mitad el costo de ChatGPT para invitados

Al grano

Por qué importa

¿A qué producto se aplicó la reducción?

Deepseek publicó un método open source con 60-85% de aceleración

¿En qué se traduce el ahorro?

El contexto: guerra por el costo por token

Seguir leyendo

NVIDIA FOX: el cerebro agéntico para fábricas autónomas

NVIDIA Isaac Lab acelera sim-to-real con 8 papers en ICRA 2026

NVIDIA empuja a las telcos a vender tokens AI en vez de GPU por hora

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

→Al grano

✦Por qué importa

¿A qué producto se aplicó la reducción?

Deepseek publicó un método open source con 60-85% de aceleración

¿En qué se traduce el ahorro?

El contexto: guerra por el costo por token

Seguir leyendo

NVIDIA FOX: el cerebro agéntico para fábricas autónomas

NVIDIA Isaac Lab acelera sim-to-real con 8 papers en ICRA 2026

NVIDIA empuja a las telcos a vender tokens AI en vez de GPU por hora

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

Al grano

Por qué importa