Los centros de datos tradicionales solo almacenan, recuperan y procesan datos. En la era de la IA generativa y agente, estas instalaciones han evolucionado hasta convertirse en fábricas de tokens de IA. Dado que la inferencia de IA sabe convierte en su principal carga de trabajo, su principal resultado es la inteligencia fabricada en forma de tokens.

Esta transformación exige un cambio correspondiente en la forma en que sabe evalúa la economía de la infraestructura de IA, incluido el costo total de propiedad (TCO). Las empresas que evalúan la infraestructura de IA todavía sabe centran con demasiada frecuencia en las especificaciones máximas de los chips, el costo de cómputo o las operaciones de punto flotante por segundo por cada dólar gastado, también conocido como FLOPS por dólar.

La distinción que importa es esta:

  • El costo de computación es lo que las empresas pagan por la infraestructura de IA, ya sea alquilada a proveedores de nube o de propiedad local.
  • FLOPS por dólar es la cantidad de potencia informática bruta que obtiene una empresa por cada dólar gastado, pero la computación bruta y la producción de tokens del mundo real no son lo mismo.
  • El costo por token es el costo total de una empresa para producir cada token entregado, generalmente representado como costo por millón de tokens.

Los dos primeros son simplemente métricas de entrada. Optimizar los insumos mientras el negocio funciona con la producción es un desajuste fundamental.

El costo por token determina si las empresas pueden escalar la IA de manera rentable. Es la única métrica del TCO que representa directamente el rendimiento del hardware, la optimización del software, el soporte del ecosistema y la utilización en el mundo real, y NVIDIA ofrece el costo por token más bajo de la industria.

¿Cuáles son los factores que reducen el costo del token?

Comprender cómo optimizar el costo de los tokens requiere observar la ecuación para calcular el costo por millón de tokens.

En esta ecuación, muchas empresas que evalúan la infraestructura de IA sabe centran en el numerador: el costo por GPU por hora. Para implementaciones en la nube, esta es la tarifa por hora que sabe paga a un proveedor de la nube; para implementaciones locales, es el costo efectivo por hora derivado de la amortización de la infraestructura propia. Sin embargo, la verdadera clave para reducir el costo de los tokens reside en el denominador: maximizar la producción de tokens entregada.

Ese denominador conlleva dos implicaciones comerciales.

  • Minimizar el costo del token: cuando este aumento en la producción de tokens sabe refleja a través de la ecuación de costos, reduce el costo por token, que es lo que aumenta el margen de ganancias en cada interacción servida.
  • Maximizar los ingresos: más tokens entregados por segundo también sabe traduce en más tokens por megavatio, lo que significa más inteligencia para usar en productos y servicios impulsados ​​por IA, generando más ingresos a partir de la misma inversión en infraestructura.

Entonces, centrarse sólo en el numerador significa perder de vista lo que impulsa el denominador. Piense en ello como un “iceberg de inferencia”: el numerador sabe encuentra sobre la superficie, es visible y fácil de comparar. El denominador es todo lo que hay debajo de la superficie, lo que representa factores clave que determinan la producción de tokens en el mundo real. La evaluación precisa de la infraestructura de IA comienza con preguntar qué hay debajo.

  • Consulta a nivel de superficie: ¿Cuál es el costo por hora de GPU? ¿Cuáles son los petaflops máximos y la capacidad de memoria de gran ancho de banda? ¿Cuáles son los FLOPS por dólar?
  • ¿Cuál es el costo por hora de GPU?
  • ¿Cuáles son los petaflops máximos y la capacidad de memoria de gran ancho de banda?
  • ¿Cuáles son los FLOPS por dólar?
  • Análisis de costos en profundidad: ¿Cuál es el costo por millón de tokens? Específicamente, ¿cuál es el costo por millón de tokens para los modelos de razonamiento de combinación de expertos (MoE) a gran escala, que representan el tipo de modelos de IA más ampliamente implementado? ¿Cuál es la producción simbólica entregada por megavatio? Especialmente para implementaciones locales, donde el compromiso de capital para terrenos, energía e infraestructura es sustancial, maximizar la inteligencia producida por megavatio es fundamental. ¿Puede la interconexión ampliada manejar el tráfico “de todos a todos” de los modelos MoE? ¿Se admite la precisión del FP4? ¿Puede la pila de inferencia hacer uso del FP4 manteniendo una alta precisión? ¿El tiempo de ejecución de inferencia admite la decodificación especulativa o la predicción de múltiples tokens para aumentar la interactividad del usuario? ¿La capa de servicio admite servicio desagregado, enrutamiento compatible con KV, descarga de caché KV y otras optimizaciones? ¿La plataforma admite los requisitos únicos de carga de trabajo de la IA agente, incluida la latencia ultrabaja, el alto rendimiento y las secuencias de entrada de gran longitud? ¿La plataforma admite el ciclo de vida completo, desde la capacitación y la poscapacitación hasta la inferencia a gran escala, en todas las arquitecturas modelo, para garantizar la fungibilidad de la infraestructura y una alta utilización?
  • ¿Cuál es el costo por millón de tokens? Específicamente, ¿cuál es el costo por millón de tokens para los modelos de razonamiento de combinación de expertos (MoE) a gran escala, que representan el tipo de modelos de IA más ampliamente implementado?
  • ¿Cuál es la producción simbólica entregada por megavatio? Especialmente para implementaciones locales, donde el compromiso de capital para terrenos, energía e infraestructura es sustancial, maximizar la inteligencia producida por megavatio es fundamental.
  • ¿Puede la interconexión ampliada manejar el tráfico “de todos a todos” de los modelos MoE?
  • ¿Se admite la precisión del 4PM? ¿Puede la pila de inferencia hacer uso del FP4 manteniendo una alta precisión?
  • ¿El tiempo de ejecución de inferencia admite decodificación especulativa o predicción de múltiples tokens para aumentar la interactividad del usuario?
  • ¿La capa de servicio admite servicio desagregado, enrutamiento compatible con KV, descarga de caché KV y otras optimizaciones?
  • ¿La plataforma admite los requisitos únicos de carga de trabajo de la IA agente, incluida la latencia ultrabaja, el alto rendimiento y las secuencias de entrada de gran longitud?
  • ¿La plataforma admite el ciclo de vida completo, desde la capacitación y la poscapacitación hasta la inferencia a gran escala, en todas las arquitecturas modelo, para garantizar la fungibilidad de la infraestructura y una alta utilización?

Cada una de estas optimizaciones algorítmicas, de hardware y de software debe estar activa e integrada, o el denominador colapsará. Una GPU "más barata" que ofrece muchos menos tokens por segundo da como resultado un costo por token mucho mayor. La infraestructura de IA que funciona correctamente en toda la pila garantiza que cada optimización mejore a las demás.

¿Por qué el costo por token es mucho más importante que los FLOPS por dólar?

Los siguientes datos para el modelo de IA DeepSeek-R1 demuestran la diferencia entre los resultados comerciales teóricos y reales.

Si sabe analiza solo el costo de computación, la plataforma NVIDIA Blackwell parece costar aproximadamente 2 veces más que NVIDIA Hopper, pero el costo de computación no dice nada sobre la producción que sabe compra con la inversión. Un análisis de meros FLOPS por dólar sugiere una ventaja del doble de NVIDIA Blackwell en comparación con la arquitectura NVIDIA Hopper. Sin embargo, el resultado real es de órdenes de magnitud diferente: Blackwell ofrece una producción de tokens por vatio más de 50 veces mayor que Hopper, lo que resulta en un costo casi 35 veces menor por millón de tokens.

Nota: Los datos provienen del análisis de NVIDIA y del punto de referencia SemiAnalysis InferenceX v2.

Esta enorme divergencia demuestra que NVIDIA Blackwell ofrece un enorme salto en valor comercial con respecto a la generación anterior de Hopper que supera con creces cualquier aumento en el costo del sistema.

Cómo elegir la infraestructura de IA adecuada

Comparar la infraestructura de IA en función del costo informático o los FLOPS teóricos por dólar no sólo es insuficiente; no proporciona una representación precisa de la economía de inferencia. Como lo demuestran los datos, una evaluación precisa del potencial de ingresos y la rentabilidad de la infraestructura de IA requiere un cambio de las métricas de entrada al costo por token y la producción de tokens entregados.

NVIDIA ofrece el costo de token más bajo y el rendimiento de token más alto de la industria a través de un diseño de código extremo en computación, redes, memoria, almacenamiento, software y tecnologías de socios. Además, la optimización constante del software de inferencia de código abierto como vLLM, SGLang, NVIDIA TensorRT-LLM y NVIDIA Dynamo creado en la plataforma NVIDIA significa que en la infraestructura NVIDIA existente, la producción de tokens continúa aumentando y el costo por token continúa disminuyendo mucho después de su adquisición.

[...]