La electricidad puede representar el 40% del OpEx para operar una fábrica de IA, según el U.S. Chamber of Commerce. Cada watt se destina a overhead, ingestión de datos, entrenamiento o generación de tokens para clientes. Y la mayoría de los sitios están topeados a un nivel de potencia fijo entregado por el proveedor regional. En esas condiciones, el rendimiento por watt se vuelve la métrica clave de eficiencia, y se traduce directo en el costo por token.
NVIDIA publicó un análisis técnico extenso sobre cómo combinar hardware, software y diseño de sistema para mover esa aguja. La propuesta es un stack completo, no un parche aislado.
¿Por qué optimizar inferencia es más importante que entrenamiento?
La inferencia es la que genera ingresos, así que es la carga clave a optimizar. Cuando los operadores aumentan throughput de inferencia por watt, aumentan directamente la cantidad de tokens que pueden vender. A escala de cientos de megawatts o gigawatts, incluso un par de puntos porcentuales de mejora por megawatt se traducen en ganancias relevantes en márgenes.
La arquitectura del modelo también pesa. Los modelos Mixture-of-Experts (MoE) son típicamente más eficientes por unidad de inteligencia que los modelos densos comparables, porque solo un subconjunto de expertos se activa por token. DeepSeek-R1, por ejemplo, tiene una cantidad grande de parámetros pero solo activa una fracción por token, logrando mayor rendimiento que predecesores densos a igual o menor costo de cómputo por token.
¿Qué hace NVIDIA en hardware y software para tokens/watt?
NVIDIA reporta una mejora de 1.000.000x en throughput de inferencia por megawatt a lo largo de seis generaciones de arquitectura. Las piezas concretas son:
- El sistema rack-scale GB200 NVL72 con diseño denso de refrigeración líquida directa al chip. Usa in-rack power smoothing para aplanar picos de corriente, permitiendo desplegar más GPUs en el mismo presupuesto eléctrico.
- La plataforma NVIDIA DSX, una capa de orquestación a escala de fábrica de IA que asigna potencia dinámicamente, recolecta telemetría en tiempo real y aplica controles a nivel de rack para recuperar potencia inutilizada.
- Formatos de precisión más estrechos como NVFP4, más eficientes energéticamente que FP8 a precisión equivalente. NVIDIA muestra que NVFP4 entrega más tokens por segundo por watt que FP8 en distintos niveles de interactividad.
- Software como NVIDIA Dynamo y TensorRT-LLM, que traducen las ganancias de hardware en rendimiento de inferencia real.

¿Cómo se ahorra energía durante el entrenamiento?
Entrenar modelos grandes requiere distribuir el trabajo entre múltiples GPUs usando varios métodos de paralelización. La asignación de carga rara vez es perfectamente balanceada, dejando varias GPUs ociosas mientras otras pocas terminan. Esa energía es desperdiciada.
Investigadores de la iniciativa ML.ENERGY en la Universidad de Michigan mostraron que ajustar la velocidad de procesamiento por GPU individual puede reducir el energy bloat del entrenamiento. Las que tienen más trabajo corren a velocidad máxima, las que tienen menos se ralentizan a propósito. Resultado: tiempo de entrenamiento end-to-end sin cambios, pero ahorro real de energía.

NVIDIA aplicó estas ideas a Megatron-LM, su implementación open source de referencia para entrenamiento de modelos de lenguaje, con perfilado fino de energía a nivel de kernel y de fase. La técnica está documentada en el paper Kareus: Joint Reduction of Dynamic and Static Energy in Large Model Training.

¿Qué hace NVIDIA DSX específicamente?
DSX define cómo se diseñan, construyen y optimizan las fábricas de IA en el stack completo: chips, sistemas, software de infraestructura, instalaciones físicas, digital twins y tecnologías de partners. La plataforma tiene dos sub-suites:
- DSX MaxLPS: opera dentro de la fábrica e incluye refrigeración líquida a 45°C de entrada (mejora la efectividad de uso de energía o PUE), asignación dinámica de potencia, y monitoreo continuo de consumo a nivel de GPU y rack.
- DSX Flex: opera entre la fábrica de IA y la red eléctrica.
La iniciativa ML.ENERGY también desarrolló un leaderboard y benchmark abierto para compartir mediciones, conectable a operaciones que respondan a costo de energía, intensidad de carbono, capacidad de refrigeración y límites de la red.




