NVIDIA apunta a 25% menos energía en entrenamiento con DSX y NVFP4

La compañía propone un stack completo para que las fábricas de IA optimicen tokens por watt, desde 45°C de refrigeración líquida hasta scheduling consciente de energía.

Publicado el 27 de junio de 2026 · 12:26 p. m.3 min de lectura

Al grano

NVIDIA reporta hasta 25% de ahorro energético en entrenamiento con Megatron-LM aplicando scheduling consciente de energía desarrollado con la iniciativa ML.ENERGY de la Universidad de Michigan.

La electricidad puede representar 40% del OpEx de una fábrica de IA según el U.S. Chamber of Commerce, lo que vuelve los tokens por watt en métrica clave.

El stack propuesto combina GB200 NVL72 con refrigeración líquida a 45°C, plataforma DSX para asignación dinámica de potencia, formato NVFP4 y software Dynamo + TensorRT-LLM.

Por qué importa

El número clave no es el 25% de ahorro sino el 40% de OpEx en electricidad: las fábricas de IA dejaron de ser un problema de cómputo y se volvieron uno de termodinámica y red eléctrica. Que NVIDIA empuje un stack vertical desde precisión de punto flotante hasta refrigeración a 45°C confirma que el cuello del próximo ciclo no son los GPUs, son los megawatts. Chile, con geografía fría en el sur, tiene ventana si alguien se la juega.

La electricidad puede representar el 40% del OpEx para operar una fábrica de IA, según el U.S. Chamber of Commerce. Cada watt se destina a overhead, ingestión de datos, entrenamiento o generación de tokens para clientes. Y la mayoría de los sitios están topeados a un nivel de potencia fijo entregado por el proveedor regional. En esas condiciones, el rendimiento por watt se vuelve la métrica clave de eficiencia, y se traduce directo en el costo por token.

NVIDIA publicó un análisis técnico extenso sobre cómo combinar hardware, software y diseño de sistema para mover esa aguja. La propuesta es un stack completo, no un parche aislado.

¿Por qué optimizar inferencia es más importante que entrenamiento?

La inferencia es la que genera ingresos, así que es la carga clave a optimizar. Cuando los operadores aumentan throughput de inferencia por watt, aumentan directamente la cantidad de tokens que pueden vender. A escala de cientos de megawatts o gigawatts, incluso un par de puntos porcentuales de mejora por megawatt se traducen en ganancias relevantes en márgenes.

La arquitectura del modelo también pesa. Los modelos Mixture-of-Experts (MoE) son típicamente más eficientes por unidad de inteligencia que los modelos densos comparables, porque solo un subconjunto de expertos se activa por token. DeepSeek-R1, por ejemplo, tiene una cantidad grande de parámetros pero solo activa una fracción por token, logrando mayor rendimiento que predecesores densos a igual o menor costo de cómputo por token.

¿Qué hace NVIDIA en hardware y software para tokens/watt?

NVIDIA reporta una mejora de 1.000.000x en throughput de inferencia por megawatt a lo largo de seis generaciones de arquitectura. Las piezas concretas son:

El sistema rack-scale GB200 NVL72 con diseño denso de refrigeración líquida directa al chip. Usa in-rack power smoothing para aplanar picos de corriente, permitiendo desplegar más GPUs en el mismo presupuesto eléctrico.
La plataforma NVIDIA DSX, una capa de orquestación a escala de fábrica de IA que asigna potencia dinámicamente, recolecta telemetría en tiempo real y aplica controles a nivel de rack para recuperar potencia inutilizada.
Formatos de precisión más estrechos como NVFP4, más eficientes energéticamente que FP8 a precisión equivalente. NVIDIA muestra que NVFP4 entrega más tokens por segundo por watt que FP8 en distintos niveles de interactividad.
Software como NVIDIA Dynamo y TensorRT-LLM, que traducen las ganancias de hardware en rendimiento de inferencia real.

Figura 1. Los formatos de precisión estrechos como NVFP4 entregan más tokens por segundo por watt que formatos más altos como FP8

¿Cómo se ahorra energía durante el entrenamiento?

Entrenar modelos grandes requiere distribuir el trabajo entre múltiples GPUs usando varios métodos de paralelización. La asignación de carga rara vez es perfectamente balanceada, dejando varias GPUs ociosas mientras otras pocas terminan. Esa energía es desperdiciada.

Investigadores de la iniciativa ML.ENERGY en la Universidad de Michigan mostraron que ajustar la velocidad de procesamiento por GPU individual puede reducir el energy bloat del entrenamiento. Las que tienen más trabajo corren a velocidad máxima, las que tienen menos se ralentizan a propósito. Resultado: tiempo de entrenamiento end-to-end sin cambios, pero ahorro real de energía.

Figura 2. El tuning coordinado de velocidad de GPU reduce el consumo total de energía con poco o ningún impacto en el tiempo end-to-end

NVIDIA aplicó estas ideas a Megatron-LM, su implementación open source de referencia para entrenamiento de modelos de lenguaje, con perfilado fino de energía a nivel de kernel y de fase. La técnica está documentada en el paper Kareus: Joint Reduction of Dynamic and Static Energy in Large Model Training.

Figura 3. El scheduling consciente de energía logra hasta 25% de ahorro a tiempos de iteración similares

¿Qué hace NVIDIA DSX específicamente?

DSX define cómo se diseñan, construyen y optimizan las fábricas de IA en el stack completo: chips, sistemas, software de infraestructura, instalaciones físicas, digital twins y tecnologías de partners. La plataforma tiene dos sub-suites:

DSX MaxLPS: opera dentro de la fábrica e incluye refrigeración líquida a 45°C de entrada (mejora la efectividad de uso de energía o PUE), asignación dinámica de potencia, y monitoreo continuo de consumo a nivel de GPU y rack.
DSX Flex: opera entre la fábrica de IA y la red eléctrica.

La iniciativa ML.ENERGY también desarrolló un leaderboard y benchmark abierto para compartir mediciones, conectable a operaciones que respondan a costo de energía, intensidad de carbono, capacidad de refrigeración y límites de la red.

NVIDIA apunta a 25% menos energía en entrenamiento con DSX y NVFP4

Al grano

Por qué importa

¿Por qué optimizar inferencia es más importante que entrenamiento?

¿Qué hace NVIDIA en hardware y software para tokens/watt?

¿Cómo se ahorra energía durante el entrenamiento?

¿Qué hace NVIDIA DSX específicamente?

Seguir leyendo

NVIDIA Rubin recorta el consumo de agua a casi cero subiendo la temperat

Nvidia recorta hasta 100% del agua con refrigeración a 45°C

NVIDIA Rubin enfría con líquido a 45°C y sin ventiladores

Nvidia y EPRI: 25 mini centros de datos junto a subestaciones

→Al grano

✦Por qué importa

¿Por qué optimizar inferencia es más importante que entrenamiento?

¿Qué hace NVIDIA en hardware y software para tokens/watt?

¿Cómo se ahorra energía durante el entrenamiento?

¿Qué hace NVIDIA DSX específicamente?

Seguir leyendo

NVIDIA Rubin recorta el consumo de agua a casi cero subiendo la temperat

Nvidia recorta hasta 100% del agua con refrigeración a 45°C

NVIDIA Rubin enfría con líquido a 45°C y sin ventiladores

Nvidia y EPRI: 25 mini centros de datos junto a subestaciones

Al grano

Por qué importa