La IA es hoy infraestructura esencial, alimentada por fábricas de IA que generan inteligencia en forma de tokens. A medida que la demanda crece, esas fábricas deben escalar más rápido, operar con más eficiencia y bajar el costo de la inteligencia a lo largo del stack de cinco capas: energía, chips, infraestructura, modelos y aplicaciones.

La plataforma NVIDIA DSX entrega el playbook completo para diseñar, simular, construir y operar fábricas de IA, alineando cada capa del stack a través de cómputo, software, instalaciones y tecnologías de partners mediante una arquitectura común co-diseñada.

La plataforma DSX ahora incluye el software DSX OS para acelerar el deployment de fábricas de IA y mejorar la eficiencia operativa. DSX OS incluye componentes de software open source y modulares, junto con tecnologías relacionadas de NVIDIA, construidos específicamente para operar y escalar fábricas de IA multitenant.

En conjunto, los componentes de DSX OS permiten al ecosistema de fábricas de IA de NVIDIA DSX adoptar lo último en software de infraestructura para IA agéntica a lo largo del stack completo, mejorando los tokens por watt y bajando el costo del token, acelerando el deployment y fortaleciendo la confiabilidad y resiliencia operativa.

Figura 1: Software NVIDIA DSX OS en la plataforma DSX. DSX OS provee el software open source para operar fábricas de IA
Figura 1: Software NVIDIA DSX OS en la plataforma DSX. DSX OS provee el software open source para operar fábricas de IA

¿Por qué le importa DSX OS al ecosistema de fábricas de IA?

Las fábricas de IA deben funcionar de manera óptima para maximizar la cantidad de tokens que producen en relación a los watts que consumen, y entregarle valor real a sus operadores.

Para lograrlo, la compleja red de componentes que opera workloads de IA a escala dentro de los data centers debe funcionar en armonía estricta. Esto requiere coordinación entre chips, sistemas, infraestructura de instalaciones (controles de building management, enfriamiento y unidades de distribución de energía), la red eléctrica, el software y las tecnologías de partners que corren todo eso, además de las plataformas y servicios de IA que se ejecutan encima.

El software DSX OS está diseñado para todo ese ecosistema y entrega un conjunto integral de tecnologías y capacidades abiertas y extensibles que pueden integrarse y adoptarse dentro de plataformas y software existentes.

Estas capacidades fueron diseñadas y optimizadas alrededor de una arquitectura común, permitiendo que todos los componentes trabajen juntos para entregar tres resultados que mueven la economía de la fábrica de IA:

1) Tiempo a la facturación más corto

NVIDIA construye y opera infraestructura y software de plataforma sobre NVIDIA DGX Cloud, y ese software se libera ahora como open source. Los partners del ecosistema NVIDIA pueden aprovechar estos componentes para entregar servicios de IA en vez de reconstruir desde cero, eliminando meses de desarrollo custom.

2) Mejor eficiencia

La energía es el factor limitante en una fábrica de IA. DSX conecta el comportamiento de la energía y de la red eléctrica como parte de la plataforma, en vez de tratarlo como un asunto de instalaciones separado del resto de la infraestructura IA. Con software DSX, las fábricas de IA pueden correr hasta 40% más GPUs en el pico de eficiencia energética dentro de un presupuesto de energía fijo, con impacto mínimo sobre el rendimiento de inferencia.

3) Mayor confiabilidad y resiliencia

Las fábricas de IA corren workloads continuos a gran escala atravesando fallas de hardware, eventos de red eléctrica y cambios operativos. DSX OS mueve las operaciones de cluster de un modelo reactivo de alertas a remediación automatizada, mantiene versiones de runtime consistentes entre regiones y entrega a los operadores visibilidad de toda la flota.

¿Cómo habilita DSX OS fábricas de IA a escala gigawatt?

Los componentes open source y modulares de DSX OS entregan las tecnologías fundacionales para construir y operar fábricas de IA, y están diseñados para resolver desafíos únicos de operar workloads de IA con eficiencia y confiabilidad a escala gigawatt.

Lo hacen entregando un set de capacidades centrales co-diseñadas que incluyen, entre otras, comunicación estandarizada, optimización de energía y eficiencia, provisioning y operaciones de ciclo de vida, monitoreo de salud y remediación, y servicios inteligentes de plataforma.

Más detalle sobre cómo DSX OS entrega esas capacidades:

Comunicación estandarizada en el data center, habilitada para interfaces agénticas

Una fábrica de IA cruza sistemas de cómputo, red, energía y enfriamiento que necesitan interoperar sin fricción. DSX Exchange conecta esos componentes con un hub de comunicación IT/OT basado en MQTT que hace visibles las señales a nivel de instalación, como eventos de red, datos térmicos y anomalías de energía, al software que administra el resto de la fábrica. Esto permite que componentes como DSX Flex, MaxLPS y software de partners reaccionen al estado de los demás en tiempo real, mejorando coordinación y eficiencia.

Los componentes de software DSX OS a lo largo del stack también entregarán servidores MCP para provisioning, redes, observabilidad y más. Usando estos servidores MCP, los agentes de IA pueden descubrir toda la superficie operativa de la fábrica como un catálogo unificado de herramientas, permitiéndoles operar a través de todos los sistemas y hacer correlación cross-domain. Con una fábrica de IA agéntica, los operadores pueden conectar fácilmente un evento de salud de GPU con una anomalía térmica, o un problema de red con un problema de rendimiento, entre otros escenarios.

Figura 2. DSX Exchange coordina comunicación dentro de la fábrica de IA, incluyendo señales de red eléctrica desde DSX Flex, señales a nivel de instalaciones, políticas de energía hacia y desde DSX MaxLPS y sistemas de provisioning
Figura 2. DSX Exchange coordina comunicación dentro de la fábrica de IA, incluyendo señales de red eléctrica desde DSX Flex, señales a nivel de instalaciones, políticas de energía hacia y desde DSX MaxLPS y sistemas de provisioning

Optimización de energía y eficiencia

La asignación estática de energía deja capacidad ociosa, el enfriamiento reactivo crea oscilaciones térmicas y los sistemas IT/OT desconectados convierten cada evento de red eléctrica en un ejercicio manual de incendio. DSX MaxLPS incluye software que trata a la energía como un recurso programable, aplicando políticas dinámicas a nivel de GPU, rack, enfriamiento y workload, permitiendo a las fábricas de IA recuperar energía ociosa para correr cómputo adicional con utilización óptima. DSX Flex extiende esto más allá de los muros de la fábrica con librerías para conectar workloads a servicios de red eléctrica, permitiendo que las fábricas de IA se adapten automáticamente a demand response, load shedding y disponibilidad de energía renovable. Partners como CoreWeave, Firmus, Lambda, Nscale y Phaidra están desplegando MaxLPS, mientras Emerald AI, ENGIE, Silicon Valley Power y UK National Grid están usando DSX Flex.

Provisioning y operaciones de ciclo de vida multitenant

A escala, el provisioning es un workflow continuo: los nodos rotan entre asignaciones de tenants, el hardware se reemplaza y cada transición debe ser auditable y segura. El NVIDIA Infra Controller (NICo) hace esto programable con gestión de ciclo de vida bare-metal por API y aislamiento de tenants reforzado por hardware mediante NVIDIA BlueField DPUs y el NVIDIA DOCA Platform Framework. El NVIDIA AI Cluster Runtime (AICR) complementa esto capturando configuraciones runtime validadas como recetas con versión locked, eliminando el drift de configuración que causa fallas silenciosas en flotas grandes.

IREN, OpenNebula Systems, Mirantis, Rafay, Red Hat y Supermicro están entre los partners integrando estos componentes.

Monitoreo de salud y tooling de automatización

En una flota grande de GPUs, la degradación de hardware ocurre todos los días, y el ciclo tradicional alerta-pager-investigar es demasiado manual para minimizar impacto sobre los workloads. NVIDIA NVSentinel entrega detección de fallas GPU nativa de Kubernetes y remediación automatizada, cordoneando nodos de cómputo enfermos y drenando workloads en segundos en vez de minutos u horas. NVIDIA Fleet Intelligence entrega visibilidad de toda la flota, verificación de integridad y monitoreo de salud en deployments globales. Lambda es uno de los primeros adoptantes de Fleet Intelligence.

Figura 3. El dashboard de NVIDIA Fleet Intelligence resume agregaciones a nivel de flota de datos como utilización de GPU y memoria, además del total de GPUs en estado activo
Figura 3. El dashboard de NVIDIA Fleet Intelligence resume agregaciones a nivel de flota de datos como utilización de GPU y memoria, además del total de GPUs en estado activo

Scheduling inteligente de workloads IA y servicios de plataforma

Los workloads de IA necesitan más que acceso a GPU: requieren scheduling inteligente con conocimiento de topología, inferencia distribuida y APIs de producción. KAI Scheduler y NVIDIA Run:ai entregan placement de workloads con conocimiento de GPU, asignación fraccional y cuotas jerárquicas. NVIDIA Dynamo y NVIDIA Grove entregan servicio de inferencia distribuida con prefill/decode desagregado y autoescalado por etapa. NVIDIA Cloud Functions (NVCF) une todo con APIs unificadas para inferencia, fine-tuning y batch con multitenancy nativa. Partners como Aible, Beyond AI, Bhashini, Crusoe, DCAI, Mirantis, Nebius, Rafay, Sarvam, Simplismart, Spectro Cloud, vCluster, Vultr y Yotta están usando muchos de estos componentes en producción.

¿Cómo se empieza?

Los componentes DSX OS están disponibles en GitHub y diseñados para adopción incremental e integración con stacks de software existentes.

Conviene empezar por el componente que resuelva tus requerimientos más inmediatos y construir desde ahí, aprovechando las capacidades y tecnologías entregadas para acelerar el deployment de la fábrica de IA y mejorar la eficiencia operativa.

Algunos ejemplos:

Revisa la documentación NVIDIA DSX para más detalles sobre todos los componentes de DSX OS, guías de implementación y diseños de referencia, quickstarts y guías de integración.