Los sistemas de inteligencia artificial física necesitan entender el mundo real antes de actuar sobre él. Robots, vehículos autónomos y espacios inteligentes deben interpretar lo que ocurre, anticipar lo que viene y generar acciones específicas para cada entorno, cuerpo robótico y tarea.

NVIDIA Cosmos 3 es un modelo fundacional abierto que combina razonamiento físico, generación de mundo y generación de acciones en una sola red. La compañía liberó los pesos del modelo, los scripts de entrenamiento, las herramientas de despliegue y los datasets, con el objetivo de hacer el desarrollo de IA física más abierto y reproducible.

Clip de video generado por Cosmos 3 para conducción autónoma
Clip de video generado por Cosmos 3 para conducción autónoma
Video generado con Cosmos 3 para datos de seguridad en bodegas
Video generado con Cosmos 3 para datos de seguridad en bodegas

Lo destacado del lanzamiento:

  • Checkpoints de Cosmos 3 Nano (8.000 millones de parámetros) y Cosmos 3 Super (32.000 millones) en Hugging Face, con código en GitHub.
  • Seis datasets abiertos para aplicaciones de IA física, incluyendo robótica, simulación, razonamiento espacial, movimiento humano, conducción autónoma y bodegas.
  • Scripts de post-entrenamiento para adaptar Cosmos 3 a cada dominio.
  • Microservicios NIM de Cosmos para despliegue optimizado en GPUs NVIDIA.

¿Qué cambia respecto de Cosmos 2?

Las versiones anteriores separaban la generación de mundo, la comprensión física y la generación de escenas controladas en modelos y flujos distintos. Cosmos 3 unifica todo en una arquitectura Mixture-of-Transformers (MoT) construida sobre dos torres.

  • Torre razonadora: un modelo visión-lenguaje (VLM) que interpreta imágenes, video y texto en una pasada autorregresiva. Entiende movimiento, interacciones entre objetos y contexto físico. Es el "cerebro" que razona sobre la escena antes de generar nada.
  • Torre generadora: produce observaciones futuras y secuencias de acción usando un proceso difusivo, condicionado por la comprensión de la torre razonadora. La razonadora puede invocarse sola, pero la generadora siempre activa ambas torres para guiar la salida.
Arquitectura de Cosmos 3
Arquitectura de Cosmos 3

La idea es que un solo modelo haga razonamiento y generación, eliminando la orquestación entre múltiples redes y pipelines de inferencia separados.

¿Cuál de los dos tamaños conviene?

Hay dos modelos disponibles:

  • Cosmos 3 Nano: 8.000 millones de parámetros, optimizado para inferencia eficiente. Apunta a hardware tipo estación de trabajo, como la NVIDIA RTX PRO 6000, para inferencia en robótica en tiempo real.
  • Cosmos 3 Super: 32.000 millones de parámetros, calidad máxima. Pensado para datacenter sobre GPUs Hopper y Blackwell, con foco en generación masiva de datos sintéticos y razonamiento físico avanzado.

Datasets abiertos para entrenar robots y vehículos

Junto al modelo, NVIDIA publica seis datasets sintéticos en Hugging Face que cubren escenarios distintos para post-entrenamiento:

Ejemplos del dataset de manipulación robótica embebida
Ejemplos del dataset de manipulación robótica embebida
Ejemplos del dataset de interacciones físicas
Ejemplos del dataset de interacciones físicas

Benchmark HUE: verificación fáctica en vez de votación humana

NVIDIA introduce el framework Cosmos Human Evaluation (HUE), que descompone cada video generado en preguntas binarias de un solo hecho (sí/no) a lo largo de cuatro dimensiones: alineamiento semántico, leyes físicas, razonamiento geométrico e integridad visual. Cubre siete dominios de IA física, incluyendo robótica, vehículos autónomos y física básica.

Las preguntas las genera una tubería de modelos VLM, las refinan expertos humanos y se publican como código abierto en Hugging Face. La motivación de NVIDIA: los benchmarks automáticos actuales ya están saturados y las diferencias de puntaje entre modelos son demasiado estrechas para ser informativas.

Resultados de benchmark

Cosmos 3 Super y Cosmos 3 Nano lideran el benchmark VANTAGE-Bench en los niveles de 32.000 y 8.000 millones de parámetros respectivamente. En el lado generativo, el modelo aparece como estado del arte open source en R-Bench y lidera PAI-Bench, Physics-IQ y RoboLab según las tablas públicas. NVIDIA aclara que Cosmos 3 también figura como el mejor modelo abierto en los rankings de Artificial Analysis para Text to Image e Image to Video.

Recetas de post-entrenamiento abiertas

El paquete incluye un set completo de recetas para adaptar Cosmos 3 a nuevos dominios, cuerpos robóticos y datasets propios. Hay dos ramas principales:

  • Fine-tuning supervisado (SFT): recetas de post-entrenamiento para generación visual con datasets de video propios, además de recetas orientadas a acciones para flujos de robótica e IA física. El código y los archivos de configuración están en el repositorio en GitHub.
  • Post-entrenamiento de acciones: adapta Cosmos 3 para aplicaciones que generan acciones, como dinámica directa, dinámica inversa y generación de políticas. En robótica permite generar observaciones futuras condicionadas por acciones del robot, inferir las acciones detrás de demostraciones observadas y predecir secuencias de acción a partir del estado actual más un prompt de tarea.

Despliegue con microservicios NIM

Los modelos Cosmos 3 también se distribuyen como microservicios NVIDIA NIM para despliegue productivo optimizado. NIM empaqueta el modelo con runtimes de inferencia ya tuneados, evitando la necesidad de ajustar manualmente la infraestructura de serving.

El NIM del Cosmos 3 Reasoner está disponible hoy. El NIM del Cosmos 3 Generator, con capacidades completas de generación, fue anunciado pero todavía no tiene fecha pública de release.

Disponibilidad

Cosmos 3 ya se puede descargar desde Hugging Face y la documentación técnica está en el reporte oficial. Los datasets sintéticos están bajo la NVIDIA Open Model License, que permite uso comercial con atribución. Cosmos 3 Nano puede correr en una sola NVIDIA RTX PRO 6000; para Super, NVIDIA recomienda nodos Hopper o Blackwell.