Punto clave de esta nota

NVIDIA liberó Cosmos 3 en Hugging Face, un omni-modelo de fundación para IA física que unifica generación de mundos, razonamiento y acciones en una sola arquitectura MoT.

¿Llega en dos tamaños?

Cosmos 3 Nano de 16B parámetros para workstation RTX PRO 6000, y Cosmos 3 Super de 64B parámetros para GPUs Hopper y Blackwell.

Punto clave de esta nota

Incluye integración nativa con Diffusers vía Cosmos3OmniPipeline, scripts de post-entrenamiento en GitHub y datasets sintéticos abiertos para robótica y AV.

NVIDIA Cosmos 3: el omni-modelo abierto para IA física

Al grano

NVIDIA liberó Cosmos 3 en Hugging Face, un omni-modelo de fundación para IA física que unifica generación de mundos, razonamiento y acciones en una sola arquitectura MoT.
Llega en dos tamaños: Cosmos 3 Nano de 16B parámetros para workstation RTX PRO 6000, y Cosmos 3 Super de 64B parámetros para GPUs Hopper y Blackwell.
Incluye integración nativa con Diffusers vía Cosmos3OmniPipeline, scripts de post-entrenamiento en GitHub y datasets sintéticos abiertos para robótica y AV.

NVIDIA Cosmos 3 ya está disponible y se puede descargar desde Hugging Face a partir de hoy. La nueva generación de los world foundation models (WFM) de NVIDIA llega como un omni-modelo único que combina generación de mundos, razonamiento físico y generación de acciones en una sola red. Ya no hace falta encadenar varios modelos ni mantener pipelines de inferencia distintos: Cosmos 3 lo hace todo en una sola pasada.

El objetivo, según la compañía, es servir como base para simular y entender el mundo físico, ya sea para robótica, vehículos autónomos o espacios inteligentes.

Qué trae el lanzamiento

El paquete que se libera hoy incluye cuatro componentes:

Cosmos 3 Super y Cosmos 3 Nano publicados en Hugging Face con sus model cards y licencias.
Integración con la librería Diffusers de Hugging Face mediante el pipeline Cosmos3OmniPipeline.
Scripts de post-entrenamiento disponibles en GitHub para afinar Cosmos 3 con datos propios.
Datasets abiertos de generación de datos sintéticos (SDG) para entrenar sistemas de IA física.

¿Qué cambia respecto a Cosmos 2?

El salto principal es arquitectónico. Las versiones anteriores requerían modelos separados según la tarea: Cosmos Predict para generar mundos, Cosmos Transfer para generación controlada, Cosmos Reason para entender escenas y Cosmos Policy para generar políticas. Cosmos 3 unifica todo eso en un único modelo basado en una arquitectura Mixture-of-Transformers (MoT), capaz de razonar y generar distintas modalidades en una sola pasada.

Esto le permite, desde un mismo modelo:

Generar videos del mundo físicamente plausibles a partir de texto, imágenes, video o acciones de entrada.
Razonar sobre propiedades físicas como el movimiento, la causalidad y las relaciones espaciales.
Predecir secuencias futuras de video y acción a partir del estado actual.

Video generado por Cosmos 3 para tareas de pick and place en robótica

Video generado por Cosmos 3 para escenarios de conducción autónoma de cola larga

Generación de imagen a video con Cosmos 3 para datos de seguridad de almacén

Razonamiento chain-of-thought de Cosmos 3 aplicado a conducción autónoma

Cómo está construido por dentro

Cosmos 3 se apoya en una espina dorsal MoT que procesa todas las modalidades (texto, imagen, video, audio y acción) dentro de una misma arquitectura. Cada modalidad se codifica primero por un encoder dedicado (un ViT para visión, un VAE para visión y audio en generación, y vectores específicos de dominio para acciones) y luego se proyecta a un espacio de representación compartido.

La secuencia de entrada se divide en dos sub-secuencias: una autoregresiva (AR), encargada del razonamiento y comprensión vía predicción del siguiente token, y otra de difusión (DM), que se ocupa de la generación con denoising iterativo. Las dos sub-secuencias usan parámetros separados dentro de cada capa del transformer, pero interactúan vía atención conjunta. Esa interacción es la que permite que un mismo modelo cambie sin reescribir nada entre actuar como VLM, como generador de video, como modelo de dinámicas directas o inversas, o como política de un robot.

Dos tamaños: 16B parámetros y 64B parámetros

El lanzamiento incluye dos modelos con perfiles de hardware distintos:

Cosmos 3 Nano (16B parámetros, 8B para razonamiento y 8B para generación). Pensado para inferencia eficiente, corre en hardware de workstation como la RTX PRO 6000. Disponible en nvidia/Cosmos3-Nano.
Cosmos 3 Super (64B parámetros, 32B para razonamiento y 32B para generación). Apunta a generación masiva de datos sintéticos (SDG) e investigación. Requiere GPUs NVIDIA Hopper o Blackwell. Disponible en nvidia/Cosmos3-Super.

Cómo se usa con Diffusers

Cosmos 3 está integrado con la librería Diffusers de Hugging Face. La interfaz es la familiar DiffusionPipeline, ahora vía Cosmos3OmniPipeline. El objetivo declarado es reducir la fricción de adopción para que quien ya trabaje con Diffusers pueda enchufar Cosmos 3 sin tocar más que el nombre del modelo.

Un ejemplo de texto a imagen con el modelo Nano se ve así:

Código

import torch
from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano",
    torch_dtype=torch.bfloat16,
    device_map="cuda",
)

prompt = (
    "A medium shot of a modern robotics research laboratory with white walls and a gray floor. "
    "A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned "
    "above a row of small colored objects. A laptop and neatly arranged tools sit beside the robot. "
    "A large monitor on the wall behind displays a software interface. The scene is brightly lit by "
    "overhead fluorescent lights."
)

result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

Imagen generada por Cosmos 3 Nano con el prompt anterior

La documentación del pipeline incluye además ejemplos de texto a video, imagen a video y otras variantes.

Datasets sintéticos abiertos

Como parte del release, NVIDIA publica también un conjunto de datasets sintéticos para que la comunidad pueda entrenar y evaluar world foundation models. Los datasets fueron generados por equipos internos de NVIDIA y están disponibles en Hugging Face.

Post-entrenar Cosmos 3 con datos propios

Aunque Cosmos 3 funciona out-of-the-box para robótica, AV y espacios inteligentes, NVIDIA recomienda post-entrenarlo para casos específicos. El Cosmos Framework en GitHub incluye scripts de inferencia, de post-training, y agent skills para acelerar el desarrollo: validan dependencias, configuran el entorno, generan prompts y corren los scripts.

NVIDIA Cosmos 3: el omni-modelo abierto para IA física

Al grano

Por qué importa

Qué trae el lanzamiento

¿Qué cambia respecto a Cosmos 2?

Cómo está construido por dentro

Dos tamaños: 16B parámetros y 64B parámetros

Cómo se usa con Diffusers

Datasets sintéticos abiertos

Post-entrenar Cosmos 3 con datos propios

Recursos para empezar

Seguir leyendo

NVIDIA integra Isaac GR00T a LeRobot de Hugging Face

NVIDIA e Hugging Face suben GR00T 1.7 y Teleop a LeRobot

NVIDIA Cosmos 3 unifica razonamiento y generación de mundo

NVIDIA Cosmos 3 sube de 54% a 93% de precisión en un día

→Al grano

✦Por qué importa

Qué trae el lanzamiento

¿Qué cambia respecto a Cosmos 2?

Cómo está construido por dentro

Dos tamaños: 16B parámetros y 64B parámetros

Cómo se usa con Diffusers

Datasets sintéticos abiertos

Post-entrenar Cosmos 3 con datos propios

Recursos para empezar

Seguir leyendo

NVIDIA integra Isaac GR00T a LeRobot de Hugging Face

NVIDIA e Hugging Face suben GR00T 1.7 y Teleop a LeRobot

NVIDIA Cosmos 3 unifica razonamiento y generación de mundo

NVIDIA Cosmos 3 sube de 54% a 93% de precisión en un día

Al grano

Por qué importa