NVIDIA Cosmos 3 ya está disponible y se puede descargar desde Hugging Face a partir de hoy. La nueva generación de los world foundation models (WFM) de NVIDIA llega como un omni-modelo único que combina generación de mundos, razonamiento físico y generación de acciones en una sola red. Ya no hace falta encadenar varios modelos ni mantener pipelines de inferencia distintos: Cosmos 3 lo hace todo en una sola pasada.
El objetivo, según la compañía, es servir como base para simular y entender el mundo físico, ya sea para robótica, vehículos autónomos o espacios inteligentes.
Qué trae el lanzamiento
El paquete que se libera hoy incluye cuatro componentes:
- Cosmos 3 Super y Cosmos 3 Nano publicados en Hugging Face con sus model cards y licencias.
- Integración con la librería Diffusers de Hugging Face mediante el pipeline
Cosmos3OmniPipeline. - Scripts de post-entrenamiento disponibles en GitHub para afinar Cosmos 3 con datos propios.
- Datasets abiertos de generación de datos sintéticos (SDG) para entrenar sistemas de IA física.
¿Qué cambia respecto a Cosmos 2?
El salto principal es arquitectónico. Las versiones anteriores requerían modelos separados según la tarea: Cosmos Predict para generar mundos, Cosmos Transfer para generación controlada, Cosmos Reason para entender escenas y Cosmos Policy para generar políticas. Cosmos 3 unifica todo eso en un único modelo basado en una arquitectura Mixture-of-Transformers (MoT), capaz de razonar y generar distintas modalidades en una sola pasada.
Esto le permite, desde un mismo modelo:
- Generar videos del mundo físicamente plausibles a partir de texto, imágenes, video o acciones de entrada.
- Razonar sobre propiedades físicas como el movimiento, la causalidad y las relaciones espaciales.
- Predecir secuencias futuras de video y acción a partir del estado actual.




Cómo está construido por dentro
Cosmos 3 se apoya en una espina dorsal MoT que procesa todas las modalidades (texto, imagen, video, audio y acción) dentro de una misma arquitectura. Cada modalidad se codifica primero por un encoder dedicado (un ViT para visión, un VAE para visión y audio en generación, y vectores específicos de dominio para acciones) y luego se proyecta a un espacio de representación compartido.

La secuencia de entrada se divide en dos sub-secuencias: una autoregresiva (AR), encargada del razonamiento y comprensión vía predicción del siguiente token, y otra de difusión (DM), que se ocupa de la generación con denoising iterativo. Las dos sub-secuencias usan parámetros separados dentro de cada capa del transformer, pero interactúan vía atención conjunta. Esa interacción es la que permite que un mismo modelo cambie sin reescribir nada entre actuar como VLM, como generador de video, como modelo de dinámicas directas o inversas, o como política de un robot.
Dos tamaños: 16B parámetros y 64B parámetros
El lanzamiento incluye dos modelos con perfiles de hardware distintos:
- Cosmos 3 Nano (16B parámetros, 8B para razonamiento y 8B para generación). Pensado para inferencia eficiente, corre en hardware de workstation como la RTX PRO 6000. Disponible en nvidia/Cosmos3-Nano.
- Cosmos 3 Super (64B parámetros, 32B para razonamiento y 32B para generación). Apunta a generación masiva de datos sintéticos (SDG) e investigación. Requiere GPUs NVIDIA Hopper o Blackwell. Disponible en nvidia/Cosmos3-Super.
Cómo se usa con Diffusers
Cosmos 3 está integrado con la librería Diffusers de Hugging Face. La interfaz es la familiar DiffusionPipeline, ahora vía Cosmos3OmniPipeline. El objetivo declarado es reducir la fricción de adopción para que quien ya trabaje con Diffusers pueda enchufar Cosmos 3 sin tocar más que el nombre del modelo.
Un ejemplo de texto a imagen con el modelo Nano se ve así:
import torch
from diffusers import Cosmos3OmniPipeline
pipe = Cosmos3OmniPipeline.from_pretrained(
"nvidia/Cosmos3-Nano",
torch_dtype=torch.bfloat16,
device_map="cuda",
)
prompt = (
"A medium shot of a modern robotics research laboratory with white walls and a gray floor. "
"A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned "
"above a row of small colored objects. A laptop and neatly arranged tools sit beside the robot. "
"A large monitor on the wall behind displays a software interface. The scene is brightly lit by "
"overhead fluorescent lights."
)
result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)
La documentación del pipeline incluye además ejemplos de texto a video, imagen a video y otras variantes.
Datasets sintéticos abiertos
Como parte del release, NVIDIA publica también un conjunto de datasets sintéticos para que la comunidad pueda entrenar y evaluar world foundation models. Los datasets fueron generados por equipos internos de NVIDIA y están disponibles en Hugging Face.
Post-entrenar Cosmos 3 con datos propios
Aunque Cosmos 3 funciona out-of-the-box para robótica, AV y espacios inteligentes, NVIDIA recomienda post-entrenarlo para casos específicos. El Cosmos Framework en GitHub incluye scripts de inferencia, de post-training, y agent skills para acelerar el desarrollo: validan dependencias, configuran el entorno, generan prompts y corren los scripts.




