Punto clave de esta nota

Nemotron 3 Nano Omni es un modelo abierto multimodal de 30B parámetros con MoE que procesa texto, imagen, video y audio.

Punto clave de esta nota

Activa solo 3B parámetros por consulta y maneja contexto de 256K tokens, hasta 9x más throughput que Qwen3-Omni.

Punto clave de esta nota

Nvidia liberó pesos en BF16/FP8/NVFP4, parte de los datasets y los pipelines bajo licencia comercial el 29 de abril de 2026.

Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal

Puntos clave

Nvidia liberó Nemotron 3 Nano Omni, un modelo abierto que procesa texto, imágenes, video y audio, pensado para aplicaciones agénticas.
El entrenamiento involucró 717 mil millones de tokens, con buena parte de los datos sintéticos provenientes de modelos competidores como Qwen, gpt-oss, Kimi y DeepSeek-OCR.
Junto con los pesos, Nvidia publicó parte de los datos de entrenamiento y los pipelines. El modelo está habilitado para uso comercial.

Nvidia presentó Nemotron 3 Nano Omni, un modelo multimodal abierto que maneja texto, imágenes, video y audio. La parte interesante no es solo el rendimiento, sino los datos de entrenamiento, que se nutren de modelos como Qwen, GPT-OSS, Kimi y DeepSeek-OCR.

Nemotron 3 Nano Omni es un modelo open source multimodal que procesa texto, imágenes, video y audio en una sola arquitectura. Tiene 30 mil millones de parámetros y usa un híbrido Mamba-Transformer con Mixture-of-Experts, activando cerca de 3 mil millones de parámetros por consulta. Corre sobre el codificador de visión propio de Nvidia, C-RADIOv4-H, y el codificador de audio Parakeet-TDT, con una ventana de contexto de hasta 256.000 tokens. El único idioma oficialmente soportado es el inglés.

Según el reporte técnico, Nemotron 3 Nano Omni está construido principalmente para aplicaciones agénticas, procesamiento de documentos, agentes de uso de computadoras, análisis de video y audio, e interacción por voz. En benchmarks como OCRBenchV2, MMLongBench-Doc, WorldSense y VoiceBench, el modelo supera a su predecesor, Nemotron Nano V2 VL, y se pone codo a codo con Qwen3-Omni de Alibaba. En OSWorld, un benchmark para agentes GUI, la precisión salta de 11,1 a 47,4 puntos respecto a la versión anterior. Nvidia afirma que el throughput al mismo nivel de interactividad es hasta nueve veces mayor que Qwen3-Omni.

¿Cómo formaron los rivales los datos de entrenamiento?

Los benchmarks son una cosa, pero también hay detalles interesantes sobre los datos de entrenamiento, el tipo de detalle que solo se obtiene con un lanzamiento verdaderamente open source. Nvidia procesó cerca de 717 mil millones de tokens en siete etapas de entrenamiento, con la ventana de contexto expandiéndose en cada paso.

Una buena parte de los datos sintéticos de entrenamiento proviene de modelos competidores. Las descripciones de imágenes, los pares pregunta-respuesta y las trazas de razonamiento se generaron usando Qwen3-VL-30B-A3B-Instruct, Qwen3.5-122B-A10B, Qwen2.5-VL-72B-Instruct, gpt-oss-120b de OpenAI, Kimi-K2.5, GLM-4.1V-9B-Thinking y DeepSeek-OCR. Nvidia también utilizó GPT-4o y Gemini 3 Flash Preview para tareas de filtrado.

Usar otros modelos para entrenar nuevos modelos es práctica común en la industria, aunque la mayoría de los desarrolladores no son tan transparentes al respecto. Empresas como OpenAI, Anthropic y Google han acusado repetidamente a laboratorios chinos de IA por esfuerzos de destilación a gran escala.

Los datos de audio incluyen los datasets propios de Nvidia, Granary y SIFT-50M, junto con descripciones del Omni-Captioner de Qwen. Para la etapa de aprendizaje por refuerzo, el equipo construyó un pipeline de cinco etapas que abarca 25 entornos, cubriendo tareas como anclaje visual, comprensión de gráficos y documentos, clics en GUI y reconocimiento automático de voz.

¿Qué se libera y bajo qué licencia?

Junto con los pesos en BF16, FP8 y NVFP4, Nvidia libera parte de los datos de entrenamiento, los pipelines de entrenamiento sobre Megatron-Bridge y las recetas de RL sobre NeMo-RL. Eso distingue este lanzamiento de proyectos que solo entregan los pesos. El modo razonamiento viene activado por defecto, por lo que los usuarios deben desactivarlo manualmente para tareas que no requieren cadena de pensamiento. El modelo se distribuye bajo el NVIDIA Open Model Agreement, que permite uso comercial.

¿Qué impacto tiene para LATAM?

Para integradores y startups en Chile y la región, la disponibilidad de pesos abiertos en NVFP4 importa de manera concreta. Los pesos en precisión reducida bajan los requisitos de VRAM y permiten correr el modelo en GPUs accesibles localmente, sin necesidad de servidores H100 o B200. Con sus 3 mil millones de parámetros activos por consulta, Nemotron 3 Nano Omni puede levantarse en una sola RTX 4090 (24 GB) o equivalente, hardware que ya circula en los principales distribuidores chilenos. Eso lo posiciona como opción para automatización documental, agentes de soporte y análisis multimodal en producción local, sin egreso de datos hacia APIs externas.

Comparativa rápida con Nemotron Nano V2 VL

Métrica	Nemotron Nano V2 VL	Nemotron 3 Nano Omni
Modalidades	Texto + imagen	Texto + imagen + video + audio
Parámetros totales	12B	30B
Activos por consulta	~12B	~3B (MoE)
Contexto	128K	256K
OSWorld	11,1 puntos	47,4 puntos
Idiomas oficiales	Inglés	Inglés

¿Cuándo y dónde está disponible?

El modelo y los datasets ya están publicados en Hugging Face bajo la cuenta oficial de Nvidia. La fecha de release es 29 de abril de 2026 y los pesos están disponibles para descarga inmediata en BF16 (uso máximo de calidad), FP8 (balance) y NVFP4 (eficiencia en H100/H200). Para integradores con presupuesto cloud, Together AI y Replicate suelen montar este tipo de modelos abiertos dentro de los 7-14 días posteriores al lanzamiento, con tarifas de inferencia tipo USD 0,18-0,40 por millón de tokens según historial reciente.

Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal

Al grano

Por qué importa

Puntos clave

¿Cómo formaron los rivales los datos de entrenamiento?

¿Qué se libera y bajo qué licencia?

¿Qué impacto tiene para LATAM?

Comparativa rápida con Nemotron Nano V2 VL

¿Cuándo y dónde está disponible?

Seguir leyendo

NVIDIA Nemotron 3 Nano Omni unifica video, audio e imagen en un modelo

NVIDIA lanza Nemotron 3 Nano Omni, modelo omnimodal para agentes de IA

OpenClaw: el agente IA local que estalló en GitHub

Cómo la IA agéntica mantiene las simulaciones de yacimientos en marcha

→Al grano

✦Por qué importa

Puntos clave

¿Cómo formaron los rivales los datos de entrenamiento?

¿Qué se libera y bajo qué licencia?

¿Qué impacto tiene para LATAM?

Comparativa rápida con Nemotron Nano V2 VL

¿Cuándo y dónde está disponible?

Seguir leyendo

NVIDIA Nemotron 3 Nano Omni unifica video, audio e imagen en un modelo

NVIDIA lanza Nemotron 3 Nano Omni, modelo omnimodal para agentes de IA

OpenClaw: el agente IA local que estalló en GitHub

Cómo la IA agéntica mantiene las simulaciones de yacimientos en marcha

Al grano

Por qué importa