Puntos clave

  • Nvidia liberó Nemotron 3 Nano Omni, un modelo abierto que procesa texto, imágenes, video y audio, pensado para aplicaciones agénticas.
  • El entrenamiento involucró 717 mil millones de tokens, con buena parte de los datos sintéticos provenientes de modelos competidores como Qwen, gpt-oss, Kimi y DeepSeek-OCR.
  • Junto con los pesos, Nvidia publicó parte de los datos de entrenamiento y los pipelines. El modelo está habilitado para uso comercial.

Nvidia presentó Nemotron 3 Nano Omni, un modelo multimodal abierto que maneja texto, imágenes, video y audio. La parte interesante no es solo el rendimiento, sino los datos de entrenamiento, que se nutren de modelos como Qwen, GPT-OSS, Kimi y DeepSeek-OCR.

Nemotron 3 Nano Omni es un modelo open source multimodal que procesa texto, imágenes, video y audio en una sola arquitectura. Tiene 30 mil millones de parámetros y usa un híbrido Mamba-Transformer con Mixture-of-Experts, activando cerca de 3 mil millones de parámetros por consulta. Corre sobre el codificador de visión propio de Nvidia, C-RADIOv4-H, y el codificador de audio Parakeet-TDT, con una ventana de contexto de hasta 256.000 tokens. El único idioma oficialmente soportado es el inglés.

Según el reporte técnico, Nemotron 3 Nano Omni está construido principalmente para aplicaciones agénticas, procesamiento de documentos, agentes de uso de computadoras, análisis de video y audio, e interacción por voz. En benchmarks como OCRBenchV2, MMLongBench-Doc, WorldSense y VoiceBench, el modelo supera a su predecesor, Nemotron Nano V2 VL, y se pone codo a codo con Qwen3-Omni de Alibaba. En OSWorld, un benchmark para agentes GUI, la precisión salta de 11,1 a 47,4 puntos respecto a la versión anterior. Nvidia afirma que el throughput al mismo nivel de interactividad es hasta nueve veces mayor que Qwen3-Omni.

¿Cómo formaron los rivales los datos de entrenamiento?

Los benchmarks son una cosa, pero también hay detalles interesantes sobre los datos de entrenamiento, el tipo de detalle que solo se obtiene con un lanzamiento verdaderamente open source. Nvidia procesó cerca de 717 mil millones de tokens en siete etapas de entrenamiento, con la ventana de contexto expandiéndose en cada paso.

Una buena parte de los datos sintéticos de entrenamiento proviene de modelos competidores. Las descripciones de imágenes, los pares pregunta-respuesta y las trazas de razonamiento se generaron usando Qwen3-VL-30B-A3B-Instruct, Qwen3.5-122B-A10B, Qwen2.5-VL-72B-Instruct, gpt-oss-120b de OpenAI, Kimi-K2.5, GLM-4.1V-9B-Thinking y DeepSeek-OCR. Nvidia también utilizó GPT-4o y Gemini 3 Flash Preview para tareas de filtrado.

Usar otros modelos para entrenar nuevos modelos es práctica común en la industria, aunque la mayoría de los desarrolladores no son tan transparentes al respecto. Empresas como OpenAI, Anthropic y Google han acusado repetidamente a laboratorios chinos de IA por esfuerzos de destilación a gran escala.

Los datos de audio incluyen los datasets propios de Nvidia, Granary y SIFT-50M, junto con descripciones del Omni-Captioner de Qwen. Para la etapa de aprendizaje por refuerzo, el equipo construyó un pipeline de cinco etapas que abarca 25 entornos, cubriendo tareas como anclaje visual, comprensión de gráficos y documentos, clics en GUI y reconocimiento automático de voz.

¿Qué se libera y bajo qué licencia?

Junto con los pesos en BF16, FP8 y NVFP4, Nvidia libera parte de los datos de entrenamiento, los pipelines de entrenamiento sobre Megatron-Bridge y las recetas de RL sobre NeMo-RL. Eso distingue este lanzamiento de proyectos que solo entregan los pesos. El modo razonamiento viene activado por defecto, por lo que los usuarios deben desactivarlo manualmente para tareas que no requieren cadena de pensamiento. El modelo se distribuye bajo el NVIDIA Open Model Agreement, que permite uso comercial.

¿Qué impacto tiene para LATAM?

Para integradores y startups en Chile y la región, la disponibilidad de pesos abiertos en NVFP4 importa de manera concreta. Los pesos en precisión reducida bajan los requisitos de VRAM y permiten correr el modelo en GPUs accesibles localmente, sin necesidad de servidores H100 o B200. Con sus 3 mil millones de parámetros activos por consulta, Nemotron 3 Nano Omni puede levantarse en una sola RTX 4090 (24 GB) o equivalente, hardware que ya circula en los principales distribuidores chilenos. Eso lo posiciona como opción para automatización documental, agentes de soporte y análisis multimodal en producción local, sin egreso de datos hacia APIs externas.

Comparativa rápida con Nemotron Nano V2 VL

MétricaNemotron Nano V2 VLNemotron 3 Nano Omni
ModalidadesTexto + imagenTexto + imagen + video + audio
Parámetros totales12B30B
Activos por consulta~12B~3B (MoE)
Contexto128K256K
OSWorld11,1 puntos47,4 puntos
Idiomas oficialesInglésInglés

¿Cuándo y dónde está disponible?

El modelo y los datasets ya están publicados en Hugging Face bajo la cuenta oficial de Nvidia. La fecha de release es 29 de abril de 2026 y los pesos están disponibles para descarga inmediata en BF16 (uso máximo de calidad), FP8 (balance) y NVFP4 (eficiencia en H100/H200). Para integradores con presupuesto cloud, Together AI y Replicate suelen montar este tipo de modelos abiertos dentro de los 7-14 días posteriores al lanzamiento, con tarifas de inferencia tipo USD 0,18-0,40 por millón de tokens según historial reciente.