Punto clave de esta nota

NVIDIA lanzó Nemotron 3 Nano Omni, un modelo abierto de 30B parámetros que unifica video, audio, imagen y texto en una sola arquitectura.

Punto clave de esta nota

Usa un núcleo híbrido mixture-of-experts con capas Mamba y transformer y activa solamente al experto necesario para cada modalidad y tarea.

Punto clave de esta nota

Los pesos están publicados en Hugging Face bajo la licencia NVIDIA Nemotron Open Model, con datasets y recetas de entrenamiento incluidos.

NVIDIA Nemotron 3 Nano Omni unifica video, audio e imagen en un modelo

Los sistemas agénticos suelen razonar sobre pantallas, documentos, audio, video y texto dentro de un mismo bucle de percepción y acción. Sin embargo, hoy dependen de cadenas fragmentadas de modelos, con pilas separadas para visión, audio y texto. Eso aumenta los saltos de inferencia y la complejidad de orquestación, encarece el costo de cómputo y debilita la consistencia del contexto entre modalidades.

NVIDIA Nemotron 3 Nano Omni, una nueva incorporación a la familia Nemotron 3, trae el razonamiento multimodal unificado a un único modelo abierto y muy eficiente. Diseñado para sustituir esas pilas fragmentadas, Nemotron 3 Nano Omni funciona como el sub-agente de percepción y contexto multimodal dentro de sistemas agénticos.

Con esto los agentes pueden percibir y razonar sobre entradas visuales, auditivas y textuales en un solo bucle compartido, mejorando la convergencia y reduciendo tanto la complejidad de orquestación como el costo de inferencia.

El modelo entrega exactitud de punta en leaderboards de inteligencia documental como MMlongbench-Doc y OCRBenchV2, y también lidera en comprensión de video y audio en WorldSense, DailyOmni y VoiceBench.

Más allá de la exactitud, MediaPerf, un benchmark abierto de la industria que evalúa modelos de comprensión de video sobre datos reales y tareas productivas en términos de calidad, costo y throughput, muestra que Nemotron 3 Nano Omni alcanza el mayor throughput en cada tarea y el menor costo de inferencia para etiquetado a nivel de video. NVIDIA detalla los resultados en este artículo.

Construido sobre una arquitectura híbrida de mixture-of-experts (MoE) de 30B-A3B, Nemotron 3 Nano Omni activa solamente al experto requerido por cada tarea y modalidad, lo que permite alto throughput y desempeño multimodal a escala. Con pesos, datasets y recetas completamente abiertos, los desarrolladores pueden personalizarlo, desplegarlo e integrar sub-agentes multimodales en entornos locales, en la nube y empresariales.

Eficiencia y exactitud combinadas

Nemotron 3 Nano Omni soporta inferencia optimizada por hardware en múltiples arquitecturas de GPU NVIDIA, incluidas las familias Ampere, Hopper y Blackwell, y los motores de inferencia más usados como vLLM y NVIDIA TensorRT-LLM.

Soporta cuantización FP8 y NVFP4, muestreo eficiente de video y kernels optimizados por NVIDIA para entregar inferencia predecible y de baja latencia. Combinado con procesamiento espacio-temporal basado en convoluciones 3D, estas optimizaciones permiten percepción multimodal sostenida con menor costo de cómputo en GPUs, desde estaciones de trabajo hasta centros de datos y nube.

Diseñado para alimentar sub-agentes, Nemotron 3 Nano Omni se ocupa de la percepción, el mantenimiento del contexto y la comprensión multimodal dentro de sistemas agénticos más grandes. Se integra de forma limpia con modelos de ejecución y planificación, como NVIDIA Nemotron 3 Super y NVIDIA Nemotron 3 Ultra, manteniendo arquitecturas modulares, eficientes y escalables.

Los siguientes benchmarks evalúan el desempeño bajo un umbral fijo de interactividad, el punto en que cada usuario sigue percibiendo interacciones en tiempo real. En lugar de maximizar la concurrencia bruta, las evaluaciones mantienen constante el throughput por usuario (tokens por segundo por usuario) y miden cuánto throughput total puede sostener el sistema sin degradar la experiencia.

Figura 1. Throughput total sostenido por cada modelo a un umbral fijo de interactividad por usuario (tokens/segundo/usuario)

En razonamiento de video al mismo umbral de interactividad, Nemotron 3 Nano Omni sostiene un throughput agregado más alto, equivalente a hasta 9,2 veces más capacidad efectiva del sistema que otros modelos omni abiertos.

Figura 2. Curva de Pareto que muestra mayor capacidad del sistema en un caso de uso multi-documento para Nemotron 3 Nano Omni frente a un modelo omni abierto alternativo

En razonamiento sobre múltiples documentos al mismo umbral, sostiene throughput agregado más alto, equivalente a hasta 7,4 veces más capacidad que las alternativas omni abiertas.

En GPUs Blackwell con cuantización NVFP4, Nemotron 3 Nano Omni alcanza el mayor throughput entre los modelos omnimodales abiertos para cargas empresariales que involucran documentos complejos, razonamiento de horizonte largo y lotes grandes de video. Estas características lo hacen apto para aplicaciones agénticas en finanzas, salud, descubrimiento científico, medios y entretenimiento, y plataformas de ad-tech que procesan altos volúmenes de video y audio a escala.

Figura 3. La exactitud multimodal mejora a través de los benchmarks líderes desde el modelo Nemotron Nano VL V2 anterior hasta Nemotron 3 Nano Omni

Qué hay bajo el capó

Nemotron 3 Nano Omni es un modelo liviano de 30B-A3B diseñado para razonamiento entre modalidades con alto throughput.

Arquitectura del modelo

La arquitectura de Nemotron 3 Nano Omni integra percepción y razonamiento multimodal en un único modelo MoE híbrido de 30B, con soporte nativo para texto, imagen, video y audio, manteniendo un contexto multimodal unificado a lo largo de los bucles del agente y eliminando la necesidad de modelos separados de visión, voz y lenguaje.

Núcleo MoE híbrido: combina capas Mamba para eficiencia en secuencia y memoria con capas transformer para razonamiento preciso. Este diseño entrega mayor throughput con eficiencia de memoria y cómputo hasta 4 veces mejor, lo que lo hace adecuado para roles de sub-agente.
Procesamiento visual espacio-temporal y muestreo eficiente de video: para manejar frames de video, usa convoluciones 3D que capturan el movimiento entre cuadros. La capa Efficient Video Sampling (EVS), aplicada en tiempo de inferencia, comprime los tokens visuales de alta densidad en un conjunto conciso que el modelo puede procesar sin desbordar la ventana de contexto.
Arquitectura multimodal:

Figura 4. Arquitectura híbrida MoE de Nemotron 3 Nano Omni para integración entre modalidades

Metodología de entrenamiento

Entrenado con datos cross-modales y ajuste por instrucciones, Nemotron 3 Nano Omni está pensado para entornos de agentes reales. Sigue instrucciones que abarcan imagen, video, audio y texto, funcionando como sub-agente de percepción y contexto multimodal. Todas las etapas se evalúan con la librería NVIDIA NeMo Evaluator.

Entrenamiento de adaptadores y encoders: datos a gran escala que abarcan documentos, capturas de pantalla, audio y video, lo que habilita generalización fuerte en tareas de percepción empresarial.
Fine-tuning supervisado (SFT): una pipeline multi-etapa implementada con NVIDIA Megatron-LM que expande progresivamente la cobertura de modalidades, partiendo de encoders de visión-lenguaje y audio, y luego escalando la longitud de contexto (16K, 49K y 262K) para construir capacidad unificada de seguir instrucciones cross-modales.
Reinforcement learning post-SFT: aprendizaje por refuerzo en múltiples entornos, sobre 25 configuraciones, usando NVIDIA NeMo Gym y NeMo RL, con más de 2,3 millones de rollouts de entorno para mejorar la robustez en tareas multimodales y flujos agénticos.

Abierto por diseño: pesos, datos y recetas

Nemotron 3 Nano Omni se construye sobre una base de transparencia, con acceso completo a pesos, datasets y recetas de entrenamiento. Bajo este enfoque open source, los desarrolladores pueden personalizar el modelo en sus propias instalaciones, asegurando rendimiento sin comprometer privacidad ni seguridad.

Los checkpoints completos están disponibles en Hugging Face, y el modelo también estará accesible como microservicio NVIDIA NIM. La licencia NVIDIA Nemotron Open Model entrega a las empresas flexibilidad para mantener el control de los datos y desplegar el modelo donde necesiten.

La receta completa de pre-entrenamiento, post-entrenamiento y evaluación está publicada y cubre el pipeline completo, desde el pre-entrenamiento hasta el alineamiento. Los desarrolladores pueden reproducir el entrenamiento, adaptar la receta a variantes específicas de dominio o usarla como punto de partida para investigación propia.

NVIDIA también ofrece cookbooks listos para los principales motores de inferencia, cada uno con plantillas de configuración, guías de tuning de rendimiento y scripts de referencia, incluido un cookbook para vLLM con batching continuo y streaming de alto throughput.

NVIDIA Nemotron 3 Nano Omni unifica video, audio e imagen en un modelo

Al grano

Por qué importa

Eficiencia y exactitud combinadas

Qué hay bajo el capó

Arquitectura del modelo

Metodología de entrenamiento

Abierto por diseño: pesos, datos y recetas

Seguir leyendo

GPT-Image-2 redefine las posibilidades creativas de la IA

OpenAI presenta GPT-5.5: una nueva clase de inteligencia más costosa

GPT-5.5 lidera rankings de IA pero sigue alucinando y cuesta 20% más

GPT-5.5 vuelve al primer lugar con alucinaciones récord y 20% más caro

→Al grano

✦Por qué importa

Eficiencia y exactitud combinadas

Qué hay bajo el capó

Arquitectura del modelo

Metodología de entrenamiento

Abierto por diseño: pesos, datos y recetas

Seguir leyendo

GPT-Image-2 redefine las posibilidades creativas de la IA

OpenAI presenta GPT-5.5: una nueva clase de inteligencia más costosa

GPT-5.5 lidera rankings de IA pero sigue alucinando y cuesta 20% más

GPT-5.5 vuelve al primer lugar con alucinaciones récord y 20% más caro

Al grano

Por qué importa