NVIDIA lanza Nemotron 3 Nano Omni, modelo omnimodal para agentes de IA

La arquitectura de mezcla de expertos de 30B parámetros unifica visión, audio y texto en un solo modelo, con un rendimiento hasta 9 veces superior al de otros modelos omni abiertos.

Publicado el 28 de abril de 2026 · 06:15 p. m.3 min de lectura

Al grano

NVIDIA lanzó Nemotron 3 Nano Omni, un modelo omnimodal abierto con arquitectura de mezcla de expertos que integra visión, audio y texto en un único sistema.

El modelo logra hasta 9 veces más rendimiento que otros modelos omni abiertos con igual interactividad, reduciendo costos y latencia en sistemas agénticos.

Está disponible en Hugging Face, OpenRouter y build.nvidia.com, con soporte para despliegue local en hardware NVIDIA Jetson y en centros de datos.

Por qué importa

La familia Nemotron acumula 50 millones de descargas en un año, señal de que NVIDIA gana tracción real en el ecosistema de modelos abiertos. El argumento central es el costo: un sistema omnimodal unificado reduce la factura de inferencia al eliminar pipelines de modelos en cascada. Para equipos en Chile y LatAm, la disponibilidad en Hugging Face significa acceso sin depender de créditos de API propietarios, lo que rebaja la barrera de entrada para prototipos de agentes reales.

Los sistemas de agentes de IA actuales coordinan modelos separados para visión, voz e idioma, perdiendo tiempo y contexto cada vez que transfieren datos de uno a otro. Nemotron 3 Nano Omni elimina ese cuello de botella al integrar encoders de visión y audio dentro de una arquitectura híbrida de mezcla de expertos (MoE) de 30B-A3B parámetros activos.

El modelo lidera seis clasificaciones internacionales en inteligencia documental y comprensión de video y audio. Entre las empresas que ya lo adoptaron se encuentran Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir y Pyler. Dell Technologies, Docusign, Infosys, Oracle y Zefr se encuentran en proceso de evaluación.

"Para construir agentes útiles, no podés esperar segundos a que un modelo interprete una pantalla", dijo Gautier Cloix, CEO de H Company. "Al construir sobre Nemotron 3 Nano Omni, nuestros agentes pueden interpretar grabaciones de pantalla en Full HD en tiempo real, algo que antes no era práctico. No es solo una mejora de velocidad: es un cambio fundamental en cómo los agentes perciben e interactúan con entornos digitales."

Agentes multimodales más rápidos y eficientes

Considerá un agente de IA para atención al cliente que procesa una grabación de pantalla mientras analiza el audio de una llamada y verifica registros de datos, o un agente financiero que interpreta PDFs, planillas, gráficos y notas de voz. Hoy, la mayoría de los sistemas agénticos resuelven estas tareas con modelos separados para visión, habla e idioma.

Ese enfoque aumenta la latencia mediante inferencias repetidas, fragmenta el contexto entre modalidades y suma costos e imprecisiones a lo largo del tiempo.

Al combinar encoders de visión y audio en su arquitectura híbrida de mezcla de expertos, Nemotron 3 Nano Omni elimina la necesidad de modelos de percepción separados. Según NVIDIA, el modelo logra hasta 9 veces más rendimiento que otros modelos omni abiertos con el mismo nivel de interactividad.

En sistemas agénticos, Nemotron 3 Nano Omni puede trabajar junto a otros modelos de la familia NVIDIA Nemotron — como Nemotron 3 Super para ejecución de alta frecuencia o Nemotron 3 Ultra para planificación compleja — o con modelos propietarios de otros proveedores. NVIDIA identifica tres casos de uso principales:

Agentes de uso de computadora: Potencia el bucle de percepción para agentes que navegan interfaces gráficas. El agente de H Company, basado en Nemotron 3 Nano Omni, opera con resolución nativa de 1.920 x 1.080 píxeles, logrando un rendimiento superior en el benchmark OSWorld para navegación de interfaces complejas.
Inteligencia documental: Interpreta documentos, gráficos, tablas, capturas de pantalla e insumos mixtos, permitiendo a los agentes razonar de manera coherente sobre estructura visual y contenido textual. Resulta crítico para análisis empresarial y flujos de cumplimiento normativo.
Comprensión de audio y video: Para flujos de atención al cliente, investigación y monitoreo, mantiene el contexto audio-visual, vinculando lo dicho, lo mostrado y lo documentado en un único hilo de razonamiento.

Abierto, personalizable y desplegable en cualquier entorno

Nemotron 3 Nano Omni se publica con pesos, conjuntos de datos y técnicas de entrenamiento abiertos, ofreciendo a las organizaciones transparencia y control total sobre su personalización y despliegue. Pueden usar NVIDIA NeMo para optimización en casos de uso específicos por dominio, y desplegarlo en entornos que cumplan con requisitos regulatorios o de soberanía de datos.

La familia Nemotron 3, que incluye modelos Nano, Super y Ultra, acumula más de 50 millones de descargas en el último año. La variante Omni extiende las capacidades de la familia al dominio multimodal y agéntico.

El modelo está disponible en Hugging Face, OpenRouter y build.nvidia.com como microservicio NVIDIA NIM, también accesible a través del ecosistema de socios de nube de NVIDIA. Su arquitectura ligera permite despliegues desde módulos NVIDIA Jetson hasta centros de datos y entornos de nube.

NVIDIA lanza Nemotron 3 Nano Omni, modelo omnimodal para agentes de IA

Al grano

Por qué importa

Agentes multimodales más rápidos y eficientes

Abierto, personalizable y desplegable en cualquier entorno

Seguir leyendo

Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal

NVIDIA Auto-FL: agentes IA para acelerar el aprendizaje federado

NVIDIA lanza Nemotron 3 Ultra: IA optimizada para agentes

NVIDIA Nemotron 3 Nano Omni unifica video, audio e imagen en un modelo

→Al grano

✦Por qué importa

Agentes multimodales más rápidos y eficientes

Abierto, personalizable y desplegable en cualquier entorno

Seguir leyendo

Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal

NVIDIA Auto-FL: agentes IA para acelerar el aprendizaje federado

NVIDIA lanza Nemotron 3 Ultra: IA optimizada para agentes

NVIDIA Nemotron 3 Nano Omni unifica video, audio e imagen en un modelo

Al grano

Por qué importa