Los sistemas de agentes de IA actuales coordinan modelos separados para visión, voz e idioma, perdiendo tiempo y contexto cada vez que transfieren datos de uno a otro. Nemotron 3 Nano Omni elimina ese cuello de botella al integrar encoders de visión y audio dentro de una arquitectura híbrida de mezcla de expertos (MoE) de 30B-A3B parámetros activos.

El modelo lidera seis clasificaciones internacionales en inteligencia documental y comprensión de video y audio. Entre las empresas que ya lo adoptaron se encuentran Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir y Pyler. Dell Technologies, Docusign, Infosys, Oracle y Zefr se encuentran en proceso de evaluación.

"Para construir agentes útiles, no podés esperar segundos a que un modelo interprete una pantalla", dijo Gautier Cloix, CEO de H Company. "Al construir sobre Nemotron 3 Nano Omni, nuestros agentes pueden interpretar grabaciones de pantalla en Full HD en tiempo real, algo que antes no era práctico. No es solo una mejora de velocidad: es un cambio fundamental en cómo los agentes perciben e interactúan con entornos digitales."

Agentes multimodales más rápidos y eficientes

Considerá un agente de IA para atención al cliente que procesa una grabación de pantalla mientras analiza el audio de una llamada y verifica registros de datos, o un agente financiero que interpreta PDFs, planillas, gráficos y notas de voz. Hoy, la mayoría de los sistemas agénticos resuelven estas tareas con modelos separados para visión, habla e idioma.

Ese enfoque aumenta la latencia mediante inferencias repetidas, fragmenta el contexto entre modalidades y suma costos e imprecisiones a lo largo del tiempo.

Al combinar encoders de visión y audio en su arquitectura híbrida de mezcla de expertos, Nemotron 3 Nano Omni elimina la necesidad de modelos de percepción separados. Según NVIDIA, el modelo logra hasta 9 veces más rendimiento que otros modelos omni abiertos con el mismo nivel de interactividad.

En sistemas agénticos, Nemotron 3 Nano Omni puede trabajar junto a otros modelos de la familia NVIDIA Nemotron — como Nemotron 3 Super para ejecución de alta frecuencia o Nemotron 3 Ultra para planificación compleja — o con modelos propietarios de otros proveedores. NVIDIA identifica tres casos de uso principales:

  • Agentes de uso de computadora: Potencia el bucle de percepción para agentes que navegan interfaces gráficas. El agente de H Company, basado en Nemotron 3 Nano Omni, opera con resolución nativa de 1.920 x 1.080 píxeles, logrando un rendimiento superior en el benchmark OSWorld para navegación de interfaces complejas.
  • Inteligencia documental: Interpreta documentos, gráficos, tablas, capturas de pantalla e insumos mixtos, permitiendo a los agentes razonar de manera coherente sobre estructura visual y contenido textual. Resulta crítico para análisis empresarial y flujos de cumplimiento normativo.
  • Comprensión de audio y video: Para flujos de atención al cliente, investigación y monitoreo, mantiene el contexto audio-visual, vinculando lo dicho, lo mostrado y lo documentado en un único hilo de razonamiento.

Abierto, personalizable y desplegable en cualquier entorno

Nemotron 3 Nano Omni se publica con pesos, conjuntos de datos y técnicas de entrenamiento abiertos, ofreciendo a las organizaciones transparencia y control total sobre su personalización y despliegue. Pueden usar NVIDIA NeMo para optimización en casos de uso específicos por dominio, y desplegarlo en entornos que cumplan con requisitos regulatorios o de soberanía de datos.

La familia Nemotron 3, que incluye modelos Nano, Super y Ultra, acumula más de 50 millones de descargas en el último año. La variante Omni extiende las capacidades de la familia al dominio multimodal y agéntico.

El modelo está disponible en Hugging Face, OpenRouter y build.nvidia.com como microservicio NVIDIA NIM, también accesible a través del ecosistema de socios de nube de NVIDIA. Su arquitectura ligera permite despliegues desde módulos NVIDIA Jetson hasta centros de datos y entornos de nube.