NVIDIA Nemotron 3 Ultra: Potencia, razonamiento y agentes eficientes

NVIDIA ha lanzado Nemotron 3 Ultra, un modelo de tipo Mixture-of-Experts (MoE) con 550 mil millones de parámetros y 55 mil millones de parámetros activos. Esta solución está optimizada para la orquestación de flujos de trabajo complejos y agentes de larga duración, combinando capacidades de razonamiento de frontera con un alto throughput y adaptabilidad a dominios específicos.

Las innovaciones arquitectónicas incluyen capas híbridas Mamba-Transformer para el manejo eficiente de contextos largos, cuantización NVFP4 para despliegue en GPUs de diversas arquitecturas con hasta 5 veces más throughput, LatentMoE para un enrutamiento experto eficiente, y predicción de múltiples tokens (multi-token prediction) para mejorar la velocidad generativa en tareas multi-turno.

La destilación basada en múltiples docentes (Multi-Teacher On-Policy Distillation) permite una mejora continua y especialización por dominio, entrenando al modelo con retroalimentación densa de más de diez modelos docentes especializados. Todo esto está respaldado por un pipeline de preentrenamiento y RL transparente, con recetas, pesos y licencias completamente abiertos para fomentar la adopción y el ajuste fino (fine-tuning).

El contenido generado por IA puede resumir información de manera incompleta; se recomienda verificar datos críticos. Más información.

Los chatbots de un solo turno están evolucionando hacia agentes capaces de razonar, mantener contexto, utilizar herramientas y ejecutarse eficientemente a través de múltiples turnos para completar flujos de trabajo complejos.

Sin embargo, estos sistemas multi-agente provocan un crecimiento rápido en el conteo de tokens. Los agentes planifican, llaman a herramientas, invocan sub-agentes, reciben información y luego pasan el historial, los resultados y los pasos de razonamiento de vuelta al modelo de forma continua. A medida que las tareas se prolongan, esta comunicación constante aumenta los costos y el riesgo de desviación del objetivo.

Los desarrolladores pueden resolver esto utilizando un sistema de modelos: modelos de razonamiento de frontera para la orquestación y planificación compleja, junto con modelos eficientes para la ejecución de alto volumen, validación y llamado a herramientas.

NVIDIA lanza NVIDIA Nemotron 3 Ultra, un modelo abierto diseñado para ayudar a los agentes de larga duración a completar tareas más rápido mientras se reducen los costos.

Nemotron 3 Ultra para la orquestación de agentes

Nemotron 3 Ultra es un modelo Mixture-of-Experts de 550B de parámetros con 55B de parámetros activos, construido para el razonamiento de frontera y la orquestación en sistemas agenticos.

Dentro de cualquier flujo de trabajo de agentes, la mayoría de las llamadas son rutinarias, pero un subconjunto crítico exige un razonamiento más profundo. Nemotron 3 Ultra está diseñado para manejar estas llamadas complejas: sostener decisiones arquitectónicas a través de sesiones de codificación, sintetizar evidencia contradictoria de cientos de fuentes de investigación o verificar diseños de chips a través de miles de restricciones.

Nemotron 3 Ultra también destaca por su velocidad. Logra un throughput 5 veces mayor en comparación con otros modelos abiertos de su clase, permitiendo que los agentes de larga duración completen tareas de manera más rápida y eficiente.

Figura 2. Nemotron 3 Ultra logra una inferencia 5 veces más rápida y una precisión líder en el índice Artificial Analysis Intelligence
Figura 2. Nemotron 3 Ultra logra una inferencia 5 veces más rápida y una precisión líder en el índice Artificial Analysis Intelligence

La figura anterior demuestra cómo Nemotron 3 Ultra alcanza un rendimiento superior en inferencia. Además, el modelo está optimizado para la eficiencia. En experimentos realizados en SWE-bench y Terminal bench 2.0, completó benchmarks utilizando menos tokens totales y menos tokens por turno que modelos comparables. Esto reduce el costo para tareas agenticas hasta en un 30%.

Figura 3. Nemotron 3 Ultra reduce el costo de finalización de tareas en un 30%
Figura 3. Nemotron 3 Ultra reduce el costo de finalización de tareas en un 30%

¿Qué avances tecnológicos impulsan a Nemotron 3 Ultra?

Para mitigar las compensaciones típicas entre eficiencia y precisión en modelos de razonamiento de alta capacidad, los modelos Nemotron introducen varias innovaciones arquitectónicas:

Post-entrenamiento para arneses de agentes: Nemotron Ultra está post-entrenado para ofrecer una precisión consistente a través de los principales arneses (harnesses). El modelo se entrena utilizando las bibliotecas abiertas de NVIDIA NeMo RL y Gym con uno de los conjuntos de datos de resolución de tareas y uso de herramientas de larga duración más grandes del mundo.

Ultra está optimizado para arneses abiertos liderados por agentes, no solo para chats de un solo turno, y está diseñado para trabajar dentro de flujos de trabajo donde los agentes planifican, llaman a herramientas, leen observaciones, delegan a sub-agentes, validan resultados y se recuperan de errores a lo largo de muchos turnos.

Transformador híbrido Mamba: Las capas Mamba mejoran la eficiencia de la secuencia para cargas de trabajo de contexto largo, mientras que las capas Transformer preservan el recuerdo preciso cuando los agentes necesitan recuperar hechos específicos de grandes ventanas de contexto.

Precisión NVFP4: El mismo checkpoint NVFP4 se ejecuta en GPUs NVIDIA Hopper, NVIDIA Blackwell y Ampere. Los desarrolladores pueden usar un solo checkpoint en todas las arquitecturas de GPU de NVIDIA gracias a los kernels de cuantización NVFP4 especializados. NVFP4 también entrega hasta 5 veces más throughput por GPU con la misma interactividad en comparación con BF16 en Blackwell.

LatentMoE: LatentMoE permite un enrutamiento de expertos más eficiente, facilitando que el modelo maneje flujos de trabajo que abarcan razonamiento, generación de código, llamadas a herramientas y lógica específica de dominio.

Predicción de múltiples tokens: La predicción de múltiples tokens (MTP) ayuda a reducir el tiempo de generación al predecir múltiples tokens futuros en una sola pasada hacia adelante, mejorando el throughput para salidas largas y flujos de trabajo multi-turno.

¿Cómo funciona la destilación Multi-Teacher On-Policy?

La destilación Multi-Teacher On-Policy (MOPD) es un método de entrenamiento en el que Ultra aprende de múltiples modelos docentes especializados mientras genera sus propios intentos durante el entrenamiento. Se entrenan más de 10 modelos docentes especializados, cada uno con su propio pipeline de entrenamiento específico para un dominio. Cada docente califica al modelo en su área de experiencia, ayudando a Ultra a mejorar el razonamiento a través de dominios de manera más eficiente.

Figura 4. Guía visual de MOPD y el flujo específico utilizado para Nemotron 3 Ultra
Figura 4. Guía visual de MOPD y el flujo específico utilizado para Nemotron 3 Ultra

Durante el proceso de MOPD, el modelo estudiante genera despliegues a través de dominios y recibe señales de recompensa densas de los modelos docentes correspondientes. Para maximizar la eficiencia, MOPD se ejecuta de forma asíncrona, con la generación de despliegue del estudiante, la calificación del docente y la optimización del estudiante completamente en pipeline.

MOPD también es iterativo. Después de producir un checkpoint entrenado con MOPD, se inician nuevas rondas de entrenamiento docente a partir del modelo estudiante actualizado, y las mejoras se integran en la siguiente etapa de MOPD.

Esta co-evolución entre estudiantes y docentes permite una mejora continua de las capacidades y una especialización progresivamente más fuerte a través de dominios. Los usuarios pueden probar las recetas MOPD a través de NeMo-RL, la biblioteca que entrenó al modelo Ultra.

Datos de entrenamiento para un razonamiento de agentes más fuerte

Al igual que con todos los lanzamientos de modelos abiertos Nemotron, gran parte del pipeline de datos de entrenamiento se publica de manera lo más permisiva posible. Para los socios en el desarrollo de IA empresarial y soberana, la transparencia y la procedencia de los datos de entrenamiento importan tanto como la capacidad.

Datos de pre-entrenamiento específicos por dominio

Construyendo sobre una base de pre-entrenamiento de 10 billones (10T) de tokens, Nemotron 3 Ultra añade 212 mil millones de nuevos tokens dirigidos a tres brechas de dominio de alto valor:

  • 4 mil millones de tokens de datos legales sintéticos, incrementando el promedio de proxy LegalBench de 64.6% a 74.7%.
  • 35 mil millones de tokens de datos sintetizados basados en Wiki, impulsando el proxy SimpleQA de 40.2% a 50.2%.
  • 173 mil millones de tokens de GitHub actualizados hasta el 30 de septiembre de 2025.

Datos de post-entrenamiento y entornos RL

Este lanzamiento también libera 10 millones de nuevas muestras SFT, 1 millón de nuevas tareas de RL a través de múltiples dominios y 15 nuevos entornos de RL, elevando los totales acumulados de datos abiertos de Nemotron a 50 millones de muestras SFT, 2 millones de tareas de RL y 55 entornos de RL.

El resultado son puntuaciones en SWEBench Verified que oscilan entre el 65% y el 70.4%.

Vía NVIDIA Developer.