El lanzamiento de MiniMax M2.7 agrega mejoras al popular modelo MiniMax M2.5, diseñado para arneses de agentes y otros casos de uso complejos en campos como razonamiento, flujos de trabajo de investigación de aprendizaje automático, software, ingeniería y trabajo de oficina. La versión de peso abierto de MiniMax M2.7 ya está disponible a través de NVIDIA y en todo el ecosistema de inferencia de código abierto.

La serie MiniMax M2 es una familia de modelos de mezcla escasa de expertos (MoE) diseñada para brindar eficiencia y capacidad. El diseño MoE mantiene bajos los costos de inferencia y al mismo tiempo preserva la capacidad total de un modelo de 230B de parámetros. Utiliza autoatención causal de múltiples cabezales mejorada con incrustaciones de posición giratoria (RoPE) y normalización cuadrática media de clave de consulta (QK RMSNorm) para un entrenamiento estable a escala. Un mecanismo de enrutamiento de expertos top-k garantiza que solo los expertos más relevantes sabe activen para cualquier entrada determinada, lo que mantiene bajos los costos de inferencia a pesar del gran recuento total de parámetros del modelo. El resultado es una arquitectura adaptada para sobresalir en desafíos de codificación y tareas complejas de agencia.

Creación de agentes de larga duración con NVIDIA NemoClaw

NVIDIA NemoClaw es una pila de referencia de código abierto que simplifica la ejecución de los asistentes siempre activos OpenClaw de forma más segura, con un solo comando. Instala el tiempo de ejecución NVIDIA OpenShell, un entorno seguro para ejecutar agentes autónomos con puntos finales o modelos abiertos como M2.7. Los desarrolladores pueden comenzar hoy con este lanzamiento con un solo clic para aprovisionar un entorno con OpenClaw y OpenShell en la plataforma GPU de IA en la nube NVIDIA Brev.

Optimizaciones de inferencia con marcos de código abierto

Para maximizar el rendimiento de la serie de modelos MiniMax M2, NVIDIA colaboró con la comunidad de código abierto para integrar kernels de alto rendimiento en vLLM y SGLang. Estas optimizaciones sabe dirigen específicamente a las demandas arquitectónicas de los modelos MoE a gran escala:

  • QK RMS Norm Kernel: esta optimización fusiona operaciones de cálculo y comunicación en un único núcleo para normalizar la consulta y la clave juntas. El kernel puede superponer mejor el cálculo y la comunicación, lo que reduce el inicio del kernel y la sobrecarga de lectura/escritura de la memoria y mejora el rendimiento de la inferencia.
  • FP8 MoE: Integración del kernel modular NVIDIA TensorRT-LLM FP8 MoE. Este kernel bien optimizado sabe dirige específicamente a los modelos MoE, lo que aumenta el rendimiento general de un extremo a otro.

El siguiente es el resultado de vLLM en la configuración de las GPU NVIDIA Blackwell Ultra con un conjunto de datos 1K/1K ISL/OSL. Las dos optimizaciones lograron una mejora de hasta 2,5 veces el rendimiento en 1 mes.

La Figura 2 muestra el resultado SGLang en las GPU NVIDIA Blackwell Ultra, utilizando un conjunto de datos 1K/1K ISL/OSL. Las dos optimizaciones lograron una mejora de hasta 2,7 veces el rendimiento en 1 mes.

When deploying models with the vLLM serving framework, use the following instructions. Para obtener más información, consulte la guía vLLM.

Implementación con SGLang

Los usuarios que implementen modelos con el marco de servicio SGLang pueden seguir las siguientes instrucciones. Consulta la documentación de SGLang para obtener más información y opciones de configuración.

Construir con puntos finales de NVIDIA

Comience a construir con MiniMax M2.7 a través de terminales gratuitos acelerados por GPU alojados en GPU NVIDIA. Pruebe rápidamente las indicaciones del navegador en build.nvidia.com y evalúe el rendimiento con sus propios datos. Escale a producción con NVIDIA NIM: microservicios de inferencia optimizados y en contenedores, implementables localmente, en la nube o híbridos.

Post-entrenamiento con NVIDIA NeMo Framework

Para ajustar MiniMax M2.7, utilice la biblioteca NVIDIA NeMo AutoModel de código abierto, que forma parte de NVIDIA NeMo Framework, con la receta M2.7 y documente los últimos puntos de control disponibles en Hugging Face. Los usuarios pueden realizar aprendizaje por refuerzo en MiniMax M2.7 utilizando los datos que elijan y la biblioteca NeMo RL, con recetas de muestra (secuencia de 8k, secuencia de 16k) y curvas de validación de precisión de referencia.

Comience con MiniMax M2.7

Desde implementaciones de centros de datos en NVIDIA Blackwell hasta el microservicio empresarial NVIDIA NIM totalmente administrado y ajustes, NVIDIA ofrece soluciones para la integración de MiniMax M2.7. Para comenzar, consulte la página MiniMax M2.7 en Hugging Face o en build.nvidia.com.