A medida que la IA corporativa escala, los desarrolladores se ven obligados a hilar pipelines fragmentados con modelos separados para texto, visión y código, lo que suma complejidad, encarece la operación y ralentiza la iteración. MiniMax M3 —disponible en infraestructura acelerada por NVIDIA, incluida Blackwell— propone un único sistema multimodal capaz de razonamiento sobre contexto largo, flujos agénticos y tareas creativas.

El Mixture-of-Experts de 428 mil millones de parámetros soporta hasta 1 millón de tokens de contexto e input multimodal nativo. Los desarrolladores pueden construir aplicaciones como comprensión de video largo, sesiones extendidas de programación (más de 8 horas) y flujos de diseño de alta calidad, todo con un modelo unificado y rutas de despliegue listas para producción en plataformas NVIDIA.

¿Qué hace tan distinto al MiniMax M3?

La innovación central es MiniMax Sparse Attention (MSA), que reemplaza la atención cuadrática estándar por una etapa de prefiltrado que identifica los bloques de contexto relevantes y atiende solo a esos. A nivel de operador, cada bloque del cache KV se lee una sola vez con acceso de memoria contiguo, más de 4 veces más rápido que las implementaciones de sparse attention existentes. Esto rinde 1/20 del cómputo por token de M2 en contexto de 1M, con prefill 9x más rápido y decoding 15x más rápido, todo sin comprimir las key-values ni sacrificar precisión.

El modelo entrena texto, imágenes y video nativamente desde el paso 0 sobre cerca de 100 billones de tokens entrelazados, en lugar de agregar multimodalidad post-entrenamiento. Esa decisión arquitectónica es la que justifica que un solo M3 pueda absorber inputs que hasta hace un año exigían tres modelos distintos pegados con pegamento.

¿Cómo se sirve en inferencia open source?

Los desarrolladores pueden usar el motor de inferencia open source de su preferencia: NVIDIA TensorRT-LLM (solo texto), SGLang o vLLM. Las optimizaciones están publicadas en el repositorio TensorRT-LLM de GitHub y la guía de inicio rápido cubre la descarga de checkpoints desde Hugging Face, un contenedor Docker listo y configuraciones tanto de baja latencia como de máximo throughput.

Para SGLang, el levantamiento típico en un nodo de 8 GPUs se ve así:

Código
python -m sglang.launch_server \
    --model-path MiniMaxAI/MiniMax-M3 \
    --dtype bfloat16 \
    --tp-size 8 \
    --ep-size 8 \
    --trust-remote-code \
    --mem-fraction-static 0.8 \
    --enable-multimodal \
    --quantization mxfp8 \
    --attention-backend flashinfer \
    --moe-runner-backend deep_gemm \
    --chunked-prefill-size 8192 \
    --reasoning-parser minimax-m3

vLLM admite un patrón análogo con vllm serve MiniMaxAI/MiniMax-M3 --tensor-parallel-size 8 --enable-expert-parallel --block-size 128, soporte para auto tool choice y parser de razonamiento minimax_m3. Las recetas completas están en el vLLM Recipe.

Escalamiento con NVIDIA Dynamo

Dynamo es una plataforma open source de servicio de inferencia distribuida pensada para modelos de frontera como M3 en aplicaciones de gran escala. Desplegar M3 con Dynamo sobre TensorRT-LLM mejora el rendimiento en secuencias de entrada largas sin sacrificar throughput ni aumentar el presupuesto de GPU. A 32k de longitud de input, Dynamo entrega una mejora de 4x en interactividad sobre NVIDIA Blackwell mediante disaggregated serving, una técnica que separa las fases de prefill y decoding en GPUs distintas para subir la eficiencia del sistema.

Dynamo se integra con todos los motores principales de inferencia (PyTorch, SGLang, TensorRT-LLM y vLLM) y ofrece ruteo consciente del LLM, autoscaling elástico y transferencia de datos de baja latencia. La guía de despliegue cubre el flujo completo.

¿Y para fine-tuning y RL?

M3 puede personalizarse con el framework open source NVIDIA NeMo. Las opciones incluyen:

  • NeMo AutoModel para fine-tuning out-of-the-box (SFT y LoRA) sobre checkpoints de Hugging Face sin conversión, con aceleración de paralelismo N-D y soporte de context parallel hasta 128k tokens.
  • NeMo RL para hacer reinforcement learning encima de M3, con curvas de exactitud de referencia publicadas en el repo.

Estas librerías entregan a los desarrolladores un set de herramientas livianas para experimentación rápida sobre los modelos frontera más nuevos.

Los pesos están disponibles para descarga en el Hugging Face de MiniMax y la API acelerada por GPU se puede probar gratis en build.nvidia.com.