MiniMax M3: MoE de 428B con 1M de contexto en Blackwell

Sirve contextos de 1 millón de tokens con costo por token 20 veces menor que M2, y se despliega en NVIDIA Dynamo, TensorRT-LLM, SGLang y vLLM con pesos abiertos en Hugging Face.

Publicado el 13 de junio de 2026 · 01:01 a. m.3 min de lectura

Al grano

MiniMax M3: Mixture-of-Experts de 428B parámetros con 1 millón de tokens de contexto y multimodalidad nativa desde el paso 0.

MiniMax Sparse Attention entrega 1/20 del cómputo por token de M2, 9x más rápido en prefill y 15x en decoding.

Despliegue oficial en NVIDIA Blackwell con TensorRT-LLM, SGLang, vLLM y Dynamo para disaggregated serving.

Por qué importa

El punto interesante no es el tamaño (428B con MoE no es noticia en 2026) sino la decisión de NVIDIA de publicar una guía de despliegue conjunta con MiniMax incluyendo Dynamo, NeMo y tres motores de inferencia distintos. Es la jugada típica de Jensen para encadenar el ecosistema: cuando el modelo frontera chino más serio del año llega con receta oficial para Blackwell, el incentivo de competidores a moverse a otra plataforma se evapora.

A medida que la IA corporativa escala, los desarrolladores se ven obligados a hilar pipelines fragmentados con modelos separados para texto, visión y código, lo que suma complejidad, encarece la operación y ralentiza la iteración. MiniMax M3 —disponible en infraestructura acelerada por NVIDIA, incluida Blackwell— propone un único sistema multimodal capaz de razonamiento sobre contexto largo, flujos agénticos y tareas creativas.

El Mixture-of-Experts de 428 mil millones de parámetros soporta hasta 1 millón de tokens de contexto e input multimodal nativo. Los desarrolladores pueden construir aplicaciones como comprensión de video largo, sesiones extendidas de programación (más de 8 horas) y flujos de diseño de alta calidad, todo con un modelo unificado y rutas de despliegue listas para producción en plataformas NVIDIA.

¿Qué hace tan distinto al MiniMax M3?

La innovación central es MiniMax Sparse Attention (MSA), que reemplaza la atención cuadrática estándar por una etapa de prefiltrado que identifica los bloques de contexto relevantes y atiende solo a esos. A nivel de operador, cada bloque del cache KV se lee una sola vez con acceso de memoria contiguo, más de 4 veces más rápido que las implementaciones de sparse attention existentes. Esto rinde 1/20 del cómputo por token de M2 en contexto de 1M, con prefill 9x más rápido y decoding 15x más rápido, todo sin comprimir las key-values ni sacrificar precisión.

El modelo entrena texto, imágenes y video nativamente desde el paso 0 sobre cerca de 100 billones de tokens entrelazados, en lugar de agregar multimodalidad post-entrenamiento. Esa decisión arquitectónica es la que justifica que un solo M3 pueda absorber inputs que hasta hace un año exigían tres modelos distintos pegados con pegamento.

¿Cómo se sirve en inferencia open source?

Los desarrolladores pueden usar el motor de inferencia open source de su preferencia: NVIDIA TensorRT-LLM (solo texto), SGLang o vLLM. Las optimizaciones están publicadas en el repositorio TensorRT-LLM de GitHub y la guía de inicio rápido cubre la descarga de checkpoints desde Hugging Face, un contenedor Docker listo y configuraciones tanto de baja latencia como de máximo throughput.

Para SGLang, el levantamiento típico en un nodo de 8 GPUs se ve así:

Código

python -m sglang.launch_server \
    --model-path MiniMaxAI/MiniMax-M3 \
    --dtype bfloat16 \
    --tp-size 8 \
    --ep-size 8 \
    --trust-remote-code \
    --mem-fraction-static 0.8 \
    --enable-multimodal \
    --quantization mxfp8 \
    --attention-backend flashinfer \
    --moe-runner-backend deep_gemm \
    --chunked-prefill-size 8192 \
    --reasoning-parser minimax-m3

vLLM admite un patrón análogo con vllm serve MiniMaxAI/MiniMax-M3 --tensor-parallel-size 8 --enable-expert-parallel --block-size 128, soporte para auto tool choice y parser de razonamiento minimax_m3. Las recetas completas están en el vLLM Recipe.

Escalamiento con NVIDIA Dynamo

Dynamo es una plataforma open source de servicio de inferencia distribuida pensada para modelos de frontera como M3 en aplicaciones de gran escala. Desplegar M3 con Dynamo sobre TensorRT-LLM mejora el rendimiento en secuencias de entrada largas sin sacrificar throughput ni aumentar el presupuesto de GPU. A 32k de longitud de input, Dynamo entrega una mejora de 4x en interactividad sobre NVIDIA Blackwell mediante disaggregated serving, una técnica que separa las fases de prefill y decoding en GPUs distintas para subir la eficiencia del sistema.

Dynamo se integra con todos los motores principales de inferencia (PyTorch, SGLang, TensorRT-LLM y vLLM) y ofrece ruteo consciente del LLM, autoscaling elástico y transferencia de datos de baja latencia. La guía de despliegue cubre el flujo completo.

¿Y para fine-tuning y RL?

M3 puede personalizarse con el framework open source NVIDIA NeMo. Las opciones incluyen:

NeMo AutoModel para fine-tuning out-of-the-box (SFT y LoRA) sobre checkpoints de Hugging Face sin conversión, con aceleración de paralelismo N-D y soporte de context parallel hasta 128k tokens.
NeMo RL para hacer reinforcement learning encima de M3, con curvas de exactitud de referencia publicadas en el repo.

Estas librerías entregan a los desarrolladores un set de herramientas livianas para experimentación rápida sobre los modelos frontera más nuevos.

Los pesos están disponibles para descarga en el Hugging Face de MiniMax y la API acelerada por GPU se puede probar gratis en build.nvidia.com.

MiniMax M3: MoE de 428B con 1M de contexto en Blackwell

Al grano

Por qué importa

¿Qué hace tan distinto al MiniMax M3?

¿Cómo se sirve en inferencia open source?

Escalamiento con NVIDIA Dynamo

¿Y para fine-tuning y RL?

Seguir leyendo

MiniMax prepara un modelo abierto de 2,7 billones de parametros

NVIDIA baja hasta 5x el costo por token de DeepSeek V4 en Blackwell

ModelExpress: Distribución de modelos a velocidad de luz

NVIDIA Nemotron 3 Ultra corre agentes a un decimo del costo

→Al grano

✦Por qué importa

¿Qué hace tan distinto al MiniMax M3?

¿Cómo se sirve en inferencia open source?

Escalamiento con NVIDIA Dynamo

¿Y para fine-tuning y RL?

Seguir leyendo

MiniMax prepara un modelo abierto de 2,7 billones de parametros

NVIDIA baja hasta 5x el costo por token de DeepSeek V4 en Blackwell

ModelExpress: Distribución de modelos a velocidad de luz

NVIDIA Nemotron 3 Ultra corre agentes a un decimo del costo

Al grano

Por qué importa