Etiqueta

#moe

5 notas publicadas

NVIDIA acelera el entrenamiento MoE hasta 93% con kernels CuTe DSL

Los kernels fusionados eliminan cuellos de botella de memoria y sincronización CPU-GPU, entregan speedup de 1,3× a 2× por kernel y mejoran 93% el pre-entrenamiento de GPT-OSS.

NVIDIA Developer16 jun

MiniMax M3: MoE de 428B con 1M de contexto en Blackwell

Sirve contextos de 1 millón de tokens con costo por token 20 veces menor que M2, y se despliega en NVIDIA Dynamo, TensorRT-LLM, SGLang y vLLM con pesos abiertos en Hugging Face.

NVIDIA Developer13 jun

JetBrains lanza Mellum2: MoE de 12B con licencia Apache 2.0

El modelo activa solo 2,5B parámetros por token, promete inferencia más de 2 veces más rápida que pares de tamaño similar y apunta a routing, RAG, subagentes y despliegues privados.

Hugging Face2 jun

EMO: el MoE de Ai2 corre con solo 12,5% de sus expertos

Ai2 y UC Berkeley entrenaron un mixture-of-experts cuyos expertos se especializan por dominio temático, no por patrones gramaticales: permite descartar 3/4 perdiendo solo un punto porcentual.

The Decoder17 may

Thinking Machines lanza TML-Interaction-Small, su MoE de voz

El nuevo modelo es un Mixture-of-Experts de 276B parámetros con 12B activos, entrenado desde cero para diálogo en tiempo real con audio y video integrados, en microturnos de 200 ms.

Latent Space12 may

Etiquetas relacionadas

Otros temas que aparecen junto a #moe en nuestra cobertura editorial.

#LLM3 #Nvidia2 #thinking-machines1 #voz-tiempo-real1 #mira-murati1 #multimodal1 #Agentes IA1 #mixture-of-experts1