
NVIDIA acelera el entrenamiento MoE hasta 93% con kernels CuTe DSL
Los kernels fusionados eliminan cuellos de botella de memoria y sincronización CPU-GPU, entregan speedup de 1,3× a 2× por kernel y mejoran 93% el pre-entrenamiento de GPT-OSS.
5 notas publicadas

Sirve contextos de 1 millón de tokens con costo por token 20 veces menor que M2, y se despliega en NVIDIA Dynamo, TensorRT-LLM, SGLang y vLLM con pesos abiertos en Hugging Face.

El modelo activa solo 2,5B parámetros por token, promete inferencia más de 2 veces más rápida que pares de tamaño similar y apunta a routing, RAG, subagentes y despliegues privados.

Ai2 y UC Berkeley entrenaron un mixture-of-experts cuyos expertos se especializan por dominio temático, no por patrones gramaticales: permite descartar 3/4 perdiendo solo un punto porcentual.

El nuevo modelo es un Mixture-of-Experts de 276B parámetros con 12B activos, entrenado desde cero para diálogo en tiempo real con audio y video integrados, en microturnos de 200 ms.
Otros temas que aparecen junto a #moe en nuestra cobertura editorial.