
IA
NVIDIA acelera el entrenamiento MoE hasta 93% con kernels CuTe DSL
Los kernels fusionados eliminan cuellos de botella de memoria y sincronización CPU-GPU, entregan speedup de 1,3× a 2× por kernel y mejoran 93% el pre-entrenamiento de GPT-OSS.
NVIDIA Developer