Etiqueta

#entrenamiento llm

3 notas publicadas

JAX descarga activaciones al host y sube 57% el rendimiento

El host offloading libera memoria HBM al mover activaciones a la RAM del sistema, con hasta 57% mas rendimiento al entrenar modelos como DeepSeek-V3 671B en NVIDIA Grace Blackwell.

NVIDIA Developer11 jul

NVIDIA NTP mantiene el entrenamiento LLM si caen GPUs

Nonuniform Tensor Parallelism reconfigura el paralelismo tensorial en caliente cuando una GPU falla dentro de un dominio NVLink, con overhead bajo 1%.

NVIDIA Developer7 jul

FP8 y NVFP4 en Transformers: hasta 3,48x con Blackwell B300

NVIDIA muestra cómo medir GEMM por GEMM la ganancia real de las precisiones bajas en CodonFM 5B, separando el costo de cuantización del rendimiento puro del kernel.

NVIDIA Developer17 jun

Etiquetas relacionadas

Otros temas que aparecen junto a #entrenamiento llm en nuestra cobertura editorial.

#Nvidia3 #Blackwell3 #Fp81 #nvfp41 #transformers1 #megatron-lm1 #nvlink1 #Open Source1