
IA
FP8 y NVFP4 en Transformers: hasta 3,48x con Blackwell B300
NVIDIA muestra cómo medir GEMM por GEMM la ganancia real de las precisiones bajas en CodonFM 5B, separando el costo de cuantización del rendimiento puro del kernel.
NVIDIA Developer
2 notas publicadas
Otros temas que aparecen junto a #transformers en nuestra cobertura editorial.