Etiqueta

#fp8

2 notas publicadas

FP8 y NVFP4 en Transformers: hasta 3,48x con Blackwell B300

NVIDIA muestra cómo medir GEMM por GEMM la ganancia real de las precisiones bajas en CodonFM 5B, separando el costo de cuantización del rendimiento puro del kernel.

NVIDIA Developer17 jun

PyTorch integra Helion en vLLM para acelerar inferencia FP8

La integración con vLLM aceleró normalización, cuantización fusionada y scaled_mm en H100, mientras que B200 sigue limitado por el backend GEMM de Triton sobre Blackwell.

PyTorch Blog12 jun

Etiquetas relacionadas

Otros temas que aparecen junto a #fp8 en nuestra cobertura editorial.

#pytorch1 #vllm1 #helion1 #qwen31 #Nvidia1 #Blackwell1 #nvfp41 #transformers1