
IA
Cuantización FP8: Optimiza modelos con NVIDIA TensorRT
Aprende a exportar modelos cuantizados mediante ModelOpt a ONNX y compílalos con TensorRT para maximizar el throughput y reducir el uso de VRAM en GPUs NVIDIA.
NVIDIA Developer
3 notas publicadas

Receta paso a paso de post-training quantization con ModelOpt que lleva CLIP-ViT-L-14 de FP16 a FP8 sin perder calidad en clasificación zero-shot ni retrieval.

El modelo open-source Hy-MT1.5 corre íntegro en el celular, soporta 1.056 pares de traducción y supera a Google Translate en benchmarks oficiales.
Otros temas que aparecen junto a #cuantizacion en nuestra cobertura editorial.