
IA
Cuantización FP8: Optimiza modelos con NVIDIA TensorRT
Aprende a exportar modelos cuantizados mediante ModelOpt a ONNX y compílalos con TensorRT para maximizar el throughput y reducir el uso de VRAM en GPUs NVIDIA.
NVIDIA Developer
1 nota publicada
Otros temas que aparecen junto a #modelopt en nuestra cobertura editorial.