IAEntrenamiento de RL con precisión FP8 de extremo a extremoNVIDIA NeMo RL optimiza el rendimiento del aprendizaje por refuerzo mediante cuantización FP8, logrando mayor velocidad sin perder precisión en modelos de lenguaje.NVIDIA Developer·hace 19 horas