
IA
SFT+RL frena el 'sandbagging' deliberado en modelos de IA
Un estudio de MATS, Redwood Research, Oxford y Anthropic muestra que combinar SFT con RL recupera entre 88% y 99% de la capacidad que los modelos esconden adrede en evaluaciones de seguridad.
The Decoder