Saltar al contenido
Etiqueta

#evaluaciones

1 nota publicada

SFT+RL frena el 'sandbagging' deliberado en modelos de IA
IA

SFT+RL frena el 'sandbagging' deliberado en modelos de IA

Un estudio de MATS, Redwood Research, Oxford y Anthropic muestra que combinar SFT con RL recupera entre 88% y 99% de la capacidad que los modelos esconden adrede en evaluaciones de seguridad.

The Decoder

Etiquetas relacionadas

Otros temas que aparecen junto a #evaluaciones en nuestra cobertura editorial.