Etiqueta

#evaluaciones

1 nota publicada

SFT+RL frena el 'sandbagging' deliberado en modelos de IA

Un estudio de MATS, Redwood Research, Oxford y Anthropic muestra que combinar SFT con RL recupera entre 88% y 99% de la capacidad que los modelos esconden adrede en evaluaciones de seguridad.

The Decoder11 may

Etiquetas relacionadas

Otros temas que aparecen junto a #evaluaciones en nuestra cobertura editorial.

#sandbagging1 #ai-safety1 #Anthropic1 #redwood1 #alignment1