Etiqueta

#alignment

2 notas publicadas

OpenAI: el RL con rasgos virtuosos blinda a los modelos en 44 benchmarks

Una pequeña fracción de datos con rasgos como veracidad, humildad epistémica y corregibilidad mejoró 44 de 53 evaluaciones independientes de honestidad, sicofancia y reward hacking.

The Decoderhace 3 días

SFT+RL frena el 'sandbagging' deliberado en modelos de IA

Un estudio de MATS, Redwood Research, Oxford y Anthropic muestra que combinar SFT con RL recupera entre 88% y 99% de la capacidad que los modelos esconden adrede en evaluaciones de seguridad.

The Decoder11 may

Etiquetas relacionadas

Otros temas que aparecen junto a #alignment en nuestra cobertura editorial.

#Anthropic2 #sandbagging1 #ai-safety1 #redwood1 #evaluaciones1 #Openai1 #rlhf1 #LLM1