
IA
OpenAI: el RL con rasgos virtuosos blinda a los modelos en 44 benchmarks
Una pequeña fracción de datos con rasgos como veracidad, humildad epistémica y corregibilidad mejoró 44 de 53 evaluaciones independientes de honestidad, sicofancia y reward hacking.
The Decoder