Etiqueta

#ia segura

1 nota publicada

OpenAI: el RL con rasgos virtuosos blinda a los modelos en 44 benchmarks

Una pequeña fracción de datos con rasgos como veracidad, humildad epistémica y corregibilidad mejoró 44 de 53 evaluaciones independientes de honestidad, sicofancia y reward hacking.

The Decoderhace 3 horas

Etiquetas relacionadas

Otros temas que aparecen junto a #ia segura en nuestra cobertura editorial.

#Openai1 #Anthropic1 #alignment1 #rlhf1 #LLM1