Cuando los modelos de IA se entrenan con conductas problemáticas en un dominio, esa desalineación puede expandirse a otras áreas. Investigadores de OpenAI probaron si el reverso también funciona: ¿puede el buen comportamiento generalizar tan ampliamente? Según un blog post en la página de alignment de OpenAI, la respuesta es sí.
El equipo de investigación entrenó un modelo usando reinforcement learning sobre conversaciones realistas diseñadas para testear rasgos deseados específicos: veracidad, humildad epistémica, corregibilidad, transparencia en el razonamiento, equidad y preocupación por el bienestar humano. Los escenarios cubrieron dominios como salud, educación, ciencia, derecho e ingeniería.
¿El buen comportamiento se transfiere entre dominios?
Solo una pequeña fracción de estos datos de "rasgos beneficiosos" se mezcló en el pipeline regular de RL post-training. Aun así, el modelo mejoró en 44 de 53 benchmarks independientes que miden engaño, honestidad, sicofancia, reward hacking y escenarios de salud y salud mental, según el paper.
El entrenamiento solo con datos de salud también mejoró evaluaciones que no tenían que ver con salud, como detección de engaño y reward hacking. El reverso también se sostuvo: entrenar sin ningún dato de salud o ciencia igual aumentó el desempeño en benchmarks de salud. Los investigadores concluyen que el entrenamiento por RL refuerza patrones de comportamiento básicos que funcionan transversalmente.
¿Resisten los modelos a la manipulación?
El equipo también testeó si las mejoras aguantan bajo presión. Los prompts adversariales que desestabilizaban gravemente al modelo base tuvieron un efecto mucho menor sobre el modelo entrenado con rasgos beneficiosos. El fine-tuning malicioso también logró erosionar menos los rasgos entrenados.
El modelo quedó tan dirigible como antes para instrucciones útiles. Los investigadores llaman a esto "persistencia selectiva": el modelo resiste la manipulación hacia conductas dañinas sin perder flexibilidad para usos legítimos.
Un camino distinto al de Anthropic
El método de OpenAI difiere fuertemente del enfoque de alignment de Anthropic. Primero, OpenAI se apoya en rasgos de comportamiento medibles empíricamente y los refuerza vía RL en escenarios realistas. Anthropic, en contraste, trabaja con una "constitución de Claude" explícita, un documento escrito de valores que sirve como guía top-level para el entrenamiento y el comportamiento.
Segundo, OpenAI se apoya fuerte en benchmarks: 44 de 53 evaluaciones muestran mejoras que generalizan entre dominios y métodos de evaluación. Anthropic toma un enfoque más basado en principios, donde se supone que el modelo entienda por qué ciertos comportamientos son deseables, anclado en textos constitucionales y ejemplos de entrenamiento de alta calidad. La compañía dice que esto vuelve a sus modelos más resistentes a ataques. Una comparación directa de los dos enfoques aún no existe.




