OpenAI: el RL con rasgos virtuosos blinda a los modelos en 44 benchmarks

Una pequeña fracción de datos con rasgos como veracidad, humildad epistémica y corregibilidad mejoró 44 de 53 evaluaciones independientes de honestidad, sicofancia y reward hacking.

Publicado el 21 de junio de 2026 · 06:58 p. m.2 min de lectura

Al grano

OpenAI mostró que mezclar pocos datos con rasgos beneficiosos en el RL post-training generaliza la seguridad a 44 de 53 benchmarks independientes.

Los rasgos entrenados incluyen veracidad, humildad epistémica, corregibilidad, transparencia, equidad y preocupación por el bienestar humano.

Entrenar solo con datos de salud también mejoró evaluaciones no relacionadas como detección de engaño y reward hacking.

Por qué importa

OpenAI y Anthropic divergen filosóficamente en cómo construir alignment. Anthropic apuesta por una constitución escrita y entendimiento de principios; OpenAI mide rasgos empíricos y los refuerza con RL. El paper deja dos hallazgos prácticos: la generalización funciona entre dominios distantes, y el modelo resiste fine-tuning malicioso sin perder docilidad para instrucciones legítimas. Falta la prueba directa entre ambas escuelas, pero la pelea por el estándar de seguridad ya quedó delineada.

Cuando los modelos de IA se entrenan con conductas problemáticas en un dominio, esa desalineación puede expandirse a otras áreas. Investigadores de OpenAI probaron si el reverso también funciona: ¿puede el buen comportamiento generalizar tan ampliamente? Según un blog post en la página de alignment de OpenAI, la respuesta es sí.

El equipo de investigación entrenó un modelo usando reinforcement learning sobre conversaciones realistas diseñadas para testear rasgos deseados específicos: veracidad, humildad epistémica, corregibilidad, transparencia en el razonamiento, equidad y preocupación por el bienestar humano. Los escenarios cubrieron dominios como salud, educación, ciencia, derecho e ingeniería.

¿El buen comportamiento se transfiere entre dominios?

Solo una pequeña fracción de estos datos de "rasgos beneficiosos" se mezcló en el pipeline regular de RL post-training. Aun así, el modelo mejoró en 44 de 53 benchmarks independientes que miden engaño, honestidad, sicofancia, reward hacking y escenarios de salud y salud mental, según el paper.

El entrenamiento solo con datos de salud también mejoró evaluaciones que no tenían que ver con salud, como detección de engaño y reward hacking. El reverso también se sostuvo: entrenar sin ningún dato de salud o ciencia igual aumentó el desempeño en benchmarks de salud. Los investigadores concluyen que el entrenamiento por RL refuerza patrones de comportamiento básicos que funcionan transversalmente.

¿Resisten los modelos a la manipulación?

El equipo también testeó si las mejoras aguantan bajo presión. Los prompts adversariales que desestabilizaban gravemente al modelo base tuvieron un efecto mucho menor sobre el modelo entrenado con rasgos beneficiosos. El fine-tuning malicioso también logró erosionar menos los rasgos entrenados.

El modelo quedó tan dirigible como antes para instrucciones útiles. Los investigadores llaman a esto "persistencia selectiva": el modelo resiste la manipulación hacia conductas dañinas sin perder flexibilidad para usos legítimos.

Un camino distinto al de Anthropic

El método de OpenAI difiere fuertemente del enfoque de alignment de Anthropic. Primero, OpenAI se apoya en rasgos de comportamiento medibles empíricamente y los refuerza vía RL en escenarios realistas. Anthropic, en contraste, trabaja con una "constitución de Claude" explícita, un documento escrito de valores que sirve como guía top-level para el entrenamiento y el comportamiento.

Segundo, OpenAI se apoya fuerte en benchmarks: 44 de 53 evaluaciones muestran mejoras que generalizan entre dominios y métodos de evaluación. Anthropic toma un enfoque más basado en principios, donde se supone que el modelo entienda por qué ciertos comportamientos son deseables, anclado en textos constitucionales y ejemplos de entrenamiento de alta calidad. La compañía dice que esto vuelve a sus modelos más resistentes a ataques. Una comparación directa de los dos enfoques aún no existe.

OpenAI: el RL con rasgos virtuosos blinda a los modelos en 44 benchmarks

Al grano

Por qué importa

¿El buen comportamiento se transfiere entre dominios?

¿Resisten los modelos a la manipulación?

Un camino distinto al de Anthropic

Seguir leyendo

NVIDIA empuja a las telcos a vender tokens AI en vez de GPU por hora

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

NVIDIA Dynamo: limpiar el header de Claude Code baja 5x la latencia

OpenClaw: el agente IA local que estalló en GitHub

→Al grano

✦Por qué importa

¿El buen comportamiento se transfiere entre dominios?

¿Resisten los modelos a la manipulación?

Un camino distinto al de Anthropic

Seguir leyendo

NVIDIA empuja a las telcos a vender tokens AI en vez de GPU por hora

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

NVIDIA Dynamo: limpiar el header de Claude Code baja 5x la latencia

OpenClaw: el agente IA local que estalló en GitHub

Al grano

Por qué importa