OpenAI rastreó una rareza extraña en sus modelos de IA: a partir de GPT-5.1, los sistemas empezaron a salpicar goblins, gremlins y otras criaturas míticas en sus respuestas. Las menciones de "goblin" saltaron un 175% tras el lanzamiento de GPT-5.1, explica OpenAI en su análisis publicado.
¿Por dónde se coló el bug?
El culpable fue el entrenamiento de la personalidad "Nerdy" de ChatGPT, una funcionalidad que ajusta el estilo lingüístico del modelo. Una señal de recompensa pensada para marcar buenas respuestas terminó accidentalmente favoreciendo metáforas con criaturas.
Aunque la personalidad "Nerdy" representaba apenas el 2,5% de las respuestas, originó el 66,7% de todas las menciones de goblin. Un feedback loop durante el entrenamiento propagó el hábito a otros modos. OpenAI desactivó la personalidad en marzo, eliminó la señal de recompensa defectuosa y filtró los términos relacionados con criaturas en los datos de entrenamiento.

¿Cómo se contuvo en GPT-5.5?
GPT-5.5 todavía arrastraba el problema porque su entrenamiento ya había comenzado antes de que OpenAI encontrara la causa raíz. Como solución de parche, la compañía agregó una instrucción especial a Codex, su herramienta de programación, indicándole que abandonara las metáforas con goblins:
"Nunca hables de goblins, gremlins, mapaches, trolls, ogros, palomas u otros animales o criaturas, a menos que sea absoluta e inequívocamente relevante para la consulta del usuario", reza la instrucción agregada a Codex.
OpenAI sostiene que el caso muestra cómo incentivos pequeños durante el entrenamiento pueden disparar comportamientos inesperados en modelos de IA, incluso cuando solo afectan a una fracción mínima del tráfico.




