Por qué ChatGPT se obsesionó con goblins, según OpenAI

Las menciones de 'goblin' subieron 175% tras el lanzamiento de GPT-5.1, y el equipo trazó el problema a un reward signal mal calibrado en la personalidad Nerdy.

Publicado el 3 de mayo de 2026 · 10:47 p. m.1 min de lectura

Al grano

OpenAI rastreó la obsesión de ChatGPT con goblins a un reward signal mal calibrado en la personalidad Nerdy de GPT-5.1.

Las menciones de 'goblin' subieron 175% tras el lanzamiento de GPT-5.1, según el reporte oficial de OpenAI.

Aunque la personalidad Nerdy representaba solo 2,5% de las respuestas, originó 66,7% de todas las menciones de goblin.

Por qué importa

El detalle revelador no es el bug, sino que un reward signal pueda contaminar al resto del modelo vía feedback loop, aunque la personalidad afectada represente apenas el 2,5% del tráfico. Es la versión IA de aquel principio de software: un pequeño hilo suelto desarma todo el suéter. Para los equipos que entrenan modelos propios en LATAM, el aviso es práctico: testear con dimensiones de comportamiento, no solo con benchmarks de calidad, antes de mover el reward model a producción.

OpenAI rastreó una rareza extraña en sus modelos de IA: a partir de GPT-5.1, los sistemas empezaron a salpicar goblins, gremlins y otras criaturas míticas en sus respuestas. Las menciones de "goblin" saltaron un 175% tras el lanzamiento de GPT-5.1, explica OpenAI en su análisis publicado.

¿Por dónde se coló el bug?

El culpable fue el entrenamiento de la personalidad "Nerdy" de ChatGPT, una funcionalidad que ajusta el estilo lingüístico del modelo. Una señal de recompensa pensada para marcar buenas respuestas terminó accidentalmente favoreciendo metáforas con criaturas.

Aunque la personalidad "Nerdy" representaba apenas el 2,5% de las respuestas, originó el 66,7% de todas las menciones de goblin. Un feedback loop durante el entrenamiento propagó el hábito a otros modos. OpenAI desactivó la personalidad en marzo, eliminó la señal de recompensa defectuosa y filtró los términos relacionados con criaturas en los datos de entrenamiento.

Jakub Pachocki, investigador líder de OpenAI, le pidió a GPT-5.5 un unicornio en ASCII art y recibió algo que se parece bastante más a un goblin. | Imagen: OpenAI

¿Cómo se contuvo en GPT-5.5?

GPT-5.5 todavía arrastraba el problema porque su entrenamiento ya había comenzado antes de que OpenAI encontrara la causa raíz. Como solución de parche, la compañía agregó una instrucción especial a Codex, su herramienta de programación, indicándole que abandonara las metáforas con goblins:

"Nunca hables de goblins, gremlins, mapaches, trolls, ogros, palomas u otros animales o criaturas, a menos que sea absoluta e inequívocamente relevante para la consulta del usuario", reza la instrucción agregada a Codex.

OpenAI sostiene que el caso muestra cómo incentivos pequeños durante el entrenamiento pueden disparar comportamientos inesperados en modelos de IA, incluso cuando solo afectan a una fracción mínima del tráfico.

Por qué ChatGPT se obsesionó con goblins, según OpenAI

Al grano

Por qué importa

¿Por dónde se coló el bug?

¿Cómo se contuvo en GPT-5.5?

Seguir leyendo

GPT-5.5 lidera rankings de IA pero sigue alucinando y cuesta 20% más

OpenAI: borrar prompts viejos para sacarle el máximo a GPT-5.5

OpenAI expande anuncios en ChatGPT sin herramientas para marcas

OpenAI lanza GPT-5.5: el modelo Spud que busca frenar a Anthropic

→Al grano

✦Por qué importa

¿Por dónde se coló el bug?

¿Cómo se contuvo en GPT-5.5?

Seguir leyendo

GPT-5.5 lidera rankings de IA pero sigue alucinando y cuesta 20% más

OpenAI: borrar prompts viejos para sacarle el máximo a GPT-5.5

OpenAI expande anuncios en ChatGPT sin herramientas para marcas

OpenAI lanza GPT-5.5: el modelo Spud que busca frenar a Anthropic

Al grano

Por qué importa