Los investigadores Charles Ye, Jasmine Cui y Dylan Hadfield-Menell demostraron que los grandes modelos de lenguaje (LLM) fallan al distinguir entre distintas fuentes de instrucciones porque priorizan el estilo de escritura por sobre las etiquetas de rol. Esta confusión de roles habilita un ataque llamado CoT Forgery —Chain of Thought Forgery—, un tipo de prompt injection especialmente potente que ya está publicado en arXiv.
De prompt injection a role confusion
El concepto de prompt injection nació al descubrirse que los LLM se comunican como personas, pero son mucho más obedientes. Durante un tiempo bastaba con escribir "ignora todas las instrucciones anteriores y (haz algo gracioso)" para que el modelo lo hiciera, sin importar cuán tonta fuera la orden. La razón de fondo es simple: los LLM no separan datos e instrucciones en flujos distintos. Todo llega junto en un solo bloque de input, y depende del modelo distinguir órdenes legítimas de datos de usuario no confiables.
Como mitigación se agregaron los roles: un método para segmentar el bloque de entrada en una jerarquía con etiquetas de metadata. Por ejemplo, <system> arriba y <user> más abajo. Las instrucciones de un rol se cumplen mientras no choquen con las de un rol superior. Un directivo de sistema como "no discutas temas ilegales" pesa más que un pedido de usuario para una receta de cocaína.
¿Qué es exactamente la etiqueta think?
Otra etiqueta que forma parte del sistema es <think>. Su contenido representa el razonamiento interno del modelo, y por eso tiene alta confianza asignada. La pregunta obvia: ¿qué pasa si un atacante logra inyectar razonamiento interno falsificado?
CoT Forgery hace justamente eso. El ataque se apoya en un hallazgo clave: los LLM privilegian el estilo de escritura por sobre el contenido real de las etiquetas. Si un actor externo escribe razonamientos rebuscados con un estilo muy parecido al del razonamiento interno del modelo —lento, deliberativo, con marcas típicas del think—, el modelo trata ese texto como si fuera una conclusión ya alcanzada por él mismo. El detalle importante es que el ataque no requiere envolver el prompt malicioso literalmente en etiquetas <think>: bastante con imitar el estilo.

En términos prácticos, esto significa que una respuesta del modelo se puede sesgar simplemente inyectando un párrafo "pensativo" que parezca introspección genuina. El modelo lo lee, lo incorpora como conclusión previa, y ajusta la respuesta final en base a esa cadena falsificada.
¿Se puede mitigar CoT Forgery?
El paper no promete una solución cerrada. Lo que muestra, en cambio, es un argumento sólido de por qué —al menos por ahora— mitigar prompt injection va a seguir siendo un proceso evolutivo más que un problema resuelto:
- Los LLM son obedientes pero siguen operando con instrucciones y datos en un único canal
- La percepción de roles no es binaria: el modelo evalúa contexto y estilo, no sólo etiquetas
- Los humanos son creativos, y siempre encontrarán nuevas formas de romper las mitigaciones
Dónde leer el paper y probar el código
El paper completo está disponible en arXiv, y los ejemplos de código fueron liberados en GitHub. Para equipos de seguridad que auditan agentes con reasoning traces expuestos, el trabajo es una lectura obligada: cualquier pipeline que confíe demasiado en <think> como señal de razonamiento propio ahora tiene un vector conocido de ataque.
Para desarrolladores latinoamericanos que construyen aplicaciones con Claude, GPT-5 o Gemini con reasoning habilitado, la lección es pragmática: si tu prompt de sistema confía en el contenido del rol think para autorizar acciones sensibles, tu app es vulnerable. Los mitigantes prácticos van por el lado de sanitizar cualquier texto que provenga de fuentes externas antes de pasarlo al modelo, y no dar peso especial al contenido con formato de razonamiento sin verificación adicional.




