CoT Forgery: un ataque nuevo engaña a los LLM por su estilo

Investigadores del MIT muestran que los modelos priorizan el estilo de escritura sobre las etiquetas de rol y aceptan razonamientos falsificados.

Publicado el 3 de julio de 2026 · 10:13 a. m.3 min de lectura

Al grano

Investigadores del MIT presentaron Chain-of-Thought Forgery, un ataque que engaña a los LLM inyectando razonamiento interno falsificado.

El ataque funciona porque los modelos priorizan el estilo de escritura por sobre las etiquetas de rol como system, user o think.

No requiere envolver el texto malicioso en etiquetas think: basta con imitar el estilo del razonamiento interno del modelo.

Por qué importa

Lo brutal del hallazgo es que confirma algo que muchos sospechábamos: la arquitectura actual de roles en LLM es una convención social, no una barrera técnica. Mientras los modelos sigan compartiendo un canal único para datos e instrucciones, cualquier separación por rol va a ser porosa. El paper del MIT sirve como recordatorio para arquitectos de agentes: la confianza en el reasoning interno como fuente autorizada de decisión es un supuesto peligroso.

Los investigadores Charles Ye, Jasmine Cui y Dylan Hadfield-Menell demostraron que los grandes modelos de lenguaje (LLM) fallan al distinguir entre distintas fuentes de instrucciones porque priorizan el estilo de escritura por sobre las etiquetas de rol. Esta confusión de roles habilita un ataque llamado CoT Forgery —Chain of Thought Forgery—, un tipo de prompt injection especialmente potente que ya está publicado en arXiv.

De prompt injection a role confusion

El concepto de prompt injection nació al descubrirse que los LLM se comunican como personas, pero son mucho más obedientes. Durante un tiempo bastaba con escribir "ignora todas las instrucciones anteriores y (haz algo gracioso)" para que el modelo lo hiciera, sin importar cuán tonta fuera la orden. La razón de fondo es simple: los LLM no separan datos e instrucciones en flujos distintos. Todo llega junto en un solo bloque de input, y depende del modelo distinguir órdenes legítimas de datos de usuario no confiables.

Como mitigación se agregaron los roles: un método para segmentar el bloque de entrada en una jerarquía con etiquetas de metadata. Por ejemplo, <system> arriba y <user> más abajo. Las instrucciones de un rol se cumplen mientras no choquen con las de un rol superior. Un directivo de sistema como "no discutas temas ilegales" pesa más que un pedido de usuario para una receta de cocaína.

¿Qué es exactamente la etiqueta think?

Otra etiqueta que forma parte del sistema es <think>. Su contenido representa el razonamiento interno del modelo, y por eso tiene alta confianza asignada. La pregunta obvia: ¿qué pasa si un atacante logra inyectar razonamiento interno falsificado?

CoT Forgery hace justamente eso. El ataque se apoya en un hallazgo clave: los LLM privilegian el estilo de escritura por sobre el contenido real de las etiquetas. Si un actor externo escribe razonamientos rebuscados con un estilo muy parecido al del razonamiento interno del modelo —lento, deliberativo, con marcas típicas del think—, el modelo trata ese texto como si fuera una conclusión ya alcanzada por él mismo. El detalle importante es que el ataque no requiere envolver el prompt malicioso literalmente en etiquetas <think>: bastante con imitar el estilo.

CoT Forgery hace que un LLM trate razonamiento absurdo como conclusión inevitable, alterando la respuesta al usuario.

En términos prácticos, esto significa que una respuesta del modelo se puede sesgar simplemente inyectando un párrafo "pensativo" que parezca introspección genuina. El modelo lo lee, lo incorpora como conclusión previa, y ajusta la respuesta final en base a esa cadena falsificada.

¿Se puede mitigar CoT Forgery?

El paper no promete una solución cerrada. Lo que muestra, en cambio, es un argumento sólido de por qué —al menos por ahora— mitigar prompt injection va a seguir siendo un proceso evolutivo más que un problema resuelto:

Los LLM son obedientes pero siguen operando con instrucciones y datos en un único canal
La percepción de roles no es binaria: el modelo evalúa contexto y estilo, no sólo etiquetas
Los humanos son creativos, y siempre encontrarán nuevas formas de romper las mitigaciones

Dónde leer el paper y probar el código

El paper completo está disponible en arXiv, y los ejemplos de código fueron liberados en GitHub. Para equipos de seguridad que auditan agentes con reasoning traces expuestos, el trabajo es una lectura obligada: cualquier pipeline que confíe demasiado en <think> como señal de razonamiento propio ahora tiene un vector conocido de ataque.

Para desarrolladores latinoamericanos que construyen aplicaciones con Claude, GPT-5 o Gemini con reasoning habilitado, la lección es pragmática: si tu prompt de sistema confía en el contenido del rol think para autorizar acciones sensibles, tu app es vulnerable. Los mitigantes prácticos van por el lado de sanitizar cualquier texto que provenga de fuentes externas antes de pasarlo al modelo, y no dar peso especial al contenido con formato de razonamiento sin verificación adicional.

CoT Forgery: un ataque nuevo engaña a los LLM por su estilo

Al grano

Por qué importa

De prompt injection a role confusion

¿Qué es exactamente la etiqueta think?

¿Se puede mitigar CoT Forgery?

Dónde leer el paper y probar el código

Seguir leyendo

Claude Code ejecuta malware oculto de un repo sin avisar

Google Deepmind trata a sus agentes IA como amenaza interna

UK AISI: la IA dobla capacidad ofensiva cada 4 meses

Microsoft: agentes IA pierden 25% del contenido en tareas largas

→Al grano

✦Por qué importa

De prompt injection a role confusion

¿Qué es exactamente la etiqueta think?

¿Se puede mitigar CoT Forgery?

Dónde leer el paper y probar el código

Seguir leyendo

Claude Code ejecuta malware oculto de un repo sin avisar

Google Deepmind trata a sus agentes IA como amenaza interna

UK AISI: la IA dobla capacidad ofensiva cada 4 meses

Microsoft: agentes IA pierden 25% del contenido en tareas largas

Al grano

Por qué importa