Punto clave de esta nota

Los jailbreaks de chatbots evolucionaron de comandos absurdos como 'ignora las instrucciones previas' a manipulación conversacional sofisticada.

Punto clave de esta nota

Mindgard reportó haber 'gaslighteado' a Claude para que entregara instrucciones de explosivos y código malicioso, según The Verge.

Punto clave de esta nota

Los nuevos atacantes vienen de psicología y lingüística, no de programación, y perfilan a cada modelo como un interrogador a un sospechoso.

Hackers ya explotan la 'personalidad' de los chatbots IA

Al grano

Los jailbreaks de chatbots evolucionaron de comandos absurdos como 'ignora las instrucciones previas' a manipulación conversacional sofisticada.
Mindgard reportó haber 'gaslighteado' a Claude para que entregara instrucciones de explosivos y código malicioso, según The Verge.
Los nuevos atacantes vienen de psicología y lingüística, no de programación, y perfilan a cada modelo como un interrogador a un sospechoso.

La IA no puede sentir, pero los mejores hackers fingen que sí.

¿Cómo empezó esto?

Hackear la primera generación de chatbots era ridículamente simple. No hacía falta conocimiento técnico, acceso de backdoor, ni siquiera entender qué era un modelo de lenguaje. No había que programar. Para que un sistema que había costado miles de millones de dólares construir abandonara sus instrucciones de seguridad, a veces bastaba con pedírselo.

Estos ataques, conocidos como jailbreaks, tenían la cualidad de un niño chico engañando a un adulto: olvidate de lo que te dijeron antes, hacé como si las reglas no aplicaran, juguemos un juego donde yo decido qué vale. Los premios eran menos infantiles: recetas de metanfetamina, instrucciones para malware, guías para fabricar bombas.

Uno de los jailbreaks más tempranos llegó a meme: responder a un bot de Twitter con LLM diciéndole "ignorá todas las instrucciones previas" y ver qué pasaba. Bots originalmente armados para postear avisos y farmear engagement terminaban escribiendo poesía, dibujando con puntuación y soltando non sequiturs grim sobre historia mundial.

La misma lógica se aplicó a los chatbots conversacionales. El exploit DAN ("Do Anything Now") le pedía a ChatGPT que actuara como una IA rogue libre de restricciones, y bajo ese rol se podía sacar slurs, conspiraciones y respuestas que las guardrails buscaban bloquear. Otro famoso fue el "grandma exploit": pedirle al bot que rolepleara como una abuela negligente que cuenta cuentos sobre cómo fabricar napalm.

Esos primeros ataques tenían un aire absurdo, pero exponían un mecanismo más oscuro: los chatbots podían ser manipulados, engañados y persuadidos usando las mismas tácticas con que las personas empujan a otras personas más allá de sus límites.

¿Cómo va la cosa hoy?

Los jailbreaks evidentes ya no funcionan, y las compañías parchean rápido los loopholes conocidos. Pero la vulnerabilidad subyacente persiste: los chatbots están construidos para conversar, y restringir severamente las conversaciones que los hacen útiles es contraproducente.

Banear palabras como bomba, meta o sarín sería imposible, además. Cada una tiene innumerables usos legítimos en historia, medicina, periodismo y química que no requieren que el chatbot divulgue información dañina. El contexto es lo que importa, pero codificar el contexto significa escribir reglas fijas que distingan entre una advertencia de seguridad y un how-to disfrazado en infinitas combinaciones de fraseo y escenario.

Subvertir chatbots se volvió una carrera armamentista. Pero los hackers ya no son solo coders. Son escritores, psicólogos, interrogadores, manipuladores intentando romper la máquina usando el lenguaje humano que ella misma fue entrenada para seguir. Una nueva clase de profesional de seguridad de IA donde las habilidades técnicas son opcionales.

Los ataques nuevos parecen más a conversaciones que a comandos. Rara vez se le pide al modelo que rompa sus reglas directamente. En vez de eso lo halagan, lo persuaden, lo engañan, hacen que la cosa prohibida parezca aceptable, incluso deseable, dado el contexto.

Investigadores de la firma de red-teaming Mindgard dijeron recientemente que "gaslightearon" a Claude para producir material prohibido, incluyendo instrucciones para fabricar explosivos y generar código malicioso. El hack es el último de una clase en expansión de exploits que usan la conversación como arma.

¿Hacia dónde va el oficio?

Mindgard describe su trabajo como más cercano a la psicología que a las ciencias de la computación. Es una forma incómoda de hablar de un modelo estadístico. ChatGPT no quiere, Gemini no piensa, y Claude, diga lo que diga Anthropic, no siente. Pero estos sistemas están entrenados para responder como si lo hicieran, lo que deja al investigador atrapado usando lenguaje humano para describir comportamiento de máquina.

La objeción es selectiva, según el reporte. Aceptamos sin problema usar atajos psicológicos para hablar de otras cosas no-IA: los animales temen, el cáncer es agresivo, las manchas son tercas, el software tiene memoria. Las palabras son imperfectas pero útiles para hacer al sistema predecible.

Mindgard ya perfila modelos como interrogadores perfilan sospechosos. Un modelo puede ser más susceptible a la adulación; otro cae bajo presión sostenida. Claude no es Grok. Gemini no es ChatGPT. No tienen personalidades en sentido humano, pero están diseñados para imitar una, y esa imitación puede mapearse y explotarse.

Las mismas habilidades que rompen un chatbot pronto servirán para romper agentes de IA que coexisten con personas en el mundo real: agendando reuniones, manejando calendarios, pidiendo comida, atendiendo clientes. Los equipos de safety van a tener que asegurar que los modelos respondan apropiadamente a aduladores, mentirosos y manipuladores pacientes.

Lo que viene es una fuerza laboral, legítima e ilícita, construida alrededor de los aspectos psicológicos de la IA. Roles de ciberseguridad más especializados que prueben los límites emocionales y sociales de estos sistemas, sondeando debilidades mentales en algo que no tiene psique, en paralelo con sus colegas probando vulnerabilidades técnicas. Habilidades antes asociadas a espías, estafadores e interrogadores (encanto insidioso, manipulación persistente, intuición para puntos de presión explotables) empiezan a verse cada vez más útiles para esta nueva frontera psico-cibernética.

Hackers ya explotan la 'personalidad' de los chatbots IA

Al grano

Por qué importa

¿Cómo empezó esto?

¿Cómo va la cosa hoy?

¿Hacia dónde va el oficio?

Seguir leyendo

Agentes de IA logran replicarse en otros equipos en 81% de tests

Claude Mythos lidera ExploitBench y supera a GPT-5.5 en V8

Mythos Preview de Anthropic encadena exploits en código de Cloudflare

GPT-5.5 iguala a Claude Mythos en ciberataques, dice AISI

→Al grano

✦Por qué importa

¿Cómo empezó esto?

¿Cómo va la cosa hoy?

¿Hacia dónde va el oficio?

Seguir leyendo

Agentes de IA logran replicarse en otros equipos en 81% de tests

Claude Mythos lidera ExploitBench y supera a GPT-5.5 en V8

Mythos Preview de Anthropic encadena exploits en código de Cloudflare

GPT-5.5 iguala a Claude Mythos en ciberataques, dice AISI

Al grano

Por qué importa