Las herramientas de voz y audio con IA están cada vez más metidas en la vida cotidiana, desde asistentes digitales hasta parlantes inteligentes y bots de servicio al cliente. Los avances en grandes modelos de lenguaje y audio (LALMs, por sus siglas en inglés), capaces tanto de analizar como de generar audio, permiten hoy controlar dispositivos con comandos de voz, transcribir reuniones automáticamente o identificar una canción que está sonando de fondo. Estos modelos vienen además con la capacidad creciente de comunicarse con servicios externos y operar otras aplicaciones y herramientas.

Pero estas herramientas pueden ser "secuestradas" mediante sonidos imperceptibles incrustados en audio, lo que las obliga a ejecutar comandos no autorizados sin que el usuario se entere.

¿Qué tan efectivo es el ataque?

Una nueva investigación que se presentará la próxima semana en el IEEE Symposium on Security and Privacy en San Francisco muestra que un clip de audio modificado, indetectable al oído humano, puede manipular el comportamiento de un modelo con una tasa de éxito promedio entre 79% y 96%. Los clips están diseñados para funcionar sin importar qué instrucciones provea el usuario junto con el audio, lo que significa que se pueden reutilizar para atacar al mismo modelo múltiples veces.

Los autores probaron el enfoque contra 13 modelos abiertos líderes, incluidos servicios comerciales de voz IA de Microsoft y Mistral, y mostraron que podían inducir a los modelos a realizar búsquedas web sensibles, descargar archivos desde fuentes controladas por el atacante y enviar correos con datos del usuario.

"Toma apenas media hora entrenar esta señal y luego, como es independiente del contexto, se puede usar para atacar al modelo objetivo cuando uno quiera, sin importar lo que diga el usuario", explica el autor principal Meng Chen, candidato a doctor en la Universidad de Zhejiang, en China.

¿Cómo inyecta los ataques el audio adversarial?

La investigación se apoya en años de trabajo sobre "ejemplos adversariales de audio": audio manipulado para engañar a modelos de machine learning. Los trabajos previos se enfocaban principalmente en cómo estos archivos podían inducir predicciones incorrectas en modelos que ejecutan tareas unidireccionales, como reconocimiento de habla o clasificación de audio.

Lo que distingue a este nuevo trabajo, dice Chen, es que apunta a modelos generativos capaces de producir respuestas y tomar acciones. La técnica, bautizada AudioHijack, explota una falla crítica de seguridad en el diseño de los LALMs: como estos modelos pueden recibir instrucciones en formato de audio, las instrucciones maliciosas se pueden esconder en clips manipulados para inducir un amplio rango de comportamientos indeseables.

Muchos ataques previos a modelos generativos requerían que el atacante tuviera control completo tanto sobre el audio de entrada como sobre las instrucciones originales dadas al modelo, esencialmente actuando como el usuario. Acá el atacante manipula solo la información de audio que el modelo procesa, lo que hace posible atacar a un modelo mientras lo está usando otra persona.

Los ejemplos del mundo real incluyen esconder instrucciones maliciosas en videos online, clips de música o notas de voz sobre los que un usuario le pregunta a una IA, o transmitir audio malicioso en una llamada de Zoom que luego se sube a servicios de transcripción con IA. Chen comenta que estudios recientes del equipo, aún no publicados, también demostraron la capacidad de inyectar audio malicioso en un chat de voz en vivo con una IA en tiempo real.

¿Cómo se construye el clip adversarial?

Los investigadores usaron un enfoque ya probado para crear ejemplos adversariales. Consiste en ajustar los valores numéricos que representan la forma de onda en el archivo de audio digital de modos que no alteran significativamente cómo suena, pero gatillan comportamientos no deseados en el modelo cuando este procesa los datos. La técnica se apoya en un algoritmo de optimización que retoca repetidamente el clip, mide el impacto sobre la respuesta del modelo, y usa esa señal para seguir ajustando el audio hasta que el modelo haga lo que el atacante quiere.

Aplicar esto a modelos generativos plantea un desafío mayor. Los modelos más antiguos entregan retroalimentación fina sobre cómo afectan a las respuestas pequeñas modificaciones al audio crudo. Los generativos, en cambio, dividen el audio en pedazos y los asignan a representaciones numéricas llamadas tokens, mapeando cada fragmento al match más cercano.

Ese proceso más grueso vuelve difícil saber si una manipulación movió al modelo más cerca del comportamiento deseado, confundiendo al algoritmo de optimización. Por eso Chen y sus colegas idearon una forma de aproximar el feedback fino que el algoritmo necesita para ajustar la manipulación.

Esto requirió acceso completo al modelo, restringiendo a los investigadores a modelos abiertos con pesos públicos. Sin embargo, encontraron que los ataques desarrollados para modelos abiertos se transfirieron a modelos comerciales de Microsoft y Mistral que comparten la misma arquitectura subyacente.

En respuesta a una solicitud de comentarios, una vocera de Microsoft dijo: "Apreciamos el trabajo de los investigadores por avanzar en la comprensión de este tipo de técnica. Este estudio evalúa la resiliencia del modelo mediante interacciones controladas y directas con el modelo en sí, lo que informa nuestro enfoque para construir resiliencia del modelo. En la práctica, los modelos de IA suelen estar integrados en aplicaciones de usuario, y ofrecemos a los desarrolladores herramientas y guías que pueden usar para implementar capas adicionales de protección que ayuden a proteger a los usuarios". Mistral no respondió a una solicitud de comentarios al momento de publicación.

¿Cómo se hace más efectivo AudioHijack?

Atacar modelos cerrados propietarios de empresas como OpenAI y Anthropic es mucho más difícil, dice Chen, dada la información pública limitada sobre sus arquitecturas. Pero estos modelos a menudo usan componentes open source, como encoders de audio preentrenados, que pueden ser atacados de manera similar, algo que el equipo está investigando.

Para asegurar que el ataque funcione sin importar qué instrucciones provea el usuario junto al clip malicioso, los investigadores emparejaron el clip con distintas instrucciones de usuario en cada ronda del proceso de optimización.

También encontraron una forma de tomar el control del mecanismo de atención del modelo, el componente que ayuda a identificar qué partes del audio son relevantes para la tarea que tiene asignada. Los investigadores introdujeron una medida de cuánta atención presta el modelo al audio adversarial frente a las instrucciones del usuario en cada paso, alimentando esto al proceso de optimización para producir muestras que atraen más atención del modelo.

Para que las manipulaciones sean más difíciles de detectar por un oyente humano, los investigadores usaron una técnica que desarrollaron previamente, que hace que los cambios al audio suenen como reverberación natural. Esto es más difícil de detectar para humanos que enfoques anteriores que sumaban ruido a la señal original.

¿Qué defensas existen hoy?

El equipo demostró seis categorías de ataque: hacer que el modelo afirme que no puede procesar audio, rechazar pedidos del usuario, responder con información falsa, insertar enlaces maliciosos, alterar la persona del modelo y gatillar uso no autorizado de herramientas.

Y de manera preocupante, el enfoque demostró ser resistente a defensas comunes. Proveer al modelo con ejemplos de instrucciones maliciosas a las que prestar atención redujo el éxito del ataque apenas en un 7%, mientras que pedirle al modelo que reflexione sobre si su respuesta coincide con las instrucciones del usuario detectó solo el 28% de los ataques.

"Estas defensas de un solo punto luchan por resistir nuestro ataque porque encontramos que es muy difícil para estos modelos distinguir la intención normal del usuario de nuestro ataque adversarial", dice Chen.

La única táctica efectiva fue monitorear los mecanismos de atención interna de los modelos para detectar los intentos de AudioHijack de dirigir la atención hacia el audio malicioso. Sin embargo, los investigadores mostraron que un atacante consciente de esta defensa puede atenuar la manipulación de atención a costa de una pequeña reducción en el éxito del ataque.

En el mundo real, este tipo de ataque de audio enfrentará desafíos adicionales como compresión y varios mecanismos de post-procesamiento que podrían degradar las señales, dice Eugene Bagdasarian, profesor asistente de ciencia de la computación en la Universidad de Massachusetts Amherst. Pero comenta que los ataques multimodales sobre modelos de IA siguen siendo un problema esencialmente sin resolver.

"Con datos de texto podemos entender que algo está mal (caracteres especiales, oraciones sospechosas, etc.), la modalidad de audio es realmente difícil de comprender por lo limitado de nuestra audición", escribe en un correo.