En 2018, Amazon contrató a Mike Forst como lead UX Sound Designer de Astro, su primer robot doméstico de consumo. Astro usaba cámaras y otros sensores para mapear y navegar la casa o la oficina, podía patrullar de forma proactiva, vigilar a familiares y transportar objetos pequeños en su compartimento de carga. El set de funciones y la forma física estaban definidos, pero al principio no había dirección de carácter. De hecho, antes incluso de que se llamara Astro, el equipo se preguntaba: ¿es Alexa con ruedas o es un robot con personalidad propia?

El equipo estaba dividido. Una opción era enfocarse en Alexa y tratar al robot móvil como una utilidad agregada. Forst, junto a la mayoría del equipo de UX, defendió que Astro no podía ser solo Alexa: una cosa que se mueve por tu casa y se gira hacia ti con intención nunca puede ser un mero electrodoméstico. La gente le iba a atribuir personalidad quisiéramos o no, y la única pregunta real era si esa personalidad se diseñaba o aparecía por accidente.

El test de usuarios respaldó la decisión: la gente no veía a Astro como Alexa. Lo veía como un personaje con identidad propia. Alexa en el dispositivo se sentía raro, casi creepy; construir una voz exclusiva para Astro era demasiado lento y caro en 2018. Llegaron a un compromiso: Alexa quedaba como personaje secundario que se hacía cargo de cualquier diálogo verbal real, mientras que Astro era el protagonista, comunicándose lo más posible sin palabras, a través de sonido, movimiento y expresiones faciales.

¿Qué significa que el carácter sea un sistema de diseño?

Forst llegó al equipo para definir el lenguaje sonoro y la voz del robot, pero nadie estaba desarrollando el carácter propiamente tal. No se puede tomar una decisión real sobre un personaje sin haberlo definido antes. Cada elección sobre cómo Astro se movía, sonaba, pausaba o reaccionaba era una elección de carácter, y esas elecciones requerían a todas las disciplinas trabajando coordinadas.

Como Sound Lead, Forst terminó tejiendo sonido, movimiento y carácter, y cómo jugaban juntos en cada momento narrativo. Los animadores que programaban el movimiento y las expresiones faciales eran extraordinarios, pero el arco emocional que animaban venía del trabajo de sonido (y, por lo tanto, del carácter) primero.

Desarrollar el carácter de Astro implicó responder preguntas que nunca se habían hecho sobre un producto de Amazon: ¿cuál es el rango emocional del estado basal de este robot? ¿Cómo comunica incertidumbre sin erosionar la confianza? ¿Dónde está la línea entre ser expresivo y ser molesto? ¿Cuáles son las vulnerabilidades del personaje?

Son preguntas de diseño y tienen respuestas reales. El rango emocional de Astro se diseñó intencionalmente acotado al principio: nunca se quería que se pusiera demasiado triste o demasiado enojado. Podía simular tristeza pero salía rápido de ella y cerraba la reacción en una nota positiva.

¿Por qué la "costura" entre estados importa tanto?

El carácter se filtra por cada juntura del producto y crea una experiencia inconsistente si no está bien definido. Aunque sea un timing de animación levemente desfasado o una respuesta técnicamente correcta pero tonalmente sorda al contexto, los usuarios sienten cada una de esas inconsistencias aunque no sepan nombrarlas.

Forst pone como ejemplo la secuencia Sing de Astro: el robot va de la nada al momento emocional y luego vuelve a la nada. Sin construcción ni enfriamiento, sin sensación de que el sentimiento venga de algún lado o vaya a algún lugar. Forst presionó por una mejor costura de carácter (las transiciones de entrada y salida de los momentos expresivos que hacen que una performance se sienta continua en vez de ensamblada), pero nunca se implementó. El momento en sí funciona. Sin la costura, se lee como un clip reproducido sobre un robot, no como algo que sale desde adentro del personaje.

Story y sonido al principio, no al final

Astro no tendría diálogo hablado, pero sí algo que funcionaba igual: un vocabulario de sonidos, tonos y ritmos que actuaba como voz. Este vocabulario terminó siendo la principal salida de la personalidad del personaje. El movimiento y las expresiones faciales se construyeron alrededor de él.

La secuencia de despertar de Astro es un buen ejemplo. Despertar no era solo una animación de arranque en la pantalla; era una performance completa. Lento y humilde al principio, el robot se orientaba en silencio, luego estiraba su pantalla, revisaba sus ruedas y, finalmente, con un gesto hacia arriba de su mástil telescópico, lo sacaba un poco e hacía un pequeño baile de alegría. Sonido, movimiento y ojos golpeaban cada beat juntos en coreografía completa.

La salida del personaje en esa secuencia se escribió primero como una historia. Astro despertando en su nueva casa por primera vez. Su aspiración principal es ser parte de una familia, así que este es el momento que estaba esperando, este es su propósito. Como personaje responsable que es, quiere asegurarse de que todo esté bien antes de presentarse y empezar a aprender su nueva casa.

La narrativa vino primero porque manejó cada otra decisión que tomaron. Después de escribir la historia, el sonido le dio voz metafórica: los tonos animados, la cadencia mientras revisaba sus ruedas y la frase melódica brillante cuando Astro miraba a su nueva familia por primera vez. Una vez puesto el sonido, animación hizo lo suyo con movimiento y expresiones faciales, tomando indicaciones del arco emocional que el sonido había establecido. El movimiento no lideraba: seguía el sentimiento de la historia y de los sonidos, igual que un animador sigue una pista vocal grabada.

Esa secuencia de despertar terminó siendo uno de los momentos más comentados en los primeros test de usuarios. La gente la describió como "viva". A lo que respondían no era ningún elemento individual: eran los tres canales (sonido, movimiento, expresiones faciales) expresando el mismo personaje definido en armonía.

Contexto: donde el carácter se vuelve real

Los personajes más convincentes no se definen por una disposición fija sino por cómo responden a sus ambientes y a las personas. Siguen siendo reconociblemente ellos mismos incluso mientras se adaptan. Forst llama a esto carácter contextual. Un robot que vive en una casa no ocupa un solo estado emocional. Se mueve por habitaciones con energías distintas, se cruza con gente en distintos ánimos, opera a distintas horas y responde a un rango infinito de situaciones sociales para las que nunca fue diseñado explícitamente.

Con el sonido de Astro estuvieron cerca de una salida de carácter contextual. Cuando una pieza específica de contexto ambiental entraba al sistema, este se adaptaba bellamente y Astro se sentía completamente vivo. Pero cada uno de esos estados seguía siendo una predicción hecha a mano: una situación que había que imaginar de antemano y diseñarle una respuesta. Una casa al azar le tira más situaciones a un robot de las que cualquiera puede predecir, así que siempre había una cola larga de momentos para los que el sistema no estaba preparado.

La diferencia entre un producto que la gente describe como "inteligente" y uno que describe como "consciente" suele reducirse a esto. La inteligencia es capacidad. La consciencia es contexto. La presencia es carácter. Y el carácter siempre está en reacción a las personas a su alrededor, a su ambiente, a su propio estado en evolución. Eso es lo que hace que se sienta como si algo estuviera emocionalmente presente contigo.

¿Qué cambia con IA encarnada (embodied AI)?

Aquí es donde la IA cambia el juego para el diseño de personajes en formas que van mucho más allá de lo posible con Astro. La adaptación con IA no requiere las predicciones contextuales en las que confiaban en Amazon. Aprende los ritmos específicos, las preferencias y el contexto emocional de las personas con las que vive y trabaja. El personaje no solo responde al contexto: crece dentro de él.

El carácter y el alma de la ola entrante de productos de IA encarnada parecen casi siempre un afterthought. Y carácter definido tarde es carácter definido por defecto: termina siendo la suma de mil pequeñas decisiones tomadas por gente distinta pensando en cualquier cosa menos en el personaje. La gente proyecta carácter sobre los dispositivos lo planifiques o no, especialmente si esos dispositivos se mueven: un robot que se mueve ya es un personaje. Si nadie diseñó ese carácter, el resultado serán productos que se sienten como nada o, peor, que se sienten confusos y poco confiables. Técnicamente impresionantes, pero sin vida.

Con Astro no lograron hacerlo del todo bien. Tantas cosas se movían en paralelo que el carácter rara vez se trataba como una utilidad, y tiene sentido por qué: cuando construyes un producto primero de su tipo, lo que más suena son las cosas que se rompen, los plazos, los costos y las funciones que un cliente puede señalar en una caja.