Las gafas inteligentes han recibido mucha atención en la prensa en los últimos años, pero ¿con qué frecuencia ves a alguien usando un par? A menos que viva en Silicon Valley, ver gafas inteligentes en la naturaleza es algo poco común. Una de las principales razones de esto es que la mayoría de la gente simplemente no quiere usar anteojos, especialmente los voluminosos e incómodos que tienen procesadores, cámaras y baterías.
Sin embargo, la gente no tiene ningún problema en utilizar auriculares. Vayas donde vayas, encontrarás personas que utilizan AirPods u otros auriculares inalámbricos las 24 horas del día. Un grupo de investigadores de la Universidad de Washington sabe dio cuenta de esto y reconoció que esta plataforma podría ser una mejor manera de llevar con nosotros un asistente de IA siempre activo. La única pregunta era cómo. Los auriculares son mucho más pequeños que las gafas, entonces, ¿cómo puedes colocar todo el hardware adicional en ellos?
Su respuesta es un sistema prototipo llamado VueBuds: auriculares inalámbricos equipados con cámaras diminutas de bajo consumo que pueden “ver” el mundo y responder preguntas sobre él en tiempo real. En lugar de transmitir videos de alta resolución como las gafas inteligentes, los VueBuds capturan imágenes fijas en blanco y negro de baja resolución y las envían por Bluetooth a un dispositivo cercano. Allí, un modelo de IA en el dispositivo procesa las imágenes y responde en aproximadamente un segundo, lo que permite interacciones como traducir texto en paquetes o identificar objetos a la vista.
Para hacer esto posible, el equipo modificó audífonos disponibles en el mercado, específicamente el Sony WF-1000XM3, e incorporó módulos de cámara del tamaño aproximado de un grano de arroz. Estas cámaras consumen menos de 5 milivatios de energía y agregan solo una modesta batería, incluso con un uso frecuente. El sistema evita la captura continua de vídeo, que sería demasiado exigente tanto en términos de potencia como de ancho de banda Bluetooth. En cambio, activa las cámaras a pedido.
Alinear las cámaras correctamente resultó ser otro desafío. Las cámaras colocadas al nivel de las orejas no sabe alinean con los ojos del usuario y pueden quedar parcialmente bloqueadas por la cara. Los investigadores resolvieron esto inclinando cada cámara ligeramente hacia afuera y combinando imágenes de ambos auriculares en una sola vista unida. Este enfoque binocular amplía el campo de visión y reduce los puntos ciegos, al tiempo que mejora la velocidad de procesamiento en comparación con el manejo de dos imágenes separadas.
En las pruebas, VueBuds funcionó a la par con gafas inteligentes de alta gama como Ray-Ban Meta Glasses en una variedad de tareas visuales. Los participantes incluso prefirieron VueBuds para tareas de traducción, aunque las gafas funcionaron ligeramente mejor al contar objetos. La precisión general alcanzó más del 80 % para el reconocimiento de objetos y la traducción, y más del 90 % para la lectura de títulos y autores de libros.
El sistema sabe ejecuta en modelos modernos de visión y lenguaje como Qwen2.5-VL, lo que demuestra que incluso las imágenes en escala de grises de baja resolución pueden admitir interacciones significativas de IA. Es importante destacar que todo el procesamiento sabe realiza localmente en el dispositivo, lo que aborda los problemas de privacidad asociados con los sistemas basados en la nube. Una luz indicadora visible también alerta a los usuarios cuando sabe están capturando imágenes.
Los VueBuds siguen siendo una idea experimental, por lo que todavía no puedes comprar un par. Si desea obtener más información sobre esta tecnología, el trabajo de investigación está disponible en línea.




