Google no diseña ratoneras, así que está intentando diseñar un mejor mouse.

Google DeepMind anunció un esfuerzo de investigación para transformar el cursor estándar del computador en una herramienta consciente del contexto y potenciada con IA, en lo que la compañía describió como la primera reinvención mayor del cursor en más de 50 años.

El proyecto, liderado por los investigadores Adrien Baranes y Rob Marchant, integra el modelo de IA Gemini de Google con un puntero experimental sensible al contexto. De esa manera, según la empresa, el sistema entiende dónde hace clic el usuario, qué está clickeando y la intención probable detrás de la interacción.

Los investigadores señalaron que existe una fricción persistente en cómo las personas interactúan hoy con las herramientas de IA. La mayoría de los asistentes vive en una ventana separada, lo que obliga al usuario a copiar, pegar o arrastrar contenido a una interfaz de chat antes de recibir ayuda. El nuevo enfoque busca invertir esa dinámica.

"Queremos lo opuesto: una IA intuitiva que encuentre a los usuarios dentro de todas las herramientas que usan, sin interrumpir su flujo", indicaron los investigadores en el blog del proyecto.

¿Qué hace exactamente el nuevo puntero?

El puntero opera en conjunto con el micrófono del computador, lo que permite a Gemini escuchar mientras el usuario apunta. Esto le habilita al usuario referirse a elementos en la pantalla con pronombres como "esto" y "aquello".

En un sitio de demostración, el usuario puede pasar el cursor sobre un cangrejo y decir "mové esto acá", y el sistema entiende suficiente contexto como para tomar al cangrejo y desplazarlo hacia donde indica el cursor.

El primer mouse de computador, un prototipo de un solo botón con ruedas metálicas para los ejes X e Y, fue construido en madera en 1964 y patentado en 1970 por sus inventores Doug Engelbart y Bill English, mientras trabajaban en el Stanford Research Institute.

Engelbart anticipaba un día en que humanos y computadores interactuarían de forma más fácil y natural, idea que desarrolló durante su discurso de aceptación de 1997 del Lemelson-MIT Prize.

"La tecnología de los computadores, las capacidades digitales, afectan las comunicaciones, las pantallas, el almacenamiento, el procesamiento. Eso va a tener un impacto tan generalizado en nuestra sociedad y en nuestras organizaciones que va más allá de cualquier cosa con la que tuvimos que lidiar evolutivamente", dijo Engelbart.

¿Cuáles son los cuatro principios de diseño?

En Google, el equipo afirmó que estableció cuatro principios de diseño que guían el proyecto:

1. "Mantén el flujo". Las capacidades de IA deben funcionar en todas las aplicaciones, en lugar de forzar al usuario a entornos específicos de IA. Bajo este principio, un usuario podría apuntar a un PDF y pedir un resumen, o pasar el cursor sobre una tabla de estadísticas y pedir un gráfico, todo sin salir de la aplicación actual. 2. "Mostrar y decir". El segundo principio aborda la carga de escribir prompts. Un puntero con IA puede capturar el contexto visual y semántico desde la pantalla, reduciendo la necesidad de redactar instrucciones detalladas para el modelo. 3. Comunicación natural con gestos. Los investigadores diseñaron el cursor a partir de cómo las personas se comunican naturalmente con frases cortas y gestos como "esto" y "aquello". El sistema permite al usuario emitir comandos como "Arregla esto" o "Mové aquello para acá" mientras la IA rellena los huecos contextuales. 4. "Convertir píxeles en entidades accionables". El cuarto principio permite al puntero reconocer objetos estructurados dentro del contenido en pantalla. Esa capacidad puede transformar la foto de una nota manuscrita en una lista de tareas interactiva, o convertir el fotograma pausado de un video que muestra un restorán en un enlace para reservar.

¿Cuándo y dónde llega esta tecnología?

En el blog del proyecto, los investigadores señalaron que Google DeepMind ya empezó a integrar los aprendizajes en sus productos. Una funcionalidad llamada Magic Pointer debutará pronto en la próxima plataforma de portátiles Googlebook, presentada esta semana. La compañía añadió que la tecnología también permitirá a los usuarios de Gemini en Chrome apuntar a partes específicas de una página web y hacer preguntas sobre ellas, sin tener que redactar un prompt de texto completo.

Los demos experimentales del puntero con IA ya están disponibles a través de Google AI Studio, donde el usuario puede probar interacciones de edición de imágenes y mapas usando el enfoque de apuntar y hablar.

La compañía dijo que planea seguir probando el concepto en plataformas adicionales, incluida Disco de Google Labs.