El puntero del mouse lleva más de medio siglo en el centro de la computación personal. Rastrea su posición, registra clics y, fuera de eso, no hace casi nada más. Investigadores de Google DeepMind acaban de delinear un conjunto de principios experimentales y demostraciones para un puntero impulsado por IA que va bastante más allá: uno que entiende no solo dónde está apuntando el usuario, sino qué está apuntando y por qué importa.

El sistema corre sobre Gemini y está aún en fase experimental. Dos demos quedaron disponibles en Google AI Studio: una para editar una imagen y otra para encontrar lugares en un mapa, ambas operables apuntando y hablando. Una integración más profunda llamada Magic Pointer ya está desplegándose dentro de Chrome, y una integración adicional está planeada para Googlebook, la nueva línea de laptops con Gemini anunciada esta semana.

¿Qué problema quiere resolver DeepMind?

La frustración que apuntan los investigadores es conocida para cualquiera que haya usado un asistente de IA mientras trabaja. Como la herramienta vive en su propia ventana, el usuario tiene que arrastrar su contexto hasta ella. El equipo de investigación quiere lo opuesto: una IA intuitiva que llegue al usuario en todas las herramientas que ya usa, sin interrumpir el flujo de trabajo.

En la práctica, el flujo de IA de hoy se ve así. El usuario está dentro de un documento o de una pestaña, ve algo sobre lo que quiere preguntar, salta a una interfaz de chat, vuelve a describir lo que estaba viendo, ejecuta la consulta y pega el resultado de vuelta. Esto refleja una brecha técnica concreta: las interfaces actuales de modelos grandes de lenguaje son fundamentalmente text-in, text-out. No tienen conciencia del estado de la pantalla. El puntero IA intenta cerrar esa brecha entregándole al modelo contexto visual y semántico en tiempo real derivado de la posición del cursor y del hover, sin pedirle al usuario que serialice ese contexto en un prompt escrito.

Los cuatro principios de interacción

DeepMind plantea cuatro principios que mueven el trabajo de comunicar contexto e intención desde el usuario hacia el computador, reemplazando los prompts de texto pesados por interacciones más simples e intuitivas.

  • Mantener el flujo: las capacidades de IA deben funcionar en todas las aplicaciones, sin obligar al usuario a hacer "desvíos de IA" entre ellas. El prototipo de puntero IA está disponible dondequiera que el usuario esté trabajando. Por ejemplo, puede apuntar a un PDF y pedir un resumen en viñetas para pegar directamente en un correo, hacer hover sobre una tabla de estadísticas y pedir una versión en gráfico de torta, o resaltar una receta y pedir todos los ingredientes duplicados. Es una postura arquitectónica directa: en lugar de construir la asistencia IA como una aplicación lateral, la capacidad vive a nivel del puntero y está presente en cualquier herramienta que el usuario ya esté usando.
  • Mostrar y contar (Show and tell): los modelos actuales exigen instrucciones precisas. Para obtener una buena respuesta, el usuario debe escribir un prompt detallado. Un puntero IA simplifica ese proceso capturando con fluidez el contexto visual y semántico alrededor del cursor, dejando que el computador "vea" y entienda qué le importa al usuario. En el sistema experimental, basta con apuntar y la IA sabe exactamente qué palabra, párrafo, parte de una imagen o bloque de código necesita ayuda. Desde el punto de vista técnico, el sistema trata el estado del hover del cursor y el contenido UI circundante como entradas estructuradas al modelo, comparable a cómo los modelos multimodales procesan imagen y texto juntos, salvo que aquí la región visual se recorta y contextualiza dinámicamente en tiempo real alrededor de un cursor en movimiento.
  • Aprovechar el poder de "esto" y "eso": en las interacciones cotidianas, las personas rara vez hablan en párrafos largos y detallados. Decimos "arregla esto", "mueve eso allá" o "¿qué significa esto?", apoyándonos en gestos físicos y en el contexto compartido para llenar los espacios. Un sistema de IA que entienda esa combinación de contexto, apuntado y voz permite que el usuario haga peticiones complejas en taquigrafía natural, sin promptear de manera engorrosa. El nombre del principio es deliberado: el lenguaje deíctico (palabras como "esto" y "eso" que dependen de la referencia física para tener sentido) es la forma en que los humanos se comunican naturalmente cuando pueden señalar algo.
  • Convertir píxeles en entidades accionables: durante décadas los computadores solo rastrearon dónde estábamos apuntando. La IA ahora puede entender además qué se está apuntando. Esto transforma píxeles en entidades estructuradas, como lugares, fechas y objetos, con las que el usuario puede interactuar de inmediato. La foto de una nota garabateada se convierte en una lista de tareas interactiva; un frame pausado en un video de viaje se transforma en un link de reserva para ese restaurante interesante. Para ingenieros de machine learning, este es el principio más sustantivo técnicamente: describe un paso de extracción de entidades que ocurre en tiempo de inferencia sobre el contenido visual bajo el cursor, convirtiendo regiones de píxeles crudos en objetos tipados y accionables en lugar de dejarlos como contenido no estructurado.

¿Hacia dónde va Magic Pointer?

Google DeepMind ya está integrando estos principios para repensar el acto de apuntar en Chrome y en la experiencia del nuevo laptop Googlebook. Desde ya, en vez de escribir un prompt complejo, los usuarios pueden usar su puntero para preguntarle a Gemini sobre la parte de la página web que les importa. Por ejemplo, seleccionar varios productos en una página y pedir que los compare, o señalar dónde quieren visualizar un sofá nuevo en su living.

¿Qué cambia para usuarios en Chile o LatAm?

Para el escritorio cotidiano, el cambio inmediato lo va a sentir cualquiera que use Chrome con sesión iniciada en Google. La capa de Magic Pointer se activa sin instalar nada nuevo, por lo que el lector chileno o argentino puede esperar acceso similar al de Estados Unidos en cosa de semanas, sujeto al rollout regional. Googlebook, en cambio, debutará primero en mercados de habla inglesa y su llegada a la región va a depender de la red de retail de Google y de los distribuidores locales, que históricamente atrasan las nuevas líneas entre seis y doce meses.

Para quien quiere experimentar antes, las dos demos de Google AI Studio están abiertas y no requieren hardware especial. El cuello de botella práctico va a ser el ancho de banda: como el modelo recorta y procesa regiones visuales alrededor del cursor en tiempo real, la latencia se vuelve importante. Conexiones por fibra de 200 Mbps o más en Santiago o Valparaíso entregan una experiencia fluida; en conexiones móviles de 4G LTE la respuesta se nota más lenta.