Google DeepMind anunció lo que llama "una manera más fluida e intuitiva de colaborar con la IA": un puntero del mouse que no se limita a indicar dónde está el cursor, sino que entiende qué señala el usuario y por qué eso importa. La función, impulsada por Gemini, debuta en demos públicas a través de Google AI Studio y arranca integraciones inmediatas en Gemini en Chrome y en el laptop Googlebook.

Mockup de interfaz con tres íconos de cursor y rastros azules brillantes sobre fondo punteado. Bajo cada cursor hay un botón con un ícono de micrófono y comandos de voz
Mockup de interfaz con tres íconos de cursor y rastros azules brillantes sobre fondo punteado. Bajo cada cursor hay un botón con un ícono de micrófono y comandos de voz

¿Por qué reinventar el puntero ahora?

El cursor del mouse ha sido compañero constante en toda pantalla, en todo flujo de trabajo, durante medio siglo. Pero apenas evolucionó en ese tiempo. DeepMind lo plantea sin rodeos: la frustración real con las herramientas de IA actuales es que viven en ventanas separadas, lo que obliga al usuario a "arrastrar su mundo al chat" para que el modelo entienda el contexto.

La propuesta invierte ese movimiento. Si el puntero ya está sobre algo (una imagen, un párrafo, una tabla), el contexto que el modelo necesita ya está disponible. El ejemplo canónico del anuncio: apuntar a la imagen de un edificio y pedir simplemente "muéstrame las direcciones para llegar".

Video de demostración del entorno experimental del puntero IA. Secuencias acortadas en todo el clip
Video de demostración del entorno experimental del puntero IA. Secuencias acortadas en todo el clip

Cuatro principios de interacción

DeepMind ordena el experimento bajo cuatro principios. La idea común es trasladar el peso de comunicar contexto e intención desde el usuario hacia el sistema, reemplazando prompts cargados de texto por interacciones más intuitivas.

1. Mantener el flujo

Las capacidades de IA deberían funcionar sobre cualquier aplicación, sin forzar "desvíos hacia la IA" entre tareas. El prototipo está disponible donde el usuario ya está trabajando. Los ejemplos: apuntar a un PDF y pedir un resumen en bullets para pegar directo en un correo, pasar sobre una tabla de estadísticas y pedir un gráfico de torta, o destacar una receta y pedir todos los ingredientes duplicados.

2. Mostrar y contar

Los modelos actuales exigen instrucciones precisas. Para obtener una buena respuesta, el usuario tiene que escribir un prompt detallado. El puntero con IA simplifica eso capturando el contexto visual y semántico que rodea al cursor. En el sistema experimental, basta apuntar y el modelo sabe exactamente qué palabra, párrafo, parte de imagen o bloque de código necesita atención.

3. Abrazar el poder de "esto" y "eso"

En las interacciones humanas cotidianas rara vez hablamos en párrafos detallados. Decimos "arregla esto", "mueve eso acá" o "¿qué significa esto?" mientras gestos físicos y contexto compartido completan los vacíos. Un sistema de IA que entiende esa combinación de contexto, señalamiento y voz permite hacer pedidos complejos en taquigrafía natural, sin pelear con prompts.

4. Convertir píxeles en entidades accionables

Durante décadas, los computadores solo rastrearon dónde apuntamos. La IA ahora puede entender qué estamos apuntando. Esto convierte píxeles en entidades estructuradas: lugares, fechas, objetos con los que el usuario puede interactuar al instante. Una foto de una nota a mano se transforma en una lista de tareas interactiva; un fotograma pausado de un video de viaje se convierte en un link de reserva para el restaurante que aparece en la imagen.

¿En qué productos se aplica esto?

DeepMind ya está integrando estos principios en dos productos comerciales. En Gemini en Chrome, el usuario puede usar el puntero para preguntar sobre la parte de la página web que le interesa: seleccionar varios productos y pedir una comparación, o apuntar a un rincón de la sala y pedir visualizar un sofá nuevo allí. En el nuevo laptop Googlebook, llegará pronto el Magic Pointer, que pone Gemini al alcance del cursor.

Para experimentación más libre, la compañía mantiene la función disponible en Google Labs Disco, donde se prueban conceptos antes de pasarlos a productos masivos.

¿Qué cambia el día que esto funcione bien?

El cursor inteligente, si llega a producción estable, cambia el paradigma de entrada del computador. Pasa de ser una entrada espacial (un par de coordenadas X, Y) a ser una entrada semántica (un objeto, un concepto, una intención con contexto). Es un salto comparable al que dio el hipervínculo cuando convirtió texto en navegación. Para usuarios LatAm que pelean a diario con prompts en inglés mal traducidos al español, la reducción de fricción podría ser el cambio más relevante de la generación actual de IA generativa.