Pointer Engineering: DeepMind quiere convertir al cursor del mouse en la variable clave del context engineering. "Como una herramienta de IA típica vive en su propia ventana, los usuarios necesitan arrastrar su mundo hacia ella. Queremos lo contrario", escriben los investigadores de DeepMind Adrien Baranes y Rob Marchant.
¿Qué propone Pointer Engineering?
En lugar de depender de prompts precisos, un puntero potenciado por Gemini captura el contexto visual y semántico alrededor del cursor. Los usuarios pueden entonces trabajar con comandos abreviados como "arregla esto" o "mueve eso para acá", combinados con voz y gestos. Es un giro conceptual: la fricción no está en lo que el modelo sabe, sino en cómo el usuario le entrega el contexto.
Según DeepMind, los píxeles se convierten en "entidades estructuradas" como lugares, fechas u objetos. Una nota escrita a mano se transforma en una lista interactiva de tareas; un frame pausado de video, en un enlace para reservar. Los principios ya están siendo integrados en Gemini dentro de Chrome, donde el usuario puede seleccionar partes de una página web y hacer preguntas directas sobre ellas. En el próximo Googlebook, la función se lanzará bajo el nombre Magic Pointer.
¿Reemplaza al prompt engineering?
No del todo. DeepMind aclara que esto no reemplaza al prompt engineering, porque las tareas más complejas siguen requiriendo descripciones precisas. Otras herramientas se apoyan en capturas de pantalla o marcadores dibujados a mano, como flechas rojas en editores de imagen y video, que actúan como anclas visuales para prompts detallados. El aporte de DeepMind se concentra sobre todo en agilizar las interacciones cortas tipo chat del día a día, reduciendo el esfuerzo necesario para pasarle contexto al modelo.
| Pointer Engineering | Detalle |
|---|---|
| Origen | Adrien Baranes y Rob Marchant, Google DeepMind |
| Modelo de soporte | Gemini (versión integrada en Chrome y Googlebook) |
| Producto inicial | "Magic Pointer" en Googlebook |
| Tipo de entrada | Visual + semántica + voz + gestos |
| Reemplaza prompts | No para tareas complejas |
| Caso de uso fuerte | Interacciones cortas, contextuales, conversacionales |
¿Cómo se compara con lo que ya hay?
Lo cercano hoy es la selección de área en Gemini para Chrome, que permite preguntarle al modelo sobre una porción específica de una página, sin tener que copiar y pegar texto. Otros entornos usan marcas dibujadas a mano (típicamente flechas rojas) como anclas visuales acopladas a prompts más detallados. La propuesta de DeepMind sube la apuesta al convertir el puntero en sí mismo en la unidad de contexto, sin requerir que el usuario añada marcas explícitas.
¿Por qué importa para Chile y LatAm?
Para usuarios profesionales que trabajan con Google Workspace en oficinas chilenas (cada vez más estándar reemplazando a Microsoft 365 en pymes locales), el upgrade es directo: menos texto escrito para pedirle a Gemini un cambio sobre un slide o un documento. El cuello de botella es de disponibilidad regional del próximo Googlebook, hardware que históricamente ha llegado tarde y caro a Chile vía importación gris. Pero la función en Chrome es global y debería estar disponible al lanzarse, sin esperar el dispositivo.




