Computer use —la capacidad del modelo de mirar la pantalla, razonar y actuar sobre ella— pasa a ser una herramienta integrada en Gemini 3.5 Flash, según anunció Google DeepMind. Antes solo estaba disponible como un modelo independiente llamado Gemini 2.5 computer use; ahora vive dentro del Flash principal.
Gemini ya era fuerte en function calling y en herramientas internas como Search y Maps grounding. Con computer use nativo, los desarrolladores pueden construir agentes que ven, razonan y actúan en entornos de navegador, móvil y escritorio, sin armar pipelines aparte para conectar el modelo a un controlador de pantalla.
Google apunta el caso de uso a tareas de horizonte largo y automatización empresarial: pruebas de software continuas, knowledge work sobre suites profesionales (Excel, Salesforce, Workday) y flujos de back-office repetitivos.
Desarrolladores y clientes corporativos pueden usar la capacidad vía la Gemini API y la Gemini Enterprise Agent Platform.
¿Cómo se compara con Operator de OpenAI y Computer Use de Anthropic?
Tres laboratorios ofrecen hoy modelos que controlan el computador para construir agentes. La tabla simplifica el panorama:
| Producto | Empresa | Lanzamiento | Modo de uso |
|---|---|---|---|
| Computer Use | Anthropic | oct-2024 | API en Claude Sonnet 4.x |
| Operator | OpenAI | ene-2025 | App + API en GPT-5.x |
| Gemini computer use | abr-2026 (standalone), jun-2026 (nativo en Flash) | API + Enterprise Agent Platform |
La novedad de Google no es entrar al espacio —ya lo había hecho con Gemini 2.5 computer use—, sino plegar la capacidad al modelo "Flash" principal, el tier más barato y rápido de su línea. Esa decisión empuja el costo por agente hacia abajo y deja a NVIDIA y a Anthropic con la presión de bajar precios o subir performance.
¿Qué tan seguro es entregarle el mouse al modelo?
Para mitigar los riesgos de prompt injection en entornos productivos, DeepMind aplicó entrenamiento adversarial dirigido a las acciones de computer use en 3.5 Flash. Adicionalmente, libera dos sistemas opcionales de salvaguarda para clientes empresariales:
- Confirmación explícita del usuario para acciones sensibles o irreversibles (pagar, enviar mail, borrar archivo).
- Detener tareas automáticamente si el sistema identifica un prompt injection indirecto (típicamente: el modelo está leyendo un sitio web que intenta darle instrucciones nuevas).
DeepMind enmarca esto en un enfoque de "defensa en profundidad" y recomienda combinar las salvaguardas con sandboxing seguro, verificación con humano en el loop y controles de acceso estrictos. La documentación de mejores prácticas trae el detalle técnico.
¿Cómo se prueba sin código?
Para integradores que quieran ver la capacidad funcionando antes de tirar líneas de Python: Google publicó un demo hospedado por Browserbase en gemini.browserbase.com, que permite pedirle al modelo tareas reales —comprar un producto, completar un formulario, abrir un dashboard— y observar cómo navega.
Para construir sobre él, la implementación de referencia está en GitHub (google-gemini/computer-use-preview) junto a la documentación de la Gemini API y la Gemini Enterprise Agent Platform.
Lectura para LatAm
Para equipos de RPA y automatización en empresas chilenas, el cambio es relevante por costo: Flash es el tier económico de Gemini, y agentes que antes requerían el modelo Pro (varias veces más caro por token) ahora corren contra Flash con la misma herramienta de control de pantalla. Casos concretos: bancos automatizando consultas en sistemas legacy, retailers cruzando inventarios entre SAP y plataformas de e-commerce, estudios contables ejecutando cierres mensuales en Excel.
La trampa local sigue siendo la misma de toda automatización con LLM cloud: latencia desde Chile a la región más cercana (us-east1 o southamerica-east1) y costo de tokens en USD. Pero el costo unitario cae lo suficiente como para empezar a justificar pilotos donde antes el modelo Pro mataba el caso de negocio.




