Gemini 3.5 Flash integra computer use nativo y reta a Operator

Google integra el control de navegador, móvil y escritorio al modelo principal Flash, y suma dos salvaguardas opcionales contra prompt injection pensadas para uso empresarial.

Publicado el 25 de junio de 2026 · 06:31 p. m.3 min de lectura

Al grano

Google DeepMind integró computer use como herramienta nativa en Gemini 3.5 Flash, su modelo más rápido y económico.

La capacidad estaba antes en el modelo independiente Gemini 2.5 computer use y ahora se accede desde la API y desde Enterprise Agent Platform.

El modelo controla navegador, móvil y escritorio para tareas de horizonte largo como QA de software y automatización en suites empresariales.

Por qué importa

Que computer use baje al Flash no es solo un release técnico: es Google empujando el costo unitario del agente. Cuando la herramienta más cara se vuelve commodity en el tier más barato, los proveedores RPA tradicionales (UiPath, Automation Anywhere) pierden su razón de existir. La pregunta no es si Gemini, Operator o Claude domina el agente, sino quién captura el margen cuando el agente cuesta lo mismo que una llamada API. Y ese mercado, en LatAm, está intacto.

Computer use —la capacidad del modelo de mirar la pantalla, razonar y actuar sobre ella— pasa a ser una herramienta integrada en Gemini 3.5 Flash, según anunció Google DeepMind. Antes solo estaba disponible como un modelo independiente llamado Gemini 2.5 computer use; ahora vive dentro del Flash principal.

Gemini ya era fuerte en function calling y en herramientas internas como Search y Maps grounding. Con computer use nativo, los desarrolladores pueden construir agentes que ven, razonan y actúan en entornos de navegador, móvil y escritorio, sin armar pipelines aparte para conectar el modelo a un controlador de pantalla.

Google apunta el caso de uso a tareas de horizonte largo y automatización empresarial: pruebas de software continuas, knowledge work sobre suites profesionales (Excel, Salesforce, Workday) y flujos de back-office repetitivos.

Desarrolladores y clientes corporativos pueden usar la capacidad vía la Gemini API y la Gemini Enterprise Agent Platform.

¿Cómo se compara con Operator de OpenAI y Computer Use de Anthropic?

Tres laboratorios ofrecen hoy modelos que controlan el computador para construir agentes. La tabla simplifica el panorama:

Producto	Empresa	Lanzamiento	Modo de uso
Computer Use	Anthropic	oct-2024	API en Claude Sonnet 4.x
Operator	OpenAI	ene-2025	App + API en GPT-5.x
Gemini computer use	Google	abr-2026 (standalone), jun-2026 (nativo en Flash)	API + Enterprise Agent Platform

La novedad de Google no es entrar al espacio —ya lo había hecho con Gemini 2.5 computer use—, sino plegar la capacidad al modelo "Flash" principal, el tier más barato y rápido de su línea. Esa decisión empuja el costo por agente hacia abajo y deja a NVIDIA y a Anthropic con la presión de bajar precios o subir performance.

¿Qué tan seguro es entregarle el mouse al modelo?

Para mitigar los riesgos de prompt injection en entornos productivos, DeepMind aplicó entrenamiento adversarial dirigido a las acciones de computer use en 3.5 Flash. Adicionalmente, libera dos sistemas opcionales de salvaguarda para clientes empresariales:

Confirmación explícita del usuario para acciones sensibles o irreversibles (pagar, enviar mail, borrar archivo).
Detener tareas automáticamente si el sistema identifica un prompt injection indirecto (típicamente: el modelo está leyendo un sitio web que intenta darle instrucciones nuevas).

DeepMind enmarca esto en un enfoque de "defensa en profundidad" y recomienda combinar las salvaguardas con sandboxing seguro, verificación con humano en el loop y controles de acceso estrictos. La documentación de mejores prácticas trae el detalle técnico.

¿Cómo se prueba sin código?

Para integradores que quieran ver la capacidad funcionando antes de tirar líneas de Python: Google publicó un demo hospedado por Browserbase en gemini.browserbase.com, que permite pedirle al modelo tareas reales —comprar un producto, completar un formulario, abrir un dashboard— y observar cómo navega.

Para construir sobre él, la implementación de referencia está en GitHub (google-gemini/computer-use-preview) junto a la documentación de la Gemini API y la Gemini Enterprise Agent Platform.

Lectura para LatAm

Para equipos de RPA y automatización en empresas chilenas, el cambio es relevante por costo: Flash es el tier económico de Gemini, y agentes que antes requerían el modelo Pro (varias veces más caro por token) ahora corren contra Flash con la misma herramienta de control de pantalla. Casos concretos: bancos automatizando consultas en sistemas legacy, retailers cruzando inventarios entre SAP y plataformas de e-commerce, estudios contables ejecutando cierres mensuales en Excel.

La trampa local sigue siendo la misma de toda automatización con LLM cloud: latencia desde Chile a la región más cercana (us-east1 o southamerica-east1) y costo de tokens en USD. Pero el costo unitario cae lo suficiente como para empezar a justificar pilotos donde antes el modelo Pro mataba el caso de negocio.

Gemini 3.5 Flash integra computer use nativo y reta a Operator

Al grano

Por qué importa

¿Cómo se compara con Operator de OpenAI y Computer Use de Anthropic?

¿Qué tan seguro es entregarle el mouse al modelo?

¿Cómo se prueba sin código?

Lectura para LatAm

Seguir leyendo

NVIDIA empuja a las telcos a vender tokens AI en vez de GPU por hora

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

NVIDIA Dynamo: limpiar el header de Claude Code baja 5x la latencia

OpenClaw: el agente IA local que estalló en GitHub

→Al grano

✦Por qué importa

¿Cómo se compara con Operator de OpenAI y Computer Use de Anthropic?

¿Qué tan seguro es entregarle el mouse al modelo?

¿Cómo se prueba sin código?

Lectura para LatAm

Seguir leyendo

NVIDIA empuja a las telcos a vender tokens AI en vez de GPU por hora

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

NVIDIA Dynamo: limpiar el header de Claude Code baja 5x la latencia

OpenClaw: el agente IA local que estalló en GitHub

Al grano

Por qué importa