Google integró la capacidad Computer Use directamente en Gemini 3.5 Flash, su modelo rápido y de bajo costo. Hasta ahora esta función solo estaba disponible en un modelo separado, Gemini 2.5, lo que obligaba a los desarrolladores a elegir entre velocidad o autonomía. La movida apunta a destrabar el despliegue de agentes que operan software como lo haría un humano.

Combinado con las herramientas existentes como llamadas a funciones, Search y Maps, el modelo permite construir agentes que se mueven entre navegador, móvil y escritorio para tareas concretas como pruebas de software automatizadas, automatización de oficina o flujos de back-office.

¿Qué tan bueno es Gemini 3.5 Flash en OSWorld?

En el benchmark OSWorld, que mide la capacidad de un modelo para completar tareas reales en un sistema operativo, Gemini 3.5 Flash obtuvo 78,4 puntos. La cifra deja al modelo:

  • Por encima de Gemini 3 Flash (65,1) y GPT-5.4 mini (72,1)
  • Empatado con Sonnet 4.6 de Anthropic (78,4)
  • A 0,3 puntos de GPT-5.5 (78,7)
  • Por encima de Gemini 3.1 Pro (76,2)
  • Por debajo de Opus 4.8 de Anthropic, líder del benchmark con 83,4

El dato relevante es que Flash, que históricamente fue el modelo barato y rápido de la familia Gemini, ahora alcanza a la generación Pro en una tarea agéntica compleja. Para Google esto significa abrir la puerta a desplegar agentes a costos sensiblemente menores que los de la competencia.

¿Cómo se defiende del prompt injection?

El riesgo principal de un agente que controla un computador es la inyección indirecta de prompts, donde una página web maliciosa puede inducir al modelo a ejecutar acciones no deseadas. Google aplicó entrenamiento adversarial y dos salvaguardas opcionales para clientes empresariales:

  • Una que exige confirmación del usuario antes de ejecutar acciones sensibles o irreversibles, como borrar archivos o enviar pagos.
  • Otra que detiene automáticamente la tarea cuando detecta señales de inyección indirecta en el contenido visitado.

La empresa también recomienda sandboxing, supervisión humana y controles de acceso estrictos, con más detalle en su documentación de buenas prácticas.

Disponibilidad y herramientas para desarrolladores

La capacidad ya está disponible a través de la Gemini API y la Gemini Enterprise Agent Platform. Google además publicó una demo en Browserbase y una implementación de referencia en GitHub para que los equipos puedan empezar a integrar la función en sus pipelines de prueba.

Para contexto regional, en LatAm el costo por token de Gemini Flash venía siendo competitivo frente a alternativas como GPT mini, lo que abre la posibilidad concreta de que startups y áreas de QA en empresas chilenas empiecen a desplegar agentes de software testing sin tener que comprometer presupuestos de cómputo grandes.

Documentación oficial y demo de Browserbase son los puntos de entrada para probar la nueva integración.