Google integra control de computador en Gemini 3.5 Flash

Al grano

Google sumó Computer Use directamente a Gemini 3.5 Flash, permitiendo que el modelo opere navegadores, móviles y escritorios sin intervención humana.

En el benchmark OSWorld anotó 78,4 puntos, empatado con Sonnet 4.6 y a 0,3 puntos de GPT-5.5, pero por debajo de Opus 4.8 (83,4).

Disponible vía Gemini API y Gemini Enterprise Agent Platform, con dos salvaguardas opcionales contra prompt injection: confirmación humana y detención automática.

Por qué importa

Que Flash, el modelo barato de Google, llegue a 78,4 en OSWorld es la noticia bajo la noticia: hace un año los agentes que controlan computadores requerían los modelos más grandes y caros. La barrera económica para automatizar tareas reales de software se está cayendo rápido. La pregunta abierta para Chile es de adopción, no de tecnología: los equipos de QA y operaciones que sigan resistiendo la automatización agéntica van a perder ventana frente a los que ya están experimentando.

Google integró la capacidad Computer Use directamente en Gemini 3.5 Flash, su modelo rápido y de bajo costo. Hasta ahora esta función solo estaba disponible en un modelo separado, Gemini 2.5, lo que obligaba a los desarrolladores a elegir entre velocidad o autonomía. La movida apunta a destrabar el despliegue de agentes que operan software como lo haría un humano.

Combinado con las herramientas existentes como llamadas a funciones, Search y Maps, el modelo permite construir agentes que se mueven entre navegador, móvil y escritorio para tareas concretas como pruebas de software automatizadas, automatización de oficina o flujos de back-office.

¿Qué tan bueno es Gemini 3.5 Flash en OSWorld?

En el benchmark OSWorld, que mide la capacidad de un modelo para completar tareas reales en un sistema operativo, Gemini 3.5 Flash obtuvo 78,4 puntos. La cifra deja al modelo:

Por encima de Gemini 3 Flash (65,1) y GPT-5.4 mini (72,1)
Empatado con Sonnet 4.6 de Anthropic (78,4)
A 0,3 puntos de GPT-5.5 (78,7)
Por encima de Gemini 3.1 Pro (76,2)
Por debajo de Opus 4.8 de Anthropic, líder del benchmark con 83,4

El dato relevante es que Flash, que históricamente fue el modelo barato y rápido de la familia Gemini, ahora alcanza a la generación Pro en una tarea agéntica compleja. Para Google esto significa abrir la puerta a desplegar agentes a costos sensiblemente menores que los de la competencia.

¿Cómo se defiende del prompt injection?

El riesgo principal de un agente que controla un computador es la inyección indirecta de prompts, donde una página web maliciosa puede inducir al modelo a ejecutar acciones no deseadas. Google aplicó entrenamiento adversarial y dos salvaguardas opcionales para clientes empresariales:

Una que exige confirmación del usuario antes de ejecutar acciones sensibles o irreversibles, como borrar archivos o enviar pagos.
Otra que detiene automáticamente la tarea cuando detecta señales de inyección indirecta en el contenido visitado.

La empresa también recomienda sandboxing, supervisión humana y controles de acceso estrictos, con más detalle en su documentación de buenas prácticas.

Disponibilidad y herramientas para desarrolladores

La capacidad ya está disponible a través de la Gemini API y la Gemini Enterprise Agent Platform. Google además publicó una demo en Browserbase y una implementación de referencia en GitHub para que los equipos puedan empezar a integrar la función en sus pipelines de prueba.

Para contexto regional, en LatAm el costo por token de Gemini Flash venía siendo competitivo frente a alternativas como GPT mini, lo que abre la posibilidad concreta de que startups y áreas de QA en empresas chilenas empiecen a desplegar agentes de software testing sin tener que comprometer presupuestos de cómputo grandes.

Documentación oficial y demo de Browserbase son los puntos de entrada para probar la nueva integración.

Google integra control de computador en Gemini 3.5 Flash

Al grano

Por qué importa

¿Qué tan bueno es Gemini 3.5 Flash en OSWorld?

¿Cómo se defiende del prompt injection?

Disponibilidad y herramientas para desarrolladores

Seguir leyendo

NVIDIA empuja a las telcos a vender tokens AI en vez de GPU por hora

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

NVIDIA Dynamo: limpiar el header de Claude Code baja 5x la latencia

OpenClaw: el agente IA local que estalló en GitHub

→Al grano

✦Por qué importa

¿Qué tan bueno es Gemini 3.5 Flash en OSWorld?

¿Cómo se defiende del prompt injection?

Disponibilidad y herramientas para desarrolladores

Seguir leyendo

NVIDIA empuja a las telcos a vender tokens AI en vez de GPU por hora

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

NVIDIA Dynamo: limpiar el header de Claude Code baja 5x la latencia

OpenClaw: el agente IA local que estalló en GitHub

Al grano

Por qué importa