El equipo Multi-X de Oppo liberó X-OmniClaw, un agente IA open source que toma decisiones dentro de aplicaciones Android reales usando la cámara, la pantalla y la voz del teléfono, sin enrutar el control a una copia virtual del dispositivo en la nube. El código y los assets están disponibles en GitHub.
En el reporte técnico, el AI Center de Oppo traza una línea clara entre su enfoque y las plataformas de cloud phone como RedFinger, Wuying (Alibaba) y Tencent Cloud Phone. Esos servicios corren agentes dentro de instancias virtualizadas de Android en data center, lo que les impide acceder a sensores locales, cámaras o datos privados.
X-OmniClaw toma el camino opuesto. La lógica central de percepción, control e interacción con apps vive en el teléfono físico. Un modelo de lenguaje en la nube se invoca solo como "combustible" para razonamiento de alto nivel cuando es necesario, según el reporte. No se nombran los modelos locales específicos, pero sí componentes como un modelo de grounding on-device y OCR para detectar elementos de interfaz tocables.
¿Cómo funciona el pipeline de percepción?
El agente combina tres canales de percepción en una sola tubería. Un modelo vision-language interpreta primero la escena junto con la consulta del usuario antes de gatillar cualquier acción. Texto, voz, cámara y pantalla se alinean temporalmente y se entregan al modelo de lenguaje como una intención estructurada.
En el ejemplo de los investigadores, un usuario apunta la cámara a un producto y pregunta: "¿Cuánto cuesta esto en Taobao?". El sistema reformula la consulta internamente a "precio del spray Evian en Taobao" y solo entonces entrega la intención estructurada para ejecución.
¿Qué memoria de largo plazo usa el agente?
Para memoria persistente, X-OmniClaw condensa datos locales en entradas semánticas. Durante el idle time, las fotos de la galería se procesan en descripciones compactas de objetos, escenas y eventos, y luego se almacenan en un archivo Markdown llamado image-memory.md.
Cada entrada pasa por un filtro diseñado para eliminar información sensible antes de guardarla. El reporte advierte sobre riesgos de subida ligados a visión en la nube. Mover esos modelos completamente al dispositivo es el próximo paso, dice el reporte, para que las imágenes en bruto nunca tengan que salir del teléfono.
¿Por qué clonar paths de tap en vez de replicar?
En lugar de planificar cada acción desde cero, el agente clona el comportamiento del usuario en skills reutilizables. Extrae el comando de lanzamiento completo de una página de app y la próxima vez salta ahí directo vía deeplink, en vez de reproducir el path de taps original.
Si eso falla, el sistema retrocede por métodos de lanzamiento más simples uno por uno. Para detectar elementos tocables, X-OmniClaw combina datos de estructura XML con un modelo de grounding y reconocimiento de texto. Esa combinación ayuda en interfaces saturadas de publicidad donde el XML solo no logra fijar un target preciso de tap.
Cuatro demos: precios, tareas, álbumes y deeplinks ocultos
1. Comparar precios: el usuario apunta la cámara a un producto y pregunta el precio. El agente entra a la app de compras, hace scroll, toma capturas y lee precios y cifras de venta mediante un modelo vision-language. Un comando de seguimiento como "abre el segundo ítem" funciona sin grounding extra. 2. ScreenAvatar: actúa como un "surrogate digital" que resuelve tareas en pantalla bajo demanda, por ejemplo trabajar una serie de ejercicios uno tras otro. 3. Álbum automático: ante el pedido "convierte todas las fotos de loros en un álbum highlight", reúne archivos coincidentes, salta vía deeplink al editor de video y los selecciona con multi-tap. 4. Deeplink clonado: el usuario muestra una vez el path a una página de descuento muy profunda. La próxima vez, un comando de voz reabre ese subpath exacto, incluso si la app no expone deeplinks públicos.
¿Cómo se compara con OpenClaw, Hermes y UI-TARS?
El proyecto se construye sobre el codebase open source HermesApp y se ubica entre OpenClaw, que enfoca más PCs, y el Hermes Agent de Nous Research, basado en capacidades emergentes. En metodología, X-OmniClaw construye sobre UI-TARS de ByteDance, un agente GUI puramente visual que depende solo de capturas y coordenadas. Lo combina con datos estructurales XML y ejecución on-device para reducir la tasa de error que los pipelines puramente visuales sufren en interfaces dinámicas.
Google ya mostró con Gemma 4 que un modelo totalmente local en un smartphone puede actuar como agente. En la demo "Google AI Edge Gallery", el modelo usa skills de agente para consultar Wikipedia, generar códigos QR o abrir trackers de ánimo con gráficos de tendencia.
Tabla rápida: arquitectura y comparativos
- Repositorio: open source, código y assets en GitHub
- Capas on-device: percepción, control e interacción con apps
- Capa en la nube: modelo de lenguaje solo para razonamiento complejo
- Componentes locales: grounding on-device + OCR para detectar elementos tocables
- Persistencia: archivo Markdown
image-memory.mdcon descripciones filtradas - Diferencia vs cloud phones (RedFinger, Wuying, Tencent): acceso real a sensores y datos locales
- Base técnica: codebase HermesApp + ideas de UI-TARS (ByteDance)
- Competidores en el mismo nicho: OpenClaw (más PC), Hermes Agent (Nous Research), Gemma 4 + AI Edge Gallery (Google)
Contexto LATAM
Para el usuario chileno, la promesa concreta es privacidad sin perder funcionalidad: las fotos de la galería nunca dejan el dispositivo, y los comandos por voz sobre apps como MercadoLibre, Yapo o Uber Eats no requieren replicar la sesión en un emulador remoto. La trampa, como con todos los agentes on-device en 2026, sigue siendo el consumo de batería sostenido y la dependencia de GPUs NPU específicas que recién llegan a la gama media. Oppo no anunció disponibilidad ni timeline comercial, solo el release técnico.




