Avride Inc. construyó sus robots de delivery para operar con alto nivel de autonomía. Cada día, cientos de ellos recorren calles concurridas por su cuenta, procesando datos de sensores localmente en sus unidades de cómputo abordo. Los robots de vereda manejan maniobras urbanas estándar, peatones y semáforos con mínima intervención humana.
Sin embargo, gestionar la mecánica de la navegación (aun en condiciones difíciles como pasillos estrechos o mal tiempo) es solo una parte de la ecuación. Garantizar que un robot se comporte apropiadamente en entornos inusuales, sensibles o de alto riesgo exige otro tipo de inteligencia.
Para agregar una capa proactiva de conciencia del entorno, integraron modelos de visión-lenguaje (VLM) pesados basados en la nube al sistema como un "VLM-watcher" automatizado.
De detectar objetos a entender la escena completa

El stack de percepción abordo de Avride ya es altamente capaz. Con una combinación de sensores locales y redes neuronales, sus robots detectan agentes del entorno: ciclistas, niños, sillas de ruedas, vehículos de emergencia.
Pero mientras los modelos abordo identifican esos elementos individuales, ciertos escenarios del mundo real requieren una capa mucho más profunda de comprensión contextual.
Pensemos en cómo se desarrolla una escena en la calle. Cruzarse con un policía o un bombero en la vereda puede sugerir que algo inusual está ocurriendo, pero la detección básica de objetos no basta para entender el cuadro completo.
Por ejemplo, distinguir a un policía volviendo a casa después de su turno de un policía en una escena de crimen activa es una tarea altamente no trivial. Requiere una comprensión holística de cómo interactúan múltiples elementos dentro del frame: interpretar la escena como un escenario completo en vez de una lista de objetos detectados.
Queremos reducir significativamente la probabilidad de que los robots entren accidentalmente a un área de emergencia activa, crucen una escena de crimen viva, o rueden sobre obras no mapeadas donde el cemento fresco y mojado luce igual que una vereda gris estándar. Mientras los modelos abordo capturan las entidades primarias para navegar, un foundation model pesado en la nube sobresale en esta interpretación holística, armando al instante el contexto semántico profundo de la situación completa.
Cómo funciona: VLMs como guardianes en la nube

Es importante aclarar: no usamos VLMs para conducir el robot. Usar un modelo pesado en la nube para dirigir en tiempo real introduciría latencia y dependencias de conectividad que comprometen la seguridad. En cambio, el VLM actúa como un "sistema de alerta temprana" automatizado para el equipo remoto de asistencia.
- Ingesta de datos: mientras conduce autónomamente, el robot transmite un snapshot desde sus cámaras a la nube cada pocos segundos. Para proteger la privacidad pública, toda la data visual se anonimiza automáticamente en el propio robot (caras y patentes se borronean localmente) antes de salir de la unidad de cómputo.
- Evaluación de contexto: en la nube, el VLM-watcher procesa los feeds de snapshots, traduciendo la data visual a una descripción semántica de lo que está pasando en la calle. Guiamos al modelo con un prompt detallado que define exactamente qué tipos de situaciones inusuales, sensibles o complejas buscar. El VLM evalúa la escena contra esas instrucciones y le asigna tags específicos de alto riesgo.
- Human-in-the-loop: si el modelo marca un tag situacional crítico, alerta inmediatamente al equipo remoto de asistencia. Un asistente puede revisar el feed en vivo para asegurar que el robot ceda el paso a trabajadores de emergencia o se mantenga fuera de zonas restringidas.
Como el panorama de IA evoluciona a un ritmo vertiginoso, no atan su infraestructura a un único proveedor. Tratan esta capa de nube como una arquitectura abierta y plug-and-play, experimentando y benchmarkeando continuamente los últimos modelos state-of-the-art.
La evolución de la minería de datos a operaciones en vivo
La integración de VLMs en vivo en las operaciones diarias de Avride es una evolución natural de sus herramientas internas de ingeniería.
Almacenar y procesar cada minuto de video de cientos de robots operando cada día es increíblemente caro e innecesario. No queremos guardar todo; solo queremos preservar la data que genuinamente ayuda a mejorar la tecnología y mantener la seguridad.
Históricamente usábamos este mismo pipeline de análisis en vivo (con ventanas de 5 segundos) como herramienta de filtrado de datos. Los VLMs en la nube monitoreaban los streams entrantes en tiempo real para minar automáticamente escenarios raros y valiosos, como interacciones específicas con animales o infraestructura compleja, que podían guardarse pre-anonimizados para futuro etiquetado y entrenamiento.
Como el pipeline demostró ser excepcionalmente preciso identificando contextos únicos del mundo real en vivo, extenderlo a operaciones live fue un paso lógico. Si el sistema ya era capaz de identificar contextos únicos en tiempo real, también podía usarse para gatillar supervisión humana en vivo.
El camino por delante: llevar los VLMs al edge
Operar estos modelos pesados en la nube es una solución increíblemente efectiva para hoy, pero es solo el comienzo. A medida que los VLMs se vuelven más compactos por técnicas de optimización, y a medida que el hardware de robótica onboard de próxima generación se vuelve más potente, el objetivo final es claro.
Eventualmente, esta capa semántica profunda migrará desde la nube directamente al cómputo abordo del robot. Eso permitirá alcanzar un nivel aún más profundo de toma de decisiones autónoma completamente en el edge, totalmente independiente de la conectividad de red.
Hasta entonces, la red de seguridad nube-a-asistencia-remota asegura que los robots de delivery de Avride se mantengan educados, responsables y como ciudadanos conscientes en la vereda.
Sobre el autor
Roman Nefedov es jefe de delivery autónomo en Avride, donde tiene responsabilidad end-to-end sobre el producto de delivery autónomo, supervisando tanto operaciones de negocio como desarrollo de software.




