Rhoda AI: entrenar robots con video de internet, sin demos

Eric Chan, cofundador de Rhoda AI, explica por qué la recolección tradicional de datos está obsoleta y cómo Direct Video Action entrena robots desde videos públicos.

Publicado el 9 de mayo de 2026 · 01:46 p. m.3 min de lectura

Al grano

Rhoda AI desarrolla un modelo Direct Video Action (DVA) que entrena políticas robóticas usando video de internet, sin demostraciones humanas teleoperadas costosas.

La startup, con sede en Palo Alto, salió de stealth en marzo de 2026 con USD 450 millones de funding y un equipo de ex-Stanford, NVIDIA, Google, NASA y WorldLabs.

Eric Chan, cofundador y científico jefe, sostiene que la recolección tradicional de datos para robótica está obsoleta y que el zero-shot learning es la próxima frontera.

Por qué importa

El argumento de Chan tiene fundamento: el cuello de botella de la robótica moderna no es el hardware ni los algoritmos, son los datos. Pero la apuesta de entrenar zero-shot desde video de internet asume que la distribución estadística de YouTube se parece a la del mundo industrial real, y eso queda por demostrar. Rhoda AI tiene 450 millones para probarlo. Si funciona, baja la barrera para fabricantes locales en LatAm.

El episodio 242 del podcast The Robot Report incluye una conversación con Eric Chan, cofundador y científico jefe de Rhoda AI. Chan describe el problema central que enfrentan hoy las empresas de IA física: los datos de entrenamiento para robótica.

Rhoda AI es pionera en el uso de un modelo Direct Video Action (DVA), que utiliza video de internet para entrenar robots inteligentes. Este enfoque permite usar los datos con eficiencia y abordar tareas complejas con un entrenamiento mínimo.

¿Qué hacés cuando tenés escasez de datos? Chan comparte su mirada sobre los desafíos de la recolección de datos, el potencial del zero-shot learning y el futuro del despliegue de robots en aplicaciones reales.

¿Quién es Eric Chan?

Eric Chan es cofundador y científico jefe en Rhoda AI, donde lidera la investigación en foundation models para IA física.

Tiene un Ph.D. en Ciencias de la Computación de Stanford y ocupó roles de investigación en NVIDIA, Google, NASA y WorldLabs.

En Rhoda AI, Chan está enfocado en construir sistemas que permitan a los robots aprender de video y operar de manera confiable en entornos de producción.

Rhoda AI, con sede en Palo Alto, California, salió de modo stealth en marzo de 2026, anunciando una ronda de USD 450 millones destinada a entrenar robots a partir de video.

¿Qué es un modelo Direct Video Action?

Este post de blog explica en detalle qué es un modelo Direct Video Action.

En términos simples: en lugar de capturar miles de horas de demostraciones humanas con guantes hápticos o teleoperación (el método tradicional, costoso y lento), un DVA aprende mapeando directamente video de internet a acciones robóticas. Esto reduce de manera dramática el costo marginal de obtener una nueva demostración: cualquier video público pasa a ser potencial dato de entrenamiento.

¿Por qué la recolección tradicional de datos para robótica está obsoleta?

La aproximación clásica para entrenar políticas de manipulación robótica involucra teleoperar al robot durante decenas o cientos de horas para cada nueva tarea. Cada minuto de demostración cuesta entre 80 y 200 dólares cuando se factoriza el operador humano, el hardware especializado y la curaduría de datos. Para entrenar una política decente sobre 50 tareas distintas, una empresa puede necesitar entre 5.000 y 20.000 horas de demos, o sea entre 400.000 y 4 millones de dólares solo en captura.

DVA reduce este costo dramáticamente al apalancar video que ya existe. La startup Physical Intelligence (otra competidora reciente del espacio) reportó en 2025 que el 60% de sus mejores demostraciones son curadas de YouTube. Rhoda AI lleva la idea al extremo: entrenar políticas zero-shot directo desde video sin demostraciones específicas para esa tarea.

¿Qué se ve en el video del decantado?

Durante la entrevista se muestra el video de un robot de doble brazo ejecutando una política basada en DVA: tomar una botella, decantar líquido en un vaso, y volver a poner la botella en su lugar. Tareas que históricamente requerían entrenamiento específico de manipulación bimanual ahora se logran con la política DVA generalista, según Chan.

Tres datos comparativos sobre Rhoda AI

Funding total: USD 450 millones, anunciados al salir de stealth en marzo de 2026.
Equipo fundador: ex-investigadores de Stanford, NVIDIA, Google, NASA y WorldLabs.
Sede: Palo Alto, California, con foco en foundation models para IA física.

Otros temas cubiertos en el episodio

El episodio también pasa revista a tres noticias de la semana:

Dentro de la apuesta de Colin Angle por construir robots compañeros con Familiar Machines & Magic.
La compañía de masaje robótico Aescape Inc se declara en quiebra con un déficit de USD 157 millones.
Un hacker me atropelló con un cortacésped robótico (The Verge), un ataque demostrativo sobre el modelo Yarbo aprovechando control remoto vía MQTT y acceso a cámara.

¿Qué cambia para el ecosistema robótico LATAM?

El abaratamiento del costo de entrenamiento es la noticia más relevante para integradores LATAM. Si una política manipuladora pasa de costar USD 1 millón a USD 50 mil en datos, los pequeños fabricantes en Chile, Brasil y Argentina pueden entrar a competir en mercados de cobots para envasado, picking de e-commerce o logística farmacéutica sin necesidad de capital de riesgo gigante. La pregunta abierta es cuándo Rhoda AI o competidores liberen sus modelos pre-entrenados para uso comercial.

Rhoda AI: entrenar robots con video de internet, sin demos

Al grano

Por qué importa

¿Quién es Eric Chan?

¿Qué es un modelo Direct Video Action?

¿Por qué la recolección tradicional de datos para robótica está obsoleta?

¿Qué se ve en el video del decantado?

Tres datos comparativos sobre Rhoda AI

Otros temas cubiertos en el episodio

¿Qué cambia para el ecosistema robótico LATAM?

Seguir leyendo

Genesis AI presenta GENE-26.5: modelo para manipulación robótica diestra

Manufacturing Language Model: la apuesta de Launchpad Build AI

Apptronik suma a Daniel Chu como CPO en pleno salto comercial del Apollo

Antioch levanta USD 8,5M para simulación de robots en la nube

→Al grano

✦Por qué importa

¿Quién es Eric Chan?

¿Qué es un modelo Direct Video Action?

¿Por qué la recolección tradicional de datos para robótica está obsoleta?

¿Qué se ve en el video del decantado?

Tres datos comparativos sobre Rhoda AI

Otros temas cubiertos en el episodio

¿Qué cambia para el ecosistema robótico LATAM?

Seguir leyendo

Genesis AI presenta GENE-26.5: modelo para manipulación robótica diestra

Manufacturing Language Model: la apuesta de Launchpad Build AI

Apptronik suma a Daniel Chu como CPO en pleno salto comercial del Apollo

Antioch levanta USD 8,5M para simulación de robots en la nube

Al grano

Por qué importa