El episodio 242 del podcast The Robot Report incluye una conversación con Eric Chan, cofundador y científico jefe de Rhoda AI. Chan describe el problema central que enfrentan hoy las empresas de IA física: los datos de entrenamiento para robótica.

Rhoda AI es pionera en el uso de un modelo Direct Video Action (DVA), que utiliza video de internet para entrenar robots inteligentes. Este enfoque permite usar los datos con eficiencia y abordar tareas complejas con un entrenamiento mínimo.

¿Qué hacés cuando tenés escasez de datos? Chan comparte su mirada sobre los desafíos de la recolección de datos, el potencial del zero-shot learning y el futuro del despliegue de robots en aplicaciones reales.

¿Quién es Eric Chan?

Eric Chan es cofundador y científico jefe en Rhoda AI, donde lidera la investigación en foundation models para IA física.

Tiene un Ph.D. en Ciencias de la Computación de Stanford y ocupó roles de investigación en NVIDIA, Google, NASA y WorldLabs.

En Rhoda AI, Chan está enfocado en construir sistemas que permitan a los robots aprender de video y operar de manera confiable en entornos de producción.

Rhoda AI, con sede en Palo Alto, California, salió de modo stealth en marzo de 2026, anunciando una ronda de USD 450 millones destinada a entrenar robots a partir de video.

¿Qué es un modelo Direct Video Action?

Este post de blog explica en detalle qué es un modelo Direct Video Action.

En términos simples: en lugar de capturar miles de horas de demostraciones humanas con guantes hápticos o teleoperación (el método tradicional, costoso y lento), un DVA aprende mapeando directamente video de internet a acciones robóticas. Esto reduce de manera dramática el costo marginal de obtener una nueva demostración: cualquier video público pasa a ser potencial dato de entrenamiento.

¿Por qué la recolección tradicional de datos para robótica está obsoleta?

La aproximación clásica para entrenar políticas de manipulación robótica involucra teleoperar al robot durante decenas o cientos de horas para cada nueva tarea. Cada minuto de demostración cuesta entre 80 y 200 dólares cuando se factoriza el operador humano, el hardware especializado y la curaduría de datos. Para entrenar una política decente sobre 50 tareas distintas, una empresa puede necesitar entre 5.000 y 20.000 horas de demos, o sea entre 400.000 y 4 millones de dólares solo en captura.

DVA reduce este costo dramáticamente al apalancar video que ya existe. La startup Physical Intelligence (otra competidora reciente del espacio) reportó en 2025 que el 60% de sus mejores demostraciones son curadas de YouTube. Rhoda AI lleva la idea al extremo: entrenar políticas zero-shot directo desde video sin demostraciones específicas para esa tarea.

¿Qué se ve en el video del decantado?

Durante la entrevista se muestra el video de un robot de doble brazo ejecutando una política basada en DVA: tomar una botella, decantar líquido en un vaso, y volver a poner la botella en su lugar. Tareas que históricamente requerían entrenamiento específico de manipulación bimanual ahora se logran con la política DVA generalista, según Chan.

Tres datos comparativos sobre Rhoda AI

  • Funding total: USD 450 millones, anunciados al salir de stealth en marzo de 2026.
  • Equipo fundador: ex-investigadores de Stanford, NVIDIA, Google, NASA y WorldLabs.
  • Sede: Palo Alto, California, con foco en foundation models para IA física.

Otros temas cubiertos en el episodio

El episodio también pasa revista a tres noticias de la semana:

¿Qué cambia para el ecosistema robótico LATAM?

El abaratamiento del costo de entrenamiento es la noticia más relevante para integradores LATAM. Si una política manipuladora pasa de costar USD 1 millón a USD 50 mil en datos, los pequeños fabricantes en Chile, Brasil y Argentina pueden entrar a competir en mercados de cobots para envasado, picking de e-commerce o logística farmacéutica sin necesidad de capital de riesgo gigante. La pregunta abierta es cuándo Rhoda AI o competidores liberen sus modelos pre-entrenados para uso comercial.