Los World-Action Models (WAM) dejaron de ser un sub-nicho dentro de la investigación de robótica generalista para convertirse en la segunda gran apuesta del campo, junto a los Vision-Language-Action (VLA). La señal viene del propio equipo de NVIDIA: Maximilian Reuss, que en octubre de 2025 escribió que los WAM eran un pequeño subcampo dentro del paper-stream VLA, ahora publicó un mapa actualizado del territorio en el blog de desarrolladores reconociendo que la inflexión llegó antes de lo esperado.

Policy visuomotora: instrucción en lenguaje y observación actual entran, secuencia de acción sale.
Policy visuomotora: instrucción en lenguaje y observación actual entran, secuencia de acción sale.

¿Qué es exactamente un WAM?

Para ubicarlo conviene tener claros dos bloques de construcción:

  • Una policy visuomotora mapea observaciones actuales más un objetivo o instrucción a acciones del robot.
  • Un world model predice estados visuales o latentes futuros a partir del estado actual más una acción o abstracción del objetivo.

Un WAM se sienta en la intersección: aprovecha un backbone de video o de world-model preentrenado como prior y predice tanto estados futuros como acciones del robot.

Las dos apuestas de representación que dominan hoy

Figura 1: las dos apuestas actuales para policies generalistas de manipulación: VLA basados en VLM vs WAM con backbone de video.
Figura 1: las dos apuestas actuales para policies generalistas de manipulación: VLA basados en VLM vs WAM con backbone de video.

Receta VLA (VLM-backbone) establecida por Pi-0 y refinada en Pi-0.5, que arranca desde un backbone Vision-Language Model. Aparece en trabajos públicos de NVIDIA GR00T, Xiaomi Robotics y Being-H0.5.

Receta WAM (video-backbone), más reciente, con ejemplos públicos como NVIDIA DreamZero y Cosmos Policy, LingBot-VA de Ant Group, DVA de Rhoda AI, Cortex 2.0 de Sereact y mimic-video de Mimic Robotics. En el lado académico, Video Prediction Policy, Unified Video Action Model y Fast-WAM empujan la frontera.

La elección de backbone impacta todo el pipeline: training recipe, data mixture e inference optimizations. Dado el costo de correr estos modelos a escala, la mayoría de equipos tiene que priorizar una dirección antes que ir por ambas en paralelo.

¿Por qué los WAM ahora? La hipótesis del muro VLA

Para entender el interés en WAM hay que mirar el problema central de los VLA "clásicos" sobre VLM. La motivación original era aprovechar el conocimiento internet-scale de los VLM (entrenados con cantidades masivas de pares vision-text con notable zero-shot en muchas tareas visuales) y adaptarlo a generación de acción.

El problema: hay un gap de dominio enorme entre pretraining VLM y manipulación embebida. Varios papers reportan degradación de las capacidades del VLM pretrained al transicionar a VLA. VLM2VLA lo enmarca como olvido catastrófico durante la transición VLM→VLA. Knowledge Insulation lo formaliza arquitectónicamente: aísla los gradientes del action expert flow-matching del backbone VLM para preservar conocimiento de lenguaje/visión pretrained.

La pregunta natural: ¿y si arrancamos desde un backbone que ya representa cómo el lenguaje mapea a cambio visual en el mundo?

Figura 2: world models en robótica, desde action-conditioned (DreamDojo, Genie, JEPA-WM) hasta video world models (Cosmos-3, WAN, Veo, LTX-Video).
Figura 2: world models en robótica, desde action-conditioned (DreamDojo, Genie, JEPA-WM) hasta video world models (Cosmos-3, WAN, Veo, LTX-Video).

Las tres hipótesis centrales de los WAM

Reuss aclara que estas son hipótesis recurrentes en papers, no conclusiones firmes con comparaciones controladas:

  • Predecir cambios futuros del mundo correlaciona con generar acciones. La predicción de dinámica inversa suele ser más fácil que la generación pura de acción. Si el outcome deseado es conocido, inferir qué acción lo produjo es más simple que predecirla desde instrucción y observación. Los resultados de visual-subgoal en Pi-0.7 apuntan al mismo lado.
  • El video pretraining provee grounding entre lenguaje y cambio físico. Los modelos de video aprenden a mapear texto a outcomes visuales. Si esto transfiere a robótica, reduciría el grounding que hay que aprender desde demostraciones robóticas solamente.
  • El video data regulariza policies robóticas. Los datasets robóticos son chicos comparados con video web-scale. DreamZero y Fast-WAM muestran que en fine-tuning robótico, los WAM rinden mejor cuando el aprendizaje de acción se co-entrena con un objetivo de video-prediction.

¿Por qué tardaron tanto?

Las ideas atrás de los WAM no son nuevas. UniPi, paper de 2023, propuso esencialmente el mismo enfoque. La pregunta de Reuss es por qué hicieron falta varios años para que el paradigma entrara al mainstream de robot foundation models. La hipótesis del autor: los VLM-based VLA se quedaron atascados en el muro de language-to-action grounding, y los video backbones modernos (Cosmos, Veo 3.1, WAN, LTX-Video) recién maduraron lo suficiente para ofrecer prior útil.

El experimento Veo 3.1: ¿cuánto entiende ya un video model?

Para ilustrar la hipótesis, el equipo corrió un experimento con Veo 3.1 de Google. Dándole un frame de contexto de un rollout RoboArena en el setup DROID, le pidieron empujar la palanca del tostador (la tarea de referencia) y después tomar una naranja a la izquierda (la extensión compuesta, más allá de lo demostrado). Sin optimización de prompt, en un solo intento. El video difícilmente forma parte del training set de Veo (pero no es verificable), así que el resultado funciona como check cualitativo del prior, no como prueba controlada.

La predicción de Reuss

"Los WAM se convertirán en la segunda gran receta para robot foundation models, junto a los VLA basados en VLM", escribe el investigador. Las preguntas abiertas: qué formulación específica gana, y qué partes de la arquitectura y pipeline importan de verdad. Su apuesta más probable: "el ganador no es ni VLA puro ni WAM puro, sino un híbrido de ambos".

Para una mirada más amplia el autor recomienda el survey reciente de NTU, World Model for Robot Learning: A Comprehensive Survey, que mapea world models para robot learning en simulación, evaluación, navegación y conducción autónoma.