El mundo de la inteligencia artificial se está moviendo desde los chatbots hacia el procesamiento visual: IA que vive dentro de robots y autos autónomos. Si bien hubo grandes avances entrenando estos sistemas con datasets masivos y simulaciones digitales, queda un hueco crítico: el puente entre lo que un robot "ve" y lo que realmente ocurre en nuestro mundo físico, caótico y desordenado.

El razonamiento de alto nivel no sirve de mucho si el sistema no entiende del todo el estado físico del entorno donde opera.

Physical AI 1.0 versus 2.0: el cambio de paradigma

La industria actual está dominada por la Physical AI 1.0. Esta fase se define por la escala: cantidades enormes de video y texto, más simulaciones hiperrealistas como la plataforma Cosmos de NVIDIA, para enseñar a las máquinas cómo funciona el mundo antes de que den su primer paso.

Pero Physical AI 1.0 carga con un sesgo "vision-first": asume que si un robot tiene suficientes cámaras y suficiente cómputo, puede predecir el futuro con buena precisión. Cualquiera que maneje sabe que las cámaras se enceguecen con el sol, los objetos se esconden en las sombras y los sensores entregan datos ruidosos y contradictorios.

La Physical AI 2.0 introduce una capa nueva y esencial al stack: el physical state recovery (recuperación del estado físico).

¿Por qué importa esta distinción técnica?

La unidad de competencia en IA física ya no es solo el modelo. En la IA digital, el modelo suele ser el producto. En sistemas embebidos, el modelo tiene que coordinarse con sensado, simulación, entrenamiento de políticas, orquestación, sistemas de seguridad, deployment al edge y feedback desde operaciones en vivo. Un robot que lee mal el presente no puede razonar para salir de una mala estimación de estado.

Las cuatro capacidades que arman el loop

Para operar con seguridad en el mundo real, un sistema necesita cuatro capacidades distintas trabajando en bucle:

  • Modelos del mundo: proveen los "priors", el conocimiento aprendido sobre qué podría pasar a partir de experiencia previa y simulaciones.
  • Physical state recovery: el "eslabón faltante". Toma datos de sensores ruidosos e incompletos y reconstruye el estado físico real del entorno. Es la diferencia entre adivinar dónde está un peatón y conocer su trayectoria exacta en una escena saturada.
  • Sistemas de razonamiento: una vez recuperado el estado, la IA delibera. Compara opciones, pesa riesgos y decide la mejor intención, por ejemplo "¿cedo el paso o avanzo?".
  • Acción: el paso final donde el sistema ejecuta un movimiento dentro de límites estrictos de seguridad.

El razonamiento es tan bueno como la estimación de estado sobre la que razona. Si la observación está incompleta o distorsionada, hasta el mejor modelo se vuelve confiadamente equivocado.

¿Por qué más datos no es la única respuesta?

Un contraargumento común es que con modelos "end-to-end" más grandes la IA aprenderá sola a manejar sensores ruidosos. La realidad es que una capa dedicada a recovery resulta mucho más eficiente. Al tratar el physical state recovery como módulo propio, los desarrolladores pueden explotar sensado especializado (radar, tacto, lidar) y mejorar la observabilidad antes de que el "cerebro" superior empiece a pensar. Esto evita que cada nuevo robot tenga que volver a aprender las leyes básicas de la física desde cero.

La distinción clave que plantea The Robot Report es entre casos difíciles y casos mal observados. Los benchmarks pueden mostrar que un sistema falla en long-tail scenarios, como oclusiones o iluminación adversa. Lo que rara vez muestran es si el problema vive en el reasoning model o en la calidad del estado que recibe el modelo.

¿Qué cambia para integradores en Chile y LatAm?

Para integradores chilenos que trabajan con AGVs en bodegas de retail, robots de last-mile en Santiago o vehículos autónomos para minería (CODELCO viene probando flotas autónomas en Gabriela Mistral y otras divisiones), la tesis tiene consecuencias prácticas: invertir en mejores sensores y un módulo de fusión sensorial confiable rinde más que aumentar el tamaño del modelo de visión. La regla es vieja en automatización industrial (garbage in, garbage out), pero la moda de los modelos grandes la empujó a un segundo plano. La industria está empezando a recuperarla con un nombre nuevo.