La robótica entra en una nueva fase. El campo está dejando atrás las demos controladas y la automatización guionada para apostar por una autonomía corporizada que sea generalizable y confiable en el mundo real.

En la International Conference on Robotics and Automation (ICRA), ocho de los 28 papers aceptados de NVIDIA Research muestran cómo la transferencia simulación-a-realidad (sim-to-real) se está convirtiendo en la base de ese giro. La meta común es que los robots perciban, razonen, planifiquen y actúen en entornos dinámicos e impredecibles.

Los trabajos cubren el stack completo de problemas que enfrenta el desarrollador de robots: coordinar varios brazos en paralelo, construir políticas que generalicen entre cuerpos distintos, agarrar objetos nuevos en entornos desordenados, ejecutar ensamblajes de precisión y desarrollar modelos visión-lenguaje-acción que razonen antes de moverse.

El hilo conductor es claro. Sim-to-real se está volviendo el cimiento sobre el cual construir robots capaces de adaptarse, generalizar y operar con mayor confiabilidad fuera del laboratorio.

Brazos coordinados, navegación y agarre

Imagine un laboratorio farmacéutico operado por brazos robóticos que toman tubos, transfieren líquidos y mezclan reactivos. Cada paso demora distinto, todos exigen coordinación cuidadosa.

El software tradicional de scheduling robótico maneja esos pasos en secuencia, un brazo a la vez.

ScheduleStream cambia ese enfoque al correr los cálculos sobre GPUs, permitiendo que varios brazos planifiquen movimientos y operen en paralelo. El resultado es una mejora de 3x en velocidad para escenarios de planificación multi-brazo sobre hardware como la plataforma de edge AI NVIDIA Jetson. El código del framework está disponible en GitHub.

Un robot que aprende a navegar un espacio, esquivando obstáculos y encontrando su destino, suele aprenderlo en un solo cuerpo. Si esa misma rutina se traslada a un robot con forma distinta, normalmente se cae a pedazos porque sus partes se mueven distinto.

El framework de políticas COMPASS resuelve esto construyendo primero la navegación base con aprendizaje por imitación y luego usando aprendizaje por refuerzo residual en NVIDIA Isaac Lab para entrenar especialistas según cada cuerpo robótico. Un detalle importante: no se usa ningún dato real del robot en ninguna etapa, todo el entrenamiento ocurre en simulación.

Comparado con un baseline de imitación, COMPASS logró una mejora de 4.5x en la tasa de éxito promedio. La transferencia al mundo real fue limpia, con cerca de 80% de éxito en 20 ensayos sobre robots móviles autónomos y humanoides.

COMPASS es compatible con agentes, con skills dedicadas. Los desarrolladores también pueden conectar el pipeline con NVIDIA Omniverse NuRec para hacer post-training y validación en un gemelo digital del entorno nuevo antes del despliegue.

La mayoría de los sistemas de agarre primero identifican el objeto, después predicen el agarre, planifican una trayectoria y por último ejecutan. El problema es que los últimos centímetros son donde los pequeños errores más pesan.

Grasp-MPC calcula los agarres de forma adaptativa, corrigiendo continuamente el movimiento del robot a medida que se acerca al objeto, en lugar de seguir un plan fijo. La analogía es cómo una persona agarra algo por tacto, no calculando cada ángulo articular por adelantado.

Para entrenar la política, los investigadores generaron 2 millones de trayectorias simuladas sobre 8.000 objetos, usando anotaciones del dataset GraspGen y datos de planificación de cuRobo, la librería acelerada por CUDA para generación de movimiento robótico.

Tras entrenar sobre trayectorias exitosas y fallidas, Grasp-MPC aprendió a agarrar objetos novedosos en mesas y estanterías desordenadas. Su tasa de éxito en robots reales fue cercana al 75%, contra un baseline de 41%.

Deformable Cluster Manipulation ataca un desafío paralelo: lograr que un sistema agarre no un objeto individual, sino un manojo completo de material flexible y enredado.

El paper nació de una tarea real, despejar una masa de ramas que crecieron sobre un cable de alta tensión, donde no hay un único objeto limpio que tomar. El sistema usa el brazo entero, no solo el efector final. Lo enrolla alrededor del cúmulo de ramas y lo barre hacia un costado, igual que alguien recogería un brazado de cables o empujaría matorrales para abrir paso.

Los investigadores construyeron un generador de árboles usando ecuaciones de crecimiento biológico para crear árboles sintéticos de distintas formas y tamaños. Después entrenaron el sistema sobre miles de variantes dentro de los frameworks de simulación abierta de NVIDIA Isaac.

La política se despliega sobre ramas reales en modalidad zero shot. Más allá de las líneas eléctricas, los autores ven aplicaciones en organización de cables, inspección agrícola y cualquier escenario donde haya que manejar enredos en vez de objetos individuales.

Despeje de ramas en despliegue zero-shot sim-to-real.
Despeje de ramas en despliegue zero-shot sim-to-real.

Ensamblado de precisión

El ensamblado de precisión, como enroscar una tuerca, calzar un engranaje en un eje o insertar un perno en un agujero, es notoriamente difícil de resolver solo con simulación.

El mundo real es complejo. Las superficies no son perfectamente lisas. Los sensores no se comportan según la hoja de datos. Pequeñas discrepancias que el simulador ignora pueden detener al robot en seco.

El método SPARR divide el trabajo en dos. Una política entrenada en Isaac Lab aprende la estrategia general en simulación. Después, sobre el hardware real, una segunda capa aprende a corregir lo que el simulador erró, usando la propia cámara del robot y sin demostraciones humanas.

SPARR mejora las tasas de éxito en 38% y reduce el tiempo de ciclo en cerca de 30% comparado con baselines zero-shot de sim-to-real.

En tareas de ensamblado del National Institute of Standards and Technology (NIST) no vistas durante el entrenamiento, el éxito mejora casi 75%, acercándose a los métodos que requieren un humano en el loop.

El framework Refinery ataca el siguiente nivel de dificultad: tareas con varios pasos secuenciales, donde la forma en que se completa el paso uno determina si el paso dos siquiera es posible. Es como armar un mueble. Si dejas un panel en mal ángulo, el siguiente tornillo no entra.

Refinery aprende cómo varía el éxito según las condiciones iniciales y entrena sobre cientos de escenarios simulados de ensamblaje. Aprende a completar cada paso dejando los componentes en la posición que prepara el siguiente. Logra 91% de éxito en simulación y una mejora promedio cercana al 11% sobre los baselines, con resultados comparables en el mundo real. Las políticas se pueden encadenar para resolver secuencias largas de varias piezas.

Modelos de acción que cumplen lo que prometen

El pipeline PEEK ayuda al robot a ver más allá del desorden. En una tarea típica de manipulación, la cámara del robot capta toda la escena, pero la mayor parte es ruido irrelevante.

Una de las tareas que muestra el sitio del paper es "darle el plátano al fundador y CEO de NVIDIA, Jensen Huang". Una foto de Huang está sobre la mesa junto a una foto de Michael Jordan, varios objetos no relacionados y otros distractores.

Una persona se enfoca al toque en el plátano y en la foto correcta. Una política robótica estándar tiene que procesar todo y suele confundirse. PEEK lo resuelve usando un modelo visión-lenguaje que lee la instrucción y enfoca la mirada del robot, mostrando un camino de movimiento y resaltando los objetos relevantes mientras desvanece el resto.

La política actúa sobre esa vista anotada, no sobre la escena cruda. Para una política entrenada solo en simulación, agregar PEEK produjo una mejora de 41x en precisión sobre el mundo real. Para modelos visión-lenguaje-acción grandes y para políticas más pequeñas, las ganancias van de 2x a 3.5x. Como trabaja al nivel de la imagen, PEEK se integra con cualquier política basada en cámara sin modificarla.

Do What You Say, una colaboración con investigadores de Carnegie Mellon University, University of Utah y University of Sydney, ataca un modo de falla específico que importa más a medida que los robots toman tareas largas y complejas.

Si a un robot se le pide "guarda todo lo de esta mesa dentro del mueble" o "prepara un Manhattan", tiene que descomponer esa instrucción en pasos individuales y ejecutarlos en orden.

El problema es que el modelo de IA puede razonar correctamente sobre lo que necesita hacer y después ejecutar otra cosa.

El método, llamado SEAL, corrige esto en tiempo de ejecución sin reentrenamiento. El robot genera varias secuencias candidatas de acción, simula a dónde llevaría cada una y elige el resultado que coincide con lo que dijo que iba a hacer. SEAL entrega hasta 15% de mejora en precisión sobre trabajos previos, con robustez frente a instrucciones reformuladas, objetos cambiados, escenas más desordenadas y ángulos de cámara distintos.

Junto a los papers, NVIDIA está expandiendo la infraestructura de investigación robótica con datasets abiertos a gran escala. El NVIDIA Physical AI Dataset ya es el dataset abierto más grande del mundo para desarrollo físico, superando los 15 millones de descargas. El NVIDIA Isaac GR00T X Embodiment Sim se transformó en uno de los datasets de robótica más descargados.

Universidades aceleran la investigación con NVIDIA

Equipos de robótica de Carnegie Mellon University (CMU), ETH Zurich, MIT y University of Texas at Austin están usando tecnologías NVIDIA para llevar la investigación en physical AI desde la simulación a sistemas reales. Cerca de 50 papers aceptados en ICRA 2026 referencian simulación acelerada, aprendizaje robótico o cómputo NVIDIA.

Entre los ejemplos hay un framework de control robótico de CMU entrenado en NVIDIA Isaac Lab y trabajo del MIT sobre aprendizaje por refuerzo guiado por modelos de lenguaje corriendo sobre GPUs NVIDIA.

Para makers chilenos y latinoamericanos, el conjunto es interesante por una razón concreta. La mayoría de las técnicas se apoya sobre Isaac Lab y Isaac Sim, que son gratuitos para investigación y prototipado, y varias políticas se ejecutan después sobre Jetson, un módulo que ya se consigue en distribuidores locales por sobre los CLP 300.000. Es una vía realista para incorporar transferencia sim-to-real en proyectos universitarios sin depender de clusters de GPUs de servidor.