Lo que hace que una pinza robótica sea útil no es que pueda recoger un solo objeto, sino que pueda tomar el siguiente, y el que sigue, con una herramienta que nunca ha sostenido antes.

Lo que hace que un sistema de vehículo autónomo sea seguro no es solo que pueda razonar ante una situación, sino que pueda hacerlo con la rapidez suficiente en el hardware instalado físicamente en el automóvil.

Lo que hace que un agente virtual sea capaz es la exposición a la mayor cantidad posible de entornos diferentes antes de enfrentarse al mundo real.

En la conferencia Computer Vision and Pattern Recognition (CVPR) de este año, NVIDIA Research presenta tres artículos que abordan cada uno de estos desafíos y comparten un tema común: el entrenamiento a gran escala crea sistemas que se generalizan a través de diversas aplicaciones.

Los tres artículos cubren diferentes desafíos en la investigación de IA física:

  • GraspGen-X, el primer modelo fundacional para grasping de disparo cero (zero-shot), fue entrenado con miles de millones de agarres simulados para funcionar con cualquier pinza que se le presente.
  • LCDrive introduce un modelo que reemplaza el costoso razonamiento basado en texto con representaciones latentes compactas, permitiendo que los vehículos autónomos piensen más rápido en hardware embebido.
  • NitroGen es un modelo fundacional de IA para juegos generalizado que aprovecha la arquitectura del modelo fundacional para robots NVIDIA Isaac GR00T para ayudar a entrenar agentes incorporados en entornos virtuales durante decenas de miles de horas de interacción.

NVIDIA también dio a conocer en CVPR nuevas habilidades de agentes de IA física que ayudan a investigadores y desarrolladores a acelerar el desarrollo de vehículos autónomos, robots y sistemas de IA de visión.

¿Cómo logra NVIDIA el primer modelo fundacional para grasping?

La mayoría de los sistemas de IA para grasping robótico son especialistas. Una política de visión-lenguaje-acción entrenada para una pinza de dos dedos solo aprende a agarrar con esos dos dedos. De manera similar, una política para agarre diestro solo funcionará para la pinza multifuncional específica con la que fue entrenada. Para cada nueva configuración, el proceso generalmente debe repetirse, lo que requiere nuevos datos de entrenamiento, ajuste fino y validación. Esta limitación significa que la mayoría de las empresas de robótica eligen una pinza, la entrenan para ella y se quedan con esa opción.

GraspGen-X es el primer modelo fundacional para grasping construido para eliminar este cuello de botella. Al igual que un modelo de lenguaje grande que puede aplicar su comprensión del lenguaje a una nueva tarea sin necesidad de reentrenamiento, GraspGen-X aplica su comprensión de la geometría y el contacto a cualquier pinza robótica que encuentre. Dada la geometría de una nueva pinza y un objeto desconocido que nunca ha visto, el modelo genera propuestas de poses de agarre confiables para permitir que el robot tome el objeto.

Para lograr esto, los investigadores necesitaron un conjunto de datos imposible de recopilar en el mundo real a escala. Generaron 2 mil millones de agarres simulados a través de miles de formas de objetos y configuraciones de pinzas sintéticas, abarcando la diversidad de factores de forma que un robot desplegado podría encontrar. Para los desarrolladores de robots, este modelo fundacional elimina la necesidad de ciclos de entrenamiento por pinza y puede aplicarse de inmediato para varias pinzas de uso común. GraspGen-X puede utilizarse junto con curoboV2, una nueva biblioteca de planificación de movimiento acelerada por CUDA, para lograr estas poses de agarre en entornos desconocidos. Basándose en los cimientos de la investigación de GraspGen, otro artículo, Grasp-MPC — presentado en ICRA 2026, avanza el siguiente paso en el pipeline: pasar de la generación del agarre a la ejecución del agarre en bucle cerrado.

¿Cómo logran los vehículos autónomos pensar más rápido?

En años recientes, los investigadores han descubierto que permitir que una IA razone —generando pasos de pensamiento intermedios antes de comprometerse con una respuesta— mejora de forma fiable su toma de decisiones. Para los vehículos autónomos, el desafío es realizar ese razonamiento en el hardware dentro de un vehículo real. El razonamiento de cadena de pensamiento basado en texto genera palabras, y cada palabra es un token que toma tiempo producir. En el procesador que funciona dentro de un automóvil, el conteo de tokens es una restricción real sobre la rapidez con la que el sistema puede responder.

LCDrive aborda este problema reemplazando las palabras con representaciones latentes comprimidas. En lugar de generar pasos de razonamiento legibles por humanos, el sistema piensa en un espacio latente compacto: estados que capturan información espacial en lugar de producir texto. La arquitectura alterna entre dos tipos de pensamiento: proponer acciones candidatas y luego predecir cómo se verá el mundo si se toman esas acciones. Utiliza ese estado mundial predicho para refinar su siguiente paso. Es el mismo bucle de razonamiento, solo que en una forma computacionalmente más eficiente que el lenguaje natural. El resultado es una calidad de trayectoria de salida comparable al razonamiento basado en texto, utilizando aproximadamente la mitad de los tokens. El modelo fue construido sobre NVIDIA Alpamayo y entrenado utilizando supervisión derivada de datos de vehículos existentes.

¿Qué impacto tiene NitroGen en los agentes incorporados?

Isaac GR00T, el modelo fundacional abierto de NVIDIA para robots humanoides, se basa en un principio simple: exponer un modelo a suficientes situaciones diversas y este se generalizará a aquellas que no ha visto. NitroGen extiende ese principio a entornos virtuales, utilizando la arquitectura GR00T para entrenar un modelo fundacional para agentes incorporados a través de una amplia gama de mundos virtuales. Los videojuegos ofrecen algo difícil de construir desde cero: mundos estructurados y variados con objetivos definidos y condiciones de éxito bien especificadas. Son entornos de entrenamiento de alta calidad, disponibles a escala.

NitroGen los trata como un campo de entrenamiento para agentes que eventualmente serán preparados para manejar situaciones novedosas del mundo real o simulado, como potenciar un robot que ayuda con las tareas del hogar basándose en instrucciones amplias como: “Guarda estos artículos en la despensa”. Entrenado a través de más de 1,000 juegos y 40,000 horas de interacción utilizando un modelo basado en GR00T, los agentes resultantes aprenden a generalizarse entre entornos. El modelo fue evaluado en una gama de juegos de rol de acción, plataformas, roguelikes y juegos de mundo abierto, demostrando comportamientos de juego que abarcan combate, navegación y exploración. Las mismas técnicas podrían eventualmente ayudar a habilitar personajes no jugables más adaptativos, compañeros de IA y sistemas de juego dentro de los títulos, así como pruebas más amplias de entornos de juego complejos. En condiciones de pocos datos, donde un agente ha visto solo un puñado de ejemplos de un nuevo entorno, comenzar con NitroGen da a los agentes una gran ventaja, mejorando el rendimiento hasta en un 52% sobre los métodos anteriores de vanguardia. El modelo es de código abierto y está disponible en GitHub y Hugging Face.

Aprenda más sobre NVIDIA en CVPR y explore el trabajo de NVIDIA Research en IA física, visión artificial y sistemas autónomos. Comience con Isaac GR00T y las herramientas de robótica de NVIDIA.

Vía NVIDIA Blog.