En la conferencia CVPR, NVIDIA presenta nuevas habilidades de agentes de IA física que ayudan a investigadores y desarrolladores a acelerar la creación de vehículos autónomos, robots y sistemas de visión artificial.
El desafío central en la investigación de IA física no es solo desarrollar modelos más potentes, sino construir un flujo de trabajo completo a su alrededor: reconstruir escenas del mundo real, generar escenarios de casos borde, entrenar políticas, evaluar comportamientos e iterar rápidamente. Actualmente, estos pasos están fragmentados en herramientas separadas, lo que ralentiza el ritmo de experimentación mientras los investigadores luchan por unificarlos.
A principios de esta semana, NVIDIA anunció NVIDIA Cosmos 3, el modelo de frontera abierto para IA física y el primer omnimodelo del mundo que unifica el razonamiento visual, la generación de mundos y la generación de acciones. Liderando las tablas de clasificación públicas de modelos abiertos, este modelo fundacional proporciona capacidades esenciales para el desarrollo de IA física. Las habilidades de IA física de NVIDIA se combinan con Cosmos, las bibliotecas de NVIDIA y los frameworks de simulación para ayudar a los investigadores a pasar de las capacidades del modelo a flujos de trabajo escalables de extremo a extremo más rápido que nunca.
¿Cómo avanza la investigación en vehículos autónomos más allá de las millas recorridas?
Para los investigadores de vehículos autónomos (AV), el problema es la "cola larga" de la conducción: interacciones poco comunes, geometrías de carretera inusuales, cambios de iluminación y comportamientos de casos borde que son difíciles de recopilar repetidamente, pero críticos para el entrenamiento y la validación.

Con las habilidades de vehículos autónomos de NVIDIA, los investigadores y desarrolladores pueden asignar a los agentes de IA la automatización de flujos de trabajo para la reconstrucción de escenas a partir de datos de flotas y generar escenarios sintéticos. Las habilidades de Reconstrucción Neuronal ayudan a los agentes de IA a convertir datos capturados por flotas en escenas 3D editables para simulación y generación de datos sintéticos, mientras que tecnologías como NVIDIA Omniverse NuRec, InstantNuRec, Harmonizer y el renderizador acelerado HiGS ayudan a acelerar la reconstrucción, mejorar el realismo de las escenas y generar nuevas vistas.

Para los investigadores de AV, la simulación repetible ayuda a variar las condiciones, comparar las respuestas del sistema y descubrir modos de falla en escenarios que van más allá de lo que se puede capturar en datos del mundo real.
NVIDIA AlpaGym, un framework de aprendizaje por refuerzo de circuito cerrado de código abierto, extiende ese enfoque conectando los despliegues de políticas y la simulación de alta fidelidad con habilidades de agentes, escalando a través de miles de GPU, para ayudar a los investigadores a avanzar a través de la configuración, el despliegue y la evaluación. NVIDIA OmniDreams, un modelo de mundo generativo condicionado por acciones, añade renderizado fotorrealista al bucle de simulación, generando cuadros de cámara que responden directamente a las acciones de la política en tiempo real.
NVIDIA también está impulsando la investigación de AV con su modelo de conducción abierta más potente hasta la fecha: NVIDIA Alpamayo 2 Super, un modelo de acción de lenguaje visual de razonamiento (VLA) abierto de 32 mil millones de parámetros que razona, planifica y actúa a través de toda la pila de conducción para un desarrollo y despliegue de nivel 4 más seguro y escalable.
¿Qué desafíos enfrentan los sistemas de visión artificial en el mundo real?
Para la investigación en visión artificial, el cuello de botella es crear suficientes ejemplos controlados para estudiar cómo se comportan los modelos cuando cambian las condiciones visuales, los estados de los objetos o los eventos temporales. El trabajo en detección de anomalías zero-shot, generación sintética de anomalías y reconocimiento de defectos few-shot se enfrenta al mismo muro de datos.

Las nuevas habilidades de NVIDIA Metropolis ayudan a los investigadores y desarrolladores a utilizar agentes de IA para generar escenarios visuales sintéticos, incluyendo anomalías, aumentar datos y admitir el pseudo-etiquetado. Estas habilidades se benefician de la arquitectura de mezcla de transformadores (mixture-of-transformers) de Cosmos 3, que utiliza un transformador de razonamiento para analizar observaciones y enviar instrucciones a una torre de generación, ayudando a escalar mundos virtuales físicamente fundamentados.
Los investigadores que construyen modelos de inspección visual de alta precisión pueden usar la habilidad de generación de imágenes de defectos para crear ejemplos de diferentes defectos en varias superficies utilizando imágenes reales. El flujo de trabajo combina NVIDIA Isaac Sim para simulación, Cosmos 3 y NVIDIA OSMO para la orquestación y el razonamiento de lenguaje visual, permitiendo a los investigadores crear casos visuales raros y evaluar si los modelos responden correctamente.

Para los agentes de IA de video, el NVIDIA Metropolis Blueprint para búsqueda y resumen de video (VSS), NVIDIA TAO y las habilidades de aumento de datos de video ayudan a extraer información de volúmenes masivos de datos de video, ajustar modelos y automatizar el bucle de construcción y evaluación. Esto ofrece a los investigadores una forma más repetible de desarrollar agentes de IA de visión con razonamiento que pueden detectar eventos, razonar sobre escenas complejas, resumir actividades y enviar alertas.
¿Cómo escalar el aprendizaje robótico con flujos de simulación preparados para agentes?
Enseñar a los robots habilidades como navegar o manipular se reduce a la iteración. Para los investigadores, el cuello de botella es construir suficientes entornos controlados y despliegues de políticas para comprender cómo cambia el comportamiento del robot a través de tareas, configuraciones y encarnaciones; un trabajo que típicamente significa unir entornos de simulación, variaciones de tareas, entrenamiento de políticas y evaluación de forma manual.

Con las habilidades de robótica de NVIDIA, los investigadores pueden asignar a los agentes de IA la automatización de los pasos de desarrollo más comunes en la preparación de escenas, simulación y aprendizaje robótico con las bibliotecas de NVIDIA Omniverse, Isaac Sim y los frameworks Isaac Lab. Los agentes pueden ayudar a iniciar sesiones de simulación, crear escenas, controlar la simulación, capturar datos y validar entornos en Isaac Sim, mientras que las habilidades de Isaac Lab apoyan la configuración del aprendizaje por refuerzo, el entrenamiento, la evaluación y el desarrollo de entornos personalizados.

Las habilidades especializadas extienden ese flujo de trabajo a la movilidad y manipulación. Las habilidades de movilidad de Isaac soportan flujos de trabajo de navegación que abarcan la búsqueda de escenas, conversión USD, registro de entornos, aprendizaje por refuerzo residual y evaluación de políticas, mientras que los flujos de trabajo agentic de Isaac Lab ayudan con tareas de sim-to-sim y sim-to-real como la construcción de entornos, ajuste de física, depuración y perfilado.
Para la robótica en el cuidado de la salud, el Cosmos-H-Surgical-Simulator continúa expandiendo estas capacidades.
Vía NVIDIA Blog.




