Punto clave de esta nota

NVIDIA Alpamayo suma AlpaGym, un framework abierto de aprendizaje por refuerzo en lazo cerrado para post-entrenar políticas de vehículos autónomos.

Punto clave de esta nota

Conecta los rollouts del simulador AlpaSim al ciclo de entrenamiento, usando GRPO por defecto y permitiendo escalar de 1 GPU a clusters multinodo.

Punto clave de esta nota

Incluye recompensas de referencia y se integra con el dataset abierto Physical AI AV NuRec, además de Cosmos-RL como framework distribuido.

NVIDIA Alpamayo: post-entrenar autos autónomos en lazo cerrado

Al grano

NVIDIA Alpamayo suma AlpaGym, un framework abierto de aprendizaje por refuerzo en lazo cerrado para post-entrenar políticas de vehículos autónomos.
Conecta los rollouts del simulador AlpaSim al ciclo de entrenamiento, usando GRPO por defecto y permitiendo escalar de 1 GPU a clusters multinodo.
Incluye recompensas de referencia y se integra con el dataset abierto Physical AI AV NuRec, además de Cosmos-RL como framework distribuido.

Desarrollar políticas para vehículos autónomos (AV) implica salvar una brecha importante entre entrenamiento y despliegue. Los modelos visión-lenguaje-acción (VLA) que razonan sobre escenas de conducción complejas suelen entrenarse en lazo abierto, comparando sus salidas directamente con comportamientos de expertos sin medir el efecto de esas decisiones sobre el ambiente.

En la calle, sin embargo, una política de conducción opera en lazo cerrado: cada acción de frenado, dirección y navegación modifica el entorno, y errores pequeños se acumulan con el tiempo.

NVIDIA Alpamayo busca atacar esa diferencia. Es un portafolio abierto de modelos de IA, frameworks de simulación y datasets de IA física para desarrollo AV. Incluye la plataforma de simulación AlpaSim y el framework AlpaGym de entrenamiento en lazo cerrado, próximo a ser liberado.

Este artículo recorre cómo entrenar modelos AV en lazo cerrado con NVIDIA Alpamayo: instalar y configurar AlpaGym, definir recompensas, lanzar el entrenamiento y exportar el checkpoint final para usarlo aguas abajo.

¿Qué cambia con el post-entrenamiento en lazo cerrado?

El post-entrenamiento con AlpaGym convierte los rollouts de AlpaSim en experiencia de entrenamiento. En lugar de tratar la simulación solo como una etapa final de evaluación, AlpaGym conecta la retroalimentación del simulador directamente al ciclo de entrenamiento.

Flujo de post-entrenamiento end-to-end para un modelo de conducción como Alpamayo usando AlpaGym

El aprendizaje por refuerzo (RL) puede mejorar una política inicialmente entrenada en lazo abierto. En vez de optimizar solo contra trayectorias expertas registradas, el modelo aprende de las consecuencias de sus propias acciones en la simulación. Este giro es crítico para conducción autónoma, donde pequeños errores de predicción o planificación se acumulan en el tiempo.

Habilitar RL en lazo cerrado trae desafíos propios. La inferencia del modelo, la ejecución del simulador, el entrenamiento, el sincronizado de pesos, la comunicación entre instancias y el movimiento de datos deben funcionar todos en paralelo, lo que exige una orquestación robusta y un uso eficiente del cómputo.

AlpaGym conecta el entrenamiento de la política a los rollouts de AlpaSim y entrega un framework open source de alto throughput. Combina los microservicios del simulador AlpaSim, los NVIDIA Physical AI Open Datasets y el framework distribuido NVIDIA Cosmos-RL. Escala desde una sola GPU hasta clusters multinodo, con un pipeline asíncrono que no requiere cambios en el código del usuario. Usa GRPO como algoritmo por defecto e incluye recompensas de referencia probadas con modelos Alpamayo y el Physical AI AV NuRec dataset.

¿Cómo se instala AlpaGym?

Para instalar AlpaGym desde el checkout de Alpamayo, hay que instalar las dependencias nativas de CUDA y Redis en el host, y luego sincronizar el workspace UV:

Código

sudo apt-get update
sudo apt-get install -y libcudnn9-dev-cuda-12 \
  libnccl-dev=2.26.2-1+cuda12.8 libnccl2=2.26.2-1+cuda12.8 \
  redis-server git-lfs

git lfs install
git lfs pull

huggingface-cli login
# o exportar HF_TOKEN=...

uv sync --all-packages

El entorno Python se gestiona con uv, pero cuDNN, NCCL y el binario redis-server son dependencias del host usadas por la pila de modelos CUDA y Cosmos-RL. También hay un Dockerfile disponible como alternativa. La autenticación con Hugging Face es obligatoria para bajar los artefactos de escenas.

Una corrida AlpaGym es una configuración Hydra. Especifica el checkpoint de la política, el conjunto de escenas AlpaSim, el paralelismo del rollout, la función de recompensa y los parámetros de entrenamiento Cosmos-RL. El checkpoint inicial de este flujo es un modelo Alpamayo.

Definir la recompensa en lazo cerrado

La recompensa debe coincidir con el comportamiento que se quiere mejorar. Para post-entrenamiento de calidad de trayectorias, los términos comunes incluyen progreso, mantenimiento de carril, evasión de colisiones, salida de pista, confort y distancia a una trayectoria de referencia.

Una primera recompensa práctica combina progreso con penalizaciones para fallos críticos de seguridad. En AlpaGym se expresa como una suma de términos usando métricas de AlpaSim cuando es posible:

Código

# reward/progress_safety.yaml
terms:
  - kind: metric
    metric_name: progress
    scale: 1.0
  - kind: metric
    metric_name: collision_any
    scale: -10.0
  - kind: metric
    metric_name: offroad
    scale: -5.0

Una vez que la tubería es estable, se agregan términos más específicos para los modos de falla observados en videos y métricas de AlpaSim.

Lanzar el entrenamiento

Para arrancar el entrenamiento desde un checkpoint del modelo (Alpamayo en este ejemplo):

Código

uv run -m alpagym_host.cli \
  policy=alpamayo \
  policy.model.kind=alpamayo_r1 \
  policy.model.path=/path/to/checkpoint \
  reward=progress_safety

Esto levanta AlpaGym con AlpaSim sobre una sola GPU. Durante el entrenamiento, AlpaGym solicita rollouts de escenas a AlpaSim, recolecta artefactos por episodio, calcula recompensas y actualiza la política. Las señales útiles a monitorear son recompensa media, varianza de la recompensa, tasa de fallas, pérdida de política, throughput de rollout y el gap entre los rollouts generados y los pesos más recientes de la política.

Exportar el checkpoint post-entrenado

Tras el entrenamiento, hay que colocar el checkpoint producido por AlpaGym y sus archivos de configuración en una carpeta accesible para el driver de AlpaSim (por ejemplo, el cache local de modelos de Hugging Face). Luego se crea un nuevo archivo de configuración de driver apuntando a esa carpeta:

Código

model:
  model_type: alpamayo1
  checkpoint_path: "/root/.cache/huggingface/alpasim_models/alpamayo1_CLRL/step_NNNNNN"
  device: "cuda"

Después, correr el modelo exportado sobre un escenario representativo verifica que la política, el driver y el ciclo de simulación están bien conectados. Un rollout en lazo cerrado entrega señales cualitativas útiles: si el modelo produce trayectorias estables, si se mantiene en el área de conducción, cómo reacciona ante otros agentes de tráfico y qué modos de falla deben atacarse en el post-entrenamiento.

¿Cuándo y dónde está disponible?

El paquete de recetas está en el repositorio NVlabs/alpamayo-recipes en GitHub. NVIDIA también lanzó dos desafíos públicos en CVPR 2026 para que los equipos evalúen sus modelos en el leaderboard:

La compañía también remite a la sesión de Jensen Huang en GTC Taipei 2026 y al post de Hugging Face Expanding the Alpamayo Open Platform for Developing Reasoning AVs Across Models, Data, and Simulation para detalles adicionales sobre roadmap.

NVIDIA Alpamayo: post-entrenar autos autónomos en lazo cerrado

Al grano

Por qué importa

¿Qué cambia con el post-entrenamiento en lazo cerrado?

¿Cómo se instala AlpaGym?

Definir la recompensa en lazo cerrado

Lanzar el entrenamiento

Exportar el checkpoint post-entrenado

¿Cuándo y dónde está disponible?

Seguir leyendo

NVIDIA Research presenta avances en robótica y conducción autónoma

NVIDIA potencia la IA física con nuevas habilidades de agentes

Hugging Face y Nvidia llevan el open source al cerebro robótico

NVIDIA Isaac GR00T unifica el desarrollo de robots humanoides

→Al grano

✦Por qué importa

¿Qué cambia con el post-entrenamiento en lazo cerrado?

¿Cómo se instala AlpaGym?

Definir la recompensa en lazo cerrado

Lanzar el entrenamiento

Exportar el checkpoint post-entrenado

¿Cuándo y dónde está disponible?

Seguir leyendo

NVIDIA Research presenta avances en robótica y conducción autónoma

NVIDIA potencia la IA física con nuevas habilidades de agentes

Hugging Face y Nvidia llevan el open source al cerebro robótico

NVIDIA Isaac GR00T unifica el desarrollo de robots humanoides

Al grano

Por qué importa