Desarrollar políticas para vehículos autónomos (AV) implica salvar una brecha importante entre entrenamiento y despliegue. Los modelos visión-lenguaje-acción (VLA) que razonan sobre escenas de conducción complejas suelen entrenarse en lazo abierto, comparando sus salidas directamente con comportamientos de expertos sin medir el efecto de esas decisiones sobre el ambiente.
En la calle, sin embargo, una política de conducción opera en lazo cerrado: cada acción de frenado, dirección y navegación modifica el entorno, y errores pequeños se acumulan con el tiempo.
NVIDIA Alpamayo busca atacar esa diferencia. Es un portafolio abierto de modelos de IA, frameworks de simulación y datasets de IA física para desarrollo AV. Incluye la plataforma de simulación AlpaSim y el framework AlpaGym de entrenamiento en lazo cerrado, próximo a ser liberado.
Este artículo recorre cómo entrenar modelos AV en lazo cerrado con NVIDIA Alpamayo: instalar y configurar AlpaGym, definir recompensas, lanzar el entrenamiento y exportar el checkpoint final para usarlo aguas abajo.
¿Qué cambia con el post-entrenamiento en lazo cerrado?
El post-entrenamiento con AlpaGym convierte los rollouts de AlpaSim en experiencia de entrenamiento. En lugar de tratar la simulación solo como una etapa final de evaluación, AlpaGym conecta la retroalimentación del simulador directamente al ciclo de entrenamiento.

El aprendizaje por refuerzo (RL) puede mejorar una política inicialmente entrenada en lazo abierto. En vez de optimizar solo contra trayectorias expertas registradas, el modelo aprende de las consecuencias de sus propias acciones en la simulación. Este giro es crítico para conducción autónoma, donde pequeños errores de predicción o planificación se acumulan en el tiempo.
Habilitar RL en lazo cerrado trae desafíos propios. La inferencia del modelo, la ejecución del simulador, el entrenamiento, el sincronizado de pesos, la comunicación entre instancias y el movimiento de datos deben funcionar todos en paralelo, lo que exige una orquestación robusta y un uso eficiente del cómputo.
AlpaGym conecta el entrenamiento de la política a los rollouts de AlpaSim y entrega un framework open source de alto throughput. Combina los microservicios del simulador AlpaSim, los NVIDIA Physical AI Open Datasets y el framework distribuido NVIDIA Cosmos-RL. Escala desde una sola GPU hasta clusters multinodo, con un pipeline asíncrono que no requiere cambios en el código del usuario. Usa GRPO como algoritmo por defecto e incluye recompensas de referencia probadas con modelos Alpamayo y el Physical AI AV NuRec dataset.
¿Cómo se instala AlpaGym?
Para instalar AlpaGym desde el checkout de Alpamayo, hay que instalar las dependencias nativas de CUDA y Redis en el host, y luego sincronizar el workspace UV:
sudo apt-get update
sudo apt-get install -y libcudnn9-dev-cuda-12 \
libnccl-dev=2.26.2-1+cuda12.8 libnccl2=2.26.2-1+cuda12.8 \
redis-server git-lfs
git lfs install
git lfs pull
huggingface-cli login
# o exportar HF_TOKEN=...
uv sync --all-packagesEl entorno Python se gestiona con uv, pero cuDNN, NCCL y el binario redis-server son dependencias del host usadas por la pila de modelos CUDA y Cosmos-RL. También hay un Dockerfile disponible como alternativa. La autenticación con Hugging Face es obligatoria para bajar los artefactos de escenas.
Una corrida AlpaGym es una configuración Hydra. Especifica el checkpoint de la política, el conjunto de escenas AlpaSim, el paralelismo del rollout, la función de recompensa y los parámetros de entrenamiento Cosmos-RL. El checkpoint inicial de este flujo es un modelo Alpamayo.
Definir la recompensa en lazo cerrado
La recompensa debe coincidir con el comportamiento que se quiere mejorar. Para post-entrenamiento de calidad de trayectorias, los términos comunes incluyen progreso, mantenimiento de carril, evasión de colisiones, salida de pista, confort y distancia a una trayectoria de referencia.
Una primera recompensa práctica combina progreso con penalizaciones para fallos críticos de seguridad. En AlpaGym se expresa como una suma de términos usando métricas de AlpaSim cuando es posible:
# reward/progress_safety.yaml
terms:
- kind: metric
metric_name: progress
scale: 1.0
- kind: metric
metric_name: collision_any
scale: -10.0
- kind: metric
metric_name: offroad
scale: -5.0Una vez que la tubería es estable, se agregan términos más específicos para los modos de falla observados en videos y métricas de AlpaSim.
Lanzar el entrenamiento
Para arrancar el entrenamiento desde un checkpoint del modelo (Alpamayo en este ejemplo):
uv run -m alpagym_host.cli \
policy=alpamayo \
policy.model.kind=alpamayo_r1 \
policy.model.path=/path/to/checkpoint \
reward=progress_safetyEsto levanta AlpaGym con AlpaSim sobre una sola GPU. Durante el entrenamiento, AlpaGym solicita rollouts de escenas a AlpaSim, recolecta artefactos por episodio, calcula recompensas y actualiza la política. Las señales útiles a monitorear son recompensa media, varianza de la recompensa, tasa de fallas, pérdida de política, throughput de rollout y el gap entre los rollouts generados y los pesos más recientes de la política.
Exportar el checkpoint post-entrenado
Tras el entrenamiento, hay que colocar el checkpoint producido por AlpaGym y sus archivos de configuración en una carpeta accesible para el driver de AlpaSim (por ejemplo, el cache local de modelos de Hugging Face). Luego se crea un nuevo archivo de configuración de driver apuntando a esa carpeta:
model:
model_type: alpamayo1
checkpoint_path: "/root/.cache/huggingface/alpasim_models/alpamayo1_CLRL/step_NNNNNN"
device: "cuda"Después, correr el modelo exportado sobre un escenario representativo verifica que la política, el driver y el ciclo de simulación están bien conectados. Un rollout en lazo cerrado entrega señales cualitativas útiles: si el modelo produce trayectorias estables, si se mantiene en el área de conducción, cómo reacciona ante otros agentes de tráfico y qué modos de falla deben atacarse en el post-entrenamiento.
¿Cuándo y dónde está disponible?
El paquete de recetas está en el repositorio NVlabs/alpamayo-recipes en GitHub. NVIDIA también lanzó dos desafíos públicos en CVPR 2026 para que los equipos evalúen sus modelos en el leaderboard:
La compañía también remite a la sesión de Jensen Huang en GTC Taipei 2026 y al post de Hugging Face Expanding the Alpamayo Open Platform for Developing Reasoning AVs Across Models, Data, and Simulation para detalles adicionales sobre roadmap.




