
IA
RadixArk libera Miles, stack PyTorch para RL en LLMs frontier
El framework open source compone SGLang, Megatron-LM y Ray sobre PyTorch para hacer manejable el post-training por refuerzo de modelos densos y MoE a escala de cluster.
PyTorch Blog
3 notas publicadas

Guía técnica para decidir entre prompting, SFT, RLHF y RLVR con verificadores. Nemotron 3 Super se entrenó con 21 verificadores NeMo Gym, 37 datasets y 1,2 millones de rollouts.

La startup suiza fundada por ex-NVIDIA combina simulación, reinforcement learning y video humano para que un Unitree modificado busque paquetes solo.
Otros temas que aparecen junto a #reinforcement learning en nuestra cobertura editorial.