Etiqueta

#reinforcement learning

3 notas publicadas

RadixArk libera Miles, stack PyTorch para RL en LLMs frontier

El framework open source compone SGLang, Megatron-LM y Ray sobre PyTorch para hacer manejable el post-training por refuerzo de modelos densos y MoE a escala de cluster.

PyTorch Blogayer

NVIDIA abre su receta de RL para agentes con NeMo Gym y GRPO

Guía técnica para decidir entre prompting, SFT, RLHF y RLVR con verificadores. Nemotron 3 Super se entrenó con 21 verificadores NeMo Gym, 37 datasets y 1,2 millones de rollouts.

NVIDIA Developerhace 2 días

Flexion Robotics entrena un humanoide para tareas de oficina

La startup suiza fundada por ex-NVIDIA combina simulación, reinforcement learning y video humano para que un Unitree modificado busque paquetes solo.

Wiredhace 2 días

Etiquetas relacionadas

Otros temas que aparecen junto a #reinforcement learning en nuestra cobertura editorial.

#flexion-robotics1 #humanoide1 #unitree1 #Robotica1 #foundation-models1 #Nvidia1 #nemotron1 #nemo-gym1