
IA
Post-training de frontera 2026: MOPD reemplaza al RL monolítico
Nathan Lambert y Finbarr Timbers repasan en Interconnects cómo MiMo Flash v2, DeepSeek V4 y Nemotron 3 Ultra adoptaron destilación on-policy con múltiples profesores en lugar de un único RL gigante.
Interconnects