Nathan Lambert publicó un nuevo episodio del podcast Interconnects con Finbarr Timbers (investigador en Ai2), repasando cómo cambió la forma de hacer post-training en los modelos de frontera de los últimos cuatro años. La conversación acompaña el material que Lambert está armando para su RLHF / Post-training book y el curso asociado.

La forma de una receta de post-training cambió más en el último año que en los tres anteriores.

  • 2022-2023 (InstructGPT): un solo pipeline: SFT → reward model → RL.
  • 2024 (Llama 3, Tülu 3, etc.): las recetas abiertas formalizan SFT → DPO → RL con recompensas verificables. Las cerradas usan muchas etapas de RLHF.
  • 2025 (DeepSeek R1): el RL de razonamiento (R1) pone al RL a gran escala en el centro.
  • 2026 (MiMo Flash V2): las recetas se fragmentan en muchos modelos especialistas que se fusionan de vuelta en uno solo.

¿Qué es MOPD y por qué emerge en 2026?

La Destilación On-Policy Multi-Profesor (Multi-teacher On-Policy Distillation, MOPD) es el patrón que aparece en toda la frontera 2026:

  • Se entrenan N profesores especialistas por dominio (cada uno: SFT, luego RL en los dominios relevantes).
  • Se entrena un único estudiante general muestreando sus propias trayectorias (este será el modelo final post-entrenado).
  • En cada rollout, se minimiza la divergencia KL inversa contra la distribución de salida del profesor relevante, token a token.

Linaje: MiMo Flash v2 lo introdujo, DeepSeek V4 y Nemotron 3 Ultra lo escalan a más de 10 profesores.

¿Por qué emergió MOPD?

  • El RL se puso caro y conflictivo. Mezclar matemáticas, código y RL agéntico en una misma corrida termina sacrificando capacidades entre sí.
  • Los especialistas son baratos de armar y escalan organizacionalmente. SFT-luego-RL sobre un solo dominio está bien entendido y paralelizable. Cuando el post-training se vuelve más complejo, escalarlo entre equipos es ganancia limpia.
  • La destilación on-policy maduró. La literatura y el know-how siguieron emergiendo durante el renacimiento del RLVR.

Fuentes: DeepSeek V4 §5.1, MiMo-V2-Flash.

¿Cuáles son las recetas históricas clave?

InstructGPT (marzo 2022): los tres pasos canónicos · paper

  • SFT sobre demostraciones humanas.
  • Reward model entrenado sobre comparaciones humanas.
  • PPO contra el reward model.

Llama 2 (julio 2023): RLHF multietapa · paper · recap de Interconnects

Llama 2: pretrain → SFT → RLHF iterativo con rejection sampling y PPO
Llama 2: pretrain → SFT → RLHF iterativo con rejection sampling y PPO
  • SFT, luego RLHF iterativo sobre varias rondas.
  • Cada ronda: rejection sampling → PPO.
  • Dos reward models: helpfulness y seguridad separados.

Llama 3 (julio 2024): receta multietapa compleja con optimizadores simples · paper · recap

Llama 3 post-training: reward model → rejection sampling → SFT → DPO, iterado por rondas donde los mejores modelos alimentan la siguiente
Llama 3 post-training: reward model → rejection sampling → SFT → DPO, iterado por rondas donde los mejores modelos alimentan la siguiente
  • Por ronda: reward model → muestrear K por prompt → rejection sampling → SFT → DPO.
  • Sin RL online: el RM solo filtra; se corre por 6 rondas, los mejores modelos siembran la siguiente.

Tülu 3 (noviembre 2024): post-training simple de tres etapas · paper · recap

Tülu 3: curar prompts → SFT → DPO → RLVR con suite de evaluación held-out
Tülu 3: curar prompts → SFT → DPO → RLVR con suite de evaluación held-out

Curar prompts → SFT → DPO → RLVR (RL with verifiable rewards, acrónimo acuñado en este paper).

OLMo 3 (diciembre 2025): actualización de razonamiento sobre la receta de Tülu 3 · paper · recap

Flujo de modelos OLMo 3: Pretraining → Midtraining → Long context, luego ramas Think / Instruct / RL-Zero, cada una SFT → DPO → RLVR
Flujo de modelos OLMo 3: Pretraining → Midtraining → Long context, luego ramas Think / Instruct / RL-Zero, cada una SFT → DPO → RLVR

DeepSeek R1 (enero 2025): el RL como pieza central · paper · recap

Pipeline multietapa de DeepSeek R1: R1-Zero, luego cold-start SFT → RL de razonamiento → rejection-sampling SFT → RL final
Pipeline multietapa de DeepSeek R1: R1-Zero, luego cold-start SFT → RL de razonamiento → rejection-sampling SFT → RL final
  • R1-Zero: RL puro (GRPO) sobre la base, sin SFT; usado para sembrar conductas de razonamiento en la corrida completa, no como producto separado.
  • R1: cold-start SFT → RL de razonamiento → rejection-sampling SFT → RL final → destilar a denso.
  • Gran cambio en recetas: RLVR a gran escala como driver primario; SFT para destilar y refinar conductas RL.

¿Cómo evolucionó DeepSeek después de V3?

  • V3 (diciembre 2024): SFT + GRPO RL.
  • R1 (enero 2025): RL multietapa; el razonamiento emerge.
  • V3.1 (agosto 2025): híbrido think / non-think en un solo modelo.
  • V3.2 (diciembre 2025): 6 especialistas vía RL → destilación SFT → un solo GRPO mezclado.
  • V4 (abril 2026): 10+ expertos de dominio → MOPD.

¿Qué recetas marcan el estilo 2026?

MiMo Flash v2 (enero 2026): donde empezó MOPD · paper

MiMo Flash v2 post-training: SFT → profesores de dominio → destilación on-policy multi-profesor
MiMo Flash v2 post-training: SFT → profesores de dominio → destilación on-policy multi-profesor

Etapas: Stage 1 SFT → Stage 2 entrenar ~6 profesores especialistas por dominio (con recetas de post-training más viejas) → Stage 3 MOPD hacia un único estudiante.

Primera articulación limpia de la destilación on-policy multi-profesor como paso de consolidación: reemplaza una etapa de RL monolítica por destilar-desde-especialistas.

Nemotron 3 Ultra (junio 2026): dos rondas, muchos profesores · paper

Nemotron 3 Ultra: destilación on-policy multi-profesor con dos iteraciones
Nemotron 3 Ultra: destilación on-policy multi-profesor con dos iteraciones

Etapas: SFT → destilación on-policy multi-profesor, corrida en dos iteraciones, con más de 10 profesores cubriendo razonamiento, código, matemáticas y dominios agénticos.

Novedoso: MOPD multironda a través de dominios distintos: destilar y luego re-destilar desde profesores refrescados.

MAI-Thinking-1 (junio 2026): más cerca de R1 que de V4 · anuncio

MAI-Thinking-1: subidas de RL especialistas → SFT de destilación de trazas → consolidar → subida final
MAI-Thinking-1: subidas de RL especialistas → SFT de destilación de trazas → consolidar → subida final

Etapas: base con mid-training → 3 "subidas" de RL especialistas (ej. STEM) → SFT de destilación de trazas para consolidarlas → subida RL final → MAI-Thinking-1.

Más cercano a DeepSeek R1 que a V4: RL multietapa con SFT de destilación de trazas para consolidar, sin MOPD on-policy. No es el único laboratorio sin MOPD.

Kimi K2.5 (enero 2026): agéntico, multimodal · paper · blog

Kimi K2.5 Agent Swarm: orquestación paralela autodirigida de agentes
Kimi K2.5 Agent Swarm: orquestación paralela autodirigida de agentes

Etapas: SFT solo-texto → RL conjunto texto-visión a través de coding, visión, razonamiento y tareas agénticas. No menciona MOPD.

GLM-5 (febrero 2026): RL escalonado por capacidad · paper

Pipeline GLM-5: Base → SFT → RL de Razonamiento → RL Agéntico → RL General con destilación entre etapas
Pipeline GLM-5: Base → SFT → RL de Razonamiento → RL Agéntico → RL General con destilación entre etapas

Etapas: Base → SFT → RL de Razonamiento → RL Agéntico → RL General.

¿Qué deja el repaso para equipos open source en Chile y LatAm?

El mensaje práctico para grupos de investigación regional (Ai2-Chile, equipos de la UTFSM, UDP, PUC, U. de Chile, o startups que quieren cocinar su propio modelo desde un Llama o Qwen base) es claro: el camino de receta única SFT-DPO-RL todavía rinde, pero la frontera ya se movió a particionar el problema. La buena noticia: MOPD es organizacionalmente más barato que un RL monolítico, porque cada profesor especialista cabe en un equipo chico y se pueden entrenar en paralelo. Lo malo: necesitás múltiples corridas de RL bien ejecutadas antes de la consolidación, y la consolidación en sí requiere cómputo no trivial para muestrear trayectorias on-policy.

El episodio cubre además los capítulos de carrera profesional en la "carrera LLM" (minuto 48:22), un tema relevante para investigadores latinoamericanos que están decidiendo entre quedarse en academia regional, sumarse a laboratorios open source como Ai2, o moverse a frontier labs cerrados. Disponible en Apple Podcasts, Spotify y YouTube.