Punto clave de esta nota

El podcast Interconnects de Nathan Lambert con Finbarr Timbers (Ai2) repasa las recetas de post-training de frontera entre 2022 y 2026.

Punto clave de esta nota

La novedad 2026 es MOPD, Destilación On-Policy Multi-Profesor, iniciada por MiMo Flash v2 y escalada por DeepSeek V4 con más de 10 profesores por dominio.

Punto clave de esta nota

DeepSeek pasó de SFT+GRPO en V3 a 6 especialistas con destilación SFT en V3.2 y 10+ expertos con MOPD en V4 (abril 2026).

Post-training de frontera 2026: MOPD reemplaza al RL monolítico

Al grano

El podcast Interconnects de Nathan Lambert con Finbarr Timbers (Ai2) repasa las recetas de post-training de frontera entre 2022 y 2026.
La novedad 2026 es MOPD, Destilación On-Policy Multi-Profesor, iniciada por MiMo Flash v2 y escalada por DeepSeek V4 con más de 10 profesores por dominio.
DeepSeek pasó de SFT+GRPO en V3 a 6 especialistas con destilación SFT en V3.2 y 10+ expertos con MOPD en V4 (abril 2026).

Nathan Lambert publicó un nuevo episodio del podcast Interconnects con Finbarr Timbers (investigador en Ai2), repasando cómo cambió la forma de hacer post-training en los modelos de frontera de los últimos cuatro años. La conversación acompaña el material que Lambert está armando para su RLHF / Post-training book y el curso asociado.

La forma de una receta de post-training cambió más en el último año que en los tres anteriores.

2022-2023 (InstructGPT): un solo pipeline: SFT → reward model → RL.
2024 (Llama 3, Tülu 3, etc.): las recetas abiertas formalizan SFT → DPO → RL con recompensas verificables. Las cerradas usan muchas etapas de RLHF.
2025 (DeepSeek R1): el RL de razonamiento (R1) pone al RL a gran escala en el centro.
2026 (MiMo Flash V2): las recetas se fragmentan en muchos modelos especialistas que se fusionan de vuelta en uno solo.

¿Qué es MOPD y por qué emerge en 2026?

La Destilación On-Policy Multi-Profesor (Multi-teacher On-Policy Distillation, MOPD) es el patrón que aparece en toda la frontera 2026:

Se entrenan N profesores especialistas por dominio (cada uno: SFT, luego RL en los dominios relevantes).
Se entrena un único estudiante general muestreando sus propias trayectorias (este será el modelo final post-entrenado).
En cada rollout, se minimiza la divergencia KL inversa contra la distribución de salida del profesor relevante, token a token.

Linaje: MiMo Flash v2 lo introdujo, DeepSeek V4 y Nemotron 3 Ultra lo escalan a más de 10 profesores.

¿Por qué emergió MOPD?

El RL se puso caro y conflictivo. Mezclar matemáticas, código y RL agéntico en una misma corrida termina sacrificando capacidades entre sí.
Los especialistas son baratos de armar y escalan organizacionalmente. SFT-luego-RL sobre un solo dominio está bien entendido y paralelizable. Cuando el post-training se vuelve más complejo, escalarlo entre equipos es ganancia limpia.
La destilación on-policy maduró. La literatura y el know-how siguieron emergiendo durante el renacimiento del RLVR.

Fuentes: DeepSeek V4 §5.1, MiMo-V2-Flash.

¿Cuáles son las recetas históricas clave?

InstructGPT (marzo 2022): los tres pasos canónicos · paper

SFT sobre demostraciones humanas.
Reward model entrenado sobre comparaciones humanas.
PPO contra el reward model.

Llama 2 (julio 2023): RLHF multietapa · paper · recap de Interconnects

Llama 2: pretrain → SFT → RLHF iterativo con rejection sampling y PPO

SFT, luego RLHF iterativo sobre varias rondas.
Cada ronda: rejection sampling → PPO.
Dos reward models: helpfulness y seguridad separados.

Llama 3 (julio 2024): receta multietapa compleja con optimizadores simples · paper · recap

Llama 3 post-training: reward model → rejection sampling → SFT → DPO, iterado por rondas donde los mejores modelos alimentan la siguiente

Por ronda: reward model → muestrear K por prompt → rejection sampling → SFT → DPO.
Sin RL online: el RM solo filtra; se corre por 6 rondas, los mejores modelos siembran la siguiente.

Tülu 3 (noviembre 2024): post-training simple de tres etapas · paper · recap

Tülu 3: curar prompts → SFT → DPO → RLVR con suite de evaluación held-out

Curar prompts → SFT → DPO → RLVR (RL with verifiable rewards, acrónimo acuñado en este paper).

OLMo 3 (diciembre 2025): actualización de razonamiento sobre la receta de Tülu 3 · paper · recap

Flujo de modelos OLMo 3: Pretraining → Midtraining → Long context, luego ramas Think / Instruct / RL-Zero, cada una SFT → DPO → RLVR

DeepSeek R1 (enero 2025): el RL como pieza central · paper · recap

Pipeline multietapa de DeepSeek R1: R1-Zero, luego cold-start SFT → RL de razonamiento → rejection-sampling SFT → RL final

R1-Zero: RL puro (GRPO) sobre la base, sin SFT; usado para sembrar conductas de razonamiento en la corrida completa, no como producto separado.
R1: cold-start SFT → RL de razonamiento → rejection-sampling SFT → RL final → destilar a denso.
Gran cambio en recetas: RLVR a gran escala como driver primario; SFT para destilar y refinar conductas RL.

¿Cómo evolucionó DeepSeek después de V3?

V3 (diciembre 2024): SFT + GRPO RL.
R1 (enero 2025): RL multietapa; el razonamiento emerge.
V3.1 (agosto 2025): híbrido think / non-think en un solo modelo.
V3.2 (diciembre 2025): 6 especialistas vía RL → destilación SFT → un solo GRPO mezclado.
V4 (abril 2026): 10+ expertos de dominio → MOPD.

¿Qué recetas marcan el estilo 2026?

MiMo Flash v2 (enero 2026): donde empezó MOPD · paper

MiMo Flash v2 post-training: SFT → profesores de dominio → destilación on-policy multi-profesor

Etapas: Stage 1 SFT → Stage 2 entrenar ~6 profesores especialistas por dominio (con recetas de post-training más viejas) → Stage 3 MOPD hacia un único estudiante.

Primera articulación limpia de la destilación on-policy multi-profesor como paso de consolidación: reemplaza una etapa de RL monolítica por destilar-desde-especialistas.

Nemotron 3 Ultra (junio 2026): dos rondas, muchos profesores · paper

Nemotron 3 Ultra: destilación on-policy multi-profesor con dos iteraciones

Etapas: SFT → destilación on-policy multi-profesor, corrida en dos iteraciones, con más de 10 profesores cubriendo razonamiento, código, matemáticas y dominios agénticos.

Novedoso: MOPD multironda a través de dominios distintos: destilar y luego re-destilar desde profesores refrescados.

MAI-Thinking-1 (junio 2026): más cerca de R1 que de V4 · anuncio

MAI-Thinking-1: subidas de RL especialistas → SFT de destilación de trazas → consolidar → subida final

Etapas: base con mid-training → 3 "subidas" de RL especialistas (ej. STEM) → SFT de destilación de trazas para consolidarlas → subida RL final → MAI-Thinking-1.

Más cercano a DeepSeek R1 que a V4: RL multietapa con SFT de destilación de trazas para consolidar, sin MOPD on-policy. No es el único laboratorio sin MOPD.

Kimi K2.5 (enero 2026): agéntico, multimodal · paper · blog

Kimi K2.5 Agent Swarm: orquestación paralela autodirigida de agentes

Etapas: SFT solo-texto → RL conjunto texto-visión a través de coding, visión, razonamiento y tareas agénticas. No menciona MOPD.

GLM-5 (febrero 2026): RL escalonado por capacidad · paper

Pipeline GLM-5: Base → SFT → RL de Razonamiento → RL Agéntico → RL General con destilación entre etapas

Etapas: Base → SFT → RL de Razonamiento → RL Agéntico → RL General.

¿Qué deja el repaso para equipos open source en Chile y LatAm?

El mensaje práctico para grupos de investigación regional (Ai2-Chile, equipos de la UTFSM, UDP, PUC, U. de Chile, o startups que quieren cocinar su propio modelo desde un Llama o Qwen base) es claro: el camino de receta única SFT-DPO-RL todavía rinde, pero la frontera ya se movió a particionar el problema. La buena noticia: MOPD es organizacionalmente más barato que un RL monolítico, porque cada profesor especialista cabe en un equipo chico y se pueden entrenar en paralelo. Lo malo: necesitás múltiples corridas de RL bien ejecutadas antes de la consolidación, y la consolidación en sí requiere cómputo no trivial para muestrear trayectorias on-policy.

El episodio cubre además los capítulos de carrera profesional en la "carrera LLM" (minuto 48:22), un tema relevante para investigadores latinoamericanos que están decidiendo entre quedarse en academia regional, sumarse a laboratorios open source como Ai2, o moverse a frontier labs cerrados. Disponible en Apple Podcasts, Spotify y YouTube.

Post-training de frontera 2026: MOPD reemplaza al RL monolítico

Al grano

Por qué importa

¿Qué es MOPD y por qué emerge en 2026?

¿Cuáles son las recetas históricas clave?

¿Cómo evolucionó DeepSeek después de V3?

¿Qué recetas marcan el estilo 2026?

¿Qué deja el repaso para equipos open source en Chile y LatAm?

Seguir leyendo

NVIDIA acelera el entrenamiento MoE hasta 93% con kernels CuTe DSL

NVIDIA lanza Nemotron 3 Ultra: IA optimizada para agentes

NVIDIA BioNeMo Recipes: LoRA entrena modelos biológicos en una sola GPU

Los laboratorios de modelos se transforman en laboratorios de agentes IA

→Al grano

✦Por qué importa

¿Qué es MOPD y por qué emerge en 2026?

¿Cuáles son las recetas históricas clave?

¿Cómo evolucionó DeepSeek después de V3?

¿Qué recetas marcan el estilo 2026?

¿Qué deja el repaso para equipos open source en Chile y LatAm?

Seguir leyendo

NVIDIA acelera el entrenamiento MoE hasta 93% con kernels CuTe DSL

NVIDIA lanza Nemotron 3 Ultra: IA optimizada para agentes

NVIDIA BioNeMo Recipes: LoRA entrena modelos biológicos en una sola GPU

Los laboratorios de modelos se transforman en laboratorios de agentes IA

Al grano

Por qué importa