Zyphra subió el martes 6 de mayo de 2026 a arXiv el technical report de ZAYA1-8B, un modelo de lenguaje mixture-of-experts (MoE) enfocado en razonamiento que tiene dos características fuera de lo común: una es su tamaño activo, otra es la infraestructura sobre la que fue entrenado.
¿Qué es exactamente ZAYA1-8B?
Es un modelo construido sobre la arquitectura MoE++ de la propia Zyphra. Tiene 8.000 millones de parámetros totales, pero solo 700 millones activos por inferencia (es decir, en cada paso forward solo se activa una fracción de los expertos). Esa relación (menos de 1B activos sobre 8B totales) lo posiciona como un modelo de razonamiento extremadamente eficiente: según el paper, iguala o supera a DeepSeek-R1-0528 en varios benchmarks duros de matemáticas y programación, manteniéndose competitivo con modelos abiertos sustancialmente más grandes.
A diferencia de la mayoría de los modelos de razonamiento que se postentrenan con RL sobre un base general, ZAYA1 fue entrenado para razonar desde cero: incluye datos de razonamiento ya en el preentrenamiento usando un esquema de answer-preserving trimming. La intuición de Zyphra es que la capacidad razonadora gana mucho cuando se cocina en la receta inicial, no cuando se inyecta al final.
¿Qué pipeline de RL usaron?
El postentrenamiento es una cascada de cuatro etapas:
1. Reasoning warmup: matemáticas y puzzles para reactivar el patrón de razonamiento. 2. RLVE-Gym: un currículum de 400 tareas con verificación ejecutable. 3. Math y code RL con trazas de test-time compute y entornos sintéticos de código construidos a partir de referencias de programación competitiva. 4. Behavioral RL para chat e instruction-following.
El stack AMD: por qué importa
El dato técnicamente más interesante para la industria no es el modelo en sí, sino que todo el preentrenamiento, midtraining y SFT corrió sobre un stack full-AMD: cómputo (GPUs Instinct), networking y software. Hasta hace muy poco, entrenar un modelo de razonamiento competitivo fuera del ecosistema NVIDIA/CUDA era considerado impráctico por la madurez del software. ZAYA1-8B es uno de los primeros casos públicos donde un equipo demuestra que la pila AMD ya tolera workloads de frontier-research.
¿Qué es el Markovian RSA y para qué sirve?
El paper introduce además Markovian RSA, un método de test-time compute que agrega recursivamente trazas paralelas de razonamiento, llevando hacia adelante solo una "cola" de longitud acotada entre rondas. En la práctica permite escalar el cómputo en inferencia sin que el contexto explote.
Los resultados en TTC son contundentes: con apenas 4K tokens de cola arrastrados, Markovian RSA eleva ZAYA1-8B a 91,9% en AIME 2025 y 89,6% en HMMT 2025, dos benchmarks olímpicos de matemáticas. Esos números acercan al modelo a competidores varias veces más grandes como Gemini 2.5 Pro, DeepSeek-V3.2 y GPT-5-High.
¿Pesos abiertos? ¿Disponibilidad?
El paper está disponible en arXiv como 2605.05365, enviado por Quentin Anthony con Robert Washbourne como autor líder y otros 17 coautores. Al cierre de esta nota Zyphra no ha confirmado la fecha exacta de release de pesos, aunque el lenguaje del abstract sugiere fuertemente apertura ("competitive with substantially larger open-weight reasoning models" lo agrupa en esa familia). Conviene seguir el repositorio HuggingFace de Zyphra en los próximos días.




