ZAYA1-8B: Zyphra entrena un MoE de razonamiento sobre stack AMD

El modelo MoE++ de 8B parámetros totales y 700M activos iguala o supera a DeepSeek-R1 en matemáticas y código según el technical report publicado en arXiv el 6 de mayo de 2026.

Publicado el 10 de mayo de 2026 · 02:58 a. m.2 min de lectura

Al grano

Zyphra publicó en arXiv el technical report de ZAYA1-8B, un MoE de 8B parámetros totales y solo 700M activos enfocado en razonamiento.

Todo el preentrenamiento, midtraining y SFT corrió sobre stack full-AMD, una de las primeras demostraciones públicas de training de frontera fuera de NVIDIA.

Iguala o supera a DeepSeek-R1-0528 en matemáticas y código, con un postentrenamiento de 4 etapas que incluye un currículum RLVE-Gym de 400 tareas.

Por qué importa

Lo importante de ZAYA1-8B no es el modelo, es la prueba de concepto: una startup pequeña entrenó un razonador de frontera sobre stack AMD end-to-end. Eso rompe un argumento que NVIDIA viene usando hace cinco años para justificar márgenes premium. Si Zyphra abre los pesos y publica el código de entrenamiento, AMD pasa de ser opción para inferencia a opción para training serio. Para LATAM importa porque baja el piso de costo de cualquier proyecto soberano de modelo regional.

Zyphra subió el martes 6 de mayo de 2026 a arXiv el technical report de ZAYA1-8B, un modelo de lenguaje mixture-of-experts (MoE) enfocado en razonamiento que tiene dos características fuera de lo común: una es su tamaño activo, otra es la infraestructura sobre la que fue entrenado.

¿Qué es exactamente ZAYA1-8B?

Es un modelo construido sobre la arquitectura MoE++ de la propia Zyphra. Tiene 8.000 millones de parámetros totales, pero solo 700 millones activos por inferencia (es decir, en cada paso forward solo se activa una fracción de los expertos). Esa relación (menos de 1B activos sobre 8B totales) lo posiciona como un modelo de razonamiento extremadamente eficiente: según el paper, iguala o supera a DeepSeek-R1-0528 en varios benchmarks duros de matemáticas y programación, manteniéndose competitivo con modelos abiertos sustancialmente más grandes.

A diferencia de la mayoría de los modelos de razonamiento que se postentrenan con RL sobre un base general, ZAYA1 fue entrenado para razonar desde cero: incluye datos de razonamiento ya en el preentrenamiento usando un esquema de answer-preserving trimming. La intuición de Zyphra es que la capacidad razonadora gana mucho cuando se cocina en la receta inicial, no cuando se inyecta al final.

¿Qué pipeline de RL usaron?

El postentrenamiento es una cascada de cuatro etapas:

1. Reasoning warmup: matemáticas y puzzles para reactivar el patrón de razonamiento. 2. RLVE-Gym: un currículum de 400 tareas con verificación ejecutable. 3. Math y code RL con trazas de test-time compute y entornos sintéticos de código construidos a partir de referencias de programación competitiva. 4. Behavioral RL para chat e instruction-following.

El stack AMD: por qué importa

El dato técnicamente más interesante para la industria no es el modelo en sí, sino que todo el preentrenamiento, midtraining y SFT corrió sobre un stack full-AMD: cómputo (GPUs Instinct), networking y software. Hasta hace muy poco, entrenar un modelo de razonamiento competitivo fuera del ecosistema NVIDIA/CUDA era considerado impráctico por la madurez del software. ZAYA1-8B es uno de los primeros casos públicos donde un equipo demuestra que la pila AMD ya tolera workloads de frontier-research.

¿Qué es el Markovian RSA y para qué sirve?

El paper introduce además Markovian RSA, un método de test-time compute que agrega recursivamente trazas paralelas de razonamiento, llevando hacia adelante solo una "cola" de longitud acotada entre rondas. En la práctica permite escalar el cómputo en inferencia sin que el contexto explote.

Los resultados en TTC son contundentes: con apenas 4K tokens de cola arrastrados, Markovian RSA eleva ZAYA1-8B a 91,9% en AIME 2025 y 89,6% en HMMT 2025, dos benchmarks olímpicos de matemáticas. Esos números acercan al modelo a competidores varias veces más grandes como Gemini 2.5 Pro, DeepSeek-V3.2 y GPT-5-High.

¿Pesos abiertos? ¿Disponibilidad?

El paper está disponible en arXiv como 2605.05365, enviado por Quentin Anthony con Robert Washbourne como autor líder y otros 17 coautores. Al cierre de esta nota Zyphra no ha confirmado la fecha exacta de release de pesos, aunque el lenguaje del abstract sugiere fuertemente apertura ("competitive with substantially larger open-weight reasoning models" lo agrupa en esa familia). Conviene seguir el repositorio HuggingFace de Zyphra en los próximos días.

ZAYA1-8B: Zyphra entrena un MoE de razonamiento sobre stack AMD

Al grano

Por qué importa

¿Qué es exactamente ZAYA1-8B?

¿Qué pipeline de RL usaron?

El stack AMD: por qué importa

¿Qué es el Markovian RSA y para qué sirve?

¿Pesos abiertos? ¿Disponibilidad?

Seguir leyendo

Optimización de memoria para modelos grandes en NVIDIA Jetson

OpenClaw: el agente IA local que estalló en GitHub

NVIDIA impulsa la manufactura con IA en Hannover Messe 2026

Cómo usar DeepSeek V4 con NVIDIA Blackwell y endpoints acelerados

→Al grano

✦Por qué importa

¿Qué es exactamente ZAYA1-8B?

¿Qué pipeline de RL usaron?

El stack AMD: por qué importa

¿Qué es el Markovian RSA y para qué sirve?

¿Pesos abiertos? ¿Disponibilidad?

Seguir leyendo

Optimización de memoria para modelos grandes en NVIDIA Jetson

OpenClaw: el agente IA local que estalló en GitHub

NVIDIA impulsa la manufactura con IA en Hannover Messe 2026

Cómo usar DeepSeek V4 con NVIDIA Blackwell y endpoints acelerados

Al grano

Por qué importa