Etiqueta

#zyphra

1 nota publicada

ZAYA1-8B: Zyphra entrena un MoE de razonamiento sobre stack AMD

El modelo MoE++ de 8B parámetros totales y 700M activos iguala o supera a DeepSeek-R1 en matemáticas y código según el technical report publicado en arXiv el 6 de mayo de 2026.

arXiv cs.AIhace 1 hora

Etiquetas relacionadas

Otros temas que aparecen junto a #zyphra en nuestra cobertura editorial.

#zaya11 #mixture-of-experts1 #amd1 #razonamiento1 #LLM1