
IA
ZAYA1-8B: Zyphra entrena un MoE de razonamiento sobre stack AMD
El modelo MoE++ de 8B parámetros totales y 700M activos iguala o supera a DeepSeek-R1 en matemáticas y código según el technical report publicado en arXiv el 6 de mayo de 2026.
arXiv cs.AI