
Optane PMem usada corre Kimi K2.5 a 4 tokens/s en una RTX 3060
Un usuario del subreddit Local LLaMA muestra que seis módulos Intel Optane DCPMM de segunda mano alcanzan para alojar un mixture-of-experts de un billón de parámetros con una sola GPU.
5 notas publicadas

Ai2 y UC Berkeley entrenaron un mixture-of-experts cuyos expertos se especializan por dominio temático, no por patrones gramaticales: permite descartar 3/4 perdiendo solo un punto porcentual.

Un equipo chino libera el LLM médico más grande disponible bajo Apache 2.0, con MoE que activa solo 6,1B parámetros y supera modelos propietarios en HealthBench.

El nuevo modelo de Baidu se destila desde Ernie 5.0 con cerca de un tercio de los parámetros y el 6% del costo de entrenamiento, alcanzando el 4° lugar global del Search Arena con 1.223 puntos.

El nuevo modelo de 30B con arquitectura mixture-of-experts apunta a reemplazar las pilas fragmentadas de visión, voz y lenguaje dentro de los sistemas agénticos.
Otros temas que aparecen junto a #mixture of experts en nuestra cobertura editorial.