Etiqueta

#mixture of experts

5 notas publicadas

Optane PMem usada corre Kimi K2.5 a 4 tokens/s en una RTX 3060

Un usuario del subreddit Local LLaMA muestra que seis módulos Intel Optane DCPMM de segunda mano alcanzan para alojar un mixture-of-experts de un billón de parámetros con una sola GPU.

Tom's Hardware23 may

EMO: el MoE de Ai2 corre con solo 12,5% de sus expertos

Ai2 y UC Berkeley entrenaron un mixture-of-experts cuyos expertos se especializan por dominio temático, no por patrones gramaticales: permite descartar 3/4 perdiendo solo un punto porcentual.

The Decoder17 may

AntAngelMed: el LLM médico open source de 103B parámetros y MoE

Un equipo chino libera el LLM médico más grande disponible bajo Apache 2.0, con MoE que activa solo 6,1B parámetros y supera modelos propietarios en HealthBench.

MarkTechPost13 may

Baidu lanza Ernie 5.1 con 94% menos costo de pre-training

El nuevo modelo de Baidu se destila desde Ernie 5.0 con cerca de un tercio de los parámetros y el 6% del costo de entrenamiento, alcanzando el 4° lugar global del Search Arena con 1.223 puntos.

The Decoder12 may

NVIDIA Nemotron 3 Nano Omni unifica video, audio e imagen en un modelo

El nuevo modelo de 30B con arquitectura mixture-of-experts apunta a reemplazar las pilas fragmentadas de visión, voz y lenguaje dentro de los sistemas agénticos.

NVIDIA Developer29 abr

Etiquetas relacionadas

Otros temas que aparecen junto a #mixture of experts en nuestra cobertura editorial.

#LLM3 #Open Source2 #Nvidia1 #nemotron1 #multimodal1 #Agentes IA1 #baidu1 #ernie1