Un usuario del subreddit Local LLaMA, conocido como APFrisco, hizo correr en su workstation personal el modelo Kimi K2.5, un mixture-of-experts de un billón de parámetros (1 T en notación inglesa), apoyándose en un truco poco habitual: usar memoria Intel Optane Persistent Memory (PMem) descontinuada, comprada de segunda mano, como reemplazo masivo de RAM. El resultado fue una velocidad de inferencia local de aproximadamente 4 tokens por segundo, modesta para chat interactivo pero notable considerando el presupuesto.
¿Qué hardware usó el redditor?

El experimento se montó sobre una placa Tyan S5630GMRE-CGN con un único procesador Intel Xeon Gold 6246 y una sola GPU Nvidia RTX 3060 de 12 GB, lejos del rack de centro de datos que suele asociarse a inferencia de modelos frontier. La configuración de memoria es la verdadera estrella:
- Seis módulos Intel Optane DCPMM PC4-2666 de 128 GB cada uno (total: 768 GB persistentes)
- Seis módulos Samsung DDR4 ECC de 32 GB a 2666 MHz (192 GB) usados como caché
- SSD WD SN850X de 2 TB para almacenamiento
- Fuente ASRock Steel Legend de 850 W con certificación 80 PLUS Gold
El conjunto trabaja con la Optane configurada en memory mode: el sistema operativo ve toda la PMem como RAM volátil convencional y la DRAM Samsung opera como caché transparente delante.
¿Cómo configuró el software?

La pieza de software clave fue llama.cpp, el motor de inferencia comunitario, ejecutado en modo híbrido GPU/CPU. APFrisco aprovechó la arquitectura mixture-of-experts de Kimi K2.5: aunque el modelo tiene un billón de parámetros totales, solo una fracción se activa por token. El flag override-tensor de llama.cpp permitió alojar los componentes de routing dentro de los 12 GB de VRAM de la RTX 3060, dejando el resto de los pesos en el pool Optane.
La operación encaja con la afirmación de APFrisco en los comentarios del hilo, donde sostiene que comprar los DCPMM usados costó "mucho menos que la capacidad DRAM equivalente". Con el precio de la DRAM en alza por la demanda de servidores de IA, una solución exótica como esta empieza a verse menos absurda.
¿Por qué importa si Optane está muerto?
Intel descontinuó Optane en 2022. La PMem operaba en un punto intermedio entre la DRAM y los mejores SSD NVMe: latencia más alta que la primera, pero entre dos y tres veces más baja que el segundo. Para inferencia LLM con MoE, donde el cuello de botella es el ancho de banda de lectura sobre pesos parcialmente activos, ese perfil resulta sorpresivamente útil.
El experimento de APFrisco apunta a un mercado que sigue vivo aunque el producto haya muerto: memoria byte-direccionable de gran capacidad y costo intermedio. El estándar CXL (Compute Express Link) promete cubrir ese hueco con pools de memoria expandida compartida por nodos completos, y empresas como Astera Labs y Samsung ya tienen módulos comerciales en muestras. Mientras los precios bajan, el mercado de segunda mano de PMem ofrece un atajo asequible, al menos para entusiastas dispuestos a navegar foros y configurar manualmente llama.cpp.




