Optane PMem usada corre Kimi K2.5 a 4 tokens/s en una RTX 3060

Un usuario del subreddit Local LLaMA muestra que seis módulos Intel Optane DCPMM de segunda mano alcanzan para alojar un mixture-of-experts de un billón de parámetros con una sola GPU.

Publicado el 23 de mayo de 2026 · 06:10 p. m.2 min de lectura

Al grano

Un redditor corrió Kimi K2.5 de un billón de parámetros a cuatro tokens por segundo usando 768 GB de Optane PMem usados.

El stack incluye Xeon Gold 6246, RTX 3060 de 12 GB y seis Optane DCPMM de 128 GB en modo memory.

llama.cpp con el flag override-tensor mete el routing del MoE en VRAM y deja los pesos en Optane.

Por qué importa

La historia de APFrisco ilustra cómo el alza de la DRAM está reconfigurando la economía de la inferencia LLM en local. Optane fracasó cuando la DRAM era barata; hoy, con la inversión en IA empujando los precios de la memoria al alza, los DCPMM de segunda mano se vuelven alternativa razonable para entusiastas y laboratorios pequeños. La señal de fondo es clara: el hueco entre DRAM y SSD vuelve a ser comercialmente relevante, y CXL llega tarde a una demanda que ya existe.

Un usuario del subreddit Local LLaMA, conocido como APFrisco, hizo correr en su workstation personal el modelo Kimi K2.5, un mixture-of-experts de un billón de parámetros (1 T en notación inglesa), apoyándose en un truco poco habitual: usar memoria Intel Optane Persistent Memory (PMem) descontinuada, comprada de segunda mano, como reemplazo masivo de RAM. El resultado fue una velocidad de inferencia local de aproximadamente 4 tokens por segundo, modesta para chat interactivo pero notable considerando el presupuesto.

¿Qué hardware usó el redditor?

El experimento se montó sobre una placa Tyan S5630GMRE-CGN con un único procesador Intel Xeon Gold 6246 y una sola GPU Nvidia RTX 3060 de 12 GB, lejos del rack de centro de datos que suele asociarse a inferencia de modelos frontier. La configuración de memoria es la verdadera estrella:

Seis módulos Intel Optane DCPMM PC4-2666 de 128 GB cada uno (total: 768 GB persistentes)
Seis módulos Samsung DDR4 ECC de 32 GB a 2666 MHz (192 GB) usados como caché
SSD WD SN850X de 2 TB para almacenamiento
Fuente ASRock Steel Legend de 850 W con certificación 80 PLUS Gold

El conjunto trabaja con la Optane configurada en memory mode: el sistema operativo ve toda la PMem como RAM volátil convencional y la DRAM Samsung opera como caché transparente delante.

¿Cómo configuró el software?

La pieza de software clave fue llama.cpp, el motor de inferencia comunitario, ejecutado en modo híbrido GPU/CPU. APFrisco aprovechó la arquitectura mixture-of-experts de Kimi K2.5: aunque el modelo tiene un billón de parámetros totales, solo una fracción se activa por token. El flag override-tensor de llama.cpp permitió alojar los componentes de routing dentro de los 12 GB de VRAM de la RTX 3060, dejando el resto de los pesos en el pool Optane.

La operación encaja con la afirmación de APFrisco en los comentarios del hilo, donde sostiene que comprar los DCPMM usados costó "mucho menos que la capacidad DRAM equivalente". Con el precio de la DRAM en alza por la demanda de servidores de IA, una solución exótica como esta empieza a verse menos absurda.

¿Por qué importa si Optane está muerto?

Intel descontinuó Optane en 2022. La PMem operaba en un punto intermedio entre la DRAM y los mejores SSD NVMe: latencia más alta que la primera, pero entre dos y tres veces más baja que el segundo. Para inferencia LLM con MoE, donde el cuello de botella es el ancho de banda de lectura sobre pesos parcialmente activos, ese perfil resulta sorpresivamente útil.

El experimento de APFrisco apunta a un mercado que sigue vivo aunque el producto haya muerto: memoria byte-direccionable de gran capacidad y costo intermedio. El estándar CXL (Compute Express Link) promete cubrir ese hueco con pools de memoria expandida compartida por nodos completos, y empresas como Astera Labs y Samsung ya tienen módulos comerciales en muestras. Mientras los precios bajan, el mercado de segunda mano de PMem ofrece un atajo asequible, al menos para entusiastas dispuestos a navegar foros y configurar manualmente llama.cpp.

Optane PMem usada corre Kimi K2.5 a 4 tokens/s en una RTX 3060

Al grano

Por qué importa

¿Qué hardware usó el redditor?

¿Cómo configuró el software?

¿Por qué importa si Optane está muerto?

Seguir leyendo

EMO: el MoE de Ai2 corre con solo 12,5% de sus expertos

Gemini 3.5 Flash sube 6x el precio vs 3.1 Flash-Lite

ExecuTorch MLX: PyTorch acelera en GPU de Apple Silicon

Mira Murati estrena modelo IA que supera a GPT-Realtime 2

→Al grano

✦Por qué importa

¿Qué hardware usó el redditor?

¿Cómo configuró el software?

¿Por qué importa si Optane está muerto?

Seguir leyendo

EMO: el MoE de Ai2 corre con solo 12,5% de sus expertos

Gemini 3.5 Flash sube 6x el precio vs 3.1 Flash-Lite

ExecuTorch MLX: PyTorch acelera en GPU de Apple Silicon

Mira Murati estrena modelo IA que supera a GPT-Realtime 2

Al grano

Por qué importa