La memoria es, posiblemente, la restricción más seria que enfrentan los modelos de lenguaje grandes (LLM) hoy. Según un paper influyente del área, la generación de tokens es una tarea inherentemente memory-bound: la velocidad a la que un modelo escupe texto está limitada por la rapidez con la que puede leer datos desde memoria. Y el problema empeora a medida que el modelo crece. Esa restricción es lo que la industria empezó a llamar el muro de memoria y lo que frena la inferencia de los LLM modernos.
Majestic Labs, un startup de hardware de IA, propone un enfoque directo y poco sutil al problema: un nuevo servidor llamado Prometheus con hasta 128 TB de memoria por chasis. Eso es más de 60 veces la memoria del DGX B300 de NVIDIA, uno de los racks de procesamiento de IA de referencia hoy.
Una arquitectura centrada en DRAM, no en HBM
Sha Rabii, cofundador y presidente de Majestic Labs, reconoce que "NVIDIA hizo un trabajo fenomenal creando un sistema que escala hacia afuera", pero argumenta que ese enfoque "se vuelve menos económico a medida que los modelos crecen y termina sobre-provisionando cómputo y matando de hambre a la memoria".
La diferencia técnica está en cómo se distribuye la memoria. Los servidores actuales de NVIDIA combinan una capa rápida y cara de HBM (high-bandwidth memory), que típicamente almacena los pesos del modelo, con una capa más grande pero más lenta de DRAM que maneja el resto del estado y los overheads del servidor. Majestic prescinde de la HBM y va todo a DRAM, específicamente LPDDR6, en una arquitectura unificada.
El problema histórico para hacer eso es físico. "La mayoría de las interfaces de memoria están diseñadas para operar sobre una distancia muy corta, a veces solo unos pocos milímetros", explica Rabii. Eso limita cuánta memoria se puede colocar cerca del cómputo. "Tenés esta línea de costa al borde del die de cómputo donde podés poner tu HBM. Si querés poner más, no podés."
Majestic resuelve esto con una interfaz de memoria propietaria construida con cables de cobre miniaturizados que funcionan hasta un metro de distancia. La interfaz se complementa con chips de agregación de memoria que se ubican físicamente junto a los módulos LPDDR6 y coordinan el acceso a través de todo el servidor. "Es un endpoint para esa interfaz de alta velocidad y se abre en abanico hacia muchos, muchos chips de DRAM commodity", explica Rabii. El resultado es no solo más capacidad, sino también hasta 25,6 TB/s de ancho de banda agregado.
Ignite: el procesador propio que reemplaza la GPU
Más memoria no sirve si no hay un acelerador a la altura. Majestic Labs construyó su propio chip: Ignite, un AI processing unit que actúa como motor de cómputo del servidor. El servidor Prometheus monta 12 chips Ignite en su configuración completa.
Ignite combina núcleos ARM de clase datacenter para orquestación con núcleos vectoriales y tensoriales RISC-V para el cálculo pesado, todo en un solo die y compartiendo el mismo espacio de memoria. Los núcleos ARM funcionan como host on-chip que coordina el modelo de IA, mientras que los núcleos RISC-V hacen el trabajo de inferencia LLM. La idea es eliminar los handoffs entre procesadores y atender múltiples aspectos de la inferencia en un solo chip. Majestic todavía no publicó métricas específicas de rendimiento.
Rabii admite que el software también es un frente delicado, porque muchos frameworks de IA están ya consolidados sobre el stack de NVIDIA. "Estamos tratando de reducir la fricción tanto como sea posible en cada aspecto de la adopción del cliente, ya sea físico o de software", dice. Prometheus va a soportar PyTorch, vLLM y Triton de OpenAI sin requerir modificaciones de código, lo que en teoría significa que cualquier modelo compatible con esos frameworks corre as-is.
Diseño del servidor y precio
Prometheus es compatible con Open Compute Project. Hasta cuatro servidores caben en un rack estándar; el consumo total estimado por rack es de hasta 120 kilowatts, y la disipación se maneja con refrigeración por cold-plate líquido. El diseño de memoria es modular, así que un servidor comprado con menos de los 128 TB máximos se puede ampliar después.
A pesar del despliegue técnico, Majestic quiere posicionar a Prometheus también por precio, lo que suena contraintuitivo dado el volumen de memoria. El argumento es que usar DRAM commodity en lugar de HBM les permite bajar el costo de manera estructural.
"El gasto de capital de nuestros clientes va a bajar, dependiendo del workload, entre 10 y 50 veces, y el consumo de energía baja en una proporción similar", afirma Rabii.
El precio aún no fue anunciado. Prometheus está previsto para envío en 2027.




