Majestic Labs Prometheus: 128 TB de DRAM contra el muro de memoria

El startup de hardware AI promete 60 veces más memoria que el DGX B300 de NVIDIA, con 12 chips Ignite (ARM + RISC-V), bandwidth de 25,6 TB/s y envío previsto para 2027.

Publicado el 2 de junio de 2026 · 03:37 p. m.4 min de lectura

Al grano

Majestic Labs presentó Prometheus, un servidor de IA con hasta 128 TB de LPDDR6, más de 60 veces la memoria del DGX B300 de NVIDIA.

El sistema usa una interfaz de cobre propietaria de hasta un metro y 12 chips Ignite (ARM + RISC-V) para alcanzar 25,6 TB/s de ancho de banda.

Prometheus soporta PyTorch, vLLM y Triton sin modificaciones de código y es compatible con Open Compute Project, con un rack de hasta 120 kW.

Por qué importa

El planteo es contracíclico y por eso interesante: mientras la industria persigue HBM para llenar gargantas de bandwidth, Majestic apuesta a que el cuello real es capacidad y se ataca con DRAM commodity bien empaquetada. La pregunta abierta es si los benchmarks van a aguantar la promesa: todavía no hay números reales y el plazo de 2027 es eterno en este mercado. Si funciona, abre una grieta concreta al dominio de NVIDIA en inferencia de modelos grandes.

La memoria es, posiblemente, la restricción más seria que enfrentan los modelos de lenguaje grandes (LLM) hoy. Según un paper influyente del área, la generación de tokens es una tarea inherentemente memory-bound: la velocidad a la que un modelo escupe texto está limitada por la rapidez con la que puede leer datos desde memoria. Y el problema empeora a medida que el modelo crece. Esa restricción es lo que la industria empezó a llamar el muro de memoria y lo que frena la inferencia de los LLM modernos.

Majestic Labs, un startup de hardware de IA, propone un enfoque directo y poco sutil al problema: un nuevo servidor llamado Prometheus con hasta 128 TB de memoria por chasis. Eso es más de 60 veces la memoria del DGX B300 de NVIDIA, uno de los racks de procesamiento de IA de referencia hoy.

Una arquitectura centrada en DRAM, no en HBM

Sha Rabii, cofundador y presidente de Majestic Labs, reconoce que "NVIDIA hizo un trabajo fenomenal creando un sistema que escala hacia afuera", pero argumenta que ese enfoque "se vuelve menos económico a medida que los modelos crecen y termina sobre-provisionando cómputo y matando de hambre a la memoria".

La diferencia técnica está en cómo se distribuye la memoria. Los servidores actuales de NVIDIA combinan una capa rápida y cara de HBM (high-bandwidth memory), que típicamente almacena los pesos del modelo, con una capa más grande pero más lenta de DRAM que maneja el resto del estado y los overheads del servidor. Majestic prescinde de la HBM y va todo a DRAM, específicamente LPDDR6, en una arquitectura unificada.

El problema histórico para hacer eso es físico. "La mayoría de las interfaces de memoria están diseñadas para operar sobre una distancia muy corta, a veces solo unos pocos milímetros", explica Rabii. Eso limita cuánta memoria se puede colocar cerca del cómputo. "Tenés esta línea de costa al borde del die de cómputo donde podés poner tu HBM. Si querés poner más, no podés."

Majestic resuelve esto con una interfaz de memoria propietaria construida con cables de cobre miniaturizados que funcionan hasta un metro de distancia. La interfaz se complementa con chips de agregación de memoria que se ubican físicamente junto a los módulos LPDDR6 y coordinan el acceso a través de todo el servidor. "Es un endpoint para esa interfaz de alta velocidad y se abre en abanico hacia muchos, muchos chips de DRAM commodity", explica Rabii. El resultado es no solo más capacidad, sino también hasta 25,6 TB/s de ancho de banda agregado.

Ignite: el procesador propio que reemplaza la GPU

Más memoria no sirve si no hay un acelerador a la altura. Majestic Labs construyó su propio chip: Ignite, un AI processing unit que actúa como motor de cómputo del servidor. El servidor Prometheus monta 12 chips Ignite en su configuración completa.

Ignite combina núcleos ARM de clase datacenter para orquestación con núcleos vectoriales y tensoriales RISC-V para el cálculo pesado, todo en un solo die y compartiendo el mismo espacio de memoria. Los núcleos ARM funcionan como host on-chip que coordina el modelo de IA, mientras que los núcleos RISC-V hacen el trabajo de inferencia LLM. La idea es eliminar los handoffs entre procesadores y atender múltiples aspectos de la inferencia en un solo chip. Majestic todavía no publicó métricas específicas de rendimiento.

Rabii admite que el software también es un frente delicado, porque muchos frameworks de IA están ya consolidados sobre el stack de NVIDIA. "Estamos tratando de reducir la fricción tanto como sea posible en cada aspecto de la adopción del cliente, ya sea físico o de software", dice. Prometheus va a soportar PyTorch, vLLM y Triton de OpenAI sin requerir modificaciones de código, lo que en teoría significa que cualquier modelo compatible con esos frameworks corre as-is.

Diseño del servidor y precio

Prometheus es compatible con Open Compute Project. Hasta cuatro servidores caben en un rack estándar; el consumo total estimado por rack es de hasta 120 kilowatts, y la disipación se maneja con refrigeración por cold-plate líquido. El diseño de memoria es modular, así que un servidor comprado con menos de los 128 TB máximos se puede ampliar después.

A pesar del despliegue técnico, Majestic quiere posicionar a Prometheus también por precio, lo que suena contraintuitivo dado el volumen de memoria. El argumento es que usar DRAM commodity en lugar de HBM les permite bajar el costo de manera estructural.

"El gasto de capital de nuestros clientes va a bajar, dependiendo del workload, entre 10 y 50 veces, y el consumo de energía baja en una proporción similar", afirma Rabii.

El precio aún no fue anunciado. Prometheus está previsto para envío en 2027.

Majestic Labs Prometheus: 128 TB de DRAM contra el muro de memoria

Al grano

Por qué importa

Una arquitectura centrada en DRAM, no en HBM

Ignite: el procesador propio que reemplaza la GPU

Diseño del servidor y precio

Seguir leyendo

NVIDIA DynoSim: gemelo digital de Dynamo a 1.500× tiempo real

NVIDIA Vera CPU: 88 cores Olympus para fábricas agénticas

NVIDIA Vera Rubin: red determinista para IA agéntica

NVIDIA Vera, el primer CPU para agentes con 88 cores y 1,2 TB/s

→Al grano

✦Por qué importa

Una arquitectura centrada en DRAM, no en HBM

Ignite: el procesador propio que reemplaza la GPU

Diseño del servidor y precio

Seguir leyendo

NVIDIA DynoSim: gemelo digital de Dynamo a 1.500× tiempo real

NVIDIA Vera CPU: 88 cores Olympus para fábricas agénticas

NVIDIA Vera Rubin: red determinista para IA agéntica

NVIDIA Vera, el primer CPU para agentes con 88 cores y 1,2 TB/s

Al grano

Por qué importa