Mientras los hyperscalers corren a expandirse impulsados por la demanda de data centers para inteligencia artificial, Marvell presentó la semana pasada su visión para una solución de interconexión óptica que, en teoría, permitirá pool de recursos entre data centers discretos separados por miles de kilómetros.

Las interconexiones ópticas se están desplegando de forma sostenida en la industria, tanto en conexiones de corta como de larga distancia, y vamos a ver mucho más en el futuro, según Matt Murphy, CEO de Marvell, hablando en Computex 2026.

"Imaginen futuros data centers, una infraestructura de datos ópticamente interconectada de forma global", dijo Murphy. "Estos límites rígidos que tenemos hoy, y los sistemas que tenemos, empiezan a desaparecer. El cómputo se puede agrupar, la memoria se puede agrupar y la infraestructura se puede componer dinámicamente a escala."

Las limitaciones de la distancia

Murphy explica que los workloads ya no caben en un solo data center, motivo por el cual los proveedores cloud a escala hyperscaler cada vez necesitan construir campus enteros compuestos por múltiples data centers conectados por enlaces de alta velocidad: los clusters se vuelven más grandes que un único data center.

Hoy, conectar varios data centers dentro de un mismo campus no es ni fácil ni barato, pero es relativamente directo. Marvell, sin embargo, prevé que en el futuro será necesario conectar data centers ubicados a distancias considerables entre sí.

Por eso la compañía trabaja en óptica coherente y tecnologías de redes ópticas de larga distancia que conectarán data centers separados por miles de kilómetros. Marvell ya tiene productos que habilitan este tipo de conectividad: la solución óptica coherente Colorz 1600 de 1,6 Tb/s basada en un DSP de 2 nm, que apunta a conectividad entre data centers y comenzará a muestrear este año.

Además, Marvell ofrecerá la familia Ara de interconexiones de 1,6 Tb/s para data centers (con DSPs de 3 nm) y el switch Ethernet Teralynx T100 de 102,4 Tb/s, que soporta 512 puertos corriendo a 200 Gb/s o 64 puertos a 1,6 Tb/s.

Murphy argumenta que las arquitecturas de hoy están restringidas por distancia debido a los interconnects de cobre. Las CPUs se ubican cerca de la memoria porque la latencia importa; las GPUs se ubican cerca de la memoria porque el ancho de banda importa. Como resultado, los workloads deben partirse según esos límites físicos. El CEO de Marvell afirma que cuando los interconnects ópticos penetren los enlaces scale-up, los dominios scale-up dejarán de estar limitados por la longitud de los cables de cobre, y esas restricciones empezarán a disolverse.

Hoy, las soluciones scale-up de IA, como el sistema NVL72 de NVIDIA, se conectan con cables de cobre, mientras que las conexiones scale-out tienden a usar interconnects ópticos. Cuando crezca la cantidad de aceleradores de IA dentro de los sistemas scale-up, también deberán pasar a enlaces ópticos, según Marvell. Eso implica que prácticamente todas las interconexiones de grado data center se volverán ópticas, lo que podría motivar a los diseñadores de hardware a repensar la arquitectura completa de los data centers.

Pooling de recursos: el caso fuerte

Murphy presentó una visión interesante: primero, la óptica expandirá los dominios scale-up de 72 o 144 aceleradores a 1.000 o más. Después, la conectividad óptica entrará a los servidores. Eso permitirá a los desarrolladores desagregar CPUs, aceleradores (que Marvell llama XPUs) y memoria en pools separados, porque la distancia dejará de importar y la configurabilidad y utilización pasarán a ser mucho mejores.

"Es un data center sin distancia, donde cómputo, memoria, red y fotónica operan como un sistema unificado, donde millones de recursos del data center pueden trabajar juntos como si fueran una sola máquina", afirmó el CEO de Marvell.

Considerando que los hyperscalers despliegan hardware por miles de millones de dólares, incluso un 10% más de utilización significa ahorros enormes. Compañías como NVIDIA están claramente prestando atención.

"En los sistemas de hoy, la relación entre CPU y XPU o GPU es fija, así que esa proporción tiene que definirse al momento en que el sistema se construye y despliega, pero ningún par de workloads requiere exactamente la misma proporción", recalcó Murphy. "Imaginemos una arquitectura completamente desagregada, XPUs en un sistema, memoria en otro, CPUs genéricas en otro."

Hoy, las empresas compran algo como un NVL72 y reciben una proporción fija de CPUs, GPUs y memoria que puede ser eficiente para ciertos workloads y mucho menos para otros. En el futuro, los operadores podrán armar una máquina virtual desde pools compartidos de sistemas, lo que permitirá customizar la configuración según el tipo de workload. Si un workload necesita más memoria que cómputo, hoy los operadores tienen que comprar GPUs adicionales solo para obtener el HBM extra; en el escenario de Marvell, podrán comprar solo memoria.

"Una vez que descompongamos el sistema en pools separados de cómputo y memoria, y todos estén ópticamente interconectados, podremos componer sistemas dedicados al vuelo, optimizados donde esté el workload", dijo Murphy. "Por primera vez, los arquitectos pueden empezar a diseñar sistemas de IA en torno a las necesidades del modelo, no en torno a los límites del interconnect."

Un detalle incómodo de física

Si bien Marvell tiene el know-how para interconectar data centers a miles de kilómetros y tecnologías que habilitan data centers pooled, esas dos visiones no necesariamente se cruzan. Data centers ubicados a miles de kilómetros no pueden compartir recursos en tiempo real: un round-trip de 1.000 kilómetros toma a la luz 10 milisegundos, lo que vuelve ineficiente el resource sharing de larga distancia desde el punto de vista de latencia.

Sin embargo, las tecnologías de Marvell sí permiten a los CSP hyperscaler sincronizar campus de IA, acceder a almacenamiento distribuido, replicar datos y realizar otras operaciones que no dependen estrictamente de la latencia. La sincronización de campus de IA en distintos continentes en cuestión de horas podría ser una killer app para los hyperscalers.

Las cifras a recordar: Colorz 1600 entrega 1,6 Tb/s con DSP de 2 nm; Teralynx T100 alcanza 102,4 Tb/s con 512 puertos a 200 Gb/s; y la luz necesita 10 ms para recorrer 1.000 km de ida y vuelta. Esa última cifra es la que dicta qué tipo de pooling es posible y cuál no.