NVIDIA y David Silver codiseñan la infraestructura del nuevo RL

El arquitecto de AlphaGo y AlphaZero se alía con NVIDIA para construir pipelines de aprendizaje por refuerzo sobre Grace Blackwell y la futura plataforma Vera Rubin.

Publicado el 14 de mayo de 2026 · 12:10 p. m.3 min de lectura

Al grano

NVIDIA e Ineffable Intelligence se asociaron para codiseñar la infraestructura de aprendizaje por refuerzo a gran escala, anunciaron ambas empresas.

Ineffable es el laboratorio londinense que fundó David Silver, arquitecto de AlphaGo y AlphaZero en DeepMind.

El trabajo arranca sobre NVIDIA Grace Blackwell y será uno de los primeros despliegues exploratorios de la futura plataforma Vera Rubin.

Por qué importa

El anuncio dice más de lo que parece. NVIDIA hace dos años habría aparecido como proveedor en una nota así; hoy es coautora de la arquitectura. La pelea por la próxima frontera del aprendizaje, los sistemas que aprenden desde experiencia, se libra en hardware y silicio, no solo en pesos de modelos. Para LatAm: si Vera Rubin termina siendo la plataforma estándar de RL, el acceso a esos clusters definirá qué laboratorios pueden hacer ciencia con agentes.

NVIDIA y la startup londinense Ineffable Intelligence anunciaron una colaboración técnica para construir, desde cero, la infraestructura de hardware y software que necesita la próxima generación de sistemas de aprendizaje por refuerzo (reinforcement learning, RL). Ineffable es el laboratorio que David Silver, uno de los arquitectos de AlphaGo y AlphaZero en DeepMind, fundó tras salir de modo stealth la semana pasada.

¿Qué hace distinto al aprendizaje por refuerzo a escala?

El planteo de Silver es claro. "Los investigadores ya resolvieron el problema fácil de la IA: cómo construir sistemas que sepan todo lo que los humanos ya saben", dijo el cofundador. "Ahora hay que resolver el problema difícil, cómo construir sistemas que descubran conocimiento nuevo por sí mismos. Eso exige un enfoque muy distinto, sistemas que aprendan desde la experiencia."

Esa diferencia tiene consecuencias directas para la infraestructura. A diferencia del preentrenamiento, donde un dataset fijo de datos humanos atraviesa el sistema, los workloads de RL generan sus propios datos sobre la marcha. El sistema actúa, observa, puntúa y actualiza pesos en bucles cortos y continuos, lo que presiona el interconnect, el ancho de banda de memoria y la capa de servicio en formas que el preentrenamiento no produce. Además, el modelo termina aprendiendo formas de experiencia distintas del lenguaje humano, lo que puede exigir arquitecturas y algoritmos de entrenamiento nuevos.

¿Sobre qué hardware arranca el proyecto?

El trabajo comienza sobre NVIDIA Grace Blackwell, la plataforma actual para entrenamiento masivo, y será uno de los primeros despliegues exploratorios de la futura NVIDIA Vera Rubin, la generación siguiente de aceleradores anunciada en la última hoja de ruta de la compañía. El objetivo declarado por ambas empresas es entender qué necesita la próxima generación de hardware y software cuando los modelos dejan de aprender desde datos humanos y empiezan a aprender desde simulación y experiencia.

Jensen Huang, fundador y CEO de NVIDIA, fue explícito sobre la apuesta.

"La próxima frontera de la IA son los superlearners, sistemas que aprenden continuamente desde la experiencia. Estamos entusiasmados de asociarnos con Ineffable Intelligence para codiseñar la infraestructura del aprendizaje por refuerzo a gran escala mientras empujan la frontera de la IA y abren paso a una nueva generación de sistemas inteligentes."

¿Quién es Ineffable Intelligence y por qué importa?

Ineffable Intelligence salió de modo stealth la semana pasada con base en Londres. Su carta de presentación es David Silver, doctorado en Cambridge y uno de los nombres centrales detrás de AlphaGo, la IA que venció a Lee Sedol en 2016, y de AlphaZero, los dos hitos más reconocibles del aprendizaje por refuerzo de la década pasada. La tesis declarada del laboratorio es continuar el camino de los sistemas que descubren conocimiento por sí mismos, en lugar de imitar el corpus humano disponible.

Para NVIDIA la apuesta vale doble. Por un lado, pone su pila de cómputo en manos de un equipo con currículum probado en RL a escala extrema. Por otro, las cargas de RL son justamente las que más presionan los puntos débiles que Vera Rubin promete optimizar: interconnect, memoria HBM y orquestación de inferencia y entrenamiento en el mismo cluster. La categoría con la que NVIDIA publicó la noticia es elocuente: AI Infrastructure.

¿Qué viene después?

NVIDIA no entregó cronograma ni cifras de inversión, pero el comunicado deja entrever que ambas empresas usarán el proyecto para iterar sobre la próxima generación de chips y software. Si la apuesta funciona, el cluster de RL codiseñado conjuntamente podría convertirse en la plataforma de referencia para descubrimiento autónomo en cualquier campo, desde matemáticas hasta ciencia de materiales, sin depender del corpus disponible en internet.

NVIDIA y David Silver codiseñan la infraestructura del nuevo RL

Al grano

Por qué importa

¿Qué hace distinto al aprendizaje por refuerzo a escala?

¿Sobre qué hardware arranca el proyecto?

¿Quién es Ineffable Intelligence y por qué importa?

¿Qué viene después?

Seguir leyendo

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

Optimización de memoria para modelos grandes en NVIDIA Jetson

OpenClaw: el agente IA local que estalló en GitHub

NVIDIA impulsa la manufactura con IA en Hannover Messe 2026

→Al grano

✦Por qué importa

¿Qué hace distinto al aprendizaje por refuerzo a escala?

¿Sobre qué hardware arranca el proyecto?

¿Quién es Ineffable Intelligence y por qué importa?

¿Qué viene después?

Seguir leyendo

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

Optimización de memoria para modelos grandes en NVIDIA Jetson

OpenClaw: el agente IA local que estalló en GitHub

NVIDIA impulsa la manufactura con IA en Hannover Messe 2026

Al grano

Por qué importa