Cada ola de IA ha creado una nueva ley de escalamiento. El pre-entrenamiento escaló la inteligencia mediante datasets más grandes, más parámetros y sistemas GPU masivamente paralelos. El post-entrenamiento escaló utilidad con instruction tuning y re-balanceo de GPUs para inferencia generativa. El test-time scaling mejoró el razonamiento entregando a los modelos más tokens generados para pensar.
Ahora, la IA agéntica y el aprendizaje por refuerzo escalan acciones. Los modelos dan más pasos, llaman a más herramientas, ejecutan más evaluaciones e interactúan con entornos de ejecución para realizar tareas.
Este artículo explica cómo los NVIDIA Vera CPU ayudan a las fábricas de IA a escalar IA agéntica y aprendizaje por refuerzo acortando el tiempo de ejecución del CPU, aumentando el throughput de tareas, mejorando la salida total de la fábrica y habilitando agentes más inteligentes y con razonamiento más largo.

¿Por qué el CPU pesa más en la era agéntica?
Las GPUs siguen siendo esenciales para inferencia y entrenamiento de modelos. Pero a lo largo de la IA agéntica, el aprendizaje por refuerzo y los servicios de IA intensivos en datos, gran parte de la ejecución que rodea al modelo corre sobre CPUs, por ejemplo:
- Código en sandbox y ejecución de herramientas
- Recuperación y procesamiento de datos
- Cómputo de resultados
- Scheduling y orquestación
Es un loop preciso:
- Un prompt (sea del usuario, tokens de razonamiento o el resultado de un turno previo) gatilla la generación: "debería compilar y ejecutar hello.c".
- La GPU genera los parámetros del tool call que se ejecutará en CPU:
gcc -o hello hello.c ; ./hello. - El CPU ejecuta el tool call y produce resultados que alimentan de vuelta a las GPUs para actualizar los pesos durante el aprendizaje por refuerzo, o que usa el agente para generar el siguiente prompt: Output: 'Hello, world!' – Task Returned (0) – Successful.
- La GPU genera tokens de razonamiento gatillados por el resultado: "¡funcionó!".
A medida que los agentes se vuelven más capaces, dan más pasos, llaman más herramientas y corren más chequeos. El tiempo de CPU se acumula a lo largo de cada solicitud.
Eso convierte al CPU en parte del camino crítico. Ya no es solo un procesador anfitrión alimentando a la GPU. Determina latencia, utilización del acelerador y salida por watt y por dólar de la fábrica de IA.
Durante la última década, gran parte del mercado de CPU para data centers se optimizó alrededor de la economía cloud: más cores, más máquinas virtuales y menor costo por core. Eso sigue siendo importante para servicios cloud de propósito general, pero el rendimiento por core no mejoró al mismo ritmo.
A esto se suma el fin de la ley de Moore, que limitó las mejoras de rendimiento generación tras generación en CPUs, mientras las arquitecturas y workloads de GPU se beneficiaban de un ciclo continuo de co-optimización.
Las fábricas de IA cambian la métrica de cores por dólar a tokens por dólar: de cuántos cores puede arrendar un data center, a cuánta salida de IA puede producir.
Eso exige un nuevo punto de diseño de CPU para fábricas de IA:
- Alto conteo de cores para correr miles de agentes concurrentes, entornos de RL, sandboxes y servicios.
- Alto rendimiento por core, porque cada paso agéntico depende de ejecución secuencial.
- Ancho de banda de memoria energéticamente eficiente para mantener los datos en movimiento sin convertir la infraestructura del CPU en un cuello de botella.

El NVIDIA Vera CPU: construido para agentes de IA
El NVIDIA Vera CPU está diseñado para la realidad de los workloads modernos, con rendimiento rápido por core, alta concurrencia y ancho de banda de memoria eficiente en energía para mantener la fábrica de IA en movimiento.
El Vera CPU combina 88 cores NVIDIA Olympus con hasta 1,2 TB/s de ancho de banda LPDDR5X para mantener los cores alimentados durante tool calls, ejecución en sandbox de código nativo y lenguajes como Python o JavaScript, recuperación de datos, procesamiento y orquestación.
El requisito clave es rendimiento rápido por core, sostenido todo el tiempo. A diferencia de las máquinas virtuales cloud, los sockets de CPU se mantienen completamente cargados, realizando el trabajo de muchos agentes concurrentes. Cores que se mantienen rápidos bajo alta carga del sistema reducen el tiempo de completitud de tareas, entregando resultados más rápidos y liberando recursos para servir la siguiente solicitud.
Para los agentes, esto significa menor latencia en solicitudes multistep. Para el aprendizaje por refuerzo, significa más evaluaciones completadas y más datos por cada ventana de entrenamiento, ayudando a los modelos a alcanzar antes una mayor calidad. Para las fábricas de IA, los cores rápidos evitan que los aceleradores esperen por orquestación, ejecución de herramientas o movimiento de datos.
Entregar esto requiere que el core, el subsistema de memoria y la fábrica de interconexión estén diseñados en conjunto para código con muchas ramificaciones, movimiento de datos de alto ancho de banda y rendimiento predecible bajo carga.
Eso comienza con el core custom NVIDIA Olympus dentro del Vera CPU.

El core Olympus y el subsistema de memoria
El core NVIDIA Olympus entrega hasta 50% más IPC que NVIDIA Grace, combinando un front end ancho, predicción de ramas avanzada, scheduling profundo fuera de orden y prefetching especializado de memoria para sostener alto throughput en código agéntico denso en ramas y sensible a memoria.
Olympus usa un predictor neural de ramas para reducir stalls en código con muchas bifurcaciones. Combinado con otros mecanismos de predicción, puede sostener dos ramas tomadas por ciclo con penalización cero, manteniendo el throughput para stacks de software profundos como PyTorch, workloads de grafos y motores de scripting.
Olympus incluye además una unidad de decodificación de 10 vías y un motor profundo fuera de orden diseñado para sostener altas instrucciones por ciclo. Buffers grandes y scheduling avanzado de instrucciones ayudan al core a mantener el avance a medida que cambian los caminos de código, las dependencias y los patrones de acceso a memoria.
Sostener un IPC alto bajo carga exige mantener los cores alimentados con datos. Los Vera CPU entregan hasta 1,2 TB/s de ancho de banda de memoria LPDDR5X, sosteniendo más del 90% del pico bajo carga. Además, ofrecen 40% menos latencia pico de memoria comparado con CPUs x86, asegurando que los cores Olympus se alimenten a tiempo durante recuperación, analítica, ejecución en sandbox y orquestación.
Olympus también suma un novedoso graph prefetcher construido para patrones de acceso a memoria indirecto comunes en analítica de grafos y traversal de memoria de agentes. Combinado con el alto ancho de banda de memoria por core, los Vera CPU entregan más de 3x el rendimiento en cargas de traversal de grafos comparados con arquitecturas basadas en x86.
La NVIDIA Scalable Coherency Fabric (SCF) conecta todos los cores y una caché unificada a lo largo de un mesh monolítico, entregando latencia predecible y 50% más rapidez en movimiento de datos core a core comparado con CPUs que fragmentan el cómputo en múltiples dies. Para aprendizaje por refuerzo e IA agéntica, esa predictibilidad ayuda a sostener los loops de evaluación bajo carga total.
En conjunto, el core Olympus, el NVIDIA SCF y el subsistema de memoria LPDDR5X permiten al Vera CPU entregar más de 1,8x mayor rendimiento de sandbox en workloads agénticos bajo carga total comparado con la competencia, como muestra la Figura 4.

¿Cuánto consume el Vera CPU y por qué importa?
Más allá del rendimiento, la IA agéntica le mete presión creciente a la eficiencia de la infraestructura. A medida que las fábricas de IA escalan a miles de CPUs, la energía de memoria puede convertirse en un contribuyente mayor al consumo total de la plataforma, demanda de enfriamiento y costo operativo.
El Vera CPU acompaña su arquitectura con memoria LPDDR5X SOCAMM de alto ancho de banda para reducir el consumo de memoria comparado con diseños tradicionales de servidor DDR. El subsistema LPDDR5X típicamente consume menos de 30 watts, frente a bastante más de 100 watts en configuraciones DDR5. Los sistemas basados en MRDIMM pueden empujar la energía de memoria aún más alto.
Con un rango de TDP configurable entre 250 W y 450 W, el Vera CPU reduce el consumo combinado de CPU y subsistema de memoria mientras entrega el ancho de banda necesario para inferencia agéntica y entornos de aprendizaje por refuerzo. Para las fábricas de IA, esto se traduce en mejor rendimiento por watt, menores costos operativos y uso más eficiente de la infraestructura de energía y enfriamiento.
El CPU para agentes en la fábrica de IA
La era de la IA agéntica exige un giro en el diseño de CPUs: pasar de maximizar cores por dólar a maximizar la salida por watt y por dólar de la fábrica de IA. El NVIDIA Vera CPU es el CPU para agentes, combinando rendimiento rápido por core, alta concurrencia y ancho de banda de memoria eficiente. Con el core custom Olympus, la memoria LPDDR5X y la NVIDIA Scalable Coherency Fabric, el Vera CPU entrega más de 1,8x mayor rendimiento de sandbox agéntico que las arquitecturas x86 tradicionales, ayudando a las fábricas de IA a completar más tool calls, devolver más evaluaciones y mantener los aceleradores en movimiento.
Más información sobre el Vera CPU, la plataforma Vera Rubin NVL2 y los benchmarks de Vera CPU por Phoronix.
Rendimiento relativo basado en datos medidos y sujeto a cambios. NVIDIA Vera CPU con LPDDR5X comparado contra el CPU x86 más reciente.




