La era de la IA está empujando una nueva clase de infraestructura: las AI factories, capaces de transformar datos en inteligencia para agentes de IA autónomos operando a una escala sin precedentes. Sobre el cómputo acelerado, las AI factories permiten a las empresas entrenar, ajustar finamente y desplegar IA con más velocidad y eficiencia.
Esa nueva clase de infraestructura también abre una superficie de ataque inédita: infraestructura, cadenas de suministro de software, modelos, datos y agentes autónomos con cada vez más autoridad para actuar. A medida que crece la adopción de la IA agéntica, los adversarios apuntan tanto a la infraestructura como a las aplicaciones que corren encima, generando nuevos riesgos sobre la confidencialidad, integridad y disponibilidad de sistemas críticos.
Las arquitecturas de seguridad tradicionales no fueron diseñadas para la escala, complejidad y exigencias de rendimiento de una AI factory. Asegurar esta infraestructura requiere una seguridad distribuida, full-stack y acelerada por hardware.
El planteo de NVIDIA combina los BlueField data processing units (DPUs) con NVIDIA DOCA para proteger AI factories mediante detección en runtime, control de acceso a datos y aplicación acelerada de políticas de red.
¿Cómo cambia la seguridad in-silicon el modelo tradicional?
Construidos para infraestructura de IA, los DPUs NVIDIA BlueField combinan red de alto rendimiento, cómputo programable, aceleración por hardware y capacidades de seguridad avanzadas en una sola plataforma incrustada en cada nodo de cómputo de la AI factory. A diferencia de los enfoques tradicionales que dependen del software del sistema host, BlueField establece una capa de seguridad reforzada por hardware, in-silicon e independiente del workload.
Operando dentro de su propio dominio de ejecución confiable, BlueField aísla los servicios de infraestructura y seguridad del sistema host. El monitoreo, la aplicación de políticas y la telemetría siguen operando incluso si el host o los workloads se ven comprometidos. Como las funciones de seguridad están aisladas del sistema que protegen, los atacantes no pueden manipularlas ni saltarse las políticas que aplica BlueField.
Esta arquitectura cambia el modelo de seguridad tradicional. La protección de endpoint convencional comparte los mismos límites de confianza y recursos que los entornos que asegura, lo que vuelve el software de seguridad vulnerable cuando un host es comprometido (tampering, evasión, desactivación). Al descargar el procesamiento de seguridad al silicio de BlueField, la protección se entrega full-stack y resiliente sin consumir cómputo del host ni competir con los workloads de IA, preservando la eficiencia de la infraestructura y el rendimiento de la IA.
!Figura 1. El DPU NVIDIA BlueField-4 entrega seguridad in-silicon a la velocidad de los agentes de IA
¿Cómo protege BlueField y DOCA toda la AI factory?
Con la plataforma NVIDIA Vera Rubin, la seguridad queda distribuida en toda la AI factory y construida directamente en la capa de infraestructura. Los procesadores NVIDIA BlueField-4 van incrustados en cada sistema de cómputo y almacenamiento, incluyendo NVIDIA Vera Rubin NVL72, las bandejas de cómputo Vera CPU, los sistemas LPX y los sistemas de storage Vera BlueField-4 STX. Eso establece un piso de seguridad uniforme, reforzado por hardware, en toda la plataforma.
Sobre el silicio BlueField-4, una nueva clase de capacidades de NVIDIA DOCA extiende la protección a todo el ciclo de vida de la IA y a la plataforma Vera Rubin. Ya sea protegiendo modelos, memoria de contexto, datasets o interacciones en runtime, BlueField asegura cualquier tipo de dato, cualquier workload y cualquier agente. Eso incluye proteger a los propios agentes autónomos y defender la AI factory frente a agentes cada vez más privilegiados operando entre inferencia, entrenamiento y los nuevos flujos agénticos.
El stack de seguridad NVIDIA DOCA ofrece un marco unificado para proteger toda la AI factory. Apalancado en la aceleración del BlueField-4, DOCA habilita detección de amenazas en runtime hasta 1.000x más rápida que los enfoques agentless solo software, y aplica políticas de red y de acceso a archivos a velocidades de hasta 800 Gb/s. Eso permite que la seguridad opere a la velocidad y escala de la IA.
El stack DOCA incluye DOCA Argus, DOCA Vault y DOCA Flow, que aportan capacidades especializadas de detección de amenazas en runtime, acceso zero-trust para storage basado en archivos y aplicación de políticas de red a alta velocidad. Juntos forman una arquitectura de seguridad robusta para proteger infraestructura, workloads, agentes y datos a lo largo de toda la AI factory.
Integrado con NVIDIA AI, BlueField envía telemetría y datos de seguridad a sistemas acelerados por GPU para análisis con IA, generando inteligencia de seguridad accionable que adapta protecciones dinámicamente y aplica políticas directamente en el DPU. El resultado es una arquitectura de seguridad en aprendizaje continuo, construida para la velocidad, escala y complejidad de la IA agéntica.
¿Cómo detecta amenazas DOCA Argus en workloads de IA?
DOCA Argus es el microservicio de detección de amenazas en runtime que provee visibilidad y conciencia situacional en tiempo real a través de la AI factory. Argus es la base del stack de seguridad DOCA.
Corriendo sobre los procesadores BlueField de datos y storage, DOCA Argus observa continuamente el comportamiento del workload en runtime mediante análisis avanzado de memoria, permitiendo detectar amenazas, monitorear integridad y entender el estado operativo sin impactar el rendimiento del workload de IA.
A diferencia de los enfoques tradicionales basados en host, DOCA Argus opera independientemente del nodo de cómputo que protege. Aprovechando el entorno de ejecución aislado y attestable de BlueField y las capacidades DMA de DOCA, Argus accede de forma segura a fragmentos específicos de la memoria volátil del host (la fuente de verdad sobre la actividad del sistema) sin depender de agentes en software ni consumir CPU. Mediante técnicas de acceso zero-copy, esa inspección ocurre sin perturbar la aplicación ni el rendimiento de la IA.
DOCA Argus identifica automáticamente la versión del kernel Linux del host y aplica mapas de memoria específicos del kernel para ubicar las estructuras precisas que necesita analizar. Soporta arquitecturas x86 y Arm64, recolecta telemetría de bajo nivel desde las estructuras de memoria del host y traduce esos datos crudos en contexto operativo: visibilidad sobre procesos, hilos, estados de ejecución, actividad del workload y comportamiento del sistema.
Un motor de políticas analiza continuamente la telemetría recolectada para identificar señales operacionales y de seguridad relevantes, filtrando actividad irrelevante. Eso habilita visibilidad en tiempo real sobre el comportamiento del sistema, indicadores de ataque y condiciones anómalas. Los hallazgos se categorizan en eventos (conciencia operativa y contexto) y alertas (amenazas inmediatas o comportamiento sospechoso que requiere investigación).
Al analizar continuamente la memoria buscando cambios de estado y anomalías de comportamiento, DOCA Argus entrega monitoreo persistente sin depender de agentes en el host. Como los controles operan independientes del host, las capacidades de detección siguen intactas aunque los workloads o el sistema operativo sean comprometidos. La recolección continua de evidencia forense habilita además investigación post-incidente.
!Figura 3. DOCA Argus monitorea la detección de amenazas en IA
Monitoreo de integridad en runtime
Las aplicaciones de IA suelen desplegarse como contenedores: los workloads instanciados de la misma imagen deben exhibir comportamiento consistente y predecible. DOCA Argus aprovecha esa consistencia para establecer perfiles conductuales de los workloads de IA, habilitando monitoreo en tiempo real frente a desviaciones que puedan indicar compromiso, actividad no autorizada o comportamiento malicioso.
DOCA Argus valida continuamente la integridad en runtime monitoreando qué se está ejecutando, cómo se está ejecutando y con qué está interactuando. Eso incluye comparar el comportamiento y las propiedades de binarios contra manifiestos de runtime esperados, validar integridad mediante hashes SHA-256, analizar el contexto de ejecución (argumentos de línea de comandos, rutas) y monitorear interacciones con hilos, librerías, sistema de archivos, red y memoria.
La plataforma provee visibilidad a nivel de proceso sobre acceso a archivos y actividad de red, monitoreando continuamente qué archivos se acceden, por qué procesos y qué acciones se realizan. Las conexiones entrantes y salientes se analizan para asegurar que los workloads mantengan patrones de comunicación esperados.
Al comparar la actividad en runtime contra líneas base conductuales, DOCA Argus puede identificar violaciones de integridad e indicadores de compromiso en tiempo real. Las capacidades de detección incluyen, por ejemplo, ejecución de procesos no autorizados, uso de librerías no autorizadas, detección de drift, ejecución de shells bash, actividad de reverse shell y otras anomalías típicas de comportamiento malicioso.
Descubrimiento y gestión de exposición de IA
DOCA Argus también ofrece una capa fundacional de visibilidad para descubrimiento y gestión de exposición de IA a través de la AI factory. La plataforma identifica, mapea y contextualiza continuamente la infraestructura, workloads y sus relaciones en tiempo real.
Esto incluye conciencia de postura de workload a través de contenedores (incluidos Kata containers), máquinas virtuales y sistemas bare-metal, además del mapeo de relaciones entre componentes (container-a-POD, container-a-VM, container-a-sistema-operativo).
Usando hashes de imagen de contenedor, DOCA Argus puede ayudar a identificar software de IA, modelos y agentes autónomos desplegados, correlacionando artefactos en runtime contra repositorios públicos e inventarios internos. Apalancado en la telemetría de Argus, las organizaciones ganan visibilidad sobre qué componentes de IA están corriendo, dónde se despliegan y cómo interactúan en el entorno.
DOCA Argus también soporta gestión pasiva de vulnerabilidades, analizando los hashes SHA-256 de binarios ejecutados y librerías cargadas para identificar componentes potencialmente vulnerables.
¿Qué significa esto para integradores en LatAm?
La novedad operativa para integradores de la región es que la seguridad ya no se compra como capa de software encima de un servidor: viene incrustada en el silicio del DPU y se factura junto al rack Vera Rubin. Para data centers chilenos o argentinos que ya operan stacks BlueField-3, el upgrade a BlueField-4 abre detección runtime acelerada, mapeo de IA desplegada y forense post-incidente sin agregar carga al host. El costo de entrada sigue siendo alto (la arquitectura Vera Rubin NVL72 apunta a fábricas a escala hyperscaler), pero los DPU BlueField-4 individuales pueden integrarse en clusters de IA híbridos para validar el modelo antes de comprometer presupuesto a escala completa.




