NVIDIA y Microsoft presentaron en COMPUTEX 2026 y Microsoft Build 2026 una nueva tanda de herramientas para construir agentes IA on-device en Windows: sandboxing turnkey nativo, hasta 2x más rendimiento en inferencia agéntica, nuevas aplicaciones de agentes y soporte multi-GPU mejorado en llama.cpp y ComfyUI. El stack de desarrollo local ya está listo para correr workflows agénticos complejos en paralelo al usuario.

Los agentes IA están cambiando cómo interactuamos con el PC. Creadores, desarrolladores y entusiastas ya los usan para tareas diarias como programación, edición de video y gestión de contenido.

¿Cómo blindar agentes locales con MXC y OpenShell?

En Microsoft Build, Microsoft anunció un conjunto de primitivas de seguridad que permiten a los agentes ejecutar código, operar sobre archivos y orquestar tareas en distintos sistemas con identidad y políticas de ejecución integradas. Las Microsoft eXecution Containers (MXC) forman la capa de políticas, definiendo el aislamiento y la contención mientras se apoyan en constructos nativos del sistema operativo Windows para aplicar esas reglas.

Para desarrolladores, esto baja una barrera crítica: los agentes que interactúan con archivos y aplicaciones personales presentan riesgos reales de prompt injection, y MXC garantiza que no puedan acceder al sistema completo.

NVIDIA también colabora con Microsoft para llevar el runtime NVIDIA OpenShell a Windows, construido sobre MXC. Integrar MXC mediante OpenShell entrega un paquete fácil de adoptar para desplegar agentes autónomos siempre activos con seguridad, junto con capacidades adicionales como creación y gestión de políticas, routing de inferencia y ofuscación de información personal identificable (PII).

Apps agénticas populares ya planean apalancar MXC y OpenShell, incluyendo los proyectos open source OpenClaw y Hermes Agent.

NemoClaw aterriza en todo sistema cliente NVIDIA

NVIDIA NemoClaw, el blueprint para construir agentes IA autónomos, ahora soporta toda la familia de sistemas cliente: GeForce RTX, NVIDIA RTX PRO, NVIDIA DGX Spark y DGX Station for Windows, a través de Linux y Windows Subsystem for Linux (WSL). Esto permite configurar y sandboxear un agente con modelos locales optimizados, seleccionados según el hardware. La actualización también pule el instalador. NemoClaw soporta además correr Hermes Agent como opción.

Esta semana, Hermes Agent lanzó soporte nativo para Windows, incluyendo una CLI y una nueva aplicación de escritorio. Esto mejora la experiencia y permite al agente interactuar con apps, APIs y archivos nativos de Windows.

Adicionalmente, la firma H Company liberó su nueva familia de modelos Holo 3.1. Están tuneados para Computer Use, un modo en el que el agente toma acciones viendo la pantalla y haciendo clic, extendiendo capacidades agénticas a un universo más amplio de aplicaciones. Incluyen checkpoints cuantizados con 35% menos memoria comparado con FP8. La empresa también anunció un nuevo harness de Computer Use con soporte para modelos locales, próximamente. NVIDIA ayudó a H Company a optimizar sus nuevos modelos y harness para entregar más de 2x de rendimiento en GPUs NVIDIA.

llama.cpp y vLLM: hasta 2.6x más rápido en agentes locales

Con agentes corriendo 24 horas, 7 días a la semana sobre tareas crecientemente complejas, la eficiencia del cómputo local importa aún más. NVIDIA colaboró con la comunidad open source para potenciar los principales backends de inferencia agéntica: llama.cpp y vLLM.

llama.cpp entrega ahora 2x de rendimiento en los modelos densos Qwen 3.5 y 3.6 27B, y 1.6x en los MoE Qwen 3.5 y 3.6 35B. Dos técnicas hacen esto posible:

  • Multi-Token Prediction (MTP): técnica avanzada de decoding especulativo donde un modelo draft más pequeño propone varios tokens hacia adelante, que el modelo objetivo verifica en un único forward pass. Entrega más throughput sin perder calidad de salida y no requiere entrenamiento adicional para modelos que ya la soportan.
  • Programmatic Dependent Launch (PDL): mejora el rendimiento de decode permitiendo que kernels dependientes se ejecuten concurrentemente en el mismo stream CUDA, cosa que antes era estrictamente secuencial.

vLLM ya adoptó MTP y suma optimizaciones que mejoran la inferencia 2.6x, incluyendo mejor selección de kernels BF16 para modelos MoE y reducción del overhead de runtime gracias a mejoras en CUDA Graphs.

Estas actualizaciones están disponibles mediante LM Studio, llama.cpp y vLLM.

Throughput de agentes IA locales mejorado sobre NVIDIA DGX Spark y RTX 5090
Throughput de agentes IA locales mejorado sobre NVIDIA DGX Spark y RTX 5090

Multi-GPU: hasta 2x memoria y 1.8x cómputo en PCs RTX

Una forma popular de correr IA localmente ha sido usar múltiples GPUs para acceder a más memoria y cómputo. Mientras los frameworks cloud como vLLM están bien optimizados para multi-GPU gracias a su uso en data centers, frameworks de PC como llama.cpp y la implementación de ComfyUI en PyTorch no lo estaban.

Para resolverlo, NVIDIA colaboró con llama.cpp y ComfyUI para mejorar el rendimiento en PCs RTX con dos GPUs equivalentes. Esto permite correr modelos más grandes y aprovechar el cómputo combinado.

llama.cpp ahora soporta tensor parallelism (TP), usando ambas GPUs en simultáneo para hasta ~2x de capacidad de memoria y ~1.8x de rendimiento de cómputo. LM Studio incorporó estos cambios en su aplicación: ir a Settings > Runtime y habilitar TP.

Tensor Parallel multi-GPU mejora hasta 1.8x sobre pipeline parallel y single-GPU en llama.cpp
Tensor Parallel multi-GPU mejora hasta 1.8x sobre pipeline parallel y single-GPU en llama.cpp

ComfyUI integra el método Classifier-Free Guidance (CFG) para hasta 2x de cómputo sobre dos GPUs. Los usuarios también pueden dividir cadenas de modelos entre GPUs para cargarlos completamente en memoria, habilitando el modo high VRAM. Esto elimina el overhead de memory swapping del modo low VRAM, sumando una ganancia adicional.

Mejoras de tiempo de generación con multi-GPU en ComfyUI sobre configuraciones RTX 5090
Mejoras de tiempo de generación con multi-GPU en ComfyUI sobre configuraciones RTX 5090

Para empezar, NVIDIA publicó la guía oficial en llama.cpp multi-gpu docs y un How to Build a Multi-GPU AI PC.

¿Qué cambia para makers y devs en LatAm?

Para el desarrollador chileno o argentino que ya tiene un PC con GeForce RTX 4090 o 5090 (24-32 GB de VRAM, hardware accesible en MercadoLibre y distribuidores oficiales), tres cosas se vuelven concretas: los agentes locales pueden correr cuantizados con 35% menos memoria, abriendo modelos de 30-35B en una sola tarjeta consumer; si hay dos RTX equivalentes, llama.cpp les saca 1.8x de cómputo combinado, reduciendo los tiempos de respuesta de un agente de coding o edición de video; y MXC en Windows entrega aislamiento real entre agentes y los archivos del usuario, requisito clave para que estudios de diseño, oficinas legales o estudios contables locales acepten desplegar agentes IA sin depender del cloud.