Los desarrolladores que construyen para gafas AR y dispositivos wearables enfrentan una brecha de infraestructura. El hardware está listo, pero crear experiencias de IA requiere integrar streams de cámara y micrófono en vivo, modelos multimodales, datos empresariales, uso de herramientas, infraestructura de despliegue y runtimes específicos del dispositivo.
NVIDIA XR AI fue diseñado para resolver este desafío entregando una base reutilizable que conecta dispositivos de realidad extendida (XR) a servicios de IA acelerados por GPU corriendo en la nube, data center, workstation o edge.
Ahora disponible en beta pública, los desarrolladores tienen acceso a una librería open source para construir agentes inteligentes en gafas de IA, gafas AR y headsets XR. Estos agentes pueden ver lo que el usuario ve, entender intención hablada o tipeada, invocar herramientas empresariales y responder dentro de la misma sesión XR. Pueden ayudar a personal de primera línea a encontrar la información correcta, guiar trabajadores en procedimientos, verificar resultados y capturar evidencia.
XR AI lleva inteligencia a las personas donde trabajan: servicio de campo, asistencia remota, operaciones industriales, salud, capacitación y otros entornos con manos ocupadas.
¿Qué casos de uso ya están corriendo?

Socios de NVIDIA en salud y manufactura ofrecen ejemplos útiles. Investigadores del Cong Lab en la Stanford School of Medicine y del Wang Lab en Princeton University han explorado flujos XR e IA para investigación en terapias con células madre, ayudando a los investigadores a acceder a información contextual e interactuar con sistemas de laboratorio mientras se mantienen enfocados en procedimientos complejos.
En manufactura, Siemens está explorando en un contexto de investigación cómo NVIDIA XR AI y NVIDIA DGX Spark pueden ayudar a ingenieros de fábrica a encontrar información de mantenimiento, diagnosticar problemas, verificar trabajo y capturar lo que pasó en la planta de producción.
¿Cómo está armada la arquitectura?
Un agente XR inteligente arranca con contexto en vivo desde el dispositivo XR del usuario. Los frames de cámara, audio del micrófono y mensajes de datos fluyen al XR Media Hub, donde pueden enrutarse a modelos, herramientas y agentes que entienden el entorno y la intención del usuario. Los modelos NVIDIA Cosmos entregan grounding visual; los modelos NVIDIA Nemotron entregan comprensión de lenguaje, razonamiento e invocación de herramientas; y los servidores MCP (Model Context Protocol) exponen herramientas y fuentes de datos empresariales.
XR AI mantiene la arquitectura modular separando transporte de medios, servicios de modelo, acceso a herramientas, orquestación de agentes y entrega al cliente. Los píxeles de video pueden quedarse en memoria compartida mientras metadata liviana se mueve por el sistema, así los agentes recuperan datos de imagen sólo cuando una tarea lo requiere. Esto reduce inferencia innecesaria y movimiento de datos, y permite a los desarrolladores cambiar clientes, modelos, servidores MCP, frameworks de orquestación y entornos de despliegue sin reconstruir el agente completo.
¿Cómo se prueba?
El repositorio en GitHub incluye agentes de muestra, lanzadores de servidores de modelo, servidores MCP, clientes web, flujos XR y la infraestructura central de medios. El stack de servidores de modelos incluye:
- nvidia/parakeet-tdt-0.6b-v3 para speech-to-text (transcripción de voz)
- nvidia/Cosmos-Reason1-7B para razonamiento visión-lenguaje
- nvidia/Llama-3.1-Nemotron-Nano-8B-v1 para respuestas rápidas de baja latencia
- NVIDIA-Nemotron-3-Nano-30B-A3B para flujos más profundos de invocación de herramientas
Clonar el repo, levantar los servidores de modelo y correr el ejemplo simple-vlm-example produce ya un agente XR funcional: escucha, entiende lo que el usuario ve, razona sobre contexto visual y responde por texto y voz sintetizada.
¿Qué papel tiene MCP en este stack?
La mayoría de los agentes empresariales necesitan más que percepción en vivo. Un investigador puede necesitar pasos de protocolo, metadata de experimentos o acceso a datasets. Un técnico de campo puede necesitar registros de mantenimiento. Un ingeniero de manufactura puede necesitar instrucciones de trabajo, estado de controladores o información de digital twin. XR AI usa Model Context Protocol como capa de integración para esos flujos.
El repo incluye servidores MCP específicos para capacidades XR:
vlm-mcppara preguntas y respuestas visualesvideo-mcppara análisis y consultas de videorender-mcppara manipulación de escenaoxr-mcppara información espacial OpenXRvec-mcppara utilidades de vectores y espaciostranscript-mcppara ingesta y recuperación de transcripciones
Los desarrolladores también pueden construir servidores MCP personalizados para sistemas empresariales, retrieval-augmented generation (RAG), bases de datos, digital twins, sistemas de gestión de activos y flujos específicos del dominio.
¿Y la parte de renderizado espacial?
No todo flujo XR requiere contenido 3D renderizado. Algunos agentes sólo necesitan cámara, micrófono, lenguaje y herramientas empresariales. Cuando un flujo se beneficia de visualización espacial, XR AI puede combinar la capa de agentes con NVIDIA CloudXR. El ejemplo xr-render-demo lanza el XR Media Hub, el runtime de CloudXR, servicios de modelo, servidores MCP y un worker de agente.
¿Qué hardware aprovecha?
XR AI está pensado para correr sobre GPUs NVIDIA con suficiente memoria para los modelos descritos. El ejemplo más liviano (modelo Nemotron Nano 8B + Cosmos-Reason1 7B + Parakeet 0.6B) cabe en una RTX 4090 de 24GB o en una workstation con DGX Spark, mientras que el modelo de 30B parámetros activos requiere infraestructura de data center o nube. La ventaja del diseño modular es que el lado cliente (gafas AR, headset, móvil, web) sigue siendo liviano y la inferencia pesada se centraliza.




