Punto clave de esta nota

NVIDIA liberó en beta pública XR AI, una librería abierta para construir agentes IA en gafas AR, headsets XR y wearables conectados a GPUs.

Punto clave de esta nota

El stack incluye Cosmos para visión, Nemotron para lenguaje, Parakeet TDT 0.6B para STT y NeMo Agent Toolkit para orquestación.

Punto clave de esta nota

Usa Model Context Protocol como capa de integración con sistemas empresariales, RAG, digital twins y bases de datos.

NVIDIA XR AI: librería abierta para agentes en gafas AR

Al grano

NVIDIA liberó en beta pública XR AI, una librería abierta para construir agentes IA en gafas AR, headsets XR y wearables conectados a GPUs.
El stack incluye Cosmos para visión, Nemotron para lenguaje, Parakeet TDT 0.6B para STT y NeMo Agent Toolkit para orquestación.
Usa Model Context Protocol como capa de integración con sistemas empresariales, RAG, digital twins y bases de datos.

Los desarrolladores que construyen para gafas AR y dispositivos wearables enfrentan una brecha de infraestructura. El hardware está listo, pero crear experiencias de IA requiere integrar streams de cámara y micrófono en vivo, modelos multimodales, datos empresariales, uso de herramientas, infraestructura de despliegue y runtimes específicos del dispositivo.

NVIDIA XR AI fue diseñado para resolver este desafío entregando una base reutilizable que conecta dispositivos de realidad extendida (XR) a servicios de IA acelerados por GPU corriendo en la nube, data center, workstation o edge.

Ahora disponible en beta pública, los desarrolladores tienen acceso a una librería open source para construir agentes inteligentes en gafas de IA, gafas AR y headsets XR. Estos agentes pueden ver lo que el usuario ve, entender intención hablada o tipeada, invocar herramientas empresariales y responder dentro de la misma sesión XR. Pueden ayudar a personal de primera línea a encontrar la información correcta, guiar trabajadores en procedimientos, verificar resultados y capturar evidencia.

XR AI lleva inteligencia a las personas donde trabajan: servicio de campo, asistencia remota, operaciones industriales, salud, capacitación y otros entornos con manos ocupadas.

¿Qué casos de uso ya están corriendo?

Socios de NVIDIA en salud y manufactura ofrecen ejemplos útiles. Investigadores del Cong Lab en la Stanford School of Medicine y del Wang Lab en Princeton University han explorado flujos XR e IA para investigación en terapias con células madre, ayudando a los investigadores a acceder a información contextual e interactuar con sistemas de laboratorio mientras se mantienen enfocados en procedimientos complejos.

En manufactura, Siemens está explorando en un contexto de investigación cómo NVIDIA XR AI y NVIDIA DGX Spark pueden ayudar a ingenieros de fábrica a encontrar información de mantenimiento, diagnosticar problemas, verificar trabajo y capturar lo que pasó en la planta de producción.

¿Cómo está armada la arquitectura?

Un agente XR inteligente arranca con contexto en vivo desde el dispositivo XR del usuario. Los frames de cámara, audio del micrófono y mensajes de datos fluyen al XR Media Hub, donde pueden enrutarse a modelos, herramientas y agentes que entienden el entorno y la intención del usuario. Los modelos NVIDIA Cosmos entregan grounding visual; los modelos NVIDIA Nemotron entregan comprensión de lenguaje, razonamiento e invocación de herramientas; y los servidores MCP (Model Context Protocol) exponen herramientas y fuentes de datos empresariales.

XR AI mantiene la arquitectura modular separando transporte de medios, servicios de modelo, acceso a herramientas, orquestación de agentes y entrega al cliente. Los píxeles de video pueden quedarse en memoria compartida mientras metadata liviana se mueve por el sistema, así los agentes recuperan datos de imagen sólo cuando una tarea lo requiere. Esto reduce inferencia innecesaria y movimiento de datos, y permite a los desarrolladores cambiar clientes, modelos, servidores MCP, frameworks de orquestación y entornos de despliegue sin reconstruir el agente completo.

¿Cómo se prueba?

El repositorio en GitHub incluye agentes de muestra, lanzadores de servidores de modelo, servidores MCP, clientes web, flujos XR y la infraestructura central de medios. El stack de servidores de modelos incluye:

nvidia/parakeet-tdt-0.6b-v3 para speech-to-text (transcripción de voz)
nvidia/Cosmos-Reason1-7B para razonamiento visión-lenguaje
nvidia/Llama-3.1-Nemotron-Nano-8B-v1 para respuestas rápidas de baja latencia
NVIDIA-Nemotron-3-Nano-30B-A3B para flujos más profundos de invocación de herramientas

Clonar el repo, levantar los servidores de modelo y correr el ejemplo simple-vlm-example produce ya un agente XR funcional: escucha, entiende lo que el usuario ve, razona sobre contexto visual y responde por texto y voz sintetizada.

¿Qué papel tiene MCP en este stack?

La mayoría de los agentes empresariales necesitan más que percepción en vivo. Un investigador puede necesitar pasos de protocolo, metadata de experimentos o acceso a datasets. Un técnico de campo puede necesitar registros de mantenimiento. Un ingeniero de manufactura puede necesitar instrucciones de trabajo, estado de controladores o información de digital twin. XR AI usa Model Context Protocol como capa de integración para esos flujos.

El repo incluye servidores MCP específicos para capacidades XR:

vlm-mcp para preguntas y respuestas visuales
video-mcp para análisis y consultas de video
render-mcp para manipulación de escena
oxr-mcp para información espacial OpenXR
vec-mcp para utilidades de vectores y espacios
transcript-mcp para ingesta y recuperación de transcripciones

Los desarrolladores también pueden construir servidores MCP personalizados para sistemas empresariales, retrieval-augmented generation (RAG), bases de datos, digital twins, sistemas de gestión de activos y flujos específicos del dominio.

¿Y la parte de renderizado espacial?

No todo flujo XR requiere contenido 3D renderizado. Algunos agentes sólo necesitan cámara, micrófono, lenguaje y herramientas empresariales. Cuando un flujo se beneficia de visualización espacial, XR AI puede combinar la capa de agentes con NVIDIA CloudXR. El ejemplo xr-render-demo lanza el XR Media Hub, el runtime de CloudXR, servicios de modelo, servidores MCP y un worker de agente.

¿Qué hardware aprovecha?

XR AI está pensado para correr sobre GPUs NVIDIA con suficiente memoria para los modelos descritos. El ejemplo más liviano (modelo Nemotron Nano 8B + Cosmos-Reason1 7B + Parakeet 0.6B) cabe en una RTX 4090 de 24GB o en una workstation con DGX Spark, mientras que el modelo de 30B parámetros activos requiere infraestructura de data center o nube. La ventaja del diseño modular es que el lado cliente (gafas AR, headset, móvil, web) sigue siendo liviano y la inferencia pesada se centraliza.

NVIDIA XR AI: librería abierta para agentes en gafas AR

Al grano

Por qué importa

¿Qué casos de uso ya están corriendo?

¿Cómo está armada la arquitectura?

¿Cómo se prueba?

¿Qué papel tiene MCP en este stack?

¿Y la parte de renderizado espacial?

¿Qué hardware aprovecha?

Seguir leyendo

NVIDIA Auto-FL: agentes IA para acelerar el aprendizaje federado

NVIDIA libera skills abiertas para robots, autos autónomos y fábricas

Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal

NVIDIA lanza Nemotron 3 Nano Omni, modelo omnimodal para agentes de IA

→Al grano

✦Por qué importa

¿Qué casos de uso ya están corriendo?

¿Cómo está armada la arquitectura?

¿Cómo se prueba?

¿Qué papel tiene MCP en este stack?

¿Y la parte de renderizado espacial?

¿Qué hardware aprovecha?

Seguir leyendo

NVIDIA Auto-FL: agentes IA para acelerar el aprendizaje federado

NVIDIA libera skills abiertas para robots, autos autónomos y fábricas

Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal

NVIDIA lanza Nemotron 3 Nano Omni, modelo omnimodal para agentes de IA

Al grano

Por qué importa