Punto clave de esta nota

NVIDIA actualizó el Blueprint Metropolis VSS 3 con skills compatibles con la especificación agentskills.io.

Punto clave de esta nota

Codex, Claude Code, OpenClaw y NemoClaw pueden desplegar e integrar VSS desde una interfaz de chat sin configurar microservicios.

Punto clave de esta nota

El ejemplo oficial detecta automáticamente uso de casco y chaleco en video de bodega usando fusion search sobre embeddings multi-tipo.

NVIDIA VSS 3 deja a Codex y Claude Code analizar video por agentes

NVIDIA actualizó su Blueprint Metropolis para búsqueda y resumen de video (VSS) con una arquitectura modular y un nuevo paquete de skills pensado para integrarse con agentes de programación autónomos. La pieza permite transformar millones de streams de video en vivo o cientos de horas grabadas en información buscable y accionable en tiempo real, según la documentación de NVIDIA.

VSS funciona como arquitectura de referencia para construir agentes de IA de análisis de video que perciben, razonan y actúan sobre grandes volúmenes de material audiovisual. Combina microservicios acelerados de visión, vision-language models (VLMs), large language models (LLMs) y retrievers para habilitar búsqueda agéntica y reportes automatizados.

¿Qué cambia con VSS 3?

La novedad principal es el paso de un setup manual a uno controlado por agente. Hasta ahora los desarrolladores tenían que configurar, desplegar e integrar el conjunto completo de microservicios de VSS a mano para construir una aplicación de análisis de video. Con VSS 3, esos pasos se delegan en coding agents que reciben los skills publicados en el repositorio oficial en GitHub y siguen la especificación agentskills.io.

NVIDIA confirma compatibilidad inmediata con Codex de OpenAI, Claude Code de Anthropic, OpenClaw y NemoClaw. La instalación es declarativa: un único prompt indica al agente que lea los archivos SKILL.md del repo y registre cada skill en la carpeta estándar del host (~/.claude/skills/, ~/.codex/skills/, o el path universal ~/.agents/skills/). El agente además crea symlinks en vez de copias, así un git pull mantiene todo al día.

Arquitectura del Blueprint VSS: microservicios, bases de datos y agentes para analizar videos

¿Cómo es el flujo de trabajo extremo a extremo?

NVIDIA propone dos pasos. Primero, desplegar el perfil de búsqueda de VSS con Codex desde VSCode conectado por SSH a una instancia Brev de NVIDIA. El agente planifica el despliegue, configura variables de entorno y levanta los contenedores necesarios para habilitar la búsqueda. Segundo, integrar OpenClaw como agente autónomo para consultar el sistema desde una interfaz de chat.

El ejemplo que entrega NVIDIA es elocuente. Frente a un set de tres videos de 10 minutos grabados en una bodega, el operador pide a OpenClaw: "Necesito encontrar instancias de un trabajador subiendo una escalera y verificar que use casco y chaleco de seguridad". El agente identifica los skills relevantes, sube los archivos a VIOS, los ingesta a través de los microservicios de embeddings, genera índices buscables y usa la capacidad de fusion search para devolver los clips exactos donde aparece el escenario consultado, con capturas adjuntas.

Arquitectura: ¿por qué fusion search y no embedding único?

La búsqueda de video a gran escala sigue siendo una de las fronteras más difíciles de la recuperación de información moderna. Las queries son inherentemente ambiguas: capturar la intención semántica completa dentro de un único embedding visual es insuficiente cuando objetos y eventos cargan atributos multinivel que resisten una representación vectorial simple. A escala masiva, encontrar un momento específico entre millones de horas de material se convierte en un problema literal de aguja en un pajar, y la búsqueda por vecinos cercanos sobre un espacio de embeddings monolítico degrada rápidamente tanto en precisión como en recall.

La respuesta arquitectónica de VSS 3 combina dos capacidades: extracción y recuperación de embeddings de múltiples tipos, con filtrado de relevancia y deduplicación semántica; y un módulo de fusión que cruza señales heterogéneas (texto, audio, atributos detectados) antes de devolver resultados.

Disponibilidad y costos

VSS corre sobre infraestructura NVIDIA acelerada por GPU. El path de menor fricción es el NVIDIA Brev Launchable documentado aquí: clic en "Launch Blueprint", "Deploy Launchable" y luego ejecutar el notebook deploy_vss_launchable.ipynb con la clave de API de NGC. El blueprint en sí es gratuito; el costo va por el tiempo de GPU consumido en Brev. Los skills son open source y siguen la especificación pública de agentskills.io, así que pueden adaptarse a otros stacks de video sin atarse al ecosistema NVIDIA.

Contexto para integradores LatAm

Para empresas chilenas que ya operan con CCTV o cámaras IP en plantas, bodegas o retail, el ángulo más concreto es de cumplimiento: la verificación automática de elementos de protección personal (EPP) sobre video grabado es uno de los casos de uso que la Superintendencia de Seguridad Social y las mutualidades chilenas vienen empujando hace años, hoy resuelto a mano por personal de prevención de riesgos. Replicar la demo de NVIDIA en Chile requiere acceso a una GPU compatible (H100 o A100 son el caso típico) y conocimientos básicos de despliegue de contenedores. La barrera de entrada baja sustantivamente respecto del flujo manual previo.

NVIDIA VSS 3 deja a Codex y Claude Code analizar video por agentes

Al grano

Por qué importa

¿Qué cambia con VSS 3?

¿Cómo es el flujo de trabajo extremo a extremo?

Arquitectura: ¿por qué fusion search y no embedding único?

Disponibilidad y costos

Contexto para integradores LatAm

Seguir leyendo

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

Optimización de memoria para modelos grandes en NVIDIA Jetson

OpenClaw: el agente IA local que estalló en GitHub

NVIDIA impulsa la manufactura con IA en Hannover Messe 2026

→Al grano

✦Por qué importa

¿Qué cambia con VSS 3?

¿Cómo es el flujo de trabajo extremo a extremo?

Arquitectura: ¿por qué fusion search y no embedding único?

Disponibilidad y costos

Contexto para integradores LatAm

Seguir leyendo

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

Optimización de memoria para modelos grandes en NVIDIA Jetson

OpenClaw: el agente IA local que estalló en GitHub

NVIDIA impulsa la manufactura con IA en Hannover Messe 2026

Al grano

Por qué importa