Cómo crear canalizaciones de Vision AI utilizando los agentes de codificación NVIDIA DeepStream

El desarrollo de aplicaciones de IA con visión en tiempo real presenta un desafío importante para los desarrolladores, que a menudo exigen procesos de datos intrincados, innumerables líneas de código y ciclos de desarrollo prolongados.

NVIDIA DeepStream 9 elimina estas barreras de desarrollo utilizando agentes de codificación, como Claude Code o Cursor, para ayudarte a crear fácilmente código optimizado e implementable que haga que tus aplicaciones de IA de visión cobren vida más rápido.

Este nuevo enfoque simplifica el proceso de creación de canales multicámara complejos que ingieren, procesan y analizan volúmenes masivos de datos de sensores, audio y video en tiempo real. Creado sobre GStreamer y parte de la plataforma de desarrollo de inteligencia artificial NVIDIA Metropolis Vision, DeepStream acelera el viaje de un desarrollador desde el concepto hasta la información procesable en todas las industrias.

Vídeo 1. Cómo utilizar los agentes de codificación NVIDIA DeepStream para generar canales completos de IA de visión a partir de indicaciones en lenguaje natural con Claude Code.

Para ver una grabación que muestra cómo construir una canalización de IA de visión DeepStream usando Claude Code o Cursor, haga clic aquí.

Uso de NVIDIA Cosmos Reason 2 para crear una aplicación de análisis de vídeo

Es posible crear una aplicación de análisis de vídeo que ingiera simultáneamente cientos de transmisiones de cámaras y las analice con un modelo de lenguaje de visión (VMA) utilizando NVIDIA Cosmos Reason 2, el VLM de razonamiento abierto y más preciso para la IA física.

La aplicación escala dinámicamente sin perder tiempo de reimplementación para agregar cámaras o intercambiar modelos y sin adivinar los cuellos de botella. El agente codificador comprende su hardware y genera una aplicación optimizada para él.

Con solo unas pocas líneas, un mensaje puede generar un microservicio completo de nivel de producción con API REST, monitoreo del estado, automatización de la implementación e integración de Kafka, todo en una sola sesión de desarrollo.

Cómo generar una aplicación de IA de visión impulsada por VLM:

Paso 1: Instale la habilidad DeepStream Coding Agent para Claude Code o Cursor. Puede generar código en cualquier lugar, pero la implementación requiere el hardware mínimo, que figura en GitHub.

Paso 2: pegue el siguiente mensaje en su agente para generar una canalización VLM escalable con ingesta dinámica de flujos N y procesamiento por lotes por flujo.

Puede personalizar parámetros como el intervalo de muestreo de fotogramas (por ejemplo, 1 fotograma cada 10 segundos; Cosmos-Reason2-8B no impone un límite de fotogramas fijo, utiliza una ventana de contexto grande (hasta 256 000 tokens) y toma muestras de fotogramas dinámicamente según los fps y la resolución.

Paso 3: Ahora que tiene una aplicación que funciona, preparémosla para su implementación. Con un mensaje más, puede convertirlo en un microservicio de producción completo, completo con API de transferencia de estado representacional (REST) para administrar secuencias dinámicamente, sondas de estado para la orquestación, métricas para la observabilidad, un Dockerfile para la contenedorización y scripts de implementación para que funcione en minutos:

Paso 4: El código generado tendrá los scripts de implementación y accederá a las API a través de la interfaz de usuario de Swagger en http://localhost:8080/docs o curl. Puede esperar una página similar a esta página en GitHub.

Generar una aplicación CV eficiente en tiempo real utilizando cualquier modelo

Ahora vayamos más allá. Supongamos que desea crear una aplicación en tiempo real utilizando un modelo de código abierto como YOLOv26. Para conectar cualquier modelo a DeepStream, necesita saber tres cosas:

Tensor de entrada: forma y escala (por ejemplo, [lote, 3, 640, 640], normalizar píxeles)

Tensor de salida: nombre y forma del tensor de salida (por ejemplo, [batch, 300, 6] donde cada fila es [x1, y1, x2, y2, conf, class_id]).

Postprocesamiento: cualquier operación necesaria para extraer las detecciones finales de la salida del modelo sin procesar, por ejemplo, es la supresión no máxima (NMS) integrada dentro del modelo, o es necesaria como un paso de posprocesamiento después de la capa final del modelo.

Puede obtenerlos de una tarjeta modelo o utilizar cualquier herramienta de visualización/inspección de modelos como Netron, VisualDL, Zetane, o simplemente ejecutar onnx.load() e imprimir las formas de entrada/salida del gráfico. O omita todo eso y envíe el archivo del modelo directamente al agente de codificación: éste inspeccionará el modelo por usted y extraerá las bibliotecas correctas necesarias para la inspección del modelo.

Piénselo de esta manera: incorpora un modelo personalizado al canal de análisis de video optimizado por hardware de DeepStream. Usted introduce el modelo (su forma de entrada, formato de salida) y DeepStream sabe encarga del resto; Gestión eficiente del búfer que utiliza plenamente la decodificación, la computación y el procesamiento descendente de GPU para ofrecer la mejor latencia que su hardware puede lograr.

Los pasos para generar una aplicación de detección YOLOv26 con el agente de codificación DeepStream son:

Paso 1: asegúrese de tener instalada la habilidad DeepStream Coding Agent y el hardware mínimo para la implementación. Instale la habilidad DeepStream Coding Agent para Claude Code o Cursor. Puede generar código en cualquier lugar, pero la implementación requiere el hardware mínimo, que figura en GitHub.

Paso 2: Pegue este mensaje en su agente:

Paso 3: el agente genera una aplicación completa con varios archivos: scripts de descarga del modelo, la aplicación de canalización, archivo de configuración de inferencia y más.

Centrémonos en los archivos importantes para la integración del modelo: el archivo de configuración de inferencia. Aquí es exactamente donde aparecen las tres cosas que necesita saber (tensor de entrada, tensor de salida y posprocesamiento) en el archivo de configuración de inferencia:

Tensor de entrada: esto le indica a DeepStream cómo preprocesar el búfer de GPU ascendente (cambiar el tamaño a 640 × 640 y escalar los valores de píxeles en 1/255) y alimentarlo a TensorRT. El archivo ONNX sabe convierte automáticamente a un motor TensorRT en la primera ejecución, optimizado para su GPU y tamaño de lote exactos.

La configuración de inferencia tendrá:

Tensor de salida y posprocesamiento: el agente genera una función NvDsInferParseCustomYolo que lee el blob de salida llamado ejemplo: salida0 en yolo26s (un tensor [300, 6] donde cada fila es [x1, y1, x2, y2, conf, class_id]) y convierte cada detección en una estructura NvDsInferObjectDetectionInfo.

Esto es lo que llena el ObjectMeta en el NvDsBatchMeta descendente. La configuración de inferencia tendrá:

Paso 4: Para convertir esto en un microservicio de producción, como en el ejemplo de la aplicación VLM anterior (paso 3), use un mensaje similar para agregar puntos finales FastAPI para la administración de transmisiones, sondas de estado, métricas, un Dockerfile y scripts de implementación.

Paso 5: Implemente con los scripts generados y acceda a las API a través de la interfaz de usuario de Swagger en http://localhost:8080/docs o curl.

Estas dos aplicaciones son sólo el comienzo. Las mismas habilidades pueden generar cualquier proceso de DeepStream, desde seguimiento multicámara hasta análisis de audio y cadenas de inferencia personalizadas.

Consulte más mensajes de ejemplo en el repositorio. Úselos como referencia para escribir sus propias indicaciones para cualquier aplicación de IA visual que pueda imaginar:

Redefiniendo la visión del desarrollo de la IA

DeepStream acelera el desarrollo de la visión artificial con flujos de trabajo agentes, lo que reduce el tiempo de codificación de semanas a horas. Utilizando indicaciones en lenguaje natural, los desarrolladores pueden conectar modelos instantáneamente, configurar secuencias de cámaras e implementar aplicaciones de análisis. Optimizado para hardware NVIDIA, DeepStream ofrece más flujos y análisis por dólar que los canales genéricos, maximizando el rendimiento desde el borde hasta la nube.

Descargue el SDK más reciente en NGC para Jetson, GPU de centros de datos o la nube para comenzar con DeepStream.