Punto clave de esta nota

OpenCV 5 estrena un motor DNN reescrito que pasa de 22% a más de 80% de cobertura de operadores ONNX.

Punto clave de esta nota

El módulo DNN ahora ejecuta LLMs y VLMs como Qwen 2.5, Gemma 3, PaliGemma y la familia GPT con tokenizador y KV-cache nativos.

Punto clave de esta nota

Suma backends de hardware para Intel IPP, Arm KleidiCV, Qualcomm FastCV y RISC-V Vector con aceleraciones de hasta 4x.

OpenCV 5 sube cobertura ONNX al 80% y soporta LLMs y VLMs

Al grano

OpenCV 5 estrena un motor DNN reescrito que pasa de 22% a más de 80% de cobertura de operadores ONNX.
El módulo DNN ahora ejecuta LLMs y VLMs como Qwen 2.5, Gemma 3, PaliGemma y la familia GPT con tokenizador y KV-cache nativos.
Suma backends de hardware para Intel IPP, Arm KleidiCV, Qualcomm FastCV y RISC-V Vector con aceleraciones de hasta 4x.

La quinta versión de la popular biblioteca de visión por computador suma soporte para aceleración en hardware Intel, Arm, Qualcomm y RISC-V, mejora la visión 3D y agrega nuevas funcionalidades en el core, como tipos de datos adicionales, soporte real para arreglos N-dimensionales y escalares, y mejoras de rendimiento.

¿Qué cambia exactamente en el motor DNN de OpenCV 5?

OpenCV 4.x soportaba alrededor del 22% de los operadores ONNX, y el nuevo motor DNN de OpenCV 5 eleva esa cobertura a más del 80%. Esto significa que modelos con formas dinámicas que fallaban en 4.x deberían funcionar ahora, porque el engine 5.x fue reescrito alrededor de un grafo de operaciones tipado, con inferencia de formas, constant folding y fusión de operadores.

Cobertura ONNX: OpenCV 4.x vs OpenCV 5

La tabla siguiente resume la diferencia principal entre OpenCV 4.x y OpenCV 5:

Representación del modelo: 4.x usa una estructura por capa recorrida en orden; 5.x maneja un grafo tipado que el motor puede analizar.
Formas: solo estáticas en 4.x, simbólicas y dinámicas en 5.x.
Subgrafos: no soportados en 4.x; If y Loop sí en 5.x.
Fusión: limitada en 4.x; QDQ, BatchNorm, Attention, MatMul, Softmax y más en 5.x.
Memoria: reuso por capa en 4.x; pool unificado con reuso agresivo en 5.x.

Como el cambio es grande, para asegurar la retrocompatibilidad se ofrecen cuatro opciones de motor:

ENGINE_CLASSIC (1): fuerza el motor estilo 4.x. Soporta backends no-CPU como CUDA y OpenVINO.
ENGINE_NEW (2): fuerza el nuevo motor de grafo, con fusión y formas dinámicas. Por ahora es CPU-only, aunque ya hay trabajo en curso para aceleración GPU en inferencia y HAL no-CPU para pre y post procesado.
ENGINE_AUTO (3): el default. Intenta primero el motor nuevo y cae al clásico si el modelo no carga.
ENGINE_ORT (4): usa el wrapper de ONNX Runtime incluido. Solo modelos ONNX, requiere compilar con WITH_ONNXRUNTIME=ON.

¿LLMs corriendo dentro de OpenCV?

Aunque las siglas CV en OpenCV apuntan a Computer Vision, OpenCV 5 puede ejecutar modelos de lenguaje grande (LLMs) y modelos de visión-lenguaje (VLMs) directamente dentro del módulo DNN, sin un runtime aparte, gracias a un tokenizador nativo y caché KV para decodificación autorregresiva. Modelos como Qwen 2.5, Gemma 3, PaliGemma y la familia GPT-2 / GPT-4 corren a través de la misma API Net que se usa para un YOLO.

En la práctica, esto extiende el alcance de la biblioteca a detección, segmentación, modelos visión-lenguaje y generativos.

Modelos habilitados por el nuevo DNN de OpenCV 5

El rendimiento también luce competitivo. La tabla siguiente compara el DNN de OpenCV 5 con el ONNX Runtime sobre un Intel Core i9-14900KS con Ubuntu 24.04 LTS:

XFeat: 6,56 ms (OpenCV 5) vs 8,61 ms (ORT), 31,25% más rápido.
YOLOv8n: 10,9 ms vs 12,15 ms, 11,5% más rápido.
YOLOX-S: 23,46 ms vs 25,16 ms, 7,24% más rápido.
DINOv2 small: 23,78 ms vs 29,58 ms, 24,4% más rápido.
RF-DETR: 102,01 ms vs 106,49 ms, 4,4% más rápido.
OWLv2: 1.090 ms vs 1.489 ms, 36,6% más rápido.
BiRefNet: 7.178 ms vs 9.503,14 ms, 32,4% más rápido.

Hay benchmarks adicionales en distintas plataformas publicados en la wiki del proyecto.

Nuevas funcionalidades en el core

Además de los cambios en deep learning, el core de OpenCV también recibió mejoras:

Nuevos tipos de datos. OpenCV 5 incorpora soporte de primer nivel para FP16 (cv::hfloat, CV_16F) y BF16 (cv::bfloat, CV_16BF), además de bool, enteros de 64 bits y más.
Soporte real para arreglos N-dimensionales y escalares. cv::Mat ahora puede representar arreglos 0D (escalar) y 1D; OpenCV 5 suma broadcasting y operaciones N-D de primera clase como transposeND y flipND.
Mejor rendimiento. Hasta 2× en cargas matemáticas, y el mismo código corre sobre CPUs y aceleradores sin modificaciones.

En el lado del lenguaje hubo limpiezas:

La antigua API en C queda oficialmente deprecada.
C++17 es ahora el estándar mínimo recomendado, con módulos C++20 planeados para versiones 5.x posteriores.
En Python: soporte para NumPy 2.x, integración más profunda y argumentos con nombre (keyword) para algoritmos en C++, lo que permite escribir cv.someAlgorithm(threshold=0.5) sin memorizar el orden posicional.

¿En qué hardware acelera?

OpenCV 5 se beneficia de una Capa de Aceleración por Hardware (HAL) rediseñada que se apoya en Universal Intrinsics 2.0, un único código vectorial que mapea a SSE, AVX2/512, NEON, SVE, RVV y más. Soporta los siguientes aceleradores:

Intel IPP (IPPICV): reestructurado desde el camino original x86/x64. Un subconjunto gratuito (ICV) viene por defecto y despacha a kernels optimizados en SSE/AVX para filtrado, conversión de color y transformaciones geométricas.
Arm KleidiCV: HAL para AArch64 que acelera procesamiento de imágenes y kernels DNN usando NEON, SVE y SME, validado en AWS Graviton 4 y chips Cortex-A. Se activa automáticamente en operaciones soportadas; se han medido aceleraciones de 3 a 4× en operaciones como resize y warp.
Qualcomm FastCV: aceleración en targets Snapdragon a través del Hexagon DSP y la NPU.
RISC-V Vector (RVV): soporte vectorial escalable empujado en gran parte por la organización OpenCV China.

Es el mismo código de alto nivel para los cuatro, y OpenCV elige automáticamente la mejor ruta según el hardware donde corre.

Visión 3D, ahora con multi-cámara y RGB-D denso

La visión 3D de OpenCV 5 soporta calibración multi-cámara, entrada/salida de nubes de puntos y mallas, y fusión RGB-D densa. Se implementa en tres módulos:

3d: geometría 3D y visión básica, incluyendo I/O, primitivas geométricas, algoritmos como ICP y partes de SLAM.
calib: calibración de cámaras, con calibración monocámara y un pipeline multi-cámara refactorizado.
stereo: profundidad por estéreo.

Los desarrolladores afirman que es una mejora significativa para quienes trabajan en structure-from-motion, robótica o cualquier tipo de reconstrucción.

¿Cuándo y cómo se instala?

Más detalles del lanzamiento están en el anuncio oficial y en la documentación renovada, y el código fuente vive en GitHub. El anuncio menciona que "la versión pip de OpenCV 5 se publicará el 8 de junio", aunque por ahora solo aparece "4.13.0.92", así que todavía hay que compilar desde fuente.

Para integradores en Chile y LatAm que desplieguen visión por computador en edge, el cambio relevante es que el nuevo motor de OpenCV 5 acelera nativamente en Cortex-A y AWS Graviton 4 (lo que abarata flotas de inferencia en la nube), mientras que el soporte de RISC-V abre la puerta a SBCs de bajo costo como las basadas en chips de Pine64 o BL808 que ya se venden bajo 60 USD en distribuidores locales.

OpenCV 5 sube cobertura ONNX al 80% y soporta LLMs y VLMs

Al grano

Por qué importa

¿Qué cambia exactamente en el motor DNN de OpenCV 5?

¿LLMs corriendo dentro de OpenCV?

Nuevas funcionalidades en el core

¿En qué hardware acelera?

Visión 3D, ahora con multi-cámara y RGB-D denso

¿Cuándo y cómo se instala?

Seguir leyendo

Más allá del edge: inteligencia local en Arduino UNO Q

Vision industrial accesible con Arduino UNO Q y Edge Impulse

Rendimiento CPU RISC-V sube 8x en cinco años: De HiFive a K3

Intel Open Image Denoise 2.5: Mejoras de rendimiento en GPU

→Al grano

✦Por qué importa

¿Qué cambia exactamente en el motor DNN de OpenCV 5?

¿LLMs corriendo dentro de OpenCV?

Nuevas funcionalidades en el core

¿En qué hardware acelera?

Visión 3D, ahora con multi-cámara y RGB-D denso

¿Cuándo y cómo se instala?

Seguir leyendo

Más allá del edge: inteligencia local en Arduino UNO Q

Vision industrial accesible con Arduino UNO Q y Edge Impulse

Rendimiento CPU RISC-V sube 8x en cinco años: De HiFive a K3

Intel Open Image Denoise 2.5: Mejoras de rendimiento en GPU

Al grano

Por qué importa