NVIDIA Canary-Qwen 2.5B logra 5,91% WER y supera a Whisper

El modelo de reconocimiento de voz NeMo Canary-Qwen-2.5B alcanza estado del arte en inglés con 46x sobre tiempo real, y libera pesos en Hugging Face bajo la licencia abierta de NVIDIA.

Publicado el 4 de mayo de 2026 · 12:52 p. m.2 min de lectura

Al grano

NVIDIA NeMo Canary-Qwen-2.5B alcanza 5,91% de WER global en inglés y transcribe hasta 46 veces más rápido que tiempo real, según pruebas independientes.

El modelo es state of the art en inglés y supera a Whisper Large V3 en exactitud y velocidad, según las comparativas publicadas el 30 de abril de 2026.

Sigue siendo un modelo solo-inglés: Whisper conserva ventaja para español, otros idiomas y los timestamps a nivel de palabra que Canary aún no expone.

Por qué importa

El dato clave para LATAM es que Canary-Qwen-2.5B sigue siendo un modelo solo-inglés: Whisper Large V3 conserva ventaja por cobertura multilingüe y por timestamps a nivel de palabra que Canary aún no expone. La estrategia obvia: usar Canary cuando el material es 100% inglés y más rápido es más barato; mantener Whisper para español o flujos mixtos. El salto real llegará si NVIDIA publica un Canary multilingüe.

¿Qué es exactamente NVIDIA Canary-Qwen-2.5B?

NVIDIA NeMo Canary-Qwen-2.5B es un modelo de reconocimiento de voz para inglés que alcanza desempeño state of the art en múltiples benchmarks de habla en ese idioma. Canary destrona al popular Whisper de OpenAI como referencia en transcripción automática.

Los pesos están disponibles en el repositorio oficial: huggingface.co/nvidia/canary-qwen-2.5b.

¿Cuán bueno es contra Whisper Large V3?

En las pruebas reportadas por el desarrollador independiente Furkan Gözükara, ejecutadas dentro de su aplicación local de transcripción, Canary-Qwen-2.5B obtuvo:

5,91% de WER (Word Error Rate) global, mejor que Whisper Large V3 en sus mejores configuraciones.
Hasta 46 veces más rápido que tiempo real al transcribir.
Mejor calidad de salida en VTT, TXT, TSV y SRT en pruebas de tutoriales largos y cortos.

Whisper, sin embargo, sigue siendo útil cuando se necesita una cobertura más amplia de idiomas hablados o timestamps a nivel de palabra (Canary todavía no expone esos timestamps de manera nativa).

Comparación Canary-Qwen 2.5B vs Whisper Large V3 #1

Comparación Canary-Qwen 2.5B vs Whisper Large V3 #2

Comparación Canary-Qwen 2.5B vs Whisper Large V3 #3

Como muestran las gráficas, Canary-Qwen 2.5B no solo es significativamente mejor en exactitud, sino también más rápido.

¿Cuándo se liberó y bajo qué licencia?

NVIDIA publicó Canary-Qwen-2.5B el 30 de abril de 2026. Los pesos se distribuyen bajo la licencia abierta de NVIDIA para los modelos NeMo, que permite uso comercial con atribución. El tamaño del modelo descargado al primer uso ronda los 5 GB, lo que lo deja al alcance de GPUs de gama media (la app de prueba documenta uso de VRAM tan bajo como 6 GB).

Requisitos técnicos para correrlo localmente

Para correr Canary-Qwen-2.5B en una máquina personal con la pila probada por Gözükara, los requisitos reportados son:

Python 3.11 dentro de un entorno virtual (venv).
CUDA 13 con drivers actualizados de NVIDIA (incluido soporte para RTX 5000).
PyTorch 2.9.1 con bibliotecas precompiladas como Flash Attention.
Modo subproceso para evitar fugas de VRAM y RAM al cancelar transcripciones.
Soporta Windows y Linux.

Casos donde Whisper sigue ganando

Pese al salto de Canary-Qwen-2.5B, hay flujos en los que Whisper Large V3 conserva ventaja:

Cobertura multilingüe: Whisper soporta más de 100 idiomas; Canary, por ahora, está enfocado solo en inglés.
Timestamps por palabra: Whisper expone word-level timestamps nativamente, útil para edición fina de subtítulos.
Modelos pequeños: Whisper Tiny/Base permite transcripción con muy bajos recursos, una alternativa para hardware sin GPU dedicada.

Para flujos de trabajo en español o cualquier otro idioma distinto del inglés, Whisper sigue siendo la herramienta de referencia hasta que NVIDIA libere una variante multilingüe del Canary.

NVIDIA Canary-Qwen 2.5B logra 5,91% WER y supera a Whisper

Al grano

Por qué importa

¿Qué es exactamente NVIDIA Canary-Qwen-2.5B?

¿Cuán bueno es contra Whisper Large V3?

¿Cuándo se liberó y bajo qué licencia?

Requisitos técnicos para correrlo localmente

Casos donde Whisper sigue ganando

Seguir leyendo

ComfyUI con RTX: tres flujos creativos listos para producción

Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal

OpenClaw: el agente IA local que estalló en GitHub

NVIDIA Nemotron 3 Nano Omni unifica video, audio e imagen en un modelo

→Al grano

✦Por qué importa

¿Qué es exactamente NVIDIA Canary-Qwen-2.5B?

¿Cuán bueno es contra Whisper Large V3?

¿Cuándo se liberó y bajo qué licencia?

Requisitos técnicos para correrlo localmente

Casos donde Whisper sigue ganando

Seguir leyendo

ComfyUI con RTX: tres flujos creativos listos para producción

Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal

OpenClaw: el agente IA local que estalló en GitHub

NVIDIA Nemotron 3 Nano Omni unifica video, audio e imagen en un modelo

Al grano

Por qué importa