Punto clave de esta nota

DFlash, drafter open source de UC San Diego, multiplica por 15 la inferencia de gpt-oss-120b en NVIDIA Blackwell.

Punto clave de esta nota

Genera bloques completos de tokens en paralelo mediante difusión por bloques y verifica con el modelo objetivo sin perder calidad de salida.

Punto clave de esta nota

Casi dobla la interactividad de Llama 3.1 8B frente a EAGLE-3 y suma aceleraciones de 5,8x en Gemma 4 31B.

DFlash: hasta 15x más inferencia LLM en NVIDIA Blackwell

Al grano

DFlash, drafter open source de UC San Diego, multiplica por 15 la inferencia de gpt-oss-120b en NVIDIA Blackwell.
Genera bloques completos de tokens en paralelo mediante difusión por bloques y verifica con el modelo objetivo sin perder calidad de salida.
Casi dobla la interactividad de Llama 3.1 8B frente a EAGLE-3 y suma aceleraciones de 5,8x en Gemma 4 31B.

DFlash es un modelo de difusión por bloques open source para speculative decoding que acelera de forma significativa la inferencia de LLMs en GPUs NVIDIA Blackwell. En lugar de proponer tokens uno a uno, genera bloques completos en paralelo y los verifica de forma eficiente con el modelo objetivo.

Los benchmarks muestran hasta 15x más throughput en gpt-oss-120b, casi el doble de interactividad en Llama 3.1 8B a la misma concurrencia frente a EAGLE-3, además de aceleraciones de hasta 5,8x en Gemma 4 31B y 5,1x en Qwen3 8-B sobre vLLM y SGLang respectivamente.

La integración en frameworks como SGLang, vLLM y TensorRT-LLM permite adoptar DFlash sin refactorizar código, gracias a los checkpoints liberados en Hugging Face para varias arquitecturas de GPU NVIDIA y familias de modelos.

A medida que los sistemas de IA pasan de interacciones de una sola pregunta a flujos coordinados entre múltiples agentes, la baja latencia en inferencia se vuelve cada vez más importante. Los LLM autoregresivos generan tokens de manera secuencial, lo que limita el uso del GPU y restringe el throughput cuando el servicio exige latencia baja.

El speculative decoding ataca ese cuello de botella usando un modelo ligero que propone tokens futuros, que el modelo grande verifica en paralelo. DFlash es un drafter de difusión por bloques open source que extiende ese enfoque: produce un bloque completo de tokens candidatos en una sola pasada, convirtiendo el drafting secuencial en trabajo paralelo en GPU mientras preserva la calidad del modelo objetivo a través de la verificación.

DFlash sube hasta 15x la inferencia de gpt-oss-120b sobre NVIDIA Blackwell al mismo nivel de interactividad. También casi duplica la interactividad de Llama 3.1 8B a la misma concurrencia frente al estado del arte EAGLE-3.

El equipo de investigación liberó 20 checkpoints de DFlash en Hugging Face con recetas para GPUs NVIDIA Blackwell y NVIDIA Hopper.

¿Cómo entrega más throughput a la misma interactividad?

La curva de Pareto latencia-throughput para gpt-oss-120b corriendo con DFlash en TensorRT-LLM sobre un sistema NVIDIA DGX B300 de 8 GPUs y el dataset de código SPEED-Bench muestra mayor throughput en todos los targets relevantes de producción frente al decoding autoregresivo. La configuración sirve gpt-oss-120b a través de las ocho GPUs Blackwell del sistema, lo que aporta la memoria, el cómputo y el ancho de banda de interconexión necesarios para alcanzar interactividades altas en casos de uso agéntico como generación de código.

Curva de Pareto throughput vs interactividad de gpt-oss-120b con DFlash sobre ocho GPUs NVIDIA DGX B300 usando TensorRT-LLM

En el rango de alta interactividad (500-600 tokens/s por usuario), DFlash incrementa el throughput sobre Blackwell más de 15 veces frente al decoding autoregresivo, 1,5x sobre el speculative decoding EAGLE-3. En el extremo de baja concurrencia (batch size 1), DFlash más que dobla la interactividad sobre Blackwell.

Observar la curva en múltiples concurrencias importa porque los equipos de serving optimizan típicamente para un nivel de interactividad objetivo. Workloads de coding interactivo, razonamiento y agentes necesitan mantener una latencia estricta por usuario mientras escalan concurrencia. DFlash mejora ese trade-off agregando paralelismo a la ruta de decode especulativo: su drafter de difusión por bloques genera varios candidatos a la vez y el modelo objetivo los verifica en paralelo.

Sobre NVIDIA Blackwell ese paralelismo vale especialmente. En la zona limitada por decode, la inferencia LLM suele estar acotada por movimiento de memoria y por el carácter secuencial de la generación de tokens, no por cómputo bruto. DFlash mueve parte de ese trabajo a drafting y verificación por bloques en paralelo, lo que permite usar más del cómputo disponible al mismo target de interactividad.

Cada GPU NVIDIA Blackwell Ultra combina dos dies del tamaño máximo del retículo conectados por 10 TB/s de interconexión chip-a-chip, formando un dominio único de cómputo con 160 SMs y 640 Tensor Cores de quinta generación. DFlash encaja bien con esa arquitectura porque expone más trabajo paralelo a los 15 PFLOPS de cómputo denso NVFP4 de Blackwell, sirviendo hasta 15x más usuarios concurrentes al mismo ritmo de interactividad.

DFlash también muestra mejoras de interactividad sobre EAGLE-3 a través de distintos datasets. Las ganancias se extienden a modelos más pequeños: casi dobla el rendimiento de EAGLE-3 sobre Llama 3.1 8B en el dataset multilingüe de Speed-Bench.

¿Cómo llega DFlash a los desarrolladores sin reescribir aplicaciones?

Investigadores de UC San Diego publicaron el paper DFlash: Block Diffusion for Flash Speculative Decoding en febrero de 2026 como parte del trabajo continuo en inferencia LLM más rápida y eficiente sobre NVIDIA Blackwell. Construido en PyTorch con soporte nativo CUDA, DFlash mejora el rendimiento de decode mediante speculative decoding por difusión de bloques. NVIDIA y la comunidad de inferencia open source aseguraron soporte robusto en SGLang y vLLM, dándoles a los desarrolladores un camino claro para introducir DFlash en deployments de inferencia sobre el serving stack de su preferencia.

Desde la publicación del paper, el equipo liberó 20 checkpoints en Hugging Face con recetas para Blackwell y Hopper que cubren familias de modelos como Qwen, Kimi K2.6, Llama, Gemma y gpt-oss.

Sobre vLLM, los desarrolladores pueden reemplazar EAGLE-3 por un checkpoint DFlash sin cambios de código fuera de la configuración. La integración corre vía la librería open source Speculators, que conecta el drafter DFlash con los hidden states del modelo objetivo dentro del path de inferencia vLLM en GPUs NVIDIA. En Gemma 4 31B sobre una sola GPU Blackwell Ultra, este camino entrega hasta 5,8x más throughput a la misma concurrencia frente al decoding autoregresivo.

Para SGLang, migrar de EAGLE a DFlash solo requiere actualizar el algoritmo de speculative decoding a DFlash y entregar el checkpoint correspondiente del modelo de draft. En Qwen3 8-B sobre una sola GPU Blackwell, este camino entrega hasta 5,1x más throughput a la misma concurrencia frente al decoding autoregresivo.

Esta cobertura temprana amplia de modelos y frameworks sobre GPUs NVIDIA importa porque permite a los equipos evaluar y desplegar optimizaciones rápido usando los frameworks que ya conocen, sin reescribir la aplicación.

¿Cómo funciona en detalle el speculative decoding de DFlash?

El speculative decoding tiene dos fases: drafting y verificación. Un modelo de draft pequeño propone tokens futuros. El modelo objetivo verifica esos tokens en paralelo y acepta el prefijo válido más largo. Si el draft acierta, el sistema genera varios tokens con una sola pasada de verificación del modelo grande.

Los métodos tradicionales de speculative decoding usan modelos de draft autoregresivos. Esos drafters siguen generando tokens uno a uno, así que el costo de drafting crece con la cantidad de tokens especulativos. Eso limita cuánto puede empujarse el throughput.

DFlash reemplaza el drafter autoregresivo por un drafter ligero de difusión por bloques. En vez de generar tokens uno a uno, predice un bloque de tokens futuros enmascarados en una sola pasada.

EAGLE 3 hace drafting autoregresivo, mientras que DFlash usa drafting por difusión de bloques para proponer varios tokens en paralelo antes de la verificación del modelo objetivo

DFlash combina tres técnicas clave:

Block-diffusion drafting: el drafter predice múltiples tokens futuros en paralelo.
Target hidden-state conditioning: el drafter usa features de contexto extraídos del modelo objetivo.
KV injection: las features de contexto del modelo objetivo se inyectan en las proyecciones key-value del modelo draft a través de todas las capas, lo que ayuda a mantener tasas de aceptación altas.

Este diseño hace al drafter rápido y efectivo a la vez. El modelo objetivo sigue ejecutando la verificación, así que DFlash preserva la distribución de salida del modelo objetivo mientras acelera la generación.

¿Dónde correr DFlash hoy?

DFlash está disponible sobre GPUs NVIDIA mediante los checkpoints open source y soporte en SGLang, vLLM y TensorRT-LLM. La comunidad de investigación sigue desarrollando nuevas optimizaciones de inferencia sobre GPUs NVIDIA, y DFlash es un ejemplo concreto de cómo el ecosistema puede llevar esas ideas a los desarrolladores rápido.

DFlash: hasta 15x más inferencia LLM en NVIDIA Blackwell

Al grano

Por qué importa

¿Cómo entrega más throughput a la misma interactividad?

¿Cómo llega DFlash a los desarrolladores sin reescribir aplicaciones?

¿Cómo funciona en detalle el speculative decoding de DFlash?

¿Dónde correr DFlash hoy?

Seguir leyendo

DiffusionGemma: generación de texto 4 veces más rápida

NVIDIA Blackwell lidera el primer benchmark de IA agéntica

Sakana AI y NVIDIA aceleran 20% la inferencia de LLMs con TwELL

TLX Block Attention: 1,85x sobre Flash Attention v2 en NVIDIA B200

→Al grano

✦Por qué importa

¿Cómo entrega más throughput a la misma interactividad?

¿Cómo llega DFlash a los desarrolladores sin reescribir aplicaciones?

¿Cómo funciona en detalle el speculative decoding de DFlash?

¿Dónde correr DFlash hoy?

Seguir leyendo

DiffusionGemma: generación de texto 4 veces más rápida

NVIDIA Blackwell lidera el primer benchmark de IA agéntica

Sakana AI y NVIDIA aceleran 20% la inferencia de LLMs con TwELL

TLX Block Attention: 1,85x sobre Flash Attention v2 en NVIDIA B200

Al grano

Por qué importa