Punto clave de esta nota

DiffusionGemma es un modelo abierto experimental de Google DeepMind, MoE de 26B parámetros totales y 3,8B activos, bajo licencia Apache 2.0.

Punto clave de esta nota

Genera 256 tokens en paralelo por cada paso, alcanzando más de 1.000 tokens/s en NVIDIA H100 y más de 700 tokens/s en RTX 5090.

Punto clave de esta nota

Cabe en 18 GB de VRAM cuantizado, lo que permite correrlo en GPU consumer de gama alta y queda destinado a edición inline, code infilling y workflows interactivos locales.

DiffusionGemma: generación de texto 4 veces más rápida

Al grano

DiffusionGemma es un modelo abierto experimental de Google DeepMind, MoE de 26B parámetros totales y 3,8B activos, bajo licencia Apache 2.0.
Genera 256 tokens en paralelo por cada paso, alcanzando más de 1.000 tokens/s en NVIDIA H100 y más de 700 tokens/s en RTX 5090.
Cabe en 18 GB de VRAM cuantizado, lo que permite correrlo en GPU consumer de gama alta y queda destinado a edición inline, code infilling y workflows interactivos locales.

Google DeepMind presentó hoy DiffusionGemma, un modelo abierto experimental que explora la difusión de texto, un enfoque excepcionalmente rápido para la generación de lenguaje. Publicado bajo licencia Apache 2.0, este modelo Mixture of Experts (MoE) de 26.000 millones de parámetros abandona el procesamiento secuencial token por token de los grandes modelos de lenguaje autorregresivos. En su lugar, genera bloques enteros de texto en simultáneo y promete hasta 4 veces más velocidad de generación en GPU.

DiffusionGemma se construye sobre la familia Gemma 4 y la investigación Gemini Diffusion de DeepMind. Integra una nueva cabeza de difusión diseñada para maximizar la velocidad de generación. Según la empresa, los modelos autorregresivos Gemma 4 siguen siendo el estándar para salidas de producción de máxima calidad, mientras que DiffusionGemma apunta a investigadores y desarrolladores que exploran flujos locales sensibles a la latencia: edición inline, iteración rápida y generación de estructuras de texto no lineales.

¿Qué desbloquea para los desarrolladores?

Los equipos que construyen aplicaciones de IA interactiva en tiempo real chocan con los cuellos de botella de latencia de la inferencia local. DiffusionGemma ataca el problema con varios compromisos concretos:

Inferencia muy rápida: al trasladar el cuello de botella del decode desde el ancho de banda de memoria al cómputo, DiffusionGemma alcanza hasta 4x más tokens por segundo en GPU dedicadas: más de 1.000 tokens por segundo en una NVIDIA H100 y más de 700 tokens por segundo en una NVIDIA GeForce RTX 5090.
Huella de hardware accesible: opera como un MoE de 26B totales que activa solo 3.800 millones de parámetros por inferencia, lo que lo hace caber dentro de los 18 GB de VRAM de las GPU consumer de gama alta cuando se cuantiza.
Atención bidireccional: generar 256 tokens en paralelo por cada paso forward permite que cada token atienda a todos los demás. Es una ventaja significativa para dominios no lineales como edición inline, código incompleto, secuencias de aminoácidos o gráficos matemáticos.
Autocorrección inteligente: el modelo refina iterativamente su propia salida, lo que le permite evaluar el bloque completo y corregir errores en tiempo real.
Estado experimental: como prioriza la velocidad y la generación paralela del layout, la calidad global de la salida de DiffusionGemma es inferior a la del Gemma 4 estándar. DeepMind recomienda desplegar Gemma 4 para aplicaciones que exijan máxima calidad.

El rendimiento en tareas específicas se puede mejorar con fine-tuning. En un ejemplo destacado por DeepMind, Unsloth afinó el modelo para jugar Sudoku, una tarea con la que los autorregresivos sufren porque cada token depende de tokens futuros. La atención bidireccional de DiffusionGemma le saca ventaja.

¿Por qué difusión para texto?

La comunidad de investigación lleva años explorando la difusión aplicada a texto, pero llevarla a modelos grandes seguía siendo un desafío. DiffusionGemma cambia las reglas al modificar cómo los modelos usan el hardware.

El compromiso con los modelos tradicionales

La mayoría de los modelos de lenguaje funcionan como una máquina de escribir, generando un token a la vez de izquierda a derecha. En la nube es eficiente porque los servidores pueden batchear miles de pedidos de usuarios para compartir la carga del hardware. Pero cuando corren localmente para un solo usuario, este proceso palabra por palabra deja a la GPU o TPU dedicada subutilizada: pasa la mayoría del tiempo esperando la próxima "tecla".

DiffusionGemma revierte esa ineficiencia. En lugar de predecir palabras secuencialmente, redacta un párrafo entero de 256 tokens en simultáneo. Al darle al procesador una porción de trabajo más grande a la vez, aprovecha el hardware al máximo. Pasa de una máquina de escribir secuencial a una imprenta que estampa el bloque completo en una sola pasada.

Esto significa que la mejora de velocidad está pensada para inferencia local y de baja concurrencia. En servir cloud de alta QPS, los modelos autorregresivos pueden desplegarse para saturar cómputo de manera eficiente, por lo que el decode paralelo de DiffusionGemma ofrece retornos decrecientes y puede resultar en mayores costos de servir. La ventaja de throughput es más fuerte en lotes pequeños y medianos sobre un solo acelerador.

Cómo funciona la difusión aplicada al texto

De forma similar a los generadores de imágenes que parten del ruido visual y lo refinan iterativamente hasta llegar a una imagen clara, DiffusionGemma lo aplica al texto:

El lienzo: el modelo arranca con un lienzo de tokens placeholder aleatorios.
Refinamiento iterativo: hace múltiples pasadas, fijando los tokens correctos y usándolos como pistas de contexto para refinar el resto.
Pulido final: el texto converge en una salida de alta calidad.

Como el modelo puede procesar el párrafo completo durante la generación, desbloquea patrones nuevos de comportamiento, como cerrar correctamente formato markdown complejo o generar y renderizar código casi en tiempo real.

Cómo empezar hoy

Descargar los pesos: acceder a los pesos experimentales (Apache 2.0) ya disponibles en Hugging Face.
Integrar y aprender: la guía de DiffusionGemma para desarrolladores explica los fundamentos. Para profundizar en la mecánica interna, esta guía visual repasa los detalles.
Herramientas de desarrollo favoritas: servirlo eficientemente con MLX, vLLM (con integración soportada por Red Hat) y Hugging Face Transformers. Para experimentar, DeepMind libera un tutorial de fine-tuning con Hackable Diffusion, una toolbox modular en JAX. También se puede afinar con Unsloth y NVIDIA NeMo. Soporte oficial para llama.cpp llega pronto.
Rendimiento optimizado: Google trabajó con NVIDIA para optimizarlo en todo el stack de hardware: compatibilidad con setups consumer (cuantizado para RTX 5090 y 4090) y alto rendimiento en sistemas enterprise (Hopper y Blackwell con kernels NVFP4 avanzados), incluidos NVIDIA DGX Spark y DGX Station para despliegue local de escritorio, y RTX PRO para profesionales de IA. El soporte nativo para NVFP4 (punto flotante de 4 bits) acelera el throughput de cómputo.
Probarlo: correrlo en GPU dedicada de escritorio o en la nube vía Gemini Enterprise Agent Platform Model Garden o NVIDIA NIM.

DiffusionGemma: generación de texto 4 veces más rápida

Al grano

Por qué importa

¿Qué desbloquea para los desarrolladores?

¿Por qué difusión para texto?

El compromiso con los modelos tradicionales

Cómo funciona la difusión aplicada al texto

Cómo empezar hoy

Seguir leyendo

NVIDIA lanza Nemotron 3 Ultra: IA optimizada para agentes

Sakana AI y NVIDIA aceleran 20% la inferencia de LLMs con TwELL

Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal

NVIDIA lanza Nemotron 3 Nano Omni, modelo omnimodal para agentes de IA

→Al grano

✦Por qué importa

¿Qué desbloquea para los desarrolladores?

¿Por qué difusión para texto?

El compromiso con los modelos tradicionales

Cómo funciona la difusión aplicada al texto

Cómo empezar hoy

Seguir leyendo

NVIDIA lanza Nemotron 3 Ultra: IA optimizada para agentes

Sakana AI y NVIDIA aceleran 20% la inferencia de LLMs con TwELL

Nemotron 3 Nano Omni: Nvidia abre su modelo multimodal

NVIDIA lanza Nemotron 3 Nano Omni, modelo omnimodal para agentes de IA

Al grano

Por qué importa