Google liberó esta semana DiffusionGemma, un modelo experimental de lenguaje con pesos abiertos que abandona la generación palabra por palabra y la reemplaza por un proceso de difusión. Parte de un bloque de 256 tokens aleatorios y los refina en varios pasos hasta convertirlos en texto legible, la misma lógica que usan los modelos de imagen para transformar ruido en una foto nítida.
El modelo tiene 26.000 millones de parámetros totales, pero solo activa 3.800 millones por paso gracias a una arquitectura mixture-of-experts (MoE) que enciende solo los sub-modelos relevantes según el input. Al cuantizar a precisión menor, cabe en 18 GB de VRAM y corre en GPUs consumer de alta gama. La base es la familia Gemma 4 y el proceso de difusión proviene de la investigación previa de Google con Gemini Diffusion. La optimización del modelo para hardware fue responsabilidad de Nvidia.
¿Qué tan rápido es DiffusionGemma en una sola GPU?
En modo single-user (una sola petición a la vez), la diferencia de velocidad es marcada. Nvidia reporta los siguientes números medidos:
- H100: alrededor de 1.000 tokens por segundo
- DGX Spark (estación deskside): 150 tokens por segundo
- DGX Station: hasta 2.000 tokens por segundo
- GeForce RTX 5090: más de 700 tokens por segundo, según Google
En el paper propio de Google, DiffusionGemma corre unas 3,5 veces más rápido que un Gemma 4 del mismo tamaño en condiciones equivalentes. En la práctica, sobre GPUs dedicadas, el factor llega a 4×.
| GPU | DiffusionGemma | Gemma 4 (estimado) | Hardware mínimo |
|---|---|---|---|
| H100 | ~1.000 tok/s | ~250 tok/s | datacenter |
| DGX Station | ~2.000 tok/s | n/d | deskside |
| RTX 5090 | >700 tok/s | ~175 tok/s | consumer high-end |
| DGX Spark | 150 tok/s | n/d | deskside compacto |
¿Por qué es más rápido con la misma cantidad de parámetros?
La explicación está en cómo se usa la GPU. Los modelos autoregresivos clásicos, cuando atienden una sola petición, suelen quedar limitados por el ancho de banda de memoria. Los ingenieros lo llaman memory-bound. Los núcleos de cómputo pasan la mayor parte del tiempo esperando datos. DiffusionGemma esquiva el problema procesando hasta 256 tokens en paralelo, lo que mueve el cuello de botella hacia el cómputo bruto y mantiene las unidades ocupadas.
El efecto se diluye en dos escenarios. En equipos con memoria compartida tipo Apple Silicon, que ya están limitados por ancho de banda durante inferencia, la ventaja se acorta. Y en servicios cloud que atienden muchas peticiones en paralelo, los modelos autoregresivos ya saturan el hardware, así que ahí DiffusionGemma puede incluso encarecer la inferencia, según el propio Google.
Velocidad a costa de calidad, pero usos nuevos
DiffusionGemma cambia calidad por velocidad. En los benchmarks de Google queda atrás del Gemma 4 equivalente en todas las pruebas, y la empresa recomienda seguir usando los modelos regulares cuando lo importante es la precisión.
Donde sí marca diferencia es en tareas que no se desarrollan de izquierda a derecha. Como el modelo considera el bloque completo a la vez, cada token puede referenciar a los demás durante la generación, incluso los que vienen después. Los autoregresivos solo pueden mirar hacia atrás. Eso lo vuelve útil para:
- Insertar texto dentro de párrafos existentes, no solo extender al final
- Rellenar huecos en código
- Trabajar con datos estructurados como secuencias de aminoácidos o grafos matemáticos
- Resolver puzzles donde cada celda depende de las siguientes
Google ejemplifica con un fine-tune de Unsloth que resuelve Sudoku. Sobre dos grillas de 9x9 tras 30 pasos de denoising, el DiffusionGemma base se equivoca en 31 celdas; la versión ajustada las completa todas correctamente. Los autoregresivos pelean con la tarea porque cada entrada depende de las que vienen después.
Pesos abiertos y soporte en herramientas comunes
Los pesos están disponibles en Hugging Face bajo licencia Apache 2.0, lo que habilita uso comercial sin restricciones mayores. DiffusionGemma funciona desde el día uno con bibliotecas estándar: Hugging Face Transformers, vLLM (con integración a cargo de Red Hat) y MLX para Apple Silicon. Para fine-tuning, Google apunta a su propio toolkit JAX llamado Hackable Diffusion, además de Unsloth y el Nvidia NeMo Framework. El soporte para llama.cpp está planificado pero todavía no implementado.
Nvidia cuantizó el modelo específicamente para RTX 5090 y RTX 4090, y lo optimizó para arquitecturas server Hopper y Blackwell, incluyendo DGX Spark y DGX Station para configuraciones deskside locales. También está disponible vía la Gemini Enterprise Agent Platform Model Garden y Nvidia NIM.
De Gemini Diffusion a Mercury 2: la familia se puebla
Google DeepMind ya había mostrado un demo experimental de difusión textual con Gemini Diffusion, que en su momento reportaba velocidades de 1.479 tokens por segundo y rendimiento comparable a Gemini 2.0 Flash-Lite en benchmarks. DiffusionGemma es el primer modelo abierto de la familia Gemma que adopta esta vía.
La startup Inception persigue el mismo enfoque de difusión paralela. Su Mercury 2, lanzado a comienzos de 2026, se promociona como el primer modelo de difusión con capacidades de razonamiento. La competencia entre difusión y autoregresión todavía es asimétrica: los autoregresivos ganan en calidad, los de difusión en velocidad y tareas no lineales. Pero el espacio se está poblando.
¿Vale la pena para makers y desarrolladores LatAm?
La cifra interesante para el lector regional es la RTX 5090 a más de 700 tokens por segundo. Esa GPU se consigue en Chile importada por sobre USD 2.500 (más IVA), pero es la primera vez que un modelo abierto de 26B corre rápido sobre hardware consumer comprable, sin depender de instancias en la nube. Para integradores locales con casos de uso de autocompletado de código o procesamiento de datos estructurados, el ahorro frente a llamadas a APIs cerradas puede justificar la inversión en hardware. Para tareas conversacionales clásicas, la pérdida de calidad inclina la balanza de vuelta hacia Gemma 4 o equivalentes autoregresivos.




