DiffusionGemma: Google adapta difusión de imágenes al texto

El nuevo modelo MoE de pesos abiertos genera párrafos enteros en paralelo mediante denoising, corre con 18 GB de VRAM y entrega hasta 4× más velocidad que Gemma 4 26B en una sola H100.

Publicado el 13 de junio de 2026 · 08:57 a. m.3 min de lectura

Al grano

Google DeepMind liberó DiffusionGemma, modelo MoE de 26.000 millones de parámetros que genera texto con técnicas de difusión.

Corre con 18 GB de VRAM bajo licencia Apache 2.0 y entrega hasta 4× más velocidad que Gemma 4 26B-A4B en H100.

En el benchmark GPQA-Diamond queda apenas detrás de Gemma 4 12B; su ventaja real es speedup, no calidad.

Por qué importa

Difusión aplicada a texto es la línea de investigación que más prometía hace dos años y la que más decepcionó en producción. DiffusionGemma confirma el patrón: 4× más rápido en una sola H100 pero por debajo de un Gemma 4 12B en GPQA. Para LATAM el ángulo útil es otro: 18 GB encaja en una RTX 4090 que importadores chilenos venden alrededor de USD 1.800. Si la calidad sube apenas a paridad con el 12B autoregresivo, el caso para inferencia local sin nube se vuelve real.

Los investigadores del equipo DeepMind de Google presentaron esta semana un modelo de lenguaje experimental que adapta técnicas originalmente desarrolladas para generadores de imágenes con IA, con el objetivo de aumentar el rendimiento de salida de texto hasta 4 veces cuando corre en hardware de consumo con recursos limitados. Es de descarga gratuita y se puede correr con solo 18 GB de DRAM o VRAM.

El modelo, con nombre código DiffusionGemma, es la última incorporación a la familia de modelos de pesos abiertos de Google. Pero a diferencia de Gemma 4, que se lanzó esta primavera, este modelo Mixture-of-Experts de 26.000 millones de parámetros no es un LLM en el sentido convencional.

En cambio, está más cerca de modelos de imagen como Stable Diffusion o Flux. En lugar de generar tokens uno tras otro de forma autoregresiva, DiffusionGemma genera párrafos enteros de tokens simultáneamente.

¿Cómo funciona la difusión aplicada a texto?

El proceso se parece bastante a cómo un modelo de difusión transforma lo que es esencialmente estática visual en una imagen mediante una serie de pasos de denoising.

Como explica Google, DiffusionGemma trabaja desplegando un canvas de tokens aleatorios y refinándolos hasta llegar al output final.

Comparados con los LLM convencionales, que están limitados por ancho de banda de memoria y requieren mucha VRAM, los modelos de difusión son una carga predominantemente limitada por compute. Por eso Google los está posicionando para despliegue local.

Los LLM son autoregresivos: durante la generación de tokens, los parámetros activos del modelo deben transmitirse desde memoria por cada token generado, convirtiendo el ancho de banda de memoria en cuello de botella mayor.

En la nube, los proveedores de inferencia balancean compute y ancho de banda procesando cientos o miles de solicitudes en paralelo. Como podrás imaginar, eso no es algo que el usuario promedio corriendo un modelo local en su notebook pueda hacer.

Sin embargo, muchos productos de consumo, como las tarjetas gráficas de alta gama, tienen mucha capacidad computacional excedente, y DiffusionGemma puede aprovecharla para acelerar la salida.

¿Qué tan bueno es comparado con Gemma 4?

Los modelos de lenguaje por difusión no son perfectos. Google no fue el primero en explorar esta tecnología. Modelos previos como DREAM o Mercury 2 demostraron speedups importantes sobre LLM convencionales, pero en general rindieron por debajo en benchmarks comparados a su tamaño.

DiffusionGemma no parece ser distinto. Según Google, el modelo de 26.000 millones de parámetros queda apenas detrás de Gemma 4 12B en el benchmark GPQA-Diamond, con su principal ventaja siendo la velocidad de output, y ni siquiera tan impresionante como Google lo pintó.

Cómo se compara DiffusionGemma con el resto de la línea Gemma 4 en calidad versus velocidad.

El gráfico muestra un speedup de aproximadamente 2,25× sobre el LLM de 12.000 millones de parámetros con speculative decode habilitado. Comparado con Gemma 4 26B-A4B, el speedup llega a casi 4× corriendo una sola NVIDIA H100.

Tabla comparativa: difusión vs autoregresivo

LLM autoregresivo (Gemma 4, Llama, Mistral): genera 1 token a la vez. Limitado por ancho de banda de memoria. Mejor calidad en benchmarks, peor latencia en consumer.
LLM por difusión (DiffusionGemma, Mercury 2): genera párrafos completos en paralelo via denoising. Limitado por compute. Peor calidad en benchmarks, mejor throughput en GPU consumer.
Costo de VRAM: DiffusionGemma corre con 18 GB, encajando en RTX 4090 (24 GB) o incluso RTX 3090. Gemma 4 26B-A4B necesita ~32 GB para inferencia FP16.

Disponibilidad y soporte LATAM

DiffusionGemma se libera como modelo experimental, no enterprise como Gemma 4. Está disponible para descarga en repositorios populares como Hugging Face bajo licencia Apache 2.0 altamente permisiva, con soporte ya integrado en motores de inferencia como vLLM, MLX y HF Transformers. El soporte para Llama.cpp viene próximamente.

Para integradores de LatAm interesados en local inference, esto baja la barrera del hardware: con una RTX 4090 (USD 1.600-1.900 en Chile vía importadores) o GPUs de generación previa con 24 GB, el modelo corre sin necesidad de instancia cloud. Aunque la inferencia local sigue siendo dominio de entusiastas de IA, empresas como Google se inclinan cada vez más hacia esta tecnología para reducir costos de nube asociados a sus servicios. Recordemos que en mayo Google comenzó silenciosamente a enviar un pequeño LLM con su navegador Chrome.

DiffusionGemma: Google adapta difusión de imágenes al texto

Al grano

Por qué importa

¿Cómo funciona la difusión aplicada a texto?

¿Qué tan bueno es comparado con Gemma 4?

Tabla comparativa: difusión vs autoregresivo

Disponibilidad y soporte LATAM

Seguir leyendo

DiffusionGemma: generación de texto 4 veces más rápida

DiffusionGemma de Google escribe texto desde ruido a 1.000 tokens/s

Bonanza open: Gemma 4, DeepSeek V4, Kimi K2.6 y MiMo 2.5 estrenan

DiffusionGemma: IA de alto rendimiento en hardware NVIDIA

→Al grano

✦Por qué importa

¿Cómo funciona la difusión aplicada a texto?

¿Qué tan bueno es comparado con Gemma 4?

Tabla comparativa: difusión vs autoregresivo

Disponibilidad y soporte LATAM

Seguir leyendo

DiffusionGemma: generación de texto 4 veces más rápida

DiffusionGemma de Google escribe texto desde ruido a 1.000 tokens/s

Bonanza open: Gemma 4, DeepSeek V4, Kimi K2.6 y MiMo 2.5 estrenan

DiffusionGemma: IA de alto rendimiento en hardware NVIDIA

Al grano

Por qué importa