Los investigadores del equipo DeepMind de Google presentaron esta semana un modelo de lenguaje experimental que adapta técnicas originalmente desarrolladas para generadores de imágenes con IA, con el objetivo de aumentar el rendimiento de salida de texto hasta 4 veces cuando corre en hardware de consumo con recursos limitados. Es de descarga gratuita y se puede correr con solo 18 GB de DRAM o VRAM.

El modelo, con nombre código DiffusionGemma, es la última incorporación a la familia de modelos de pesos abiertos de Google. Pero a diferencia de Gemma 4, que se lanzó esta primavera, este modelo Mixture-of-Experts de 26.000 millones de parámetros no es un LLM en el sentido convencional.

En cambio, está más cerca de modelos de imagen como Stable Diffusion o Flux. En lugar de generar tokens uno tras otro de forma autoregresiva, DiffusionGemma genera párrafos enteros de tokens simultáneamente.

¿Cómo funciona la difusión aplicada a texto?

El proceso se parece bastante a cómo un modelo de difusión transforma lo que es esencialmente estática visual en una imagen mediante una serie de pasos de denoising.

Como explica Google, DiffusionGemma trabaja desplegando un canvas de tokens aleatorios y refinándolos hasta llegar al output final.

Comparados con los LLM convencionales, que están limitados por ancho de banda de memoria y requieren mucha VRAM, los modelos de difusión son una carga predominantemente limitada por compute. Por eso Google los está posicionando para despliegue local.

Los LLM son autoregresivos: durante la generación de tokens, los parámetros activos del modelo deben transmitirse desde memoria por cada token generado, convirtiendo el ancho de banda de memoria en cuello de botella mayor.

En la nube, los proveedores de inferencia balancean compute y ancho de banda procesando cientos o miles de solicitudes en paralelo. Como podrás imaginar, eso no es algo que el usuario promedio corriendo un modelo local en su notebook pueda hacer.

Sin embargo, muchos productos de consumo, como las tarjetas gráficas de alta gama, tienen mucha capacidad computacional excedente, y DiffusionGemma puede aprovecharla para acelerar la salida.

¿Qué tan bueno es comparado con Gemma 4?

Los modelos de lenguaje por difusión no son perfectos. Google no fue el primero en explorar esta tecnología. Modelos previos como DREAM o Mercury 2 demostraron speedups importantes sobre LLM convencionales, pero en general rindieron por debajo en benchmarks comparados a su tamaño.

DiffusionGemma no parece ser distinto. Según Google, el modelo de 26.000 millones de parámetros queda apenas detrás de Gemma 4 12B en el benchmark GPQA-Diamond, con su principal ventaja siendo la velocidad de output, y ni siquiera tan impresionante como Google lo pintó.

Cómo se compara DiffusionGemma con el resto de la línea Gemma 4 en calidad versus velocidad.
Cómo se compara DiffusionGemma con el resto de la línea Gemma 4 en calidad versus velocidad.

El gráfico muestra un speedup de aproximadamente 2,25× sobre el LLM de 12.000 millones de parámetros con speculative decode habilitado. Comparado con Gemma 4 26B-A4B, el speedup llega a casi 4× corriendo una sola NVIDIA H100.

Tabla comparativa: difusión vs autoregresivo

  • LLM autoregresivo (Gemma 4, Llama, Mistral): genera 1 token a la vez. Limitado por ancho de banda de memoria. Mejor calidad en benchmarks, peor latencia en consumer.
  • LLM por difusión (DiffusionGemma, Mercury 2): genera párrafos completos en paralelo via denoising. Limitado por compute. Peor calidad en benchmarks, mejor throughput en GPU consumer.
  • Costo de VRAM: DiffusionGemma corre con 18 GB, encajando en RTX 4090 (24 GB) o incluso RTX 3090. Gemma 4 26B-A4B necesita ~32 GB para inferencia FP16.

Disponibilidad y soporte LATAM

DiffusionGemma se libera como modelo experimental, no enterprise como Gemma 4. Está disponible para descarga en repositorios populares como Hugging Face bajo licencia Apache 2.0 altamente permisiva, con soporte ya integrado en motores de inferencia como vLLM, MLX y HF Transformers. El soporte para Llama.cpp viene próximamente.

Para integradores de LatAm interesados en local inference, esto baja la barrera del hardware: con una RTX 4090 (USD 1.600-1.900 en Chile vía importadores) o GPUs de generación previa con 24 GB, el modelo corre sin necesidad de instancia cloud. Aunque la inferencia local sigue siendo dominio de entusiastas de IA, empresas como Google se inclinan cada vez más hacia esta tecnología para reducir costos de nube asociados a sus servicios. Recordemos que en mayo Google comenzó silenciosamente a enviar un pequeño LLM con su navegador Chrome.