Punto clave de esta nota

DiffusionGemma utiliza denoising por difusión para generar 256 tokens en paralelo por cada paso de inferencia.

Punto clave de esta nota

El modelo alcanza 1,000 tokens/seg en GPUs NVIDIA H100, superando significativamente a los modelos de lenguaje secuenciales.

Punto clave de esta nota

Los desarrolladores pueden desplegar el modelo mediante contenedores NVIDIA NIM con APIs compatibles con el estándar OpenAI.

DiffusionGemma: IA de alto rendimiento en hardware NVIDIA

Al grano

DiffusionGemma utiliza denoising por difusión para generar 256 tokens en paralelo por cada paso de inferencia.
El modelo alcanza 1,000 tokens/seg en GPUs NVIDIA H100, superando significativamente a los modelos de lenguaje secuenciales.
Los desarrolladores pueden desplegar el modelo mediante contenedores NVIDIA NIM con APIs compatibles con el estándar OpenAI.

Ejecuta DiffusionGemma en NVIDIA para generación de texto de alto rendimiento

DiffusionGemma, desarrollado por Google DeepMind y optimizado para plataformas NVIDIA, genera tokens de texto en paralelo mediante denoising basado en difusión, alcanzando un throughput significativamente superior comparado con los modelos secuenciales tradicionales.

El modelo se ejecuta eficientemente en una amplia gama de hardware NVIDIA, incluyendo NVIDIA H100, DGX Spark, DGX Station y RTX/RTX PRO, reduciendo los costos de servicio, aumentando la concurrencia y mejorando la capacidad de respuesta para aplicaciones de IA empresarial.

Los desarrolladores pueden acceder y desplegar DiffusionGemma a través de Hugging Face, NVIDIA NIM y NVIDIA NeMo AutoModel, permitiendo prototipado rápido, despliegue en producción y fine-tuning con soporte para formatos BF16 y NVFP4.

El contenido generado por IA puede resumir información de forma incompleta. Verifique la información importante. Aprenda más

Los desarrolladores que construyen IA en tiempo real, como asistentes de chat, copilotos y flujos de trabajo con agentes, a menudo están limitados por la velocidad de generación token por token. Esto restringe la capacidad de respuesta, aumenta los costos de servicio y dificulta la creación de experiencias interactivas fluidas.

DiffusionGemma, creado por Google DeepMind y optimizado para ejecutarse eficientemente en plataformas NVIDIA, introduce un nuevo enfoque para la generación de texto, produciendo tokens en paralelo en lugar de uno a la vez, habilitando aplicaciones de IA más rápidas y de mayor rendimiento. El modelo utiliza denoising basado en difusión para generar 256 tokens en paralelo por paso, entregando hasta 1,000 tokens/seg en una sola GPU NVIDIA H100 Tensor Core, hasta 150 tokens/seg en NVIDIA DGX Spark y el rendimiento local más rápido en NVIDIA DGX Station.

Para los desarrolladores empresariales, esta velocidad se traduce en menores costos de servicio, mayor concurrencia y experiencias de usuario más receptivas sin sacrificar la calidad del modelo. DiffusionGemma está construido sobre la arquitectura Gemma 4 26B A4B MoE y optimizado para inferencia de baja latencia limitada por memoria.

Además de las GPUs para centros de datos de NVIDIA, los desarrolladores pueden disfrutar de un rendimiento óptimo en una variedad de GPUs y sistemas para clientes.

¿Cómo realizar el prototipado en hardware NVIDIA?

Acceda a DiffusionGemma a través de Hugging Face Transformers para pruebas iniciales y prototipado en NVIDIA GeForce RTX 5090 o DGX Spark. Para un mayor throughput o servicio concurrente multiusuario en DGX Spark, DGX Station y RTX PRO, utilice vLLM siguiendo nuestros playbooks en la Tabla 2.

Con soporte desde el Día 0 en todo el hardware y software de NVIDIA, desde el prototipado local hasta el despliegue en producción, los desarrolladores pueden pasar rápidamente de la experimentación a las aplicaciones del mundo real. Endpoints acelerados por GPU NVIDIA

Comience a construir con DiffusionGemma con acceso gratuito para prototipado a endpoints acelerados por GPU en build.nvidia.com como parte del NVIDIA Developer Program. La experiencia de navegador también se puede conectar a fuentes de datos personalizadas.

El modelo está disponible hoy en Hugging Face con checkpoints BF16, y un checkpoint cuantizado NVFP4 para DiffusionGemma también está disponible usando NVIDIA Model Optimizer.

¿Cómo gestionar despliegues empresariales con NVIDIA NIM?

NVIDIA NIM facilita el despliegue de DiffusionGemma desde el desarrollo hasta la producción. NIM empaqueta el modelo como un microservicio de inferencia optimizado y contenedorizado, con ajuste de rendimiento, APIs estandarizadas y la flexibilidad para ejecutarse on-premises, en la nube o en entornos híbridos. NIM expone una API estándar compatible con OpenAI para enviar solicitudes de inferencia al servidor.

Descargue el contenedor.

Inicie el servidor NIM.

Código

$ export NIM_IMAGE_PATH = “nvcr.io/nim/google/diffusiongemma-26b-a4b-it:latest”
$ docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -v "$LOCAL_NIM_CACHE:/opt/nim/.cache" \
  -p 8000:8000 \
 ${NIM_IMAGE_PATH}

Realice una solicitud de prueba y lea la documentación de NIM completa.

Código

from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-required"
)
response = client.chat.completions.create(
    model="google/diffusiongemma-26b-a4b-it”,
    messages=[
        {"role": "user", "content": "Write a poem about text diffusion"}
    ],
    max_tokens=256
)
print(response.choices[0].message.content)

¿Es posible realizar fine-tuning con NVIDIA NeMo?

Las guías y recetas de fine-tuning están disponibles a través de la biblioteca NVIDIA NeMo AutoModel, parte del NVIDIA NeMo Framework, para desarrolladores que buscan adaptar el modelo a tareas o dominios específicos. NeMo AutoModel permite a los usuarios ajustar modelos (LLMs, VLMs y DiffusionLMs) directamente sobre checkpoints de HuggingFace sin conversión, permitiendo una experimentación rápida en los modelos de frontera más recientes.

NVIDIA es un contribuyente activo al ecosistema open-source y ha lanzado varios cientos de proyectos bajo licencias de código abierto. NVIDIA mantiene su compromiso con modelos abiertos como DiffusionGemma, que promueven la transparencia en la IA y permiten a los usuarios compartir su trabajo en seguridad y resiliencia de IA.

Consulte DiffusionGemma en Hugging Face o pruébelo gratis usando las APIs de NVIDIA en build.nvidia.com.

Vía CNX Software.

DiffusionGemma: Generación de texto masiva en GPUs NVIDIA

Al grano

Por qué importa

Ejecuta DiffusionGemma en NVIDIA para generación de texto de alto rendimiento

¿Cómo realizar el prototipado en hardware NVIDIA?

¿Cómo gestionar despliegues empresariales con NVIDIA NIM?

¿Es posible realizar fine-tuning con NVIDIA NeMo?

Seguir leyendo

ModelExpress: Distribución de modelos a velocidad de luz

Gemma 4 12B: el nuevo modelo multimodal sin encoder de Google

DiffusionGemma: generación de texto 4 veces más rápida

Gemma 4 se actualiza en silencio y acelera hasta 70% en GPUs Nvidia

→Al grano

✦Por qué importa

Ejecuta DiffusionGemma en NVIDIA para generación de texto de alto rendimiento

¿Cómo realizar el prototipado en hardware NVIDIA?

¿Cómo gestionar despliegues empresariales con NVIDIA NIM?

¿Es posible realizar fine-tuning con NVIDIA NeMo?

Seguir leyendo

ModelExpress: Distribución de modelos a velocidad de luz

Gemma 4 12B: el nuevo modelo multimodal sin encoder de Google

DiffusionGemma: generación de texto 4 veces más rápida

Gemma 4 se actualiza en silencio y acelera hasta 70% en GPUs Nvidia

Al grano

Por qué importa