Introducing Gemma 4 12B: un modelo multimodal unificado sin encoder

Hoy presentamos Gemma 4 12B, nuestro modelo más reciente diseñado para llevar inteligencia multimodal agentica directamente a los computadores portátiles. Al cerrar la brecha entre nuestro modelo E4B, optimizado para el borde, y nuestro modelo avanzado de 26B Mixture of Experts (MoE), Gemma 4 12B empaqueta capacidades potentes en un formato de memoria reducido. Es además nuestro primer modelo de tamaño medio que incorpora entradas de audio nativas.

Gracias a la comunidad de desarrolladores, los modelos Gemma 4 han superado los 150 millones de descargas. Han construido desde brazos robóticos vestibles para asistencia física hasta seguridad de IA de nivel empresarial. Estamos emocionados por ver qué crearán con esta nueva adición.

Aquí tienen un resumen de lo que hace único a Gemma 4 12B:

  • Arquitectura unificada novedosa: Sin encoders multimodales. Las entradas de visión y audio fluyen directamente hacia el backbone del LLM.
  • Razonamiento avanzado: Rendimiento en benchmarks cercano a nuestro modelo de 26B, desbloqueando razonamiento de múltiples pasos y flujos de trabajo agenticos.
  • Listo para laptops: Lo suficientemente pequeño para ejecutarse localmente con solo 16GB de VRAM o memoria unificada.
  • Abierto y accesible: Lanzado bajo licencia Apache 2.0 con soporte en todo el ecosistema de desarrolladores.
  • Preparado para Drafters: Gemma 4 12B viene equipado con predicción de múltiples tokens (MTP) para reducir la latencia.

Juntas, estas características llevan capacidades multimodales avanzadas a hardware cotidiano sin sacrificar velocidad o razonamiento. Veamos en detalle cómo Gemma 4 12B logra esto.

¿Cómo ejecutar agentes de última generación localmente?

Gemma 4 12B ofrece un rendimiento cercano a nuestro modelo MoE de 26B en benchmarks estándar, pero con menos de la mitad del consumo total de memoria. Al ser lo suficientemente pequeño para ejecutarse en computadores de consumo con 16GB de RAM, desbloquea experiencias multimodales y agenticas directamente en tu máquina.

¿Qué hace eficiente a esta arquitectura unificada?

Lo que hace destacar a Gemma 4 12B es su enfoque simplificado para procesar entradas visuales y de audio. Los modelos multimodales tradicionales suelen depender de encoders separados para traducir imágenes y audio antes de pasar esas representaciones al modelo de lenguaje. Debido a que estos encoders divididos añaden latencia y aumentan el uso de memoria, entrenamos a Gemma 4 12B con una arquitectura sin encoder para integrar el audio y la visión directamente.

Así es como Gemma 4 12B procesa entradas multimodales de forma nativa:

  • Visión: Reemplazamos el encoder de visión de Gemma 4 con un módulo de embedding ligero que consiste en una sola multiplicación de matrices, embedding posicional y normalizaciones. Esto permite que el backbone del LLM asuma el procesamiento visual.
  • Audio: Simplificamos el procesamiento de audio aún más. Eliminamos el encoder de audio por completo y proyectamos la señal de audio cruda en el mismo espacio dimensional que los tokens de texto.

Para los desarrolladores que deseen un desglose técnico, diríjanse a nuestra Guía del Desarrollador de Gemma 4 12B.

¿Cómo empezar a utilizarlo hoy mismo?

Vía Google DeepMind.