Gemma 4 12B: el nuevo modelo multimodal sin encoder de Google

Al grano

Google lanza Gemma 4 12B, un modelo multimodal de 12 mil millones de parámetros diseñado para ejecutarse localmente en laptops con 16GB de memoria.

La arquitectura prescinde de encoders dedicados al integrar directamente el audio y la visión, lo que reduce la latencia y el uso de memoria.

El modelo está disponible bajo licencia Apache 2.0 en plataformas como Hugging Face y Kaggle, soportando herramientas de inferencia como llama.cpp y vLLM.

Por qué importa

La llegada de Gemma 4 12B marca un punto de inflexión para la comunidad maker en Chile y Latinoamérica. Al eliminar los encoders dedicados, Google reduce drásticamente la barrera de entrada para ejecutar modelos multimodales en hardware accesible, como laptops con 16GB de RAM. Para el ecosistema local, esto significa que proyectos de robótica avanzada o agentes de asistencia ya no dependen exclusivamente de costosas infraestructuras en la nube. La adopción de la licencia Apache 2.0 es vital, pues permite a startups y desarrolladores independientes en Chile integrar estas capacidades en soluciones comerciales sin restricciones onerosas. Es una invitación abierta a optimizar procesos de visión artificial y procesamiento de audio local, aprovechando herramientas como Ollama o LM Studio, ampliamente utilizadas en los laboratorios de innovación universitaria del país.

Introducing Gemma 4 12B: un modelo multimodal unificado sin encoder

Hoy presentamos Gemma 4 12B, nuestro modelo más reciente diseñado para llevar inteligencia multimodal agentica directamente a los computadores portátiles. Al cerrar la brecha entre nuestro modelo E4B, optimizado para el borde, y nuestro modelo avanzado de 26B Mixture of Experts (MoE), Gemma 4 12B empaqueta capacidades potentes en un formato de memoria reducido. Es además nuestro primer modelo de tamaño medio que incorpora entradas de audio nativas.

Gracias a la comunidad de desarrolladores, los modelos Gemma 4 han superado los 150 millones de descargas. Han construido desde brazos robóticos vestibles para asistencia física hasta seguridad de IA de nivel empresarial. Estamos emocionados por ver qué crearán con esta nueva adición.

Aquí tienen un resumen de lo que hace único a Gemma 4 12B:

Arquitectura unificada novedosa: Sin encoders multimodales. Las entradas de visión y audio fluyen directamente hacia el backbone del LLM.
Razonamiento avanzado: Rendimiento en benchmarks cercano a nuestro modelo de 26B, desbloqueando razonamiento de múltiples pasos y flujos de trabajo agenticos.
Listo para laptops: Lo suficientemente pequeño para ejecutarse localmente con solo 16GB de VRAM o memoria unificada.
Abierto y accesible: Lanzado bajo licencia Apache 2.0 con soporte en todo el ecosistema de desarrolladores.
Preparado para Drafters: Gemma 4 12B viene equipado con predicción de múltiples tokens (MTP) para reducir la latencia.

Juntas, estas características llevan capacidades multimodales avanzadas a hardware cotidiano sin sacrificar velocidad o razonamiento. Veamos en detalle cómo Gemma 4 12B logra esto.

¿Cómo ejecutar agentes de última generación localmente?

Gemma 4 12B ofrece un rendimiento cercano a nuestro modelo MoE de 26B en benchmarks estándar, pero con menos de la mitad del consumo total de memoria. Al ser lo suficientemente pequeño para ejecutarse en computadores de consumo con 16GB de RAM, desbloquea experiencias multimodales y agenticas directamente en tu máquina.

¿Qué hace eficiente a esta arquitectura unificada?

Lo que hace destacar a Gemma 4 12B es su enfoque simplificado para procesar entradas visuales y de audio. Los modelos multimodales tradicionales suelen depender de encoders separados para traducir imágenes y audio antes de pasar esas representaciones al modelo de lenguaje. Debido a que estos encoders divididos añaden latencia y aumentan el uso de memoria, entrenamos a Gemma 4 12B con una arquitectura sin encoder para integrar el audio y la visión directamente.

Así es como Gemma 4 12B procesa entradas multimodales de forma nativa:

Visión: Reemplazamos el encoder de visión de Gemma 4 con un módulo de embedding ligero que consiste en una sola multiplicación de matrices, embedding posicional y normalizaciones. Esto permite que el backbone del LLM asuma el procesamiento visual.
Audio: Simplificamos el procesamiento de audio aún más. Eliminamos el encoder de audio por completo y proyectamos la señal de audio cruda en el mismo espacio dimensional que los tokens de texto.

Para los desarrolladores que deseen un desglose técnico, diríjanse a nuestra Guía del Desarrollador de Gemma 4 12B.

¿Cómo empezar a utilizarlo hoy mismo?

Pruébalo tú mismo: Experimenta con un par de clics en LM Studio, Ollama, Google AI Edge Gallery App, la app Google AI Edge Eloquent y la LiteRT-LM CLI.
Descarga los pesos: Obtén los checkpoints pre-entrenados y ajustados para instrucciones directamente desde Hugging Face y Kaggle.
Integra y aprende: Revisa la documentación para desarrolladores y el notebook de inicio rápido.
Usa tus herramientas favoritas: Implementa pipelines de inferencia local con Hugging Face Transformers, llama.cpp, MLX, SGLang y vLLM, o realiza fine-tuning eficiente usando Unsloth.
Desbloquea desarrollo agentico: Para apoyar la creación de agentes, lanzamos nuestro Repositorio de Habilidades oficial, una biblioteca diseñada específicamente para habilitar agentes con modelos Gemma.
Despliega a tu manera: Crea endpoints en producción usando Google Cloud a través de Gemini Enterprise Agent Platform Model Garden, Cloud Run y GKE.

Vía Google DeepMind.

Gemma 4 12B: IA multimodal eficiente para computadores locales

Al grano

Por qué importa

Introducing Gemma 4 12B: un modelo multimodal unificado sin encoder

¿Cómo ejecutar agentes de última generación localmente?

¿Qué hace eficiente a esta arquitectura unificada?

¿Cómo empezar a utilizarlo hoy mismo?

Seguir leyendo

DiffusionGemma: IA de alto rendimiento en hardware NVIDIA

Gemma 4 se actualiza en silencio y acelera hasta 70% en GPUs Nvidia

Gemma 4 12B, Android 17 y Nano Banana 2 Lite: junio en Google

DiffusionGemma: Google adapta difusión de imágenes al texto

→Al grano

✦Por qué importa

Introducing Gemma 4 12B: un modelo multimodal unificado sin encoder

¿Cómo ejecutar agentes de última generación localmente?

¿Qué hace eficiente a esta arquitectura unificada?

¿Cómo empezar a utilizarlo hoy mismo?

Seguir leyendo

DiffusionGemma: IA de alto rendimiento en hardware NVIDIA

Gemma 4 se actualiza en silencio y acelera hasta 70% en GPUs Nvidia

Gemma 4 12B, Android 17 y Nano Banana 2 Lite: junio en Google

DiffusionGemma: Google adapta difusión de imágenes al texto

Al grano

Por qué importa