Acercando la IA al borde y al dispositivo con Gemma 4

Gemmaverse sabe expande con el lanzamiento de los últimos modelos multimodales y multilingües de Gemma 4, diseñados para escalar en todo el espectro de implementaciones, desde NVIDIA Blackwell en el centro de datos hasta Jetson en el borde. Estos modelos son adecuados para satisfacer la creciente demanda de implementación local para el desarrollo y creación de prototipos de IA, requisitos locales seguros, rentabilidad y casos de uso sensibles a la latencia. La generación más nueva mejora tanto la eficiencia como la precisión, lo que hace que estos modelos de uso general sean adecuados para una amplia gama de tareas comunes:

Razonamiento: Fuerte desempeño en tareas complejas de resolución de problemas.

Codificación: generación y depuración de código para flujos de trabajo de desarrolladores.

Agentes: soporte nativo para el uso estructurado de herramientas (llamada a funciones).

Capacidad de visión, vídeo y audio: permite interacciones multimodales enriquecidas para casos de uso como reconocimiento de objetos, reconocimiento automatizado de voz (ASR), inteligencia de documentos y vídeos, y más.

Entrada multimodal intercalada: mezcle libremente texto e imágenes en cualquier orden dentro de un solo mensaje.

Multilingüe: soporte listo para usar para más de 35 idiomas y capacitación previa en más de 140 idiomas.

El paquete incluye cuatro modelos, incluido el primer modelo MoE de Gemma, que pueden caber en una única GPU NVIDIA H100 y admiten más de 140 idiomas. Las variantes 31B y 26B A4B son modelos de razonamiento de alto rendimiento adecuados para entornos locales y de centros de datos. El E4B y el E2B son la edición más reciente de modelos diseñados para dispositivos móviles y dispositivos lanzados por primera vez con Gemma 3n.

Cada modelo está disponible hoy en Hugging Face con puntos de control BF16, y un punto de control cuantificado NVFP4 para Gemma-4-31B está disponible usando NVIDIA Model Optimizer para desarrolladores de NVIDIA Blackwell con vLLM. NVFP4 permite una precisión de 4 bits y al mismo tiempo mantiene una precisión casi idéntica a la de 8 bits, lo que aumenta el rendimiento por vatio y reduce el costo por token.

Ejecute cargas de trabajo inteligentes en el dispositivo

A medida que los flujos de trabajo y los agentes de IA sabe integran más en las aplicaciones cotidianas, la capacidad de ejecutar estos modelos más allá de los entornos tradicionales de los centros de datos sabe vuelve fundamental. El conjunto de sistemas de cliente y de borde de NVIDIA, desde GPU RTX y DGX Spark hasta Jetson Nano, brinda a los desarrolladores la flexibilidad de administrar los costos y la latencia, al mismo tiempo que respalda los requisitos de seguridad para industrias altamente reguladas, como la atención médica y las finanzas.

Colaboramos con vLLM, Ollama y llama.cpp para brindar la mejor experiencia de implementación local para cada uno de los modelos Gemma 4. Unsloth también brinda soporte desde el primer día con modelos optimizados y cuantificados para una implementación local eficiente a través de Unsloth Studio.

Consulte la publicación del blog RTX AI Garage para comenzar con Gemma 4 en GPU RTX y DGX Spark.

Cree flujos de trabajo de IA agentes seguros con DGX Spark

Los desarrolladores y entusiastas de la IA sabe benefician del superchip GB10 Grace Blackwell combinado con 128 GB de memoria unificada en DGX Spark, que proporciona los recursos necesarios para ejecutar Gemma 4 31B con pesos modelo BF16. Combinado con el sistema operativo DGX Linux y la pila de software completa de NVIDIA, los desarrolladores pueden crear prototipos y crear flujos de trabajo de IA agentes de manera eficiente con Gemma 4 mientras mantienen una ejecución privada y segura en el dispositivo.

El motor de inferencia vLLM está diseñado para ejecutar LLM de manera eficiente, maximizando el rendimiento y minimizando el uso de memoria. El uso del servicio LLM de alto rendimiento de vLLM en DGX Spark proporciona una plataforma de alto rendimiento para los modelos Gemma 4 más grandes; El libro de estrategias de vLLM for Inference DGX Spark proporciona los detalles para ejecutar vLLM con Gemma 4 en su DGX Spark. O comience con Gemma 4 usando Ollama o llama.cpp. Los usuarios pueden ajustar aún más los modelos en DGX Spark con NeMo Automodel.

Potencia los agentes físicos de IA con Jetson

Los agentes físicos de IA modernos están evolucionando rápidamente con los modelos Gemma 4 que integran audio, percepción multimodal y capacidades de razonamiento profundo. Estos modelos avanzados permiten que los sistemas robóticos vayan más allá de la simple ejecución de tareas, permitiéndoles comprender el habla, interpretar el contexto visual y razonar de manera inteligente antes de actuar. En NVIDIA Jetson, los desarrolladores pueden ejecutar la inferencia de Gemma 4 en el borde usando llama.cpp y vLLM. Jetson Orin Nano admite las variantes Gemma 4 e2b y e4b, lo que permite la inferencia multimodal en sistemas pequeños, integrados y con restricciones de energía, con la misma familia de modelos escalando en toda la plataforma Jetson hasta Jetson Thor.

Esto admite una implementación escalable en casos de uso de robótica, máquinas inteligentes y automatización industrial que dependen del rendimiento de baja latencia y de la inteligencia en el dispositivo.

Los desarrolladores de Jetson pueden consultar el tutorial y descargar el contenedor para comenzar desde Jetson AI Lab.

Implementación lista para producción con NVIDIA NIM

Los desarrolladores empresariales pueden probar el modelo Gemma 4 31B de forma gratuita utilizando una API NIM alojada en NVIDIA disponible en el catálogo de API de NVIDIA para la creación de prototipos. Para la implementación en producción, pueden utilizar microservicios NIM optimizados y preempaquetados para una implementación segura y autohospedada con una licencia empresarial de NVIDIA.

Ajuste del día 0 con NeMo Framework

Los desarrolladores pueden personalizar Gemma 4 con sus propios datos de dominio utilizando el marco NVIDIA NeMo, específicamente la biblioteca NeMo Automodel, que combina la facilidad de uso nativa de PyTorch con un rendimiento optimizado. Con esta receta de ajuste fino para Gemma 4, los desarrolladores pueden aplicar técnicas como el ajuste fino supervisado (SFT) y LoRA con memoria eficiente para realizar el ajuste fino del día 0 a partir de los puntos de control del modelo Hugging Face sin necesidad de conversión.

Comience hoy

No importa qué GPU NVIDIA esté utilizando, Gemma 4 es compatible con toda la plataforma NVIDIA AI y está disponible bajo la licencia comercial Apache 2.0. Desde Blackwell, con puntos de control cuantificados NVFP4 próximamente, hasta las plataformas Jetson, los desarrolladores pueden comenzar rápidamente a implementar estos modelos multimodales de alta precisión, con la flexibilidad para cumplir con sus requisitos de velocidad, seguridad y costos.

Echa un vistazo a Gemma en Hugging Face o prueba Gemma 4 31B de forma gratuita utilizando las API de NVIDIA en build.nvidia.com.