JetBrains lanza Mellum2: MoE de 12B con licencia Apache 2.0

El modelo activa solo 2,5B parámetros por token, promete inferencia más de 2 veces más rápida que pares de tamaño similar y apunta a routing, RAG, subagentes y despliegues privados.

Publicado el 2 de junio de 2026 · 12:31 p. m.3 min de lectura

Al grano

Mellum2 es un modelo MoE de 12B parámetros entrenado desde cero por JetBrains, que activa solo 2,5B por token para inferencia de baja latencia.

Se publica bajo Apache 2.0, con pesos en Hugging Face y reporte técnico en arXiv, listo para self-hosting en código y datos propietarios.

JetBrains lo posiciona como modelo focal para routing, RAG, sub-agentes, validación y tareas de coding de alto throughput.

Por qué importa

El movimiento de JetBrains tiene sentido estratégico: una empresa de herramientas para desarrolladores libera el modelo focal que su propio IDE necesita. Mellum2 no compite con Claude o GPT-5 en frontera, compite por las decenas de llamadas baratas que cada agente hace de fondo. El argumento de la latencia (2x más rápido) y la licencia Apache 2.0 le dejan la puerta abierta a self-hosting en empresas con código propietario, que es exactamente el segmento donde JetBrains ya vende su stack.

JetBrains presentó Mellum2, un modelo Mixture-of-Experts (MoE) abierto y optimizado para workloads de texto y código de baja latencia. La línea Mellum partió como modelo de completado de código; con esta segunda iteración, la compañía extiende esa base a un set más amplio de tareas de lenguaje natural e ingeniería de software, manteniendo el foco en eficiencia de inferencia y facilidad de despliegue.

Lo esencial en cinco puntos

Mellum2 es un MoE de 12.000 millones de parámetros entrenado desde cero sobre lenguaje natural y código.
El modelo activa solo 2.500 millones de parámetros por token, lo que lo vuelve eficiente para inferencia de alto throughput y baja latencia. Se posiciona para routing, RAG, summarization, sub-agentes, features de coding de alto throughput y despliegues privados.
Se libera bajo licencia Apache 2.0.
Comparado con modelos abiertos de tamaño similar, JetBrains afirma que Mellum2 entrega rendimiento competitivo en benchmarks y más del doble de velocidad de inferencia.
El modelo está disponible en Hugging Face: https://huggingface.co/collections/JetBrains/mellum-2.
Para detalles de arquitectura, setup de entrenamiento, benchmarks y metodología de evaluación, el reporte técnico completo está en arXiv: https://arxiv.org/pdf/2605.31268.

Los sistemas de IA modernos dependen cada vez más de múltiples llamadas a modelos: routing, recuperación, summarization, planificación, validación y uso de herramientas. Muchas de esas operaciones son sensibles a la latencia y no requieren el modelo más grande disponible. Mellum2 apunta precisamente a esos workloads.

Benchmarks

!Evaluaciones de Mellum 2

En el reporte técnico, JetBrains evalúa Mellum2 sobre benchmarks de generación de código, razonamiento, ciencia y matemáticas. El modelo se mantiene competitivo contra modelos abiertos de tamaño similar mientras entrega más de 2x mejor velocidad de inferencia, lo que lo vuelve apto para workloads de producción de alto throughput.

La arquitectura MoE mantiene una capacidad total alta del modelo activando solo un subconjunto de parámetros por cada token. Eso vuelve la inferencia más eficiente y reduce el costo de servir cargas en tiempo real. Mellum2 está enfocado intencionalmente en texto y código, no en tareas multimodales: esa especialización lo mantiene compacto y eficiente para flujos de ingeniería de software.

¿Para qué casos de uso está pensado?

Routing y orquestación

Mellum2 funciona bien como modelo ligero de routing y orquestación en sistemas multi-modelo, incluyendo clasificación de prompts, selección de herramientas y pasos intermedios de control de flujo.

Pipelines RAG

El modelo encaja en pipelines de recuperación sensibles a la latencia, incluyendo compresión de contexto, summarization y postprocesamiento de recuperación.

Sub-agentes

Mellum2 puede usarse para subtareas de agente como planificación, validación, transformación y preparación de contexto, reduciendo la necesidad de invocar modelos más grandes para operaciones intermedias.

Despliegue privado

Como Mellum2 es abierto y eficiente de servir, puede correr en entornos self-hosted con código propietario o datos internos.

¿Por qué importan los modelos bien acotados?

A medida que los sistemas de IA maduran, las arquitecturas más efectivas se vuelven menos monolíticas. Un solo modelo de frontera puede ser potente, pero los sistemas de producción suelen necesitar varios componentes especializados trabajando juntos: retrievers, routers, modelos de código, validadores, tool callers y modelos de razonamiento más grandes. JetBrains piensa Mellum2 como un modelo focal: rápido, bien acotado y optimizado para tareas de alta frecuencia dentro de sistemas de IA más grandes. La meta no es reemplazar cada modelo del stack. La meta es hacer el stack más rápido, más barato y más fácil de controlar.

Cómo arrancar con Mellum2

Si estás construyendo sistemas de IA para ingeniería de software (dentro de un IDE, en un pipeline RAG, como parte de un workflow de agente o sobre infraestructura privada), Mellum2 está listo para probarse.

¿Qué significa para equipos en LatAm?

El argumento práctico para equipos chilenos o regionales que ya están construyendo agentes sobre Claude o GPT-5 es de costo y soberanía. Cada llamada de subagente o de routing que hoy paga tokens premium puede descargarse en una réplica self-hosted de Mellum2 sobre GPUs de gama media (la activación efectiva de 2,5B parámetros hace viable correrlo en H100, L40S o incluso A100 con cuantización). Apache 2.0 elimina la fricción legal para uso comercial sin atribución especial, y mantener el código propietario dentro de la infraestructura de la empresa es lo que finalmente vuelve auditable un agente que toca repos privados.

JetBrains lanza Mellum2: MoE de 12B con licencia Apache 2.0

Al grano

Por qué importa

Lo esencial en cinco puntos

Benchmarks