JetBrains presentó Mellum2, un modelo Mixture-of-Experts (MoE) abierto y optimizado para workloads de texto y código de baja latencia. La línea Mellum partió como modelo de completado de código; con esta segunda iteración, la compañía extiende esa base a un set más amplio de tareas de lenguaje natural e ingeniería de software, manteniendo el foco en eficiencia de inferencia y facilidad de despliegue.
Lo esencial en cinco puntos
- Mellum2 es un MoE de 12.000 millones de parámetros entrenado desde cero sobre lenguaje natural y código.
- El modelo activa solo 2.500 millones de parámetros por token, lo que lo vuelve eficiente para inferencia de alto throughput y baja latencia. Se posiciona para routing, RAG, summarization, sub-agentes, features de coding de alto throughput y despliegues privados.
- Se libera bajo licencia Apache 2.0.
- Comparado con modelos abiertos de tamaño similar, JetBrains afirma que Mellum2 entrega rendimiento competitivo en benchmarks y más del doble de velocidad de inferencia.
- El modelo está disponible en Hugging Face: https://huggingface.co/collections/JetBrains/mellum-2.
- Para detalles de arquitectura, setup de entrenamiento, benchmarks y metodología de evaluación, el reporte técnico completo está en arXiv: https://arxiv.org/pdf/2605.31268.
Los sistemas de IA modernos dependen cada vez más de múltiples llamadas a modelos: routing, recuperación, summarization, planificación, validación y uso de herramientas. Muchas de esas operaciones son sensibles a la latencia y no requieren el modelo más grande disponible. Mellum2 apunta precisamente a esos workloads.
Benchmarks
En el reporte técnico, JetBrains evalúa Mellum2 sobre benchmarks de generación de código, razonamiento, ciencia y matemáticas. El modelo se mantiene competitivo contra modelos abiertos de tamaño similar mientras entrega más de 2x mejor velocidad de inferencia, lo que lo vuelve apto para workloads de producción de alto throughput.
La arquitectura MoE mantiene una capacidad total alta del modelo activando solo un subconjunto de parámetros por cada token. Eso vuelve la inferencia más eficiente y reduce el costo de servir cargas en tiempo real. Mellum2 está enfocado intencionalmente en texto y código, no en tareas multimodales: esa especialización lo mantiene compacto y eficiente para flujos de ingeniería de software.
¿Para qué casos de uso está pensado?
Routing y orquestación
Mellum2 funciona bien como modelo ligero de routing y orquestación en sistemas multi-modelo, incluyendo clasificación de prompts, selección de herramientas y pasos intermedios de control de flujo.
Pipelines RAG
El modelo encaja en pipelines de recuperación sensibles a la latencia, incluyendo compresión de contexto, summarization y postprocesamiento de recuperación.
Sub-agentes
Mellum2 puede usarse para subtareas de agente como planificación, validación, transformación y preparación de contexto, reduciendo la necesidad de invocar modelos más grandes para operaciones intermedias.
Despliegue privado
Como Mellum2 es abierto y eficiente de servir, puede correr en entornos self-hosted con código propietario o datos internos.
¿Por qué importan los modelos bien acotados?
A medida que los sistemas de IA maduran, las arquitecturas más efectivas se vuelven menos monolíticas. Un solo modelo de frontera puede ser potente, pero los sistemas de producción suelen necesitar varios componentes especializados trabajando juntos: retrievers, routers, modelos de código, validadores, tool callers y modelos de razonamiento más grandes. JetBrains piensa Mellum2 como un modelo focal: rápido, bien acotado y optimizado para tareas de alta frecuencia dentro de sistemas de IA más grandes. La meta no es reemplazar cada modelo del stack. La meta es hacer el stack más rápido, más barato y más fácil de controlar.
Cómo arrancar con Mellum2
Si estás construyendo sistemas de IA para ingeniería de software (dentro de un IDE, en un pipeline RAG, como parte de un workflow de agente o sobre infraestructura privada), Mellum2 está listo para probarse.
¿Qué significa para equipos en LatAm?
El argumento práctico para equipos chilenos o regionales que ya están construyendo agentes sobre Claude o GPT-5 es de costo y soberanía. Cada llamada de subagente o de routing que hoy paga tokens premium puede descargarse en una réplica self-hosted de Mellum2 sobre GPUs de gama media (la activación efectiva de 2,5B parámetros hace viable correrlo en H100, L40S o incluso A100 con cuantización). Apache 2.0 elimina la fricción legal para uso comercial sin atribución especial, y mantener el código propietario dentro de la infraestructura de la empresa es lo que finalmente vuelve auditable un agente que toca repos privados.




