Bonanza open: Gemma 4, DeepSeek V4, Kimi K2.6 y MiMo 2.5 estrenan

El último boletín de Interconnects repasa los lanzamientos del mes en pesos abiertos y discute por qué los benchmarks del CAISI muestran una brecha más grande que la real.

Publicado el 17 de mayo de 2026 · 08:36 a. m.3 min de lectura

Al grano

Gemma 4, DeepSeek V4 Pro/Flash, Kimi K2.6, MiMo V2.5 Pro y GLM-5.1 se lanzaron casi en paralelo durante mayo de 2026.

El CAISI publicó una evaluación que muestra una brecha amplia entre abiertos y cerrados, pero el resultado depende de tres benchmarks específicos.

Gemma 4 movió su licencia a Apache 2.0, eliminando la incertidumbre legal que existía en versiones anteriores de la familia.

Por qué importa

El veredicto del CAISI choca con la experiencia diaria de quien usa Kimi K2.6, DeepSeek V4 Flash o MiMo 2.5 Pro en producción: los gaps grandes salen de tres benchmarks puntuales que mueven el Elo entero. Para Chile, donde el costo de tokens cerrados es una barrera real, lo importante del mes no es la brecha teórica sino que ahora hay cuatro modelos abiertos competitivos al mismo tiempo. El cambio de Gemma 4 a Apache 2.0 es el otro hito subestimado.

Mayo dejó al ecosistema de modelos abiertos en modo bonanza. Casi todos los laboratorios open frontier publicaron actualizaciones: Google con Gemma 4, DeepSeek con su largamente esperado DeepSeek-V4, Moonshot AI con Kimi K2.6, Xiaomi con MiMo V2.5 Pro y Z.ai con GLM-5.1.

El lanzamiento de DeepSeek V4 gatilló además una evaluación del Center for AI Standards and Innovation (CAISI), que ya había revisado modelos abiertos en el pasado. Su conclusión es polémica: los modelos open quedan rezagados frente a la frontera estadounidense, con una brecha que se ensancha en el tiempo.

¿Qué dice el CAISI y por qué Interconnects lo discute?

Para llegar a ese veredicto, el CAISI calculó un Elo score basado en Item Response Theory, un método estándar que permite comparar modelos evaluados sobre baterías distintas. En el caso de V4 usaron nueve benchmarks, pero la diferencia tan grande del Elo final se explica casi por completo por el mal rendimiento de DeepSeek V4 en tres pruebas puntuales: CTF-Archive-Diamond (corrida sobre un subset y extrapolada con IRT), PortBench (un benchmark privado del CAISI) y ARC-AGI-2 (con un método de scoring distinto al de los leaderboards públicos).

Cuando se usa el ECI de Epoch AI, que también aplica IRT sobre un conjunto de benchmarks, la brecha entre abiertos y cerrados se ha mantenido entre 3 y 7 meses desde R1.

Tanto el CAISI como el ECI tienen un techo metodológico, advierte Interconnects. Las tareas de coding se evalúan con acceso a bash y un bucle simple con presupuesto fijo de tokens, no con harnesses como Claude Code u OpenCode, que es justamente donde se entrenan estos modelos. Por eso aparecen resultados llamativos: hay benchmarks que afirman que portear aplicaciones entre lenguajes hoy no es posible, mientras en GitHub Bun fue portado de Zig a Rust con 1 millón de LOC modificadas. Una comparación justa de frontera debería usar los harnesses preferidos de cada modelo y prompting específico por familia.

¿Qué modelos abiertos se llevan los aplausos del mes?

Estos son los lanzamientos destacados por el boletín, con su licencia y tamaño cuando corresponde:

Modelo	Laboratorio	Tamaño	Licencia / Notas
Gemma 4 (4B / 9B / 26B-A4B MoE / 31B)	Google	hasta 31B densos	Apache 2.0 (cambio clave)
DeepSeek-V4 Pro / Flash	DeepSeek	1.6T-A49B MoE / 284B-13B	Flash sería la estrella real
Kimi K2.6	Moonshot AI	—	Foco en tareas long-horizon
MiMo V2.5 Pro	Xiaomi (XiaomiMiMo)	—	Apache 2.0, codo a codo con K2.6 y GLM-5.1
GLM-5.1	Z.ai	—	Mejora general, foco en horizonte largo
Laguna XS.2	Poolside AI	33B-A3B	Primer open-weight coding del lab
Qwen3.6-35B-A3B	Qwen / Alibaba	35B-A3B	Actualización de la familia 3.5
LFM2.5-350M	Liquid AI	350M	28T tokens; sobreentrenamiento extremo
Trinity-Large-Thinking	arcee-ai	—	Versión de razonamiento, top OpenRouter

El cambio de licencia de Gemma 4 a Apache 2.0 es una noticia editorial dentro de la noticia: elimina la incertidumbre y los desafíos legales que generaban las licencias custom de Google sobre versiones anteriores de la familia.

¿Qué pasa con los chinos y por qué importa para LatAm?

DeepSeek-V4-Flash, con 284B totales y 13B activos, aparece como la opción más práctica del paquete chino para correr local o en proveedores no-hyperscaler. Kimi K2.6 y MiMo 2.5 Pro empujan en long-horizon, es decir, agentes que sostienen tareas durante horas, lo que está alineado con lo que Andrej Karpathy llamó autoresearch. Para equipos en Chile o LatAm que ya estaban usando DeepSeek V3 o Qwen detrás de su stack, el upgrade es directo: pesos disponibles en Hugging Face, sin pasar por aprobaciones de Google o Anthropic.

La nota original deja además una observación editorial honesta dentro del propio equipo de Interconnects: Florian cree que la frontera abierta está más cerca de la cerrada de lo que indican los benchmarks, mientras que Nathan opina que los cerrados siguen más adelante. El debate interno es señal de que la lectura única del "open lags behind" no aplica.

Bonanza open: Gemma 4, DeepSeek V4, Kimi K2.6 y MiMo 2.5 estrenan

Al grano

Por qué importa

¿Qué dice el CAISI y por qué Interconnects lo discute?

¿Qué modelos abiertos se llevan los aplausos del mes?

¿Qué pasa con los chinos y por qué importa para LatAm?

Seguir leyendo

DiffusionGemma: Google adapta difusión de imágenes al texto

Kimi K2.7 Code: modelo abierto 12 veces más barato que Claude

DiffusionGemma: generación de texto 4 veces más rápida

Zyphra, Cohere y Poolside amplían el open source de IA

→Al grano

✦Por qué importa

¿Qué dice el CAISI y por qué Interconnects lo discute?

¿Qué modelos abiertos se llevan los aplausos del mes?

¿Qué pasa con los chinos y por qué importa para LatAm?

Seguir leyendo

DiffusionGemma: Google adapta difusión de imágenes al texto

Kimi K2.7 Code: modelo abierto 12 veces más barato que Claude

DiffusionGemma: generación de texto 4 veces más rápida

Zyphra, Cohere y Poolside amplían el open source de IA

Al grano

Por qué importa