Moonshot AI publicó Kimi K2.7 Code, un nuevo modelo de IA pensado específicamente para tareas de programación y workflows de coding agentico. El modelo se construye sobre su antecesor, Kimi K2.6, y se ofrece como pesos abiertos en Hugging Face.

Según Moonshot AI, K2.7 Code está diseñado para superar a su antecesor en tareas largas y complejas de ingeniería de software. Para usos generales fuera del coding, la empresa sigue recomendando K2.6. Kimi también es el modelo que la herramienta de coding Cursor revende en una versión modificada.

Avances sobre K2.6, todavía lejos del líder

En el Kimi Code Bench v2 propio de Moonshot, el desempeño salta de 50,9 a 62,0 puntos. En Program Bench sube de 48,3 a 53,6 y en MLS Bench Lite trepa de 26,7 a 35,1. K2.7 Code también mejora en benchmarks agénticos, llegando a 76,0 en MCP Atlas (desde 69,4) y 81,1 en MCPMark Verified (desde 72,8).

En la comparación directa con GPT-5.5 y Claude Opus 4.8, sin embargo, K2.7 Code queda atrás en la mayoría de los benchmarks de coding. GPT-5.5 marca 69,1 en Program Bench versus 53,6 de K2.7 Code. En Kimi Code Bench v2 son 69,0 versus 62,0. Program Bench es una prueba particularmente dura: los agentes deben reproducir el comportamiento de un programa usando solo un binario compilado y su documentación, sin acceso al código fuente, decompilación ni internet.

Hay una excepción notable: MCPMark Verified, un benchmark que evalúa agentes de IA sobre cinco entornos reales de software, incluyendo Notion, GitHub, file systems, bases de datos Postgres y automatización de navegador vía Playwright. Acá K2.7 Code vence a Claude Opus 4.8 con 81,1 versus 76,4, pero queda muy por debajo de GPT-5.5 en 92,9. Como siempre, los resultados de benchmark y el desempeño real pueden divergir.

Un billón de parámetros, solo 32 mil millones activos

K2.7 Code usa una arquitectura Mixture-of-Experts (MoE) con un billón de parámetros totales, según su model card. Solo 32 mil millones están activos por token. El modelo tiene 384 expertos, con ocho seleccionados por token. El contexto es de 256.000 tokens.

El modelo es multimodal y puede procesar imágenes y video además de texto. Usa un encoder visual propio llamado MoonViT con 400 millones de parámetros. La arquitectura es idéntica a K2.5 y K2.6, así que las configuraciones de deploy existentes se pueden reusar tal cual.

Una mejora clave, según Moonshot AI, es razonamiento más eficiente. K2.7 Code usa cerca de 30% menos thinking tokens que K2.6, lo que significa menos "overthinking". El modelo fuerza modo de razonamiento y un modo "preserve_thinking" que mantiene el contenido completo del razonamiento a lo largo de múltiples turnos de conversación para mejorar el desempeño en escenarios de coding agentico.

Moonshot AI anunció además un modo "6x High-Speed" que llega pronto. Al modelo se accede vía la Kimi API, Kimi CodeCLI y motores de inferencia como vLLM y SGLang. Hay también una cuantización nativa INT4 disponible, que abre la posibilidad de correrlo en hardware menos potente o más barato.

Una fracción del costo de los modelos occidentales

El precio de la API de K2.7 Code es USD 0,95 por millón de tokens de entrada y USD 4,00 por millón de salida. Los aciertos de caché bajan el precio de entrada a USD 0,19 por millón. Eso pone a K2.7 Code al mismo precio de entrada que su antecesor K2.6.

Comparado con la competencia, K2.7 Code es dramáticamente más barato. GPT-5.5 cuesta USD 5,00 por millón de tokens de entrada y USD 30,00 por millón de salida. Claude Opus 4.8 va USD 5,00/USD 25,00. Y el último tope de Anthropic, Claude Fable 5, cobra USD 10,00/USD 50,00 por millón de tokens. Solo en salida, Fable 5 es más de doce veces más caro.

ModeloEntrada / MTokSalida / MTok
Kimi K2.7 CodeUSD 0,95USD 4,00
Kimi K2.6USD 0,95USD 4,00
Claude Opus 4.8USD 5,00USD 25,00
GPT-5.5USD 5,00USD 30,00
Claude Fable 5USD 10,00USD 50,00

Aunque K2.7 Code quede detrás de los modelos occidentales en algunos benchmarks, el mismo presupuesto te permite correrlo muchas veces más seguido. La pregunta principal ya no es si es el mejor modelo en general, sino si es suficientemente bueno para la tarea concreta. Eso solo se responde caso por caso con benchmarks task-specific propios. Dada la brecha de precio, esas evaluaciones se pagan rápido con uso intensivo. El costo por token se vuelve un factor competitivo tan importante como la calidad pura del modelo, otra señal de la economía de tokens que emerge.

Licencia MIT modificada con cláusula de big customers

El modelo se libera bajo una licencia MIT modificada que permite uso libre, modificación y redistribución. Cualquiera que use K2.7 Code o sus derivados en productos comerciales con más de 100 millones de usuarios activos mensuales o más de USD 20 millones en ingresos mensuales debe mostrar "Kimi K2.7 Code" prominentemente en la UI.

¿Vale la pena para integradores LatAm?

Para una pyme tecnológica chilena que corre coding agents en producción 24/7, la matemática es simple. Un solo agente generando 10 millones de tokens de salida al mes paga USD 40 con Kimi K2.7 Code, USD 250 con Opus 4.8 y USD 500 con Fable 5. La diferencia anual frente a Fable 5 supera los USD 5.500 por agente, suficiente para pagar la cuota de un ingeniero junior part-time. La pregunta deja de ser de calidad y pasa a ser de unit economics.