Punto clave de esta nota

Kimi K2.7 Code de Moonshot AI tiene un billón de parámetros totales, 32 mil millones activos por token y contexto de 256K.

Punto clave de esta nota

Cuesta USD 0,95 por millón de tokens de entrada y USD 4 de salida, hasta 12 veces más barato que Claude Fable 5.

Punto clave de esta nota

Queda atrás de GPT-5.5 y Claude Opus 4.8 en benchmarks de coding, pero vence a Opus 4.8 en MCPMark Verified con 81,1 versus 76,4.

Kimi K2.7 Code: modelo abierto 12 veces más barato que Claude

Al grano

Kimi K2.7 Code de Moonshot AI tiene un billón de parámetros totales, 32 mil millones activos por token y contexto de 256K.
Cuesta USD 0,95 por millón de tokens de entrada y USD 4 de salida, hasta 12 veces más barato que Claude Fable 5.
Queda atrás de GPT-5.5 y Claude Opus 4.8 en benchmarks de coding, pero vence a Opus 4.8 en MCPMark Verified con 81,1 versus 76,4.

Moonshot AI publicó Kimi K2.7 Code, un nuevo modelo de IA pensado específicamente para tareas de programación y workflows de coding agentico. El modelo se construye sobre su antecesor, Kimi K2.6, y se ofrece como pesos abiertos en Hugging Face.

Según Moonshot AI, K2.7 Code está diseñado para superar a su antecesor en tareas largas y complejas de ingeniería de software. Para usos generales fuera del coding, la empresa sigue recomendando K2.6. Kimi también es el modelo que la herramienta de coding Cursor revende en una versión modificada.

Avances sobre K2.6, todavía lejos del líder

En el Kimi Code Bench v2 propio de Moonshot, el desempeño salta de 50,9 a 62,0 puntos. En Program Bench sube de 48,3 a 53,6 y en MLS Bench Lite trepa de 26,7 a 35,1. K2.7 Code también mejora en benchmarks agénticos, llegando a 76,0 en MCP Atlas (desde 69,4) y 81,1 en MCPMark Verified (desde 72,8).

En la comparación directa con GPT-5.5 y Claude Opus 4.8, sin embargo, K2.7 Code queda atrás en la mayoría de los benchmarks de coding. GPT-5.5 marca 69,1 en Program Bench versus 53,6 de K2.7 Code. En Kimi Code Bench v2 son 69,0 versus 62,0. Program Bench es una prueba particularmente dura: los agentes deben reproducir el comportamiento de un programa usando solo un binario compilado y su documentación, sin acceso al código fuente, decompilación ni internet.

Hay una excepción notable: MCPMark Verified, un benchmark que evalúa agentes de IA sobre cinco entornos reales de software, incluyendo Notion, GitHub, file systems, bases de datos Postgres y automatización de navegador vía Playwright. Acá K2.7 Code vence a Claude Opus 4.8 con 81,1 versus 76,4, pero queda muy por debajo de GPT-5.5 en 92,9. Como siempre, los resultados de benchmark y el desempeño real pueden divergir.

Un billón de parámetros, solo 32 mil millones activos

K2.7 Code usa una arquitectura Mixture-of-Experts (MoE) con un billón de parámetros totales, según su model card. Solo 32 mil millones están activos por token. El modelo tiene 384 expertos, con ocho seleccionados por token. El contexto es de 256.000 tokens.

El modelo es multimodal y puede procesar imágenes y video además de texto. Usa un encoder visual propio llamado MoonViT con 400 millones de parámetros. La arquitectura es idéntica a K2.5 y K2.6, así que las configuraciones de deploy existentes se pueden reusar tal cual.

Una mejora clave, según Moonshot AI, es razonamiento más eficiente. K2.7 Code usa cerca de 30% menos thinking tokens que K2.6, lo que significa menos "overthinking". El modelo fuerza modo de razonamiento y un modo "preserve_thinking" que mantiene el contenido completo del razonamiento a lo largo de múltiples turnos de conversación para mejorar el desempeño en escenarios de coding agentico.

Moonshot AI anunció además un modo "6x High-Speed" que llega pronto. Al modelo se accede vía la Kimi API, Kimi CodeCLI y motores de inferencia como vLLM y SGLang. Hay también una cuantización nativa INT4 disponible, que abre la posibilidad de correrlo en hardware menos potente o más barato.

Una fracción del costo de los modelos occidentales

El precio de la API de K2.7 Code es USD 0,95 por millón de tokens de entrada y USD 4,00 por millón de salida. Los aciertos de caché bajan el precio de entrada a USD 0,19 por millón. Eso pone a K2.7 Code al mismo precio de entrada que su antecesor K2.6.

Comparado con la competencia, K2.7 Code es dramáticamente más barato. GPT-5.5 cuesta USD 5,00 por millón de tokens de entrada y USD 30,00 por millón de salida. Claude Opus 4.8 va USD 5,00/USD 25,00. Y el último tope de Anthropic, Claude Fable 5, cobra USD 10,00/USD 50,00 por millón de tokens. Solo en salida, Fable 5 es más de doce veces más caro.

Modelo	Entrada / MTok	Salida / MTok
Kimi K2.7 Code	USD 0,95	USD 4,00
Kimi K2.6	USD 0,95	USD 4,00
Claude Opus 4.8	USD 5,00	USD 25,00
GPT-5.5	USD 5,00	USD 30,00
Claude Fable 5	USD 10,00	USD 50,00

Aunque K2.7 Code quede detrás de los modelos occidentales en algunos benchmarks, el mismo presupuesto te permite correrlo muchas veces más seguido. La pregunta principal ya no es si es el mejor modelo en general, sino si es suficientemente bueno para la tarea concreta. Eso solo se responde caso por caso con benchmarks task-specific propios. Dada la brecha de precio, esas evaluaciones se pagan rápido con uso intensivo. El costo por token se vuelve un factor competitivo tan importante como la calidad pura del modelo, otra señal de la economía de tokens que emerge.

Licencia MIT modificada con cláusula de big customers

El modelo se libera bajo una licencia MIT modificada que permite uso libre, modificación y redistribución. Cualquiera que use K2.7 Code o sus derivados en productos comerciales con más de 100 millones de usuarios activos mensuales o más de USD 20 millones en ingresos mensuales debe mostrar "Kimi K2.7 Code" prominentemente en la UI.

¿Vale la pena para integradores LatAm?

Para una pyme tecnológica chilena que corre coding agents en producción 24/7, la matemática es simple. Un solo agente generando 10 millones de tokens de salida al mes paga USD 40 con Kimi K2.7 Code, USD 250 con Opus 4.8 y USD 500 con Fable 5. La diferencia anual frente a Fable 5 supera los USD 5.500 por agente, suficiente para pagar la cuota de un ingeniero junior part-time. La pregunta deja de ser de calidad y pasa a ser de unit economics.

Kimi K2.7 Code: modelo abierto 12 veces más barato que Claude

Al grano

Por qué importa

Avances sobre K2.6, todavía lejos del líder

Un billón de parámetros, solo 32 mil millones activos

Una fracción del costo de los modelos occidentales

Licencia MIT modificada con cláusula de big customers

¿Vale la pena para integradores LatAm?

Seguir leyendo

TensorRT y Dynamo-Triton: 16 buenas prácticas para servir IA

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

OpenClaw: el agente IA local que estalló en GitHub

ComfyUI con RTX: tres flujos creativos listos para producción

→Al grano

✦Por qué importa

Avances sobre K2.6, todavía lejos del líder

Un billón de parámetros, solo 32 mil millones activos

Una fracción del costo de los modelos occidentales

Licencia MIT modificada con cláusula de big customers

¿Vale la pena para integradores LatAm?

Seguir leyendo

TensorRT y Dynamo-Triton: 16 buenas prácticas para servir IA

NVIDIA libera Fleet Intelligence para monitorear sus GPUs

OpenClaw: el agente IA local que estalló en GitHub

ComfyUI con RTX: tres flujos creativos listos para producción

Al grano

Por qué importa