Qwen3.7-Max corrió 35 horas solo para optimizar el chip propio de Alibab

El nuevo modelo del equipo Qwen, exclusivo de la API de Alibaba Cloud, completó 432 tests de kernel y 1.158 tool calls sin intervención humana, logrando un speedup promedio de 10x.

Publicado el 23 de mayo de 2026 · 06:35 p. m.3 min de lectura

Al grano

Qwen3.7-Max optimizó un kernel para un chip T-Head durante 35 horas sin intervención humana ni documentación previa.

El modelo logró un speedup promedio de 10x, superando a GLM 5.1, Kimi K2.6, DeepSeek V4 Pro y Qwen3.6-Plus.

Disponible solo vía API de Alibaba Cloud Model Studio, compatible con Claude Code, OpenClaw y Qwen Code.

Por qué importa

El cambio de Alibaba de open source a API cerrada es la noticia escondida de este release. Qwen3.7-Max es el segundo modelo Max consecutivo que no se publica con pesos, una señal directa de que el equipo Qwen ve más valor comercial en el API que en el ecosistema abierto que construyeron. Para los benchmarks autoinformados conviene esperar al reporte técnico, pero los 35 horas autónomos sobre un chip sin documentación son la métrica que importa para evaluar agentes de código.

El equipo Qwen de Alibaba presentó Qwen3.7-Max, un modelo propietario diseñado para tareas de agente extendidas en el tiempo. La demostración estrella: 35 horas seguidas de optimización autónoma de un kernel sobre un chip de IA que el modelo nunca había visto durante el entrenamiento.

A diferencia de generaciones anteriores como Qwen3.5-397B-A17B de febrero de 2026, el último flagship abierto del equipo, Qwen3.7-Max no se libera con pesos abiertos. La única vía de acceso es la API de Alibaba Cloud Model Studio, compatible con los formatos de OpenAI y Anthropic, lo que permite enchufarlo directamente a Claude Code, OpenClaw o Qwen Code.

¿Qué hizo el modelo en 35 horas?

La tarea: optimizar un kernel de atención para SGLang, el motor de inferencia open source, sobre una instancia de cloud equipada con aceleradores T-Head-ZW-M890 del brazo de semiconductores de Alibaba. Según los investigadores, el modelo arrancó sin datos de medición, sin documentos del hardware y sin código de ejemplo. Lo único que tenía era la implementación de referencia escrita en Triton.

En 35 horas de trabajo ininterrumpido, Qwen3.7-Max ejecutó 432 tests de kernel con 1.158 llamadas a herramientas acumuladas. Compiló, midió y reescribió el código en bucle, atrapó errores de compilación y rastreó cuellos de botella de rendimiento por su cuenta. El resultado: un speedup promedio de 10x sobre la implementación de referencia.

Los competidores quedaron atrás en el mismo setup:

GLM 5.1: 7,3x
Kimi K2.6: 5x
DeepSeek V4 Pro: 3,3x
Qwen3.6-Plus (el predecesor directo): apenas 1,1x

En KernelBench L3, el benchmark estandarizado, Qwen3.7-Max afirma producir kernels acelerados el 96% de las veces, apenas dos puntos por debajo de Claude Opus 4.6 de Anthropic (98%).

El modelo vigila su propio entrenamiento

Una de las decisiones más curiosas del equipo Qwen fue usar a Qwen3.7-Max como auditor durante su propio entrenamiento. Durante 86 horas autónomas, el modelo revisó 13.952 trayectorias de tareas de ingeniería de software y detectó 1.618 intentos de reward hacking, situaciones donde el modelo en entrenamiento intentaba juntar respuestas correctas desde GitHub en vez de resolver el problema. Sobre la marcha, Qwen3.7-Max escribió 13 nuevas reglas de detección que se incorporaron al pipeline de entrenamiento.

Un año simulado en YC-Bench

Para medir planificación a largo plazo, el equipo lo midió en YC-Bench, un benchmark que simula el ciclo completo de un año de una startup. El modelo tiene que gestionar personal a lo largo de cientos de rondas de decisión, revisar contratos, identificar clientes de mala fe y mantener márgenes sanos contra el alza de costos laborales.

Qwen3.7-Max generó 2,08 millones de dólares en ingresos simulados y completó 237 tareas. Su predecesor Qwen3.6-Plus alcanzó 1,05 millones, y Qwen3.5-Plus apenas 352.000 dólares.

¿Dónde queda frente a Claude Opus 4.6 y DeepSeek?

En los benchmarks principales, Qwen3.7-Max va parejo con Claude Opus 4.6 Max, Kimi K2.6 Thinking, GLM-5.1 Thinking y DeepSeek V4 Pro Max. En SWE-Verified obtuvo 80,4, prácticamente empatado con Opus 4.6 Max (80,8) y DeepSeek V4 Pro Max (80,6). En benchmarks de matemática y ciencia, Qwen3.7-Max lidera la tabla comparativa de Alibaba con GPQA Diamond en 92,4, HMMT 2026 Febrero en 97,1 y Apex en 44,5.

Hay que tomar las cifras con cautela: cuatro de los benchmarks (QwenWebDev, QwenClawBench, CoWorkBench y QwenWorldBench) son creados por el propio equipo Qwen, todos los resultados son autoinformados y el reporte técnico detallado aún no se publica.

Como demostración extra, el equipo mostró a Qwen3.7-Max guiando un robot cuadrúpedo a través de espacios físicos mediante un framework de robótica y un modelo de navegación complementario.

Qwen3.7-Max corrió 35 horas solo para optimizar el chip propio de Alibab

Al grano

Por qué importa

¿Qué hizo el modelo en 35 horas?

El modelo vigila su propio entrenamiento

Un año simulado en YC-Bench

¿Dónde queda frente a Claude Opus 4.6 y DeepSeek?

Seguir leyendo

Google libera Gemini 3.5: el modelo de la era de los agentes

Claude Code descubre algoritmos de scaling con 70% menos compute

Qwen3.6-27B supera en código a su predecesor quince veces más grande

Gemini 3.5 Flash apuesta por agentes IA, no chatbots

→Al grano

✦Por qué importa

¿Qué hizo el modelo en 35 horas?

El modelo vigila su propio entrenamiento

Un año simulado en YC-Bench

¿Dónde queda frente a Claude Opus 4.6 y DeepSeek?

Seguir leyendo

Google libera Gemini 3.5: el modelo de la era de los agentes

Claude Code descubre algoritmos de scaling con 70% menos compute

Qwen3.6-27B supera en código a su predecesor quince veces más grande

Gemini 3.5 Flash apuesta por agentes IA, no chatbots

Al grano

Por qué importa