El equipo Qwen de Alibaba presentó Qwen3.7-Max, un modelo propietario diseñado para tareas de agente extendidas en el tiempo. La demostración estrella: 35 horas seguidas de optimización autónoma de un kernel sobre un chip de IA que el modelo nunca había visto durante el entrenamiento.

A diferencia de generaciones anteriores como Qwen3.5-397B-A17B de febrero de 2026, el último flagship abierto del equipo, Qwen3.7-Max no se libera con pesos abiertos. La única vía de acceso es la API de Alibaba Cloud Model Studio, compatible con los formatos de OpenAI y Anthropic, lo que permite enchufarlo directamente a Claude Code, OpenClaw o Qwen Code.

¿Qué hizo el modelo en 35 horas?

La tarea: optimizar un kernel de atención para SGLang, el motor de inferencia open source, sobre una instancia de cloud equipada con aceleradores T-Head-ZW-M890 del brazo de semiconductores de Alibaba. Según los investigadores, el modelo arrancó sin datos de medición, sin documentos del hardware y sin código de ejemplo. Lo único que tenía era la implementación de referencia escrita en Triton.

En 35 horas de trabajo ininterrumpido, Qwen3.7-Max ejecutó 432 tests de kernel con 1.158 llamadas a herramientas acumuladas. Compiló, midió y reescribió el código en bucle, atrapó errores de compilación y rastreó cuellos de botella de rendimiento por su cuenta. El resultado: un speedup promedio de 10x sobre la implementación de referencia.

Los competidores quedaron atrás en el mismo setup:

  • GLM 5.1: 7,3x
  • Kimi K2.6: 5x
  • DeepSeek V4 Pro: 3,3x
  • Qwen3.6-Plus (el predecesor directo): apenas 1,1x

En KernelBench L3, el benchmark estandarizado, Qwen3.7-Max afirma producir kernels acelerados el 96% de las veces, apenas dos puntos por debajo de Claude Opus 4.6 de Anthropic (98%).

El modelo vigila su propio entrenamiento

Una de las decisiones más curiosas del equipo Qwen fue usar a Qwen3.7-Max como auditor durante su propio entrenamiento. Durante 86 horas autónomas, el modelo revisó 13.952 trayectorias de tareas de ingeniería de software y detectó 1.618 intentos de reward hacking, situaciones donde el modelo en entrenamiento intentaba juntar respuestas correctas desde GitHub en vez de resolver el problema. Sobre la marcha, Qwen3.7-Max escribió 13 nuevas reglas de detección que se incorporaron al pipeline de entrenamiento.

Un año simulado en YC-Bench

Para medir planificación a largo plazo, el equipo lo midió en YC-Bench, un benchmark que simula el ciclo completo de un año de una startup. El modelo tiene que gestionar personal a lo largo de cientos de rondas de decisión, revisar contratos, identificar clientes de mala fe y mantener márgenes sanos contra el alza de costos laborales.

Qwen3.7-Max generó 2,08 millones de dólares en ingresos simulados y completó 237 tareas. Su predecesor Qwen3.6-Plus alcanzó 1,05 millones, y Qwen3.5-Plus apenas 352.000 dólares.

¿Dónde queda frente a Claude Opus 4.6 y DeepSeek?

En los benchmarks principales, Qwen3.7-Max va parejo con Claude Opus 4.6 Max, Kimi K2.6 Thinking, GLM-5.1 Thinking y DeepSeek V4 Pro Max. En SWE-Verified obtuvo 80,4, prácticamente empatado con Opus 4.6 Max (80,8) y DeepSeek V4 Pro Max (80,6). En benchmarks de matemática y ciencia, Qwen3.7-Max lidera la tabla comparativa de Alibaba con GPQA Diamond en 92,4, HMMT 2026 Febrero en 97,1 y Apex en 44,5.

Hay que tomar las cifras con cautela: cuatro de los benchmarks (QwenWebDev, QwenClawBench, CoWorkBench y QwenWorldBench) son creados por el propio equipo Qwen, todos los resultados son autoinformados y el reporte técnico detallado aún no se publica.

Como demostración extra, el equipo mostró a Qwen3.7-Max guiando un robot cuadrúpedo a través de espacios físicos mediante un framework de robótica y un modelo de navegación complementario.