Simon Willison, creador del framework Datasette y figura central de la comunidad open source en torno a Python, llevó a PyCon US 2026 un formato exigente: cinco minutos para resumir lo más relevante en LLMs entre noviembre de 2025 y mayo de 2026. Publicó las diapositivas anotadas en su sitio usando la última iteración de su herramienta de presentaciones anotadas.
El punto de inflexión de noviembre de 2025

Seis meses es una ventana cómoda para narrar, porque captura lo que Willison llama el punto de inflexión de noviembre de 2025. Noviembre fue un mes crítico en LLMs, sobre todo en programación.

Para empezar, el supuestamente "mejor" modelo (definido sobre todo por vibes) cambió de manos cinco veces entre los tres grandes proveedores en menos de un trimestre.

Como siempre, Willison usa su test generar un SVG de un pelícano andando en bicicleta para ilustrar las diferencias entre modelos. ¿Por qué este test? Porque los pelícanos son difíciles de dibujar, las bicicletas son difíciles de dibujar, los pelícanos no pueden andar en bicicleta, y no hay chance de que un laboratorio entrene un modelo para una tarea tan ridícula.

Al inicio de noviembre, el "mejor" modelo más reconocido era Claude Sonnet 4.5, lanzado el 29 de septiembre. En noviembre fue superado por GPT-5.1, luego Gemini 3, después GPT-5.1 Codex Max, y finalmente Anthropic recuperó la corona con Claude Opus 4.5. Willison opina que Gemini 3 dibujó el mejor pelícano del lote, aunque los pelícanos no lo son todo. La mayoría de los practicantes coincide en que Opus 4.5 mantuvo la corona durante los dos meses siguientes.
¿Qué cambió realmente con los agentes de código?

Tardó un poco en hacerse evidente, pero la verdadera noticia de noviembre fue que los agentes de código se pusieron buenos.
OpenAI y Anthropic pasaron casi todo 2025 corriendo Reinforcement Learning from Verifiable Rewards para subir la calidad del código generado por sus modelos, especialmente cuando se acoplan con sus respectivos arneses Codex y Claude Code. En noviembre, los resultados se vieron: los agentes pasaron de funcionar a veces a funcionar casi siempre, cruzando una barrera de calidad donde se pueden usar como herramienta diaria sin gastar la mayoría del tiempo arreglando errores estúpidos.

También en noviembre pasó esto: el primer commit a un repo entonces desconocido llamado "Warelay" por alguien llamado Pete.
Diciembre y enero: un poco de psicosis con LLMs

Durante las vacaciones, de diciembre a enero, muchos aprovecharon el receso para tantear estos nuevos modelos y agentes y ver qué podían hacer. Resulta que podían hacer mucho. Algunos se entusiasmaron de más. Willison tuvo su propio episodio breve de lo que define como una forma de psicosis con LLMs, mientras iniciaba proyectos descabelladamente ambiciosos para ver hasta dónde llegaban.

Uno de sus proyectos fue una implementación vibe-coded de JavaScript en Python, un port de MicroQuickJS al que llamó micro-javascript. Se puede probar en el playground en línea.

Esa demo del playground ejecuta JavaScript con la biblioteca micro-javascript, en Python, dentro de Pyodide, sobre WebAssembly, sobre JavaScript, en el navegador. Es divertido. ¿Necesitaba alguien una implementación bug-friendly, lenta e insegura de JavaScript en Python? No. Willison tiene varios otros proyectos del receso que ya retiró silenciosamente.
Febrero 2026: nace OpenClaw

¿Recuerdan ese proyecto Warelay con primer commit a fines de noviembre?

En diciembre y enero pasó por varios cambios de nombre, y para febrero arrasaba en el mundo bajo su nombre final, OpenClaw. La atención que recibió es notable para un proyecto con menos de tres meses de vida.

OpenClaw es un "asistente personal de IA", y se acuñó un término genérico para esta categoría, derivado de NanoClaw, ZeroClaw y similares: se llaman Claws.

Los Mac Minis empezaron a agotarse en Silicon Valley porque la gente los compraba para correr sus Claws. Drew Breunig le bromeó a Willison que son las nuevas mascotas digitales, y un Mac Mini es la pecera perfecta para tu Claw.

La metáfora favorita de Willison para los Claws es el Doc Ock de Alfred Molina en Spider-Man 2 (2004). Sus garras eran controladas por IA y eran perfectamente seguras siempre que nada dañara su chip inhibidor. Después de eso, se volvieron malvadas y tomaron el control.

También en febrero apareció Gemini 3.1 Pro, que dibujó un pelícano realmente bueno. Incluso lleva un pez en la canasta.

Luego Jeff Dean, de Google, tuiteó un video con un pelícano andando en bicicleta, una rana en un velocípedo, una jirafa manejando un auto chico, un avestruz en patines y una tortuga haciendo kickflip sobre un skate. Tal vez los laboratorios sí están prestando atención al test del pelícano.
Abril 2026: pesos abiertos al frente

Pasó mucho en el último mes.

Google liberó la serie Gemma 4, los modelos de pesos abiertos más capaces que Willison ha visto desde una empresa estadounidense.

También el mes pasado, el laboratorio chino GLM publicó GLM-5.1, un monstruo de pesos abiertos de 1,5 TB. Es un modelo muy efectivo, si se puede pagar el hardware para correrlo.

GLM-5.1 dibujó este pelícano muy competente en bicicleta.

Aunque cuando trató de animarlo, la bicicleta rebotó hacia el borde superior y se deformó.

Charles, en Bluesky, sugirió probar con una zarigüeya de Virginia del Norte en un patinete eléctrico.

Y devolvió esto. Willison probó la misma instrucción en otros modelos y ninguno se acerca. La frase "Cruzando el estado desde el atardecer" es perfecta. Está animado también.

Los otros modelos de pesos abiertos chinos en abril vinieron de Qwen. Qwen3.6-35B-A3B en la laptop de Willison dibujó un pelícano mejor que Claude Opus 4.7. Es un modelo de 20,9 GB que corre en hardware doméstico. (Esto demuestra principalmente que el test del pelícano en bicicleta ya superó sus límites como benchmark útil.)

Acá está el pelícano de Claude Sonnet 4.5 de septiembre, como comparación.
Dos temas dominantes

Esos fueron los dos temas dominantes de los últimos seis meses. Los agentes de código se pusieron realmente buenos, y los modelos que caben en una laptop, aunque mucho más débiles que la frontera, empezaron a superar dramáticamente las expectativas.




