Simon Willison, creador del framework Datasette y figura central de la comunidad open source en torno a Python, llevó a PyCon US 2026 un formato exigente: cinco minutos para resumir lo más relevante en LLMs entre noviembre de 2025 y mayo de 2026. Publicó las diapositivas anotadas en su sitio usando la última iteración de su herramienta de presentaciones anotadas.

El punto de inflexión de noviembre de 2025

El punto de inflexión de noviembre
El punto de inflexión de noviembre

Seis meses es una ventana cómoda para narrar, porque captura lo que Willison llama el punto de inflexión de noviembre de 2025. Noviembre fue un mes crítico en LLMs, sobre todo en programación.

El 'mejor' modelo cambió de manos 5 veces entre Anthropic, OpenAI y Google
El 'mejor' modelo cambió de manos 5 veces entre Anthropic, OpenAI y Google

Para empezar, el supuestamente "mejor" modelo (definido sobre todo por vibes) cambió de manos cinco veces entre los tres grandes proveedores en menos de un trimestre.

Generar un SVG de un pelícano andando en bicicleta
Generar un SVG de un pelícano andando en bicicleta

Como siempre, Willison usa su test generar un SVG de un pelícano andando en bicicleta para ilustrar las diferencias entre modelos. ¿Por qué este test? Porque los pelícanos son difíciles de dibujar, las bicicletas son difíciles de dibujar, los pelícanos no pueden andar en bicicleta, y no hay chance de que un laboratorio entrene un modelo para una tarea tan ridícula.

Cinco pelícanos, uno para cada modelo. Calidades variables
Cinco pelícanos, uno para cada modelo. Calidades variables

Al inicio de noviembre, el "mejor" modelo más reconocido era Claude Sonnet 4.5, lanzado el 29 de septiembre. En noviembre fue superado por GPT-5.1, luego Gemini 3, después GPT-5.1 Codex Max, y finalmente Anthropic recuperó la corona con Claude Opus 4.5. Willison opina que Gemini 3 dibujó el mejor pelícano del lote, aunque los pelícanos no lo son todo. La mayoría de los practicantes coincide en que Opus 4.5 mantuvo la corona durante los dos meses siguientes.

¿Qué cambió realmente con los agentes de código?

Los agentes de código se pusieron buenos
Los agentes de código se pusieron buenos

Tardó un poco en hacerse evidente, pero la verdadera noticia de noviembre fue que los agentes de código se pusieron buenos.

OpenAI y Anthropic pasaron casi todo 2025 corriendo Reinforcement Learning from Verifiable Rewards para subir la calidad del código generado por sus modelos, especialmente cuando se acoplan con sus respectivos arneses Codex y Claude Code. En noviembre, los resultados se vieron: los agentes pasaron de funcionar a veces a funcionar casi siempre, cruzando una barrera de calidad donde se pueden usar como herramienta diaria sin gastar la mayoría del tiempo arreglando errores estúpidos.

Screenshot de 'Initial commit' en GitHub a steipete/Warelay, noviembre 24 2025
Screenshot de 'Initial commit' en GitHub a steipete/Warelay, noviembre 24 2025

También en noviembre pasó esto: el primer commit a un repo entonces desconocido llamado "Warelay" por alguien llamado Pete.

Diciembre y enero: un poco de psicosis con LLMs

Diciembre/Enero (un poco de psicosis con LLM)
Diciembre/Enero (un poco de psicosis con LLM)

Durante las vacaciones, de diciembre a enero, muchos aprovecharon el receso para tantear estos nuevos modelos y agentes y ver qué podían hacer. Resulta que podían hacer mucho. Algunos se entusiasmaron de más. Willison tuvo su propio episodio breve de lo que define como una forma de psicosis con LLMs, mientras iniciaba proyectos descabelladamente ambiciosos para ver hasta dónde llegaban.

playground micro-javascript: Ejecuta código JavaScript en un entorno aislado powered by Pyodide
playground micro-javascript: Ejecuta código JavaScript en un entorno aislado powered by Pyodide

Uno de sus proyectos fue una implementación vibe-coded de JavaScript en Python, un port de MicroQuickJS al que llamó micro-javascript. Se puede probar en el playground en línea.

JavaScript corriendo en Python corriendo en Pyodide corriendo en WebAssembly corriendo en JavaScript
JavaScript corriendo en Python corriendo en Pyodide corriendo en WebAssembly corriendo en JavaScript

Esa demo del playground ejecuta JavaScript con la biblioteca micro-javascript, en Python, dentro de Pyodide, sobre WebAssembly, sobre JavaScript, en el navegador. Es divertido. ¿Necesitaba alguien una implementación bug-friendly, lenta e insegura de JavaScript en Python? No. Willison tiene varios otros proyectos del receso que ya retiró silenciosamente.

Febrero 2026: nace OpenClaw

Febrero 2026
Febrero 2026

¿Recuerdan ese proyecto Warelay con primer commit a fines de noviembre?

Warelay → CLAWDIS → CLAWDBOT → Clawdbot → Moltbot → OpenClaw
Warelay → CLAWDIS → CLAWDBOT → Clawdbot → Moltbot → OpenClaw

En diciembre y enero pasó por varios cambios de nombre, y para febrero arrasaba en el mundo bajo su nombre final, OpenClaw. La atención que recibió es notable para un proyecto con menos de tres meses de vida.

Término genérico: Claw
Término genérico: Claw

OpenClaw es un "asistente personal de IA", y se acuñó un término genérico para esta categoría, derivado de NanoClaw, ZeroClaw y similares: se llaman Claws.

Una pecera para tu Claw
Una pecera para tu Claw

Los Mac Minis empezaron a agotarse en Silicon Valley porque la gente los compraba para correr sus Claws. Drew Breunig le bromeó a Willison que son las nuevas mascotas digitales, y un Mac Mini es la pecera perfecta para tu Claw.

El Doc Ock de Alfred Molina en Spider-Man 2, destrozando un tren del metro de Nueva York con sus cuatro garras
El Doc Ock de Alfred Molina en Spider-Man 2, destrozando un tren del metro de Nueva York con sus cuatro garras

La metáfora favorita de Willison para los Claws es el Doc Ock de Alfred Molina en Spider-Man 2 (2004). Sus garras eran controladas por IA y eran perfectamente seguras siempre que nada dañara su chip inhibidor. Después de eso, se volvieron malvadas y tomaron el control.

Gemini 3.1 Pro: una ilustración realmente buena de un pelícano andando en bicicleta
Gemini 3.1 Pro: una ilustración realmente buena de un pelícano andando en bicicleta

También en febrero apareció Gemini 3.1 Pro, que dibujó un pelícano realmente bueno. Incluso lleva un pez en la canasta.

Pelícano de Gemini 3 Pro vs Gemini 3.1 Pro, como SVGs animados
Pelícano de Gemini 3 Pro vs Gemini 3.1 Pro, como SVGs animados

Luego Jeff Dean, de Google, tuiteó un video con un pelícano andando en bicicleta, una rana en un velocípedo, una jirafa manejando un auto chico, un avestruz en patines y una tortuga haciendo kickflip sobre un skate. Tal vez los laboratorios sí están prestando atención al test del pelícano.

Abril 2026: pesos abiertos al frente

Abril 2026
Abril 2026

Pasó mucho en el último mes.

Gemma 4 26B-A4B (17,99GB): un pelícano andando en bicicleta bastante decente
Gemma 4 26B-A4B (17,99GB): un pelícano andando en bicicleta bastante decente

Google liberó la serie Gemma 4, los modelos de pesos abiertos más capaces que Willison ha visto desde una empresa estadounidense.

GLM-5.1 MIT, 754B parámetros, 1,51TB
GLM-5.1 MIT, 754B parámetros, 1,51TB

También el mes pasado, el laboratorio chino GLM publicó GLM-5.1, un monstruo de pesos abiertos de 1,5 TB. Es un modelo muy efectivo, si se puede pagar el hardware para correrlo.

GLM-5.1 dibujó este pelícano muy competente en bicicleta.

La bicicleta está chueca, el pelícano flota
La bicicleta está chueca, el pelícano flota

Aunque cuando trató de animarlo, la bicicleta rebotó hacia el borde superior y se deformó.

Screenshot de Bluesky: Charles sugiere probar con otro animal y otro método de locomoción
Screenshot de Bluesky: Charles sugiere probar con otro animal y otro método de locomoción

Charles, en Bluesky, sugirió probar con una zarigüeya de Virginia del Norte en un patinete eléctrico.

ZARIGÜEYA DE VIRGINIA DEL NORTE CRUZANDO EL ESTADO DESDE EL ATARDECER
ZARIGÜEYA DE VIRGINIA DEL NORTE CRUZANDO EL ESTADO DESDE EL ATARDECER

Y devolvió esto. Willison probó la misma instrucción en otros modelos y ninguno se acerca. La frase "Cruzando el estado desde el atardecer" es perfecta. Está animado también.

Qwen3.6-35B-A3B es un archivo de 20,9GB que corre en mi laptop
Qwen3.6-35B-A3B es un archivo de 20,9GB que corre en mi laptop

Los otros modelos de pesos abiertos chinos en abril vinieron de Qwen. Qwen3.6-35B-A3B en la laptop de Willison dibujó un pelícano mejor que Claude Opus 4.7. Es un modelo de 20,9 GB que corre en hardware doméstico. (Esto demuestra principalmente que el test del pelícano en bicicleta ya superó sus límites como benchmark útil.)

Pelícano de Claude Sonnet 4.5 como comparación
Pelícano de Claude Sonnet 4.5 como comparación

Acá está el pelícano de Claude Sonnet 4.5 de septiembre, como comparación.

Dos temas dominantes

Los temas de los últimos 6 meses: los agentes de código se pusieron realmente buenos, los modelos locales superan dramáticamente las expectativas
Los temas de los últimos 6 meses: los agentes de código se pusieron realmente buenos, los modelos locales superan dramáticamente las expectativas

Esos fueron los dos temas dominantes de los últimos seis meses. Los agentes de código se pusieron realmente buenos, y los modelos que caben en una laptop, aunque mucho más débiles que la frontera, empezaron a superar dramáticamente las expectativas.