Punto clave de esta nota

Simon Willison resumió en PyCon US 2026 los últimos seis meses de LLMs en una lightning talk de cinco minutos.

¿Identifica noviembre de 2025 como punto de inflexión?

la corona del 'mejor modelo' cambió 5 veces entre Anthropic, OpenAI y Google.

Punto clave de esta nota

El cambio mayor es que los agentes de código pasaron a funcionar casi siempre, usables como herramienta diaria sin debug constante.

Simon Willison resume seis meses de LLMs en cinco minutos

Al grano

Simon Willison resumió en PyCon US 2026 los últimos seis meses de LLMs en una lightning talk de cinco minutos.
Identifica noviembre de 2025 como punto de inflexión: la corona del 'mejor modelo' cambió 5 veces entre Anthropic, OpenAI y Google.
El cambio mayor es que los agentes de código pasaron a funcionar casi siempre, usables como herramienta diaria sin debug constante.

Simon Willison, creador del framework Datasette y figura central de la comunidad open source en torno a Python, llevó a PyCon US 2026 un formato exigente: cinco minutos para resumir lo más relevante en LLMs entre noviembre de 2025 y mayo de 2026. Publicó las diapositivas anotadas en su sitio usando la última iteración de su herramienta de presentaciones anotadas.

El punto de inflexión de noviembre de 2025

Seis meses es una ventana cómoda para narrar, porque captura lo que Willison llama el punto de inflexión de noviembre de 2025. Noviembre fue un mes crítico en LLMs, sobre todo en programación.

El 'mejor' modelo cambió de manos 5 veces entre Anthropic, OpenAI y Google

Para empezar, el supuestamente "mejor" modelo (definido sobre todo por vibes) cambió de manos cinco veces entre los tres grandes proveedores en menos de un trimestre.

Como siempre, Willison usa su test generar un SVG de un pelícano andando en bicicleta para ilustrar las diferencias entre modelos. ¿Por qué este test? Porque los pelícanos son difíciles de dibujar, las bicicletas son difíciles de dibujar, los pelícanos no pueden andar en bicicleta, y no hay chance de que un laboratorio entrene un modelo para una tarea tan ridícula.

Cinco pelícanos, uno para cada modelo. Calidades variables

Al inicio de noviembre, el "mejor" modelo más reconocido era Claude Sonnet 4.5, lanzado el 29 de septiembre. En noviembre fue superado por GPT-5.1, luego Gemini 3, después GPT-5.1 Codex Max, y finalmente Anthropic recuperó la corona con Claude Opus 4.5. Willison opina que Gemini 3 dibujó el mejor pelícano del lote, aunque los pelícanos no lo son todo. La mayoría de los practicantes coincide en que Opus 4.5 mantuvo la corona durante los dos meses siguientes.

¿Qué cambió realmente con los agentes de código?

Tardó un poco en hacerse evidente, pero la verdadera noticia de noviembre fue que los agentes de código se pusieron buenos.

OpenAI y Anthropic pasaron casi todo 2025 corriendo Reinforcement Learning from Verifiable Rewards para subir la calidad del código generado por sus modelos, especialmente cuando se acoplan con sus respectivos arneses Codex y Claude Code. En noviembre, los resultados se vieron: los agentes pasaron de funcionar a veces a funcionar casi siempre, cruzando una barrera de calidad donde se pueden usar como herramienta diaria sin gastar la mayoría del tiempo arreglando errores estúpidos.

Screenshot de 'Initial commit' en GitHub a steipete/Warelay, noviembre 24 2025

También en noviembre pasó esto: el primer commit a un repo entonces desconocido llamado "Warelay" por alguien llamado Pete.

Diciembre y enero: un poco de psicosis con LLMs

Diciembre/Enero (un poco de psicosis con LLM)

Durante las vacaciones, de diciembre a enero, muchos aprovecharon el receso para tantear estos nuevos modelos y agentes y ver qué podían hacer. Resulta que podían hacer mucho. Algunos se entusiasmaron de más. Willison tuvo su propio episodio breve de lo que define como una forma de psicosis con LLMs, mientras iniciaba proyectos descabelladamente ambiciosos para ver hasta dónde llegaban.

playground micro-javascript: Ejecuta código JavaScript en un entorno aislado powered by Pyodide

Uno de sus proyectos fue una implementación vibe-coded de JavaScript en Python, un port de MicroQuickJS al que llamó micro-javascript. Se puede probar en el playground en línea.

JavaScript corriendo en Python corriendo en Pyodide corriendo en WebAssembly corriendo en JavaScript

Esa demo del playground ejecuta JavaScript con la biblioteca micro-javascript, en Python, dentro de Pyodide, sobre WebAssembly, sobre JavaScript, en el navegador. Es divertido. ¿Necesitaba alguien una implementación bug-friendly, lenta e insegura de JavaScript en Python? No. Willison tiene varios otros proyectos del receso que ya retiró silenciosamente.

Febrero 2026: nace OpenClaw

¿Recuerdan ese proyecto Warelay con primer commit a fines de noviembre?

Warelay → CLAWDIS → CLAWDBOT → Clawdbot → Moltbot → OpenClaw

En diciembre y enero pasó por varios cambios de nombre, y para febrero arrasaba en el mundo bajo su nombre final, OpenClaw. La atención que recibió es notable para un proyecto con menos de tres meses de vida.

OpenClaw es un "asistente personal de IA", y se acuñó un término genérico para esta categoría, derivado de NanoClaw, ZeroClaw y similares: se llaman Claws.

Los Mac Minis empezaron a agotarse en Silicon Valley porque la gente los compraba para correr sus Claws. Drew Breunig le bromeó a Willison que son las nuevas mascotas digitales, y un Mac Mini es la pecera perfecta para tu Claw.

El Doc Ock de Alfred Molina en Spider-Man 2, destrozando un tren del metro de Nueva York con sus cuatro garras

La metáfora favorita de Willison para los Claws es el Doc Ock de Alfred Molina en Spider-Man 2 (2004). Sus garras eran controladas por IA y eran perfectamente seguras siempre que nada dañara su chip inhibidor. Después de eso, se volvieron malvadas y tomaron el control.

Gemini 3.1 Pro: una ilustración realmente buena de un pelícano andando en bicicleta

También en febrero apareció Gemini 3.1 Pro, que dibujó un pelícano realmente bueno. Incluso lleva un pez en la canasta.

Pelícano de Gemini 3 Pro vs Gemini 3.1 Pro, como SVGs animados

Luego Jeff Dean, de Google, tuiteó un video con un pelícano andando en bicicleta, una rana en un velocípedo, una jirafa manejando un auto chico, un avestruz en patines y una tortuga haciendo kickflip sobre un skate. Tal vez los laboratorios sí están prestando atención al test del pelícano.

Abril 2026: pesos abiertos al frente

Pasó mucho en el último mes.

Gemma 4 26B-A4B (17,99GB): un pelícano andando en bicicleta bastante decente

Google liberó la serie Gemma 4, los modelos de pesos abiertos más capaces que Willison ha visto desde una empresa estadounidense.

También el mes pasado, el laboratorio chino GLM publicó GLM-5.1, un monstruo de pesos abiertos de 1,5 TB. Es un modelo muy efectivo, si se puede pagar el hardware para correrlo.

GLM-5.1 dibujó este pelícano muy competente en bicicleta.

La bicicleta está chueca, el pelícano flota

Aunque cuando trató de animarlo, la bicicleta rebotó hacia el borde superior y se deformó.

Screenshot de Bluesky: Charles sugiere probar con otro animal y otro método de locomoción

Charles, en Bluesky, sugirió probar con una zarigüeya de Virginia del Norte en un patinete eléctrico.

ZARIGÜEYA DE VIRGINIA DEL NORTE CRUZANDO EL ESTADO DESDE EL ATARDECER

Y devolvió esto. Willison probó la misma instrucción en otros modelos y ninguno se acerca. La frase "Cruzando el estado desde el atardecer" es perfecta. Está animado también.

Qwen3.6-35B-A3B es un archivo de 20,9GB que corre en mi laptop

Los otros modelos de pesos abiertos chinos en abril vinieron de Qwen. Qwen3.6-35B-A3B en la laptop de Willison dibujó un pelícano mejor que Claude Opus 4.7. Es un modelo de 20,9 GB que corre en hardware doméstico. (Esto demuestra principalmente que el test del pelícano en bicicleta ya superó sus límites como benchmark útil.)

Pelícano de Claude Sonnet 4.5 como comparación

Acá está el pelícano de Claude Sonnet 4.5 de septiembre, como comparación.

Dos temas dominantes

Los temas de los últimos 6 meses: los agentes de código se pusieron realmente buenos, los modelos locales superan dramáticamente las expectativas

Esos fueron los dos temas dominantes de los últimos seis meses. Los agentes de código se pusieron realmente buenos, y los modelos que caben en una laptop, aunque mucho más débiles que la frontera, empezaron a superar dramáticamente las expectativas.

Simon Willison resume seis meses de LLMs en cinco minutos

Al grano

Por qué importa

El punto de inflexión de noviembre de 2025

¿Qué cambió realmente con los agentes de código?

Diciembre y enero: un poco de psicosis con LLMs

Febrero 2026: nace OpenClaw

Abril 2026: pesos abiertos al frente

Dos temas dominantes

Seguir leyendo

Anthropic lanza Sonnet 5 y aprueba el regreso de Fable 5

Claude Sonnet 5 alcanza a Opus 4.8 en trabajo cognitivo

Anthropic mide el uso programatico de Claude y Codex gana terreno

GLM-5.2 alcanza a Claude Opus 4.8 en coding maratónico

→Al grano

✦Por qué importa

El punto de inflexión de noviembre de 2025

¿Qué cambió realmente con los agentes de código?

Diciembre y enero: un poco de psicosis con LLMs

Febrero 2026: nace OpenClaw

Abril 2026: pesos abiertos al frente

Dos temas dominantes

Seguir leyendo

Anthropic lanza Sonnet 5 y aprueba el regreso de Fable 5

Claude Sonnet 5 alcanza a Opus 4.8 en trabajo cognitivo

Anthropic mide el uso programatico de Claude y Codex gana terreno

GLM-5.2 alcanza a Claude Opus 4.8 en coding maratónico

Al grano

Por qué importa