AISI británico: benchmarks fijos subestiman a los agentes IA

El AI Security Institute demostró que aumentar 10× el presupuesto de tokens sube el desempeño hasta 25 puntos en tareas de ingeniería de software y modifica la curva real de progreso del frontier.

Publicado el 4 de julio de 2026 · 01:07 a. m.3 min de lectura

Al grano

El AI Security Institute del Reino Unido demostró que los benchmarks estándar recortan hasta 25 puntos el desempeño real de agentes IA por presupuestos de tokens fijos.

En cybersecurity, el 8% de las tareas solo se resolvió con más de 10 millones de tokens; la tarea The Last Ones exigió 30 millones sin excepciones.

El time horizon del frontier saltó de dos a 14 horas al subir el presupuesto de 2,5 a 50 millones de tokens en modelos como GPT-5.5 y Opus 4.8.

Por qué importa

El estudio del AISI cambia la conversación sobre agentes IA. Si el progreso se duplica cada 40 días con presupuestos altos y no cada 4,7 meses como decían los papers, la ventana para diseñar defensas cyber se achica mucho más rápido de lo que asumen los policymakers en Latinoamérica. El modelo que hoy no completa una tarea de 20 horas puede lograrlo el próximo trimestre, si alguien paga la cuenta de compute.

El desempeño de un agente IA es una curva que sube con el compute que se le permite gastar, no un número fijo. Si el presupuesto de tokens se corta mientras la curva sigue trepando, el puntaje medido entrega el mínimo, no el máximo del modelo. Ese es el hallazgo central de un nuevo trabajo del AI Security Institute (AISI) del Reino Unido, que probó modelos frontier en siete benchmarks con presupuestos variables de test-time compute.

¿Qué encontró el estudio del AISI?

El equipo evaluó modelos como GPT-5, GPT-5.5, Opus 4.5, Opus 4.8 y Sonnet 4.5 con distintos techos de gasto por tarea. El resultado es claro: los caps de presupuesto que usan los benchmarks estándar dejan afuera el verdadero potencial de los agentes.

En TerminalBench 2.0 y SWE-Bench Pro (ingeniería de software), la tasa de éxito subió cerca de 25 puntos porcentuales cuando el presupuesto pasó de 1 a 10 millones de tokens.
En Humanity's Last Exam (matemática y tareas académicas), la ganancia fue de unos 22 puntos hasta un presupuesto de 5 millones de tokens.
En cybersecurity, alrededor del 8% de las tareas solo se resolvió con más de 10 millones de tokens; algunas exigieron 50 millones. Los modelos más nuevos alcanzaron aún mejores scores sobre los 100 millones.

Más compute, mejor resultado (pero no en todo)

Según AISI, el compute extra ayuda sobre todo donde el agente puede verificar su propio trabajo, como ejecutar código o testear un exploit. En cambio, apenas mueve la aguja cuando el feedback está ausente o llega tarde. En HealthBench, un benchmark médico, todos los modelos tocaron su plateau dentro del presupuesto estándar.

¿Cuántos tokens necesita un agente para una tarea humana de una hora?

Otro hallazgo conecta el tiempo que un experto humano tarda en una tarea con el consumo de tokens del agente. Sobre 211 tareas de ingeniería de software del instituto de investigación METR y 78 tareas de ciberseguridad del propio AISI, la relación sigue una ley de potencia:

Una tarea de un minuto: miles de tokens.
Una tarea de una hora: millones de tokens.
Una tarea de una semana: miles de millones.

Un presupuesto fijo termina cortando justo las tareas más largas y difíciles. El fracaso puede significar que el presupuesto era demasiado ajustado, no que el agente careciera de la habilidad. AISI cita el ejercicio "The Last Ones", una tarea de ciberseguridad que a un humano le toma unas 20 horas: ningún modelo probado lo resolvió con menos de 30 millones de tokens.

Los modelos nuevos exprimen mejor el compute extra

Los modelos más recientes aprovechan mucho más el compute adicional que los anteriores. La curva de capacidad se desplaza hacia arriba con cada generación y cambia de forma en tres ejes: alcance (tareas más difíciles se vuelven resolubles), confiabilidad (la misma tarea se resuelve más seguido) y eficiencia (la misma tarea requiere menos tokens).

El time horizon de un modelo frontier actual creció de unos 40 minutos con un presupuesto de 2,5 millones de tokens a cerca de cuatro horas con 50 millones. En todo el frontier, la ventana pasa de aproximadamente dos horas a 14 horas cuando el presupuesto salta de 2,5 a 50 millones.

El frontier avanza más rápido de lo que decían los benchmarks

AISI había estimado antes que el time horizon de los modelos frontier en tareas cyber se duplica cada 4,7 meses medido con un presupuesto fijo de 2,5 millones de tokens. Al medirlo con 50 millones, la tendencia es cerca de 60% más pronunciada: la duplicación ocurre cada 40 a 50 días en lugar de cada 67 a 91.

El progreso no es uniforme. En cerca del 10 a 30% de las tareas, los modelos más nuevos puntearon peor que sus predecesores.

¿Qué significa esto para medir el progreso?

Para el AISI, la lección principal es cómo medimos. "Si seguimos tratando la capacidad como un puntaje fijo en lugar de una curva sobre el compute, vamos a seguir sorprendiéndonos con lo que estos sistemas pueden hacer cuando se gasta más en ellos", dijo el equipo. El instituto ahora corre los modelos frontier con varios presupuestos distintos, aplicando el concepto de "presupuestos mínimos informativos": solo cuentan como resultados válidos los tests donde extender el compute deja de mejorar el score.

AISI británico: benchmarks fijos subestiman a los agentes IA

Al grano

Por qué importa

¿Qué encontró el estudio del AISI?

Más compute, mejor resultado (pero no en todo)

¿Cuántos tokens necesita un agente para una tarea humana de una hora?

Los modelos nuevos exprimen mejor el compute extra

El frontier avanza más rápido de lo que decían los benchmarks

¿Qué significa esto para medir el progreso?

Seguir leyendo

NVIDIA Research presenta avances en robótica y conducción autónoma

Agentes IA locales en Windows: MXC y llama.cpp duplican rendimiento

NVIDIA FOX: el cerebro agéntico para fábricas autónomas

NVIDIA Isaac Lab acelera sim-to-real con 8 papers en ICRA 2026

→Al grano

✦Por qué importa

¿Qué encontró el estudio del AISI?

Más compute, mejor resultado (pero no en todo)

¿Cuántos tokens necesita un agente para una tarea humana de una hora?

Los modelos nuevos exprimen mejor el compute extra

El frontier avanza más rápido de lo que decían los benchmarks

¿Qué significa esto para medir el progreso?

Seguir leyendo

NVIDIA Research presenta avances en robótica y conducción autónoma

Agentes IA locales en Windows: MXC y llama.cpp duplican rendimiento

NVIDIA FOX: el cerebro agéntico para fábricas autónomas

NVIDIA Isaac Lab acelera sim-to-real con 8 papers en ICRA 2026

Al grano

Por qué importa