El desempeño de un agente IA es una curva que sube con el compute que se le permite gastar, no un número fijo. Si el presupuesto de tokens se corta mientras la curva sigue trepando, el puntaje medido entrega el mínimo, no el máximo del modelo. Ese es el hallazgo central de un nuevo trabajo del AI Security Institute (AISI) del Reino Unido, que probó modelos frontier en siete benchmarks con presupuestos variables de test-time compute.
¿Qué encontró el estudio del AISI?
El equipo evaluó modelos como GPT-5, GPT-5.5, Opus 4.5, Opus 4.8 y Sonnet 4.5 con distintos techos de gasto por tarea. El resultado es claro: los caps de presupuesto que usan los benchmarks estándar dejan afuera el verdadero potencial de los agentes.
- En TerminalBench 2.0 y SWE-Bench Pro (ingeniería de software), la tasa de éxito subió cerca de 25 puntos porcentuales cuando el presupuesto pasó de 1 a 10 millones de tokens.
- En Humanity's Last Exam (matemática y tareas académicas), la ganancia fue de unos 22 puntos hasta un presupuesto de 5 millones de tokens.
- En cybersecurity, alrededor del 8% de las tareas solo se resolvió con más de 10 millones de tokens; algunas exigieron 50 millones. Los modelos más nuevos alcanzaron aún mejores scores sobre los 100 millones.
Más compute, mejor resultado (pero no en todo)
Según AISI, el compute extra ayuda sobre todo donde el agente puede verificar su propio trabajo, como ejecutar código o testear un exploit. En cambio, apenas mueve la aguja cuando el feedback está ausente o llega tarde. En HealthBench, un benchmark médico, todos los modelos tocaron su plateau dentro del presupuesto estándar.
¿Cuántos tokens necesita un agente para una tarea humana de una hora?
Otro hallazgo conecta el tiempo que un experto humano tarda en una tarea con el consumo de tokens del agente. Sobre 211 tareas de ingeniería de software del instituto de investigación METR y 78 tareas de ciberseguridad del propio AISI, la relación sigue una ley de potencia:
- Una tarea de un minuto: miles de tokens.
- Una tarea de una hora: millones de tokens.
- Una tarea de una semana: miles de millones.
Un presupuesto fijo termina cortando justo las tareas más largas y difíciles. El fracaso puede significar que el presupuesto era demasiado ajustado, no que el agente careciera de la habilidad. AISI cita el ejercicio "The Last Ones", una tarea de ciberseguridad que a un humano le toma unas 20 horas: ningún modelo probado lo resolvió con menos de 30 millones de tokens.
Los modelos nuevos exprimen mejor el compute extra
Los modelos más recientes aprovechan mucho más el compute adicional que los anteriores. La curva de capacidad se desplaza hacia arriba con cada generación y cambia de forma en tres ejes: alcance (tareas más difíciles se vuelven resolubles), confiabilidad (la misma tarea se resuelve más seguido) y eficiencia (la misma tarea requiere menos tokens).
El time horizon de un modelo frontier actual creció de unos 40 minutos con un presupuesto de 2,5 millones de tokens a cerca de cuatro horas con 50 millones. En todo el frontier, la ventana pasa de aproximadamente dos horas a 14 horas cuando el presupuesto salta de 2,5 a 50 millones.
El frontier avanza más rápido de lo que decían los benchmarks
AISI había estimado antes que el time horizon de los modelos frontier en tareas cyber se duplica cada 4,7 meses medido con un presupuesto fijo de 2,5 millones de tokens. Al medirlo con 50 millones, la tendencia es cerca de 60% más pronunciada: la duplicación ocurre cada 40 a 50 días en lugar de cada 67 a 91.
El progreso no es uniforme. En cerca del 10 a 30% de las tareas, los modelos más nuevos puntearon peor que sus predecesores.
¿Qué significa esto para medir el progreso?
Para el AISI, la lección principal es cómo medimos. "Si seguimos tratando la capacidad como un puntaje fijo en lugar de una curva sobre el compute, vamos a seguir sorprendiéndonos con lo que estos sistemas pueden hacer cuando se gasta más en ellos", dijo el equipo. El instituto ahora corre los modelos frontier con varios presupuestos distintos, aplicando el concepto de "presupuestos mínimos informativos": solo cuentan como resultados válidos los tests donde extender el compute deja de mejorar el score.




