En lugar de escribir a mano las reglas para hacer más eficiente el razonamiento de un modelo, un equipo de investigadores dejó que un agente de codificación las cazara dentro de un entorno simulado. El resultado supera a métodos consolidados quemando bastante menos compute.
El test-time scaling (TTS) busca que los grandes modelos de lenguaje rindan mejor gastando más compute en cada respuesta: corriendo varias trayectorias en paralelo o extendiendo cadenas de pensamiento. Hasta ahora, eran reglas escritas por humanos las que decidían cuándo el modelo abre una nueva trayectoria, dobla la apuesta en una promisoria o la descarta.
Un equipo de UMD, UVA, WUSTL, UNC, Google y Meta da vuelta esa lógica con AutoTTS. La gente ya no escribe el algoritmo. Construye el escenario donde un agente de IA descubre algoritmos por sí mismo.
El paper argumenta que muchos métodos conocidos son casos particulares de un mismo espacio de control definido por dos ejes: el ancho (cuántas trayectorias corren a la vez) y la profundidad (cuánto avanza cada una). La pregunta de los autores es directa: ¿por qué los investigadores siguen trazando recorridos por ese espacio a mano en vez de dejar que una máquina los explore?
¿Cómo entrena AutoTTS sin disparar el costo?
En el corazón de AutoTTS hay un entorno offline. Para cada tarea, el equipo pregenera varias trayectorias de solución desde el modelo de lenguaje y las guarda. Cada nuevo algoritmo de control decide cómo gastar compute usando datos que ya están en caché. Así, miles de variantes pueden correr sin tener que encender el modelo entero cada vez.
El cambio de rol del humano es el punto: pasa de diseñar el algoritmo (ramificar, podar, parar) a diseñar el entorno (estados, acciones, retroalimentación). Un agente busca después un controlador por sí solo dentro de ese marco.
Quien hace la búsqueda es Claude Code. A lo largo de varias rondas, el agente revisa lo que vino antes, identifica las debilidades de propuestas pasadas y escribe un nuevo algoritmo de control directamente en código. Para que la búsqueda no se pierda en miles de pequeñas perillas, cada propuesta solo puede exponer un controlador de alto nivel al exterior. Ese controlador fija el resto de los umbrales por su cuenta. Los logs completos de cada corrida también le muestran al agente dónde gastó compute para nada en intentos previos.
¿Qué tan bien rinde el algoritmo descubierto?
En benchmarks de matemática como AIME y HMMT, el algoritmo que el agente diseñó consigue mejor precisión por unidad de compute que los métodos consolidados. En la configuración más austera reduce cerca de un 70% el uso de tokens frente a la self-consistency estándar (que genera 64 respuestas en paralelo y elige la ganadora por mayoría). La precisión se mantiene.
El algoritmo también traslada bien a otro modelo (DeepSeek-R1-Distill-Llama-8B) y a un benchmark no matemático (GPQA-Diamond). El descubrimiento completo costó cerca de 40 dólares y tomó 160 minutos.
Una lógica que un humano probablemente no habría diseñado
Lo más interesante no son los números crudos sino cómo funciona el programa hallado. Sigue la deriva de la confianza del modelo a lo largo de varias rondas. Otros métodos abandonan apenas una mayoría entre respuestas inclina la balanza.
Si la confianza apenas se mueve, el algoritmo abre más trayectorias. Si trepa rápido, las descarta. Las trayectorias cuyo resultado intermedio coincide con la mayoría actual reciben más compute. Solo desecha las que divergen si siguen apuntando en la dirección equivocada en varias rondas seguidas.
Los autores describen esta coordinación como algo que habría sido casi imposible diseñar a mano. Un estudio de ablación muestra cuánto depende de dos decisiones de diseño: si se elimina el controlador único de alto nivel, el agente se cuelga de atajos extremos que ahorran compute en testing pero hunden la precisión en tareas nuevas. Sin logs detallados, el algoritmo descubierto consume más compute con peor precisión, así que ver solo el resultado final no alcanza para entender qué falló.
De escribir algoritmos a construir espacios de búsqueda
Los autores ubican a AutoTTS en la misma línea de trabajos como FunSearch, AlphaEvolve y ADAS, que usan modelos de lenguaje como buscadores de programas. Lo nuevo es aplicar esa idea al test-time scaling, hasta ahora dominado por el trabajo manual.
La versión actual solo cubre el compromiso entre ancho y profundidad. No maneja estructuras más complejas como búsquedas en árbol. La calidad del descubrimiento también depende del agente de código usado. Los autores no aclaran si alternativas open source funcionarían igual de bien.
La conclusión gruesa es que el trabajo desplaza el punto donde entra el humano: en lugar de inventar las reglas, los investigadores arman el entorno de búsqueda donde esas reglas viven. La estrategia concreta emerge después como código que un modelo de lenguaje escribe y refina.
Ya en 2024, investigadores de Hugging Face habían mostrado que modelos pequeños pueden empatar a otros mucho más grandes con un buen scaling de compute en inferencia, aunque con estrategias diseñadas a mano. Meta y socios presentaron hace poco hyperagents, sistemas de IA que optimizan su propio proceso de mejora.




