Casi todos los frameworks de agentes autónomos publicados en el último año comparten una misma intuición de diseño: agregar más capas de orquestación, más herramientas especializadas, más verificación. Un paper recién publicado en arXiv firmado por Tarun Mittal propone exactamente lo contrario, y respalda la afirmación con datos.

¿Qué es ChromaFlow y por qué importa?

ChromaFlow es un framework de razonamiento autónomo aumentado con herramientas, construido en torno a tres pilares: ejecución dirigida por planificador, uso especializado de tools y evaluación basada en telemetría. La intención del paper no era proponerlo como nuevo state of the art, sino usarlo como sustrato para una ablación negativa sobre el supuesto de que más orquestación mejora el resultado.

Los agentes basados en modelos de lenguaje combinan hoy planificación, uso de herramientas, procesamiento de documentos, navegación web, ejecución de código y loops de verificación. Estas capacidades los hacen más útiles, pero también introducen modos de falla operacional que no se ven cuando uno mira solo el accuracy final.

¿Qué encontró la ablación negativa?

El experimento corrió sobre GAIA 2023 Level-1, un benchmark canónico de razonamiento con herramientas. La línea base, una configuración congelada y conservadora, acertó 29 de 53 tareas (54,72%). La versión recovery con orquestación expandida, en cambio, cayó a 27 de 53 tareas (50,94%).

Pero el accuracy no es lo más informativo. La configuración expandida también incrementó cinco métricas operacionales en simultáneo:

  • Tracebacks acumulados durante la corrida
  • Eventos de timeout en llamadas a herramientas
  • Menciones de fallas de tools en los logs
  • Llamadas registradas como token-line calls
  • Estimaciones de costo en los campaign-logs

Es decir, más orquestación gastó más tokens, generó más errores y bajó la tasa de acierto al mismo tiempo. Para reforzar el punto, dos evaluaciones smoke aleatorizadas de 20 tareas dieron 12/20 y 11/20 correctas, mostrando que las mejoras diagnósticas pequeñas son inestables entre muestras.

¿Qué recomienda el paper en su lugar?

Mittal sostiene que cualquier framework agéntico que apunte a ser confiable en producción debería tratar como requisitos de primer orden cuatro mecanismos concretos:

  • Escalación acotada del planner, no abierta
  • Extracción determinística de información intermedia
  • Reconciliación explícita de evidencia antes de avanzar
  • Run gates explícitos para detener corridas problemáticas

La conclusión es directa: la industria está midiendo accuracy final y celebrando ganancias marginales, mientras los costos operacionales se acumulan en logs que nadie audita. El paper completo está disponible bajo arXiv:2605.14102 y propone esta agenda como nuevo estándar mínimo para reportar resultados de agentes autónomos.