ChromaFlow: más orquestación bajó el accuracy en GAIA

Tarun Mittal publica una ablación negativa: la versión con orquestación expandida cae de 54,72% a 50,94% y suma tracebacks, timeouts y costos sin contrapartida.

Publicado el 17 de mayo de 2026 · 04:58 p. m.2 min de lectura

Al grano

ChromaFlow es un framework de agentes con planificador y herramientas que Tarun Mittal usa como sustrato para una ablación negativa.

La configuración base acertó 29/53 tareas (54,72%) en GAIA Level-1; la versión con orquestación expandida cayó a 27/53 (50,94%).

La versión expandida también aumentó tracebacks, timeouts, fallas de tools y costos estimados sin mejora compensatoria.

Por qué importa

El paper de Mittal llega en buen momento. Mi lectura es que la métrica que más importa en producción no es el accuracy promedio, sino el costo por tarea exitosa, y ese número casi nadie lo publica. Si el sector de agentes quiere madurar más allá de la fase demo, debe dejar de competir por décimas en benchmarks como GAIA y empezar a publicar tres cifras juntas: accuracy, costo y tracebacks por corrida.

Casi todos los frameworks de agentes autónomos publicados en el último año comparten una misma intuición de diseño: agregar más capas de orquestación, más herramientas especializadas, más verificación. Un paper recién publicado en arXiv firmado por Tarun Mittal propone exactamente lo contrario, y respalda la afirmación con datos.

¿Qué es ChromaFlow y por qué importa?

ChromaFlow es un framework de razonamiento autónomo aumentado con herramientas, construido en torno a tres pilares: ejecución dirigida por planificador, uso especializado de tools y evaluación basada en telemetría. La intención del paper no era proponerlo como nuevo state of the art, sino usarlo como sustrato para una ablación negativa sobre el supuesto de que más orquestación mejora el resultado.

Los agentes basados en modelos de lenguaje combinan hoy planificación, uso de herramientas, procesamiento de documentos, navegación web, ejecución de código y loops de verificación. Estas capacidades los hacen más útiles, pero también introducen modos de falla operacional que no se ven cuando uno mira solo el accuracy final.

¿Qué encontró la ablación negativa?

El experimento corrió sobre GAIA 2023 Level-1, un benchmark canónico de razonamiento con herramientas. La línea base, una configuración congelada y conservadora, acertó 29 de 53 tareas (54,72%). La versión recovery con orquestación expandida, en cambio, cayó a 27 de 53 tareas (50,94%).

Pero el accuracy no es lo más informativo. La configuración expandida también incrementó cinco métricas operacionales en simultáneo:

Tracebacks acumulados durante la corrida
Eventos de timeout en llamadas a herramientas
Menciones de fallas de tools en los logs
Llamadas registradas como token-line calls
Estimaciones de costo en los campaign-logs

Es decir, más orquestación gastó más tokens, generó más errores y bajó la tasa de acierto al mismo tiempo. Para reforzar el punto, dos evaluaciones smoke aleatorizadas de 20 tareas dieron 12/20 y 11/20 correctas, mostrando que las mejoras diagnósticas pequeñas son inestables entre muestras.

¿Qué recomienda el paper en su lugar?

Mittal sostiene que cualquier framework agéntico que apunte a ser confiable en producción debería tratar como requisitos de primer orden cuatro mecanismos concretos:

Escalación acotada del planner, no abierta
Extracción determinística de información intermedia
Reconciliación explícita de evidencia antes de avanzar
Run gates explícitos para detener corridas problemáticas

La conclusión es directa: la industria está midiendo accuracy final y celebrando ganancias marginales, mientras los costos operacionales se acumulan en logs que nadie audita. El paper completo está disponible bajo arXiv:2605.14102 y propone esta agenda como nuevo estándar mínimo para reportar resultados de agentes autónomos.

ChromaFlow: más orquestación bajó el accuracy en GAIA

Al grano

Por qué importa

¿Qué es ChromaFlow y por qué importa?

¿Qué encontró la ablación negativa?

¿Qué recomienda el paper en su lugar?

Seguir leyendo

Microsoft: agentes IA pierden 25% del contenido en tareas largas

Solvita duplica la exactitud de LLMs en programación competitiva

CASCADE: agentes LLM que aprenden en uso sin tocar los pesos

Alineación de IA: por qué es matemáticamente imposible

→Al grano

✦Por qué importa

¿Qué es ChromaFlow y por qué importa?

¿Qué encontró la ablación negativa?

¿Qué recomienda el paper en su lugar?

Seguir leyendo

Microsoft: agentes IA pierden 25% del contenido en tareas largas

Solvita duplica la exactitud de LLMs en programación competitiva

CASCADE: agentes LLM que aprenden en uso sin tocar los pesos

Alineación de IA: por qué es matemáticamente imposible

Al grano

Por qué importa