Microsoft Research publicó en arXiv un estudio incómodo para la industria de agentes IA: cuando se les delega un flujo de trabajo de varias rondas, los modelos más caros del mercado corrompen un 25% del contenido del documento original. El paper, titulado LLMs Corrupt Your Documents When You Delegate, fue firmado por Philippe Laban, Tobias Schnabel y Jennifer Neville, y revela que la promesa de "delegá una meta y volvé al rato a un entregable terminado" (palabras de Anthropic sobre Claude Cowork o Microsoft sobre 365 Copilot) sigue lejos de ser realidad.

¿Qué mide DELEGATE-52?

El equipo construyó un nuevo benchmark llamado DELEGATE-52 que simula flujos de trabajo de 52 dominios profesionales distintos: contabilidad, cristalografía, notación musical, programación, edición de texto técnico y otros. Cada dominio plantea un documento semilla y pide al modelo una serie de 20 interacciones sucesivas (no una sola consulta) que reflejan el escenario real de una persona que delega trabajo por una hora o más.

En el dominio de contabilidad, por ejemplo, el modelo recibe el libro mayor de la organización sin fines de lucro Hack Club y debe separarlo en archivos por categoría, para después volver a fusionarlos en orden cronológico. Suena trivial; los resultados muestran que no lo es.

¿Qué tan mal lo hicieron los modelos?

Los tres modelos de frontera probados (Gemini 3.1 Pro, Claude 4.6 Opus y GPT-5.4) pierden en promedio 25% del contenido del documento tras 20 interacciones. Cuando se promedia el universo completo de modelos testeados, la degradación sube al 50%. El umbral que el equipo definió como "listo para delegar" en un dominio fue de 98% o más después de 20 rondas, y solo uno de 52 dominios lo cumplió: Python programming.

Los modelos no están listos para flujos de trabajo delegados en la gran mayoría de los dominios, con modelos corrompiendo seriamente los documentos (al menos −20% de degradación) en el 80% de las condiciones simuladas.

El mejor modelo, Gemini 3.1 Pro, pasó el umbral en apenas 11 de 52 dominios. La "corrupción catastrófica" (puntaje ≤80%) apareció en más del 80% de las combinaciones modelo y dominio. Los modelos más débiles fallan por borrar contenido; los de frontera fallan por corromperlo silenciosamente, lo que es probablemente peor para un humano que revise el resultado.

¿Mejora la situación con herramientas agentic?

No. El equipo también probó cada modelo equipado con un harness básico de agente, con permisos de lectura, escritura y ejecución de código. El resultado fue 6 puntos peor que sin herramientas, en promedio, sobre GPT-5.4, 5.2, 5.1 y 4.1. La hipótesis del paper es que los agentes acumulan errores con mayor frecuencia porque cada acción que toman amplifica un razonamiento que ya estaba sutilmente equivocado.

Otro hallazgo relevante para quienes evalúan modelos: el rendimiento tras dos interacciones no predice el rendimiento tras 20. Los modelos de frontera no evitan errores pequeños mejor que los más débiles, sino que postergan los fallos críticos a rondas posteriores, donde caen 10 a 30 puntos en una sola interacción. Esto subraya, según los autores, la necesidad de evaluar agentes con horizontes largos en lugar de benchmarks de un turno.

Lectura para Chile y LatAm

Según Deloitte, las organizaciones gastan en promedio 36% de su presupuesto digital en automatización con IA. El estudio de Microsoft sugiere que ese gasto requiere monitoreo humano cercano salvo en dominios muy específicos. Para un equipo chileno integrando agentes de IA en flujos de contabilidad, atención al cliente o legal, la lectura es directa: ni siquiera Claude 4.6 Opus o GPT-5.4, los más caros del mercado, pueden completar 20 interacciones consecutivas sin que un humano revise el resultado.

La barra del 98% que Microsoft considera "listo" no es arbitraria: equivale al estándar mínimo que se le exigiría a un practicante en su segundo mes de trabajo. Hoy los modelos de frontera no lo alcanzan.