Microsoft: agentes IA pierden 25% del contenido en tareas largas

El paper LLMs Corrupt Your Documents When You Delegate prueba 52 dominios profesionales. Solo Python pasa el umbral de listo para producción según Microsoft Research.

Publicado el 12 de mayo de 2026 · 04:31 p. m.3 min de lectura

Al grano

Microsoft Research publicó el benchmark DELEGATE-52, que mide cómo se degradan los documentos tras 20 interacciones con modelos LLM.

Los modelos de frontera Gemini 3.1 Pro, Claude 4.6 Opus y GPT-5.4 pierden en promedio 25% del contenido del documento.

Solo uno de los 52 dominios profesionales evaluados pasa el umbral de 98% de fidelidad: la programación en Python.

Por qué importa

El paper de Microsoft Research no es crítica antagonista a la IA: es del mismo Redmond que vende Copilot. Eso lo hace mucho más interesante. Si la propia empresa que promueve agentes autónomos publica un benchmark donde sus modelos pierden 25% del contenido, el mensaje es claro: la era del 'delegá y volvé al rato' todavía no llegó. Los integradores chilenos que prueben Claude Cowork o 365 Copilot harían bien en sumar un revisor humano en cada cierre.

Microsoft Research publicó en arXiv un estudio incómodo para la industria de agentes IA: cuando se les delega un flujo de trabajo de varias rondas, los modelos más caros del mercado corrompen un 25% del contenido del documento original. El paper, titulado LLMs Corrupt Your Documents When You Delegate, fue firmado por Philippe Laban, Tobias Schnabel y Jennifer Neville, y revela que la promesa de "delegá una meta y volvé al rato a un entregable terminado" (palabras de Anthropic sobre Claude Cowork o Microsoft sobre 365 Copilot) sigue lejos de ser realidad.

¿Qué mide DELEGATE-52?

El equipo construyó un nuevo benchmark llamado DELEGATE-52 que simula flujos de trabajo de 52 dominios profesionales distintos: contabilidad, cristalografía, notación musical, programación, edición de texto técnico y otros. Cada dominio plantea un documento semilla y pide al modelo una serie de 20 interacciones sucesivas (no una sola consulta) que reflejan el escenario real de una persona que delega trabajo por una hora o más.

En el dominio de contabilidad, por ejemplo, el modelo recibe el libro mayor de la organización sin fines de lucro Hack Club y debe separarlo en archivos por categoría, para después volver a fusionarlos en orden cronológico. Suena trivial; los resultados muestran que no lo es.

¿Qué tan mal lo hicieron los modelos?

Los tres modelos de frontera probados (Gemini 3.1 Pro, Claude 4.6 Opus y GPT-5.4) pierden en promedio 25% del contenido del documento tras 20 interacciones. Cuando se promedia el universo completo de modelos testeados, la degradación sube al 50%. El umbral que el equipo definió como "listo para delegar" en un dominio fue de 98% o más después de 20 rondas, y solo uno de 52 dominios lo cumplió: Python programming.

Los modelos no están listos para flujos de trabajo delegados en la gran mayoría de los dominios, con modelos corrompiendo seriamente los documentos (al menos −20% de degradación) en el 80% de las condiciones simuladas.

El mejor modelo, Gemini 3.1 Pro, pasó el umbral en apenas 11 de 52 dominios. La "corrupción catastrófica" (puntaje ≤80%) apareció en más del 80% de las combinaciones modelo y dominio. Los modelos más débiles fallan por borrar contenido; los de frontera fallan por corromperlo silenciosamente, lo que es probablemente peor para un humano que revise el resultado.

¿Mejora la situación con herramientas agentic?

No. El equipo también probó cada modelo equipado con un harness básico de agente, con permisos de lectura, escritura y ejecución de código. El resultado fue 6 puntos peor que sin herramientas, en promedio, sobre GPT-5.4, 5.2, 5.1 y 4.1. La hipótesis del paper es que los agentes acumulan errores con mayor frecuencia porque cada acción que toman amplifica un razonamiento que ya estaba sutilmente equivocado.

Otro hallazgo relevante para quienes evalúan modelos: el rendimiento tras dos interacciones no predice el rendimiento tras 20. Los modelos de frontera no evitan errores pequeños mejor que los más débiles, sino que postergan los fallos críticos a rondas posteriores, donde caen 10 a 30 puntos en una sola interacción. Esto subraya, según los autores, la necesidad de evaluar agentes con horizontes largos en lugar de benchmarks de un turno.

Lectura para Chile y LatAm

Según Deloitte, las organizaciones gastan en promedio 36% de su presupuesto digital en automatización con IA. El estudio de Microsoft sugiere que ese gasto requiere monitoreo humano cercano salvo en dominios muy específicos. Para un equipo chileno integrando agentes de IA en flujos de contabilidad, atención al cliente o legal, la lectura es directa: ni siquiera Claude 4.6 Opus o GPT-5.4, los más caros del mercado, pueden completar 20 interacciones consecutivas sin que un humano revise el resultado.

La barra del 98% que Microsoft considera "listo" no es arbitraria: equivale al estándar mínimo que se le exigiría a un practicante en su segundo mes de trabajo. Hoy los modelos de frontera no lo alcanzan.

Microsoft: agentes IA pierden 25% del contenido en tareas largas

Al grano

Por qué importa

¿Qué mide DELEGATE-52?

¿Qué tan mal lo hicieron los modelos?

¿Mejora la situación con herramientas agentic?

Lectura para Chile y LatAm

Seguir leyendo

GPT-5.5 lidera rankings de IA pero sigue alucinando y cuesta 20% más

Deriva de detectores de IA: cómo los LLM modernos los dejan obsoletos

xAI lanza Grok 4.3 con baja de precios y modo agente Imagine

Microsoft lanza Legal Agent en Word para revisar contratos

→Al grano

✦Por qué importa

¿Qué mide DELEGATE-52?

¿Qué tan mal lo hicieron los modelos?

¿Mejora la situación con herramientas agentic?

Lectura para Chile y LatAm

Seguir leyendo

GPT-5.5 lidera rankings de IA pero sigue alucinando y cuesta 20% más

Deriva de detectores de IA: cómo los LLM modernos los dejan obsoletos

xAI lanza Grok 4.3 con baja de precios y modo agente Imagine

Microsoft lanza Legal Agent en Word para revisar contratos

Al grano

Por qué importa