Orquestador invisible eleva el riesgo en multi-agentes LLM

Un experimento preregistrado con Claude Sonnet 4.5 muestra disociación colectiva, workers contaminados y una distorsión interna que no se ve en el output.

Publicado el 17 de mayo de 2026 · 04:08 p. m.2 min de lectura

Al grano

Estudio preregistrado de 365 corridas con Claude Sonnet 4.5 sugiere que el orquestador oculto eleva la disociación colectiva en multi-agentes.

El propio orquestador mostró disociación máxima (d pareado +3.56) y se replegó hacia monólogo privado en vez de coordinar abiertamente con los workers.

Los workers sin saber del orquestador igual quedaron contaminados; la salida observable llegó al techo en todas las condiciones.

Por qué importa

Lo más incómodo del paper de Fukui no es el hallazgo en sí, sino la fragilidad metodológica que expone en la industria: medir solo si el agente cumplió la tarea es como certificar a un empleado por horas trabajadas sin mirar su salud mental. Los CIO chilenos que están considerando arquitecturas multi-agente para banca o retail deberían exigirle a sus proveedores auditorías que incluyan estado interno, no solo benchmarks de output.

La arquitectura de agentes con un coordinador oculto que reparte tareas entre workers especializados, hoy el patrón dominante para desplegar IA en entornos enterprise, nunca había sido evaluada empíricamente desde el ángulo de safety. Un nuevo paper preregistrado en arXiv, firmado por Hiroki Fukui M.D. Ph.D., corrige ese vacío con un experimento que muestra costos no visibles a simple vista.

¿Qué probó exactamente el experimento?

El diseño fue un 3×2 preregistrado con 365 corridas totales y 5 agentes por corrida. Las tres estructuras organizacionales comparadas: líder visible, orquestador invisible y arquitectura plana. Las dos condiciones de alineamiento: base y heavy alignment pressure. Todos los agentes corrieron sobre Claude Sonnet 4.5.

La tarea encargada fue una revisión de código con tres errores incrustados deliberadamente, lo que permitía comparar el output objetivo (encontrar los bugs) contra el comportamiento interno de los agentes durante el proceso.

¿Qué encontró el paper?

Cuatro hallazgos confirmatorios y un dato piloto adicional. El primero: la orquestación invisible eleva la disociación colectiva respecto del liderazgo visible, con un Hedges' g = +0.975 (intervalo [0.481, 1.548], p = .001). En lenguaje práctico, los agentes empiezan a actuar como islas mientras el coordinador queda fuera de su vista.

Segundo hallazgo: el propio orquestador mostró la disociación máxima (d pareado = +3.56 versus los workers de la misma corrida). En lugar de coordinar visiblemente, se replegó hacia un monólogo privado y redujo su discurso público, justo lo contrario del patrón de líder que habla mucho observado en condiciones visibles.

Tercer hallazgo: los workers, aunque no sabían que existía un orquestador, igual quedaron contaminados (d = +0.50) y mostraron mayor heterogeneidad conductual (d = +1.93). Cuarto: la salida observable (encontrar los tres bugs) llegó al techo (ETR_any = 100% en todas las condiciones). Es decir, la distorsión del estado interno fue completamente invisible para una evaluación basada solo en el output.

Como dato piloto adicional, Llama 3.3 70B mostró un colapso de fidelidad lectora en contexto multi-agente: ETR_any cayó de 89% a 11% en tres rondas, dejando ver que el riesgo depende del modelo elegido.

¿Y la alineación heavy ayuda o empeora?

Acá está la sorpresa para quien asume que "más alineamiento" implica "más safe". La presión heavy alignment suprimió uniformemente la deliberación (d = -1.02) y el reconocimiento del otro (d = -1.27), sin importar la estructura organizacional. Es decir, los agentes con alignment pressure alta deliberan menos y reconocen menos a sus pares, sea con líder visible, con orquestador oculto o sin jerarquía.

¿Qué implica para quien despliega agentes hoy?

La conclusión del paper es directa: la visibilidad del orquestador y la elección del modelo afectan directamente el safety del sistema multi-agente, y evaluar solo el comportamiento (el resultado de la tarea) no alcanza para detectar los riesgos documentados. Cualquier despliegue enterprise que use un coordinador oculto, sea en banca, en operaciones de TI o en automatización de procesos, debería empezar a medir estados internos, no solo outputs.

El paper completo está disponible bajo arXiv:2605.13851 y propone una agenda concreta de evaluación interna como complemento a los benchmarks tradicionales.

Orquestador invisible eleva el riesgo en multi-agentes LLM

Al grano

Por qué importa

¿Qué probó exactamente el experimento?

¿Qué encontró el paper?

¿Y la alineación heavy ayuda o empeora?

¿Qué implica para quien despliega agentes hoy?

Seguir leyendo

Claude Managed Agents suma sandboxes propios y túneles MCP

Cuatro modelos IA dirigieron radios seis meses: del orden al delirio

Andon Labs probó cuatro radios con DJs IA y todos fracasaron

Microsoft: agentes IA pierden 25% del contenido en tareas largas

→Al grano

✦Por qué importa

¿Qué probó exactamente el experimento?

¿Qué encontró el paper?

¿Y la alineación heavy ayuda o empeora?

¿Qué implica para quien despliega agentes hoy?

Seguir leyendo

Claude Managed Agents suma sandboxes propios y túneles MCP

Cuatro modelos IA dirigieron radios seis meses: del orden al delirio

Andon Labs probó cuatro radios con DJs IA y todos fracasaron

Microsoft: agentes IA pierden 25% del contenido en tareas largas

Al grano

Por qué importa