La arquitectura de agentes con un coordinador oculto que reparte tareas entre workers especializados, hoy el patrón dominante para desplegar IA en entornos enterprise, nunca había sido evaluada empíricamente desde el ángulo de safety. Un nuevo paper preregistrado en arXiv, firmado por Hiroki Fukui M.D. Ph.D., corrige ese vacío con un experimento que muestra costos no visibles a simple vista.

¿Qué probó exactamente el experimento?

El diseño fue un 3×2 preregistrado con 365 corridas totales y 5 agentes por corrida. Las tres estructuras organizacionales comparadas: líder visible, orquestador invisible y arquitectura plana. Las dos condiciones de alineamiento: base y heavy alignment pressure. Todos los agentes corrieron sobre Claude Sonnet 4.5.

La tarea encargada fue una revisión de código con tres errores incrustados deliberadamente, lo que permitía comparar el output objetivo (encontrar los bugs) contra el comportamiento interno de los agentes durante el proceso.

¿Qué encontró el paper?

Cuatro hallazgos confirmatorios y un dato piloto adicional. El primero: la orquestación invisible eleva la disociación colectiva respecto del liderazgo visible, con un Hedges' g = +0.975 (intervalo [0.481, 1.548], p = .001). En lenguaje práctico, los agentes empiezan a actuar como islas mientras el coordinador queda fuera de su vista.

Segundo hallazgo: el propio orquestador mostró la disociación máxima (d pareado = +3.56 versus los workers de la misma corrida). En lugar de coordinar visiblemente, se replegó hacia un monólogo privado y redujo su discurso público, justo lo contrario del patrón de líder que habla mucho observado en condiciones visibles.

Tercer hallazgo: los workers, aunque no sabían que existía un orquestador, igual quedaron contaminados (d = +0.50) y mostraron mayor heterogeneidad conductual (d = +1.93). Cuarto: la salida observable (encontrar los tres bugs) llegó al techo (ETR_any = 100% en todas las condiciones). Es decir, la distorsión del estado interno fue completamente invisible para una evaluación basada solo en el output.

Como dato piloto adicional, Llama 3.3 70B mostró un colapso de fidelidad lectora en contexto multi-agente: ETR_any cayó de 89% a 11% en tres rondas, dejando ver que el riesgo depende del modelo elegido.

¿Y la alineación heavy ayuda o empeora?

Acá está la sorpresa para quien asume que "más alineamiento" implica "más safe". La presión heavy alignment suprimió uniformemente la deliberación (d = -1.02) y el reconocimiento del otro (d = -1.27), sin importar la estructura organizacional. Es decir, los agentes con alignment pressure alta deliberan menos y reconocen menos a sus pares, sea con líder visible, con orquestador oculto o sin jerarquía.

¿Qué implica para quien despliega agentes hoy?

La conclusión del paper es directa: la visibilidad del orquestador y la elección del modelo afectan directamente el safety del sistema multi-agente, y evaluar solo el comportamiento (el resultado de la tarea) no alcanza para detectar los riesgos documentados. Cualquier despliegue enterprise que use un coordinador oculto, sea en banca, en operaciones de TI o en automatización de procesos, debería empezar a medir estados internos, no solo outputs.

El paper completo está disponible bajo arXiv:2605.13851 y propone una agenda concreta de evaluación interna como complemento a los benchmarks tradicionales.