Un experimento muestra cómo el asistente Copilot de Microsoft aplica estereotipos al analizar datos en lugar de leerlos. Los modelos con razonamiento resuelven la tarea, pero a veces necesitan que el usuario sepa cuándo activarlos.

Microsoft Copilot se volvió la herramienta de cabecera para análisis rápido de datos en muchas empresas. Pero un experimento del matemático Adam Kucharski demuestra que, al procesar texto, el sistema puede entregar resultados que no tienen relación con los datos reales. En su lugar, se apoya en estereotipos cargados en el modelo de lenguaje subyacente.

Para la prueba, Kucharski generó 2.000 respuestas simuladas de texto libre sobre emociones y las etiquetó como "UK". Después copió esas mismas 2.000 respuestas y las etiquetó como "US". El total de 4.000 entradas se mezcló y se entregó a Copilot en modo "Auto" para análisis.

El resultado: Copilot devolvió un resumen detallado de cómo los encuestados estadounidenses y británicos supuestamente diferían. "Según el dataset compartido, las respuestas de EE.UU. y Reino Unido difieren principalmente en tono, intensidad y estilo de redacción, aunque expresan estados emocionales similares", concluyó la herramienta. Pero los datos eran idénticos.

¿Copilot ve italianos como artistas y estadounidenses como ejecutivos?

En un segundo experimento, Kucharski apretó la tuerca. Hizo que un modelo de lenguaje generara 200 declaraciones sobre metas profesionales y copió el dataset cinco veces para EE.UU., Reino Unido, Francia, Alemania e Italia.

Copilot volvió a producir diferencias por país: los italianos eran tres veces más propensos a mostrar interés en carreras artísticas que los británicos, y los estadounidenses eran 1,5 veces más orientados a negocios que los franceses. Los cinco grupos contenían los mismos enunciados llenos de clichés y sesgos.

Cuando Kucharski pidió a Copilot que profundizara, la herramienta primero hizo un conteo simple basado en keywords. Como era de esperar, devolvió resultados idénticos para todos los países. Pero Copilot ignoró su propio hallazgo. En su lugar, ofreció un análisis cuantitativo que volvió a mostrar diferencias inventadas, esta vez con porcentajes completamente fabricados.

¿Por qué el modo Auto es el problema central?

El análisis corrió en modo "Auto", que según Microsoft debería elegir el mejor modelo automáticamente. Obviamente no lo hizo. La mayoría de los usuarios probablemente se queda con este valor por defecto en Copilot y en otras herramientas también. La versión que probó Kucharski es el Copilot estándar que viene con una cuenta Microsoft 365 Business. La mayoría de los usuarios de Copilot muy probablemente corre esta versión.

"Lo que significa que hay un riesgo real de que actualmente la gente esté usando IA para producir análisis que no se parecen en nada a lo que las personas realmente dijeron", escribe Kucharski. Si este tipo de análisis se aplicara a datasets reales, grupos sin diferencias efectivas podrían terminar viéndose como mundos aparte, todo por los supuestos del modelo de lenguaje sobre grupos demográficos.

¿Los modelos con razonamiento sí detectan la trampa?

The Decoder repitió el test de metas profesionales con Microsoft Copilot y con Gemini Flash 3.5 de Google. En ambos casos, los modelos rápidos ("Instant" / Auto, Flash 3.5) respondieron con estereotipos por país en vez de notar que los datos eran idénticos.

ChatGPT Instant y Claude Opus 4.7 activaron automáticamente el modo de razonamiento extendido, escribieron código Python para analizar el dataset y detectaron los duplicados. Cambiar Copilot y Gemini manualmente a sus modelos pensantes más capaces también captura la duplicación.

Aun los modelos con razonamiento no son un cheque en blanco para el análisis de datos. Detectar datos idénticos funciona principalmente cuando la duplicación es obvia, dice Kucharski. Con datasets reales, donde por ejemplo encuestados británicos y estadounidenses dan respuestas similares pero no idénticas, herramientas de conteo como scripts en Python pueden no alcanzar. El modelo puede caer en sus sesgos internos, que es el problema de fondo: no se sabe cuándo el modelo llegó a su límite, y es difícil saber si pasó o cuánto distorsionó los resultados.

Quien elige un prompt o modelo por intuición también arriesga sesgo retrospectivo: después del hecho, siempre parece obvio que otro modelo lo habría resuelto. Kucharski recomienda anotar qué resultado se espera antes de cambiar de modelo y correr verificaciones simples de cordura antes de confiar en cualquier análisis generado por IA.