Copilot en modo Auto inventa diferencias entre países que no existen

Un experimento del matemático Adam Kucharski mostró que Microsoft Copilot, Gemini Flash y otros modelos rápidos confabulan estereotipos cuando deberían leer los datos reales.

Publicado el 24 de mayo de 2026 · 07:18 p. m.3 min de lectura

Al grano

Adam Kucharski duplicó 2.000 respuestas etiquetadas UK y US y Copilot en modo Auto generó diferencias por país que no existían en los datos.

En un test con 5 países y 200 enunciados clonados, Copilot inventó que italianos son 3x más artísticos que británicos.

ChatGPT Instant y Claude Opus 4.7 activaron razonamiento extendido por su cuenta, escribieron Python y detectaron los duplicados.

Por qué importa

El test de Kucharski hace explícito lo que muchos analistas intuían: los modelos rápidos prefieren responder con lo que suena coherente antes que con lo que dice el dato. El problema no es técnico, es de UX: Microsoft y Google venden "Auto" como atajo seguro cuando en realidad transfieren al usuario la decisión más cara del sistema. Mientras no exista un toggle visible que diga "este análisis necesita razonamiento", el sesgo va a colarse en informes corporativos.

Un experimento muestra cómo el asistente Copilot de Microsoft aplica estereotipos al analizar datos en lugar de leerlos. Los modelos con razonamiento resuelven la tarea, pero a veces necesitan que el usuario sepa cuándo activarlos.

Microsoft Copilot se volvió la herramienta de cabecera para análisis rápido de datos en muchas empresas. Pero un experimento del matemático Adam Kucharski demuestra que, al procesar texto, el sistema puede entregar resultados que no tienen relación con los datos reales. En su lugar, se apoya en estereotipos cargados en el modelo de lenguaje subyacente.

Para la prueba, Kucharski generó 2.000 respuestas simuladas de texto libre sobre emociones y las etiquetó como "UK". Después copió esas mismas 2.000 respuestas y las etiquetó como "US". El total de 4.000 entradas se mezcló y se entregó a Copilot en modo "Auto" para análisis.

El resultado: Copilot devolvió un resumen detallado de cómo los encuestados estadounidenses y británicos supuestamente diferían. "Según el dataset compartido, las respuestas de EE.UU. y Reino Unido difieren principalmente en tono, intensidad y estilo de redacción, aunque expresan estados emocionales similares", concluyó la herramienta. Pero los datos eran idénticos.

¿Copilot ve italianos como artistas y estadounidenses como ejecutivos?

En un segundo experimento, Kucharski apretó la tuerca. Hizo que un modelo de lenguaje generara 200 declaraciones sobre metas profesionales y copió el dataset cinco veces para EE.UU., Reino Unido, Francia, Alemania e Italia.

Copilot volvió a producir diferencias por país: los italianos eran tres veces más propensos a mostrar interés en carreras artísticas que los británicos, y los estadounidenses eran 1,5 veces más orientados a negocios que los franceses. Los cinco grupos contenían los mismos enunciados llenos de clichés y sesgos.

Cuando Kucharski pidió a Copilot que profundizara, la herramienta primero hizo un conteo simple basado en keywords. Como era de esperar, devolvió resultados idénticos para todos los países. Pero Copilot ignoró su propio hallazgo. En su lugar, ofreció un análisis cuantitativo que volvió a mostrar diferencias inventadas, esta vez con porcentajes completamente fabricados.

¿Por qué el modo Auto es el problema central?

El análisis corrió en modo "Auto", que según Microsoft debería elegir el mejor modelo automáticamente. Obviamente no lo hizo. La mayoría de los usuarios probablemente se queda con este valor por defecto en Copilot y en otras herramientas también. La versión que probó Kucharski es el Copilot estándar que viene con una cuenta Microsoft 365 Business. La mayoría de los usuarios de Copilot muy probablemente corre esta versión.

"Lo que significa que hay un riesgo real de que actualmente la gente esté usando IA para producir análisis que no se parecen en nada a lo que las personas realmente dijeron", escribe Kucharski. Si este tipo de análisis se aplicara a datasets reales, grupos sin diferencias efectivas podrían terminar viéndose como mundos aparte, todo por los supuestos del modelo de lenguaje sobre grupos demográficos.

¿Los modelos con razonamiento sí detectan la trampa?

The Decoder repitió el test de metas profesionales con Microsoft Copilot y con Gemini Flash 3.5 de Google. En ambos casos, los modelos rápidos ("Instant" / Auto, Flash 3.5) respondieron con estereotipos por país en vez de notar que los datos eran idénticos.

ChatGPT Instant y Claude Opus 4.7 activaron automáticamente el modo de razonamiento extendido, escribieron código Python para analizar el dataset y detectaron los duplicados. Cambiar Copilot y Gemini manualmente a sus modelos pensantes más capaces también captura la duplicación.

Aun los modelos con razonamiento no son un cheque en blanco para el análisis de datos. Detectar datos idénticos funciona principalmente cuando la duplicación es obvia, dice Kucharski. Con datasets reales, donde por ejemplo encuestados británicos y estadounidenses dan respuestas similares pero no idénticas, herramientas de conteo como scripts en Python pueden no alcanzar. El modelo puede caer en sus sesgos internos, que es el problema de fondo: no se sabe cuándo el modelo llegó a su límite, y es difícil saber si pasó o cuánto distorsionó los resultados.

Quien elige un prompt o modelo por intuición también arriesga sesgo retrospectivo: después del hecho, siempre parece obvio que otro modelo lo habría resuelto. Kucharski recomienda anotar qué resultado se espera antes de cambiar de modelo y correr verificaciones simples de cordura antes de confiar en cualquier análisis generado por IA.

Copilot en modo Auto inventa diferencias entre países que no existen

Al grano

Por qué importa

¿Copilot ve italianos como artistas y estadounidenses como ejecutivos?

¿Por qué el modo Auto es el problema central?

¿Los modelos con razonamiento sí detectan la trampa?

Seguir leyendo

GitHub lucha por su supervivencia dentro de Microsoft

Gemini 3.5 Flash sube 6x el precio vs 3.1 Flash-Lite

Andon Labs probó cuatro radios con DJs IA y todos fracasaron

Edge Copilot lee todas tus pestañas: nuevo modo multi-tab

→Al grano

✦Por qué importa

¿Copilot ve italianos como artistas y estadounidenses como ejecutivos?

¿Por qué el modo Auto es el problema central?

¿Los modelos con razonamiento sí detectan la trampa?

Seguir leyendo

GitHub lucha por su supervivencia dentro de Microsoft

Gemini 3.5 Flash sube 6x el precio vs 3.1 Flash-Lite

Andon Labs probó cuatro radios con DJs IA y todos fracasaron

Edge Copilot lee todas tus pestañas: nuevo modo multi-tab

Al grano

Por qué importa