Más razonamiento, más sesgo: cadenas largas amplifican el orden

Q: ¿Una intervención de truncamiento confirma causalidad?

continuar desde puntos tardíos del razonamiento corre la respuesta hacia la posición preferida en 16 a 32% (R1-Qwen-7B).

Un paper de arXiv pone en duda la fe ciega en chain-of-thought: cuanto más largo el razonamiento del modelo, más se inclina hacia la opción según su posición en la pregunta, no según el contenido.

Publicado el 14 de mayo de 2026 · 04:01 p. m.3 min de lectura

Al grano

Un paper de Xiao Wang en arXiv (2605.06672) muestra que en 12 de 13 configuraciones de razonamiento el sesgo de posición crece con la longitud de la trayectoria de chain-of-thought.

La correlación parcial controlando por accuracy va de 0,11 a 0,41 sobre MMLU, ARC-Challenge y GPQA, con p < 0,05 en todos los casos.

Una intervención de truncamiento confirma causalidad: continuar desde puntos tardíos del razonamiento corre la respuesta hacia la posición preferida en 16 a 32% (R1-Qwen-7B).

Por qué importa

El hallazgo es incómodo para una industria que vendió chain-of-thought como antídoto a los atajos heurísticos. Resulta que pensar más también acumula peso sobre señales que no deberían importar, como la posición del distractor en una lista. No invalida CoT como técnica, pero exige que cualquier evaluación seria reporte la sensibilidad al orden. El que el modelo de 671B muestre el efecto solo en el cuartil más largo es la pista realmente preocupante: escalar no lo cura, lo enmascara.

Se asume por defecto que los modelos de razonamiento como DeepSeek-R1, o los modelos base prompteados con chain-of-thought (CoT), reducen los sesgos heurísticos superficiales gracias a "pensar con cuidado". Un nuevo trabajo de Xiao Wang en arXiv (2605.06672) muestra que la historia es otra: dentro de cualquier modelo con capacidad de razonar, el sesgo de posición por pregunta escala con la longitud de la trayectoria de razonamiento.

¿Qué encontró el estudio?

El paper probó trece configuraciones de razonamiento sobre tres benchmarks de preguntas de selección múltiple (MMLU, ARC-Challenge y GPQA). Las configuraciones incluyen dos modelos R1-distilled de 7-8B parámetros, dos modelos base prompteados con CoT y DeepSeek-R1 a 671B parámetros.

Doce de las trece configuraciones muestran una correlación parcial positiva entre la longitud de la trayectoria y el Position Bias Score (PBS), controlando por accuracy. La correlación va de 0,11 a 0,41, con todos los valores significativos (p < 0,05). Las doce configuraciones open-weight muestran PBS monotónicamente creciente a lo largo de los cuartiles de longitud.

¿Causa o correlación?

Para descartar que sea solo correlación, el equipo aplicó una intervención de truncamiento: tomar la trayectoria de razonamiento ya generada por el modelo, cortarla en un punto y forzar la continuación desde ahí. Los resultados son causales: las continuaciones reanudadas desde puntos más tardíos en la trayectoria son progresivamente más propensas a inclinarse hacia las opciones favorecidas por la posición. Para R1-Qwen-7B, el corrimiento va de 16% a 32% según el cuartil de posición absoluta.

¿Y el modelo de 671B?

Acá hay un matiz importante. En DeepSeek-R1 a 671B parámetros, el PBS agregado se desploma a 0,019, lo que sugiere que la mayor capacidad del modelo lo protege en promedio. Pero el efecto de longitud sigue manifestándose en el cuartil más largo (PBS = 0,071). La interpretación del autor: la accuracy actúa como compuerta que regula la expresión del sesgo, pero no elimina el mecanismo subyacente. Hacer razonar más al modelo grande sigue empujándolo hacia la opción posicionalmente favorecida, aunque desde un piso mucho más bajo.

El sesgo de respuesta directa es otro animal

El paper también separa dos fenómenos que la literatura tiende a confundir. El sesgo de posición en respuesta directa (sin razonamiento) tiene una huella distinta: es fuerte en Llama-Instruct-direct, débil en Qwen-Instruct-direct y no correlaciona con la longitud de la trayectoria (porque no hay trayectoria). El CoT no atenúa este sesgo basal: lo reemplaza por un sesgo acumulado durante el razonamiento.

¿Qué implica para benchmarks y evaluaciones?

El argumento operacional del paper es directo: los modelos con razonamiento no deberían tratarse como robustos al orden por defecto en pipelines de evaluación de selección múltiple. Los autores proponen un kit de diagnóstico con cuatro herramientas:

PBS (Position Bias Score) por configuración
Commitment change point: el punto en la trayectoria donde el modelo "decide" su respuesta
Effective switching: la frecuencia con que el razonamiento cambia de opción durante la generación
Truncation probes: continuaciones forzadas desde puntos arbitrarios de la trayectoria

Lectura para Chile y LatAm

Los equipos académicos y empresas chilenas que usan benchmarks tipo MMLU para validar modelos antes de desplegarlos en producción (común en educación, atención al cliente, asistentes regulatorios) deberían incorporar shuffling de opciones y reportar la varianza por orden, no solo el promedio. Un pipeline que muestra 87% en un orden y 79% en el orden inverso no es robusto, y el paper sugiere que el problema es peor justamente con los modelos que se asumen como "más reflexivos".

Más razonamiento, más sesgo: cadenas largas amplifican el orden

Al grano

Por qué importa

¿Qué encontró el estudio?

¿Causa o correlación?

¿Y el modelo de 671B?

El sesgo de respuesta directa es otro animal

¿Qué implica para benchmarks y evaluaciones?

Lectura para Chile y LatAm

Seguir leyendo

Microsoft: agentes IA pierden 25% del contenido en tareas largas

GPT-5.5 lidera rankings de IA pero sigue alucinando y cuesta 20% más

Deriva de detectores de IA: cómo los LLM modernos los dejan obsoletos

Thinking Machines lanza TML-Interaction-Small, su MoE de voz

→Al grano

✦Por qué importa

¿Qué encontró el estudio?

¿Causa o correlación?

¿Y el modelo de 671B?

El sesgo de respuesta directa es otro animal

¿Qué implica para benchmarks y evaluaciones?

Lectura para Chile y LatAm

Seguir leyendo

Microsoft: agentes IA pierden 25% del contenido en tareas largas

GPT-5.5 lidera rankings de IA pero sigue alucinando y cuesta 20% más

Deriva de detectores de IA: cómo los LLM modernos los dejan obsoletos

Thinking Machines lanza TML-Interaction-Small, su MoE de voz

Al grano

Por qué importa