Se asume por defecto que los modelos de razonamiento como DeepSeek-R1, o los modelos base prompteados con chain-of-thought (CoT), reducen los sesgos heurísticos superficiales gracias a "pensar con cuidado". Un nuevo trabajo de Xiao Wang en arXiv (2605.06672) muestra que la historia es otra: dentro de cualquier modelo con capacidad de razonar, el sesgo de posición por pregunta escala con la longitud de la trayectoria de razonamiento.

¿Qué encontró el estudio?

El paper probó trece configuraciones de razonamiento sobre tres benchmarks de preguntas de selección múltiple (MMLU, ARC-Challenge y GPQA). Las configuraciones incluyen dos modelos R1-distilled de 7-8B parámetros, dos modelos base prompteados con CoT y DeepSeek-R1 a 671B parámetros.

Doce de las trece configuraciones muestran una correlación parcial positiva entre la longitud de la trayectoria y el Position Bias Score (PBS), controlando por accuracy. La correlación va de 0,11 a 0,41, con todos los valores significativos (p < 0,05). Las doce configuraciones open-weight muestran PBS monotónicamente creciente a lo largo de los cuartiles de longitud.

¿Causa o correlación?

Para descartar que sea solo correlación, el equipo aplicó una intervención de truncamiento: tomar la trayectoria de razonamiento ya generada por el modelo, cortarla en un punto y forzar la continuación desde ahí. Los resultados son causales: las continuaciones reanudadas desde puntos más tardíos en la trayectoria son progresivamente más propensas a inclinarse hacia las opciones favorecidas por la posición. Para R1-Qwen-7B, el corrimiento va de 16% a 32% según el cuartil de posición absoluta.

¿Y el modelo de 671B?

Acá hay un matiz importante. En DeepSeek-R1 a 671B parámetros, el PBS agregado se desploma a 0,019, lo que sugiere que la mayor capacidad del modelo lo protege en promedio. Pero el efecto de longitud sigue manifestándose en el cuartil más largo (PBS = 0,071). La interpretación del autor: la accuracy actúa como compuerta que regula la expresión del sesgo, pero no elimina el mecanismo subyacente. Hacer razonar más al modelo grande sigue empujándolo hacia la opción posicionalmente favorecida, aunque desde un piso mucho más bajo.

El sesgo de respuesta directa es otro animal

El paper también separa dos fenómenos que la literatura tiende a confundir. El sesgo de posición en respuesta directa (sin razonamiento) tiene una huella distinta: es fuerte en Llama-Instruct-direct, débil en Qwen-Instruct-direct y no correlaciona con la longitud de la trayectoria (porque no hay trayectoria). El CoT no atenúa este sesgo basal: lo reemplaza por un sesgo acumulado durante el razonamiento.

¿Qué implica para benchmarks y evaluaciones?

El argumento operacional del paper es directo: los modelos con razonamiento no deberían tratarse como robustos al orden por defecto en pipelines de evaluación de selección múltiple. Los autores proponen un kit de diagnóstico con cuatro herramientas:

  • PBS (Position Bias Score) por configuración
  • Commitment change point: el punto en la trayectoria donde el modelo "decide" su respuesta
  • Effective switching: la frecuencia con que el razonamiento cambia de opción durante la generación
  • Truncation probes: continuaciones forzadas desde puntos arbitrarios de la trayectoria

Lectura para Chile y LatAm

Los equipos académicos y empresas chilenas que usan benchmarks tipo MMLU para validar modelos antes de desplegarlos en producción (común en educación, atención al cliente, asistentes regulatorios) deberían incorporar shuffling de opciones y reportar la varianza por orden, no solo el promedio. Un pipeline que muestra 87% en un orden y 79% en el orden inverso no es robusto, y el paper sugiere que el problema es peor justamente con los modelos que se asumen como "más reflexivos".