Punto clave de esta nota

CiteVQA mide si los LLM citan el párrafo correcto al responder sobre PDFs largos; usa 1.897 preguntas sobre 711 documentos de 40,6 páginas promedio.

Punto clave de esta nota

Gemini 3.1 Pro Preview lidera con 76/100; GPT-5.4 cae de 87 a 59 cuando se exige cita correcta del párrafo o tabla.

Punto clave de esta nota

El mejor open source, Qwen3-VL-235B-A22B, sacó solo 22,5 puntos; los modelos más pequeños quedaron bajo 10 y son riesgosos en industrias reguladas.

Los LLM aciertan respuestas pero citan fuentes equivocadas

Al grano

CiteVQA mide si los LLM citan el párrafo correcto al responder sobre PDFs largos; usa 1.897 preguntas sobre 711 documentos de 40,6 páginas promedio.
Gemini 3.1 Pro Preview lidera con 76/100; GPT-5.4 cae de 87 a 59 cuando se exige cita correcta del párrafo o tabla.
El mejor open source, Qwen3-VL-235B-A22B, sacó solo 22,5 puntos; los modelos más pequeños quedaron bajo 10 y son riesgosos en industrias reguladas.

Que un modelo de lenguaje acierte una pregunta sobre un PDF no significa que realmente haya encontrado la respuesta donde dice haberla encontrado.

Investigadores de la Universidad de Pekín y el Shanghai Artificial Intelligence Laboratory construyeron un nuevo benchmark llamado CiteVQA para exponer esta brecha entre dar la respuesta correcta y apuntar a la fuente correcta. Lo llaman "alucinación de atribución", según reporta The Decoder.

CiteVQA chequea tanto la respuesta como la ubicación de la fuente. Una respuesta correcta acompañada de una cita errónea recibe un puntaje SAA de cero. Solo cuenta una cita correcta.

Tests estándar de análisis de documentos como DocVQA o MMLongBench-Doc solo califican la respuesta final. No pueden saber si un modelo realmente extrajo información del documento o simplemente adivinó en base a lo que ya sabía. En derecho, auditorías financieras o medicina, en cambio, la trazabilidad es lo que hace usable la salida de una IA en primer lugar, argumenta el paper.

¿Qué exige CiteVQA?

CiteVQA obliga a los modelos a respaldar cada afirmación con un marcador preciso dentro del documento. Tienen que apuntar al párrafo, tabla o figura exacta. Un número de página solo no alcanza.

El dataset cubre 1.897 preguntas sobre 711 PDFs de siete áreas temáticas: 451 en inglés y 260 en chino. Los documentos promedian 40,6 páginas cada uno, mucho más largo que la mayoría de los benchmarks.

En lugar de etiquetar todo a mano, el equipo construyó un pipeline automatizado. Descompone los documentos en elementos individuales, pide a modelos como Gemini 3.0 Flash que tracen la cadena de evidencia y luego chequea qué piezas son verdaderamente necesarias. Cada documento se elimina de prueba. Si el modelo no puede responder la pregunta sin él, ese documento cuenta como esencial.

¿Qué tan bien lo hicieron los modelos?

La métrica central se llama Strict Attributed Accuracy (SAA). Un modelo solo recibe puntos cuando la respuesta es correcta y la cita aterriza en el lugar correcto. Se sometieron veinte modelos actuales a la prueba.

El mejor, Gemini 3.1 Pro Preview, sacó apenas 76 de 100. GPT-5.4 muchas veces conocía la respuesta correcta pero no podía mostrar su trabajo: 87,1 en calidad de respuesta cruda, apenas 59 una vez exigida la cita correcta.

Los modelos open source quedaron mucho peor. Qwen3-VL-235B-A22B, el sistema disponible libremente más fuerte, alcanzó 22,5 puntos. Los modelos abiertos más pequeños mayormente quedaron bajo 10, lo que los hace "extremadamente riesgosos" para industrias reguladas, según los investigadores.

¿Por qué fallan tanto en encontrar la página?

Muchos modelos ni siquiera dan con la página correcta. La serie Gemini 3 lo logra en más del 87 por ciento de los casos. Qwen3-VL-235B-A22B se queda en apenas un 58 por ciento. Las tareas más difíciles empeoran las cosas. Las preguntas sobre un solo documento todavía funcionan razonablemente, pero cuando un modelo tiene que combinar información de múltiples documentos, el recall de Gemini 3.1 Pro Preview cae de cerca del 69 al 55 por ciento.

Los papers académicos con layouts limpios y estandarizados puntúan mejor. Diarios y revistas con layouts desordenados topan incluso a los mejores modelos en torno a 63 puntos. Las tareas matemáticas andan razonablemente bien porque la lógica exige evidencia obvia. Todo se cae cuando un modelo primero tiene que identificar un elemento del documento por su color, posición o encabezado, y después descifrar qué significa.

¿Localizar la fuente es el cuello de botella?

En un estudio de ablación, los investigadores acotaron el espacio de búsqueda a propósito, entregándole a los modelos solo las páginas relevantes o el documento correcto. Los puntajes subieron rápido: más de 13 puntos para Qwen3-VL-8B.

La conclusión no tan sorpresiva: los modelos que saben dónde mirar también dan mejores respuestas. La información precisa de la fuente mejora directamente la calidad de la respuesta y no se trata solo de transparencia. Esto también explica por qué el context engineering importa tanto: un modelo de IA rinde mejor cuando recibe exactamente la información que necesita para la tarea.

Los investigadores publicaron código y detalles en GitHub, y el dataset está disponible para descarga en Hugging Face.

¿Cómo se conecta con otras críticas a los LLM?

Un benchmark distinto del mismo grupo, el Shanghai AI Laboratory, mostró en 2024 que los modelos de lenguaje sufren con documentos largos de forma general. Sus tests bilingües NeedleBench miden qué tan bien los modelos extraen información relevante en textos extensos en inglés y chino, con resultados igualmente sombríos.

Google DeepMind va detrás de un problema relacionado con FACTS Grounding, que mide si las respuestas provienen estrictamente del documento entregado o si el modelo cuela conocimiento externo. Ni siquiera Gemini 3 Pro o GPT-5.1 se acercan a puntajes confiables.

OpenAI recientemente examinó por qué los modelos adivinan en lugar de decir "no sé". En un análisis, la compañía planteó las alucinaciones como un problema sistémico de incentivos. El entrenamiento y la evaluación recompensan respuestas confiadas y castigan la cautela. Esa misma dinámica probablemente alimenta la "alucinación de atribución" que CiteVQA ahora captura en las citas de fuentes.

Los LLM aciertan respuestas pero citan fuentes equivocadas

Al grano

Por qué importa

¿Qué exige CiteVQA?

¿Qué tan bien lo hicieron los modelos?

¿Por qué fallan tanto en encontrar la página?

¿Localizar la fuente es el cuello de botella?

¿Cómo se conecta con otras críticas a los LLM?

Seguir leyendo

Gemini 3.5 Flash sube 6x el precio vs 3.1 Flash-Lite

Microsoft: agentes IA pierden 25% del contenido en tareas largas

LGMT mide cuán frágil es el razonamiento real de los LLMs

Evaluar agentes IA no es lo mismo que medir un modelo

→Al grano

✦Por qué importa

¿Qué exige CiteVQA?

¿Qué tan bien lo hicieron los modelos?

¿Por qué fallan tanto en encontrar la página?

¿Localizar la fuente es el cuello de botella?

¿Cómo se conecta con otras críticas a los LLM?

Seguir leyendo

Gemini 3.5 Flash sube 6x el precio vs 3.1 Flash-Lite

Microsoft: agentes IA pierden 25% del contenido en tareas largas

LGMT mide cuán frágil es el razonamiento real de los LLMs

Evaluar agentes IA no es lo mismo que medir un modelo

Al grano

Por qué importa