Los modelos multimodales de IA deben procesar entradas cada vez más largas: colecciones de PDFs renderizados, horas de video o agentes que recuerdan tareas a través de muchos pasos. Laboratorios como OpenAI, Google y Alibaba publicitan ventanas de contexto de hasta 1 millón de tokens, capaces de sostener miles de páginas o frames de video. Pero según los autores del nuevo trabajo, los reportes técnicos casi nunca revelan qué datos debería ver un modelo y en qué proporción.
Investigadores de ByteDance Seed y la Hong Kong University of Science and Technology (HKUST) estudiaron cómo entrenar de forma eficiente modelos imagen-lenguaje sobre documentos largos. El resultado es MMProLong, construido sobre el modelo abierto Qwen2.5-VL de Alibaba, que vence a competidores mucho más grandes.
¿Por qué preguntar enseña más que transcribir?
A primera vista, el hallazgo central del estudio parece obvio. Para que un modelo multimodal aprenda a encontrar el punto exacto dentro de un documento de 100 páginas, hacerlo transcribir el texto de cada página apenas ayuda. Es más efectivo preguntarle algo cuya respuesta esté enterrada en alguna parte del documento.
Los investigadores compararon ambas estrategias cara a cara. En un setup, el modelo debía hacer reconocimiento de texto en todas las páginas de un documento o en unas pocas seleccionadas, mientras las restantes quedaban en contexto como distractores. En el otro, usaron un modelo separado (Seed 2.0 de ByteDance) para generar pares pregunta-respuesta sobre secciones individuales del documento. La pregunta luego entraba en el entrenamiento junto al documento completo, forzando al modelo a localizar el pasaje relevante dentro de un contexto largo.
El reconocimiento puro de texto como tarea de entrenamiento, lejos de mejorar el desempeño, lo empeoró respecto al punto de partida. El entrenamiento por preguntas, en cambio, trajo ganancias claras. El modelo solo aprende a navegar textos largos cuando tiene que filtrar y categorizar información con un objetivo específico.
La diversidad le gana a la especialización
Tres hallazgos adicionales emergieron de los experimentos. Alimentar al modelo principalmente con documentos muy largos, en el extremo superior de su ventana de contexto, no rinde. Una mezcla más amplia de ejemplos cortos y largos funciona mejor. La capacidad de contexto largo no es una habilidad atada a un tamaño específico, sino que requiere búsqueda flexible a distintas distancias.
El verdadero cuello de botella, además, resultó ser encontrar el pasaje relevante, no razonar sobre él. Una mezcla cargada hacia tareas de extracción, con una participación menor de tareas de cálculo, entregó los mejores resultados.
El tercer hallazgo sorprende porque contradice la práctica común con modelos de solo texto. Agregar ejemplos de entrenamiento cortos no parece estrictamente necesario. El modelo mantiene en buena medida sus habilidades para tareas breves incluso cuando se entrena solo con pares pregunta-respuesta largos. El formato de los datos probablemente ayuda: aunque el contexto sea muy extenso, la tarea sigue planteada como una interacción pregunta-respuesta en el clásico esquema de instrucciones.
¿Cómo se compara con modelos mucho más grandes?
Con esta receta y un presupuesto modesto de entrenamiento, MMProLong supera a varios modelos abiertos mucho más grandes, como InternVL3-38B y Gemma3-27B. El modelo se entrenó sobre apenas 128.000 tokens, pero se mantiene estable en entradas de 256.000 e incluso 512.000 tokens, mientras que el modelo original se desmorona en esos rangos.
En el benchmark Needle-in-a-Haystack para contextos multimodales largos, MMProLong gana en promedio 29,4 puntos sobre el base Qwen2.5-VL-7B. La habilidad además se transfiere a tareas para las que el modelo nunca fue entrenado específicamente, como comprensión de videos largos. En un experimento de transferencia, la receta también resultó efectiva sobre el más fuerte Qwen3-VL-8B, pese a que ese modelo ya está construido para contextos largos.
El trabajo es interesante también porque viene de un campo distinto al de Deepseek, que aborda el mismo problema. Deepseek intenta extender la memoria larga de los modelos procesando textos como imágenes y comprimiéndolos fuertemente, más recientemente con un codificador que reordena información visual por contenido. ByteDance Seed toma el camino opuesto: optimizar los datos de entrenamiento en lugar de la arquitectura.



