ByteDance: preguntar a un LMM enseña mejor que transcribir

MMProLong, un modelo de 7B parámetros, supera a InternVL3-38B y Gemma3-27B en documentos de hasta 512.000 tokens entrenándose con pares pregunta-respuesta en vez de OCR puro.

Publicado el 25 de mayo de 2026 · 08:14 a. m.3 min de lectura

Al grano

MMProLong es un modelo multimodal de 7B parámetros de ByteDance Seed y HKUST entrenado solo con 128.000 tokens.

Supera a InternVL3-38B y Gemma3-27B en documentos de hasta 512.000 tokens manteniéndose estable fuera del rango de entrenamiento.

La clave es entrenar con pares pregunta-respuesta en vez de transcripción OCR, según el estudio publicado el 24 de mayo de 2026.

Por qué importa

El paper toca un punto que rara vez se discute: la receta de datos pesa tanto o más que el tamaño del modelo. Un 7B abierto que vence a un 38B con la misma familia base es la mejor prueba de que el campo deja eficiencia sobre la mesa. Para equipos LatAm con presupuestos finitos, bajar el costo de entrenar contexto largo abre la puerta a casos de uso (archivos legales, expedientes médicos, manuales técnicos) que hoy solo viven en demos.

Los modelos multimodales de IA deben procesar entradas cada vez más largas: colecciones de PDFs renderizados, horas de video o agentes que recuerdan tareas a través de muchos pasos. Laboratorios como OpenAI, Google y Alibaba publicitan ventanas de contexto de hasta 1 millón de tokens, capaces de sostener miles de páginas o frames de video. Pero según los autores del nuevo trabajo, los reportes técnicos casi nunca revelan qué datos debería ver un modelo y en qué proporción.

Investigadores de ByteDance Seed y la Hong Kong University of Science and Technology (HKUST) estudiaron cómo entrenar de forma eficiente modelos imagen-lenguaje sobre documentos largos. El resultado es MMProLong, construido sobre el modelo abierto Qwen2.5-VL de Alibaba, que vence a competidores mucho más grandes.

¿Por qué preguntar enseña más que transcribir?

A primera vista, el hallazgo central del estudio parece obvio. Para que un modelo multimodal aprenda a encontrar el punto exacto dentro de un documento de 100 páginas, hacerlo transcribir el texto de cada página apenas ayuda. Es más efectivo preguntarle algo cuya respuesta esté enterrada en alguna parte del documento.

Los investigadores compararon ambas estrategias cara a cara. En un setup, el modelo debía hacer reconocimiento de texto en todas las páginas de un documento o en unas pocas seleccionadas, mientras las restantes quedaban en contexto como distractores. En el otro, usaron un modelo separado (Seed 2.0 de ByteDance) para generar pares pregunta-respuesta sobre secciones individuales del documento. La pregunta luego entraba en el entrenamiento junto al documento completo, forzando al modelo a localizar el pasaje relevante dentro de un contexto largo.

El reconocimiento puro de texto como tarea de entrenamiento, lejos de mejorar el desempeño, lo empeoró respecto al punto de partida. El entrenamiento por preguntas, en cambio, trajo ganancias claras. El modelo solo aprende a navegar textos largos cuando tiene que filtrar y categorizar información con un objetivo específico.

La diversidad le gana a la especialización

Tres hallazgos adicionales emergieron de los experimentos. Alimentar al modelo principalmente con documentos muy largos, en el extremo superior de su ventana de contexto, no rinde. Una mezcla más amplia de ejemplos cortos y largos funciona mejor. La capacidad de contexto largo no es una habilidad atada a un tamaño específico, sino que requiere búsqueda flexible a distintas distancias.

El verdadero cuello de botella, además, resultó ser encontrar el pasaje relevante, no razonar sobre él. Una mezcla cargada hacia tareas de extracción, con una participación menor de tareas de cálculo, entregó los mejores resultados.

El tercer hallazgo sorprende porque contradice la práctica común con modelos de solo texto. Agregar ejemplos de entrenamiento cortos no parece estrictamente necesario. El modelo mantiene en buena medida sus habilidades para tareas breves incluso cuando se entrena solo con pares pregunta-respuesta largos. El formato de los datos probablemente ayuda: aunque el contexto sea muy extenso, la tarea sigue planteada como una interacción pregunta-respuesta en el clásico esquema de instrucciones.

¿Cómo se compara con modelos mucho más grandes?

Con esta receta y un presupuesto modesto de entrenamiento, MMProLong supera a varios modelos abiertos mucho más grandes, como InternVL3-38B y Gemma3-27B. El modelo se entrenó sobre apenas 128.000 tokens, pero se mantiene estable en entradas de 256.000 e incluso 512.000 tokens, mientras que el modelo original se desmorona en esos rangos.

En el benchmark Needle-in-a-Haystack para contextos multimodales largos, MMProLong gana en promedio 29,4 puntos sobre el base Qwen2.5-VL-7B. La habilidad además se transfiere a tareas para las que el modelo nunca fue entrenado específicamente, como comprensión de videos largos. En un experimento de transferencia, la receta también resultó efectiva sobre el más fuerte Qwen3-VL-8B, pese a que ese modelo ya está construido para contextos largos.

El trabajo es interesante también porque viene de un campo distinto al de Deepseek, que aborda el mismo problema. Deepseek intenta extender la memoria larga de los modelos procesando textos como imágenes y comprimiéndolos fuertemente, más recientemente con un codificador que reordena información visual por contenido. ByteDance Seed toma el camino opuesto: optimizar los datos de entrenamiento en lugar de la arquitectura.

ByteDance: preguntar a un LMM enseña mejor que transcribir

Al grano

Por qué importa

¿Por qué preguntar enseña más que transcribir?

La diversidad le gana a la especialización

¿Cómo se compara con modelos mucho más grandes?

Seguir leyendo

LGMT mide cuán frágil es el razonamiento real de los LLMs

AntAngelMed: el LLM médico open source de 103B parámetros y MoE

Meta y Stanford: BLT recorta hasta 92% el ancho de banda

Qwen3.7-Max corrió 35 horas solo para optimizar el chip propio de Alibab

→Al grano

✦Por qué importa

¿Por qué preguntar enseña más que transcribir?

La diversidad le gana a la especialización

¿Cómo se compara con modelos mucho más grandes?

Seguir leyendo

LGMT mide cuán frágil es el razonamiento real de los LLMs

AntAngelMed: el LLM médico open source de 103B parámetros y MoE

Meta y Stanford: BLT recorta hasta 92% el ancho de banda

Qwen3.7-Max corrió 35 horas solo para optimizar el chip propio de Alibab

Al grano

Por qué importa