Mientras el equipo MAI de Microsoft se lleva los reflectores con modelos de imagen turbocargados, Microsoft Research está probando hasta dónde se puede llegar con cómputo limitado, gracias a captions detallados y decisiones inteligentes de arquitectura.

Microsoft Research presenta Lens, un modelo text-to-image que apunta a competir con rivales mucho más grandes mientras usa una fracción del cómputo durante el entrenamiento. Según el reporte técnico, Lens necesita aproximadamente un quinto del cómputo que modelos comparables como Z-Image requieren para el pre-entrenamiento. Vence a modelos muchas veces su tamaño en varios benchmarks. Hunyuan-Image-3.0, por ejemplo, tiene cerca de 80.000 millones de parámetros. Lens tiene solo 3.800 millones.

¿Por qué los captions importan más que el volumen de datos?

Los investigadores atribuyen las ganancias de eficiencia a un modelo más compacto, más información usable por paso de entrenamiento y un proceso de entrenamiento que converge con menos pasadas. El dataset Lens-800M está en el centro de este enfoque: 800 millones de pares imagen-texto con captions generados por GPT-4.1. Con un promedio de aproximadamente 100 palabras, estos captions son mucho más detallados que el alt-text estándar raspado de la web.

Un estudio de ablation muestra que entrenar con estas descripciones largas produce resultados claramente mejores que captions cortos o mixtos, según Microsoft. El alt-text de la web suele ser vago o derechamente incorrecto, lo que diluye la señal de aprendizaje.

El equipo también mezcla diferentes resoluciones y aspect ratios, desde retrato hasta paisaje, en cada batch de entrenamiento. Aunque el modelo fue entrenado en un conjunto fijo de tamaños de imagen, generaliza a formatos y resoluciones no vistos hasta aproximadamente dos megapíxeles, según los investigadores. Eso ahorra costosas corridas de entrenamiento sobre datos de alta resolución.

Arquitectura: VAE semántico de FLUX.2 y encoder GPT-OSS

Para la arquitectura, el equipo testeó varias variantes de variational autoencoders, que manejan la traducción entre píxeles y un espacio de imagen comprimido. En lugar de basarse en métricas de reconstrucción estándar, Microsoft testeó candidatos directamente en entrenamiento text-to-image. El VAE semántico de FLUX.2 funcionó mejor y también aceleró la convergencia.

El encoder de texto es GPT-OSS, un modelo de lenguaje abiertamente disponible de OpenAI. Los encoders de lenguaje más fuertes traen dos beneficios, según las ablations: el modelo aprende más rápido y puede manejar inputs en idiomas en los que nunca fue entrenado. Lens fue entrenado solo en pares imagen-texto en inglés, pero acepta prompts en chino, francés, japonés o español. Los encoders de lenguaje más fuertes también mejoraron la fidelidad al prompt.

Un reasoner reescribe prompts vagos del usuario

Tras el pre-entrenamiento, el modelo pasa por una fase de aprendizaje por refuerzo usando un conjunto custom de prompts llamado Lens-RL-8K. Los prompts cubren diez categorías, incluyendo personas, animales, escenas, comida, mundos ficticios y diseño UI. GPT-4.1 genera criterios de evaluación matching para cada prompt, y un GPT-4.1-mini más chico sirve como modelo de recompensa.

Microsoft pone un reasoner delante del modelo de imagen real. Reescribe inputs vagos del usuario en prompts detallados. El default es GPT-5.5, pero GPT-OSS, ya usado como encoder de texto, también funciona sin necesidad de memoria extra.

Lens-Turbo genera imágenes en menos de un segundo

Para inferencia más rápida, Microsoft construyó una variante destilada llamada Lens-Turbo que genera una imagen en solo cuatro pasos. El modelo estándar toma aproximadamente 3 segundos para una imagen de un megapíxel en una GPU H100. Lens-Turbo lo hace en menos de un segundo.

A lo largo de benchmarks de fidelidad al prompt, renderizado de texto y escenas complejas, Lens supera a FLUX.2-Klein y Z-Image, y en algunos casos vence a Qwen-Image, que tiene cinco veces más parámetros, según el reporte. El equipo reconoce debilidades en el renderizado de texto en idiomas como japonés o francés, que atribuyen a brechas en la cobertura de datos.

ModeloParámetrosTiempo inferencia (H100, 1MP)Licencia
Lens3.800M~3 segundosMIT
Lens-Turbo3.800M< 1 segundoMIT
Hunyuan-Image-3.080.000M
Qwen-Image~19.000M

Microsoft liberó el código y los checkpoints de Lens bajo licencia MIT. Los pesos del modelo están disponibles en Hugging Face, y el código de inferencia está en el repositorio de GitHub. Microsoft indica que Lens está destinado solo para investigación y no está aprobado para uso en producción. Como los datos de entrenamiento provienen en parte de fuentes web, el modelo puede generar contenido sesgado o problemático, así que los usuarios necesitan agregar sus propias medidas de seguridad.