Mirage es un nuevo modelo del tipo video world model desarrollado por Microsoft Research junto con varias universidades. Su gracia es que evita el rodeo costoso de la memoria basada en píxeles, acelera la generación y mantiene estable la estructura espacial de la escena incluso en movimientos largos de cámara. El paper está disponible vía arXiv y la página del proyecto en GitHub bajo el nombre Latent Spatial Memory.

Un video world model convierte un cuadro inicial y una trayectoria de cámara en imágenes en movimiento plausibles, útil para simulaciones o como simulador de mundo. Pero sin algún tipo de memoria persistente, incluso los generadores más fuertes pierden la pista del espacio con el tiempo: una esquina que ya pasaste se ve distinta cuando la cámara vuelve, los muebles se mueven y las texturas cambian.

¿Qué hacen los rivales y dónde se trancan?

Sistemas como Voyager, WonderWorld y Spatia intentan resolver el problema con una nube de puntos 3D alimentada de información de color. Cada paso de generación tiene que renderizar esa nube y traducir el resultado de vuelta al espacio interno de características del modelo. El paper de Microsoft califica esto como un double bottleneck: come cómputo y deja escapar información cada vez que los datos pasan por el espacio pixel.

¿Qué hace distinto Mirage?

En vez de guardar puntos de color visibles, Mirage almacena directamente los features internos que el modelo de difusión ya usa. Cada feature recibe una posición en el espacio 3D y se convierte en una entrada de la memoria espacial. Para generar un nuevo punto de vista, el modelo proyecta esa memoria directamente sobre la cámara objetivo y la entrega al generador, sin renderizar la nube ni re-codificar.

Como los datos viven en la resolución compacta interna del modelo en vez de a resolución de imagen completa, el ahorro de memoria es radical. Mirage construye los videos en segmentos: parte la memoria desde la imagen inicial, lee de ella para generar los frames nuevos y vuelve a escribir el contenido en el cache. Un filtro elimina objetos en movimiento y el cielo antes de escribir, así solo la geometría estable llega a la memoria de largo plazo.

El equipo construyó Mirage sobre el modelo open-source de Alibaba Wan2.2, agregando un pequeño módulo que enseña al modelo a usar la nueva memoria y haciendo fine-tuning con adaptadores LoRA.

Más rápido y más liviano que los rivales basados en color

En el benchmark WorldScore, Mirage supera a Spatia (su rival más cercano, que sigue usando memoria de puntos de color) y deja muy atrás a generadores generales como Wan2.1 y CogVideoX. Brilla en mantener la estructura espacial de la escena y dejar las superficies consistentes a lo largo de muchos frames.

También lidera dos de tres métricas del dataset RealEstate10K en el test de bucle cerrado, donde la cámara vuelve al punto de partida, un escenario brutal porque cada error mínimo se acumula a lo largo del recorrido.

La eficiencia es lo más fuerte de Mirage. La memoria basada en color escala mal en corridas largas y demanda cada vez más memoria gráfica. El costo de cómputo por frame de Mirage casi no se mueve después del primer segmento. Los investigadores ponen la ganancia total en hasta 10,57x más rápido en generación y hasta 55x menos memoria que los sistemas basados en color.

¿Cuál es el catch?

Los autores son honestos respecto al límite: los objetos en movimiento se descartan en los bordes de segmento porque su geometría no se puede confiar, y el filtro los bota deliberadamente. Las escenas con mucho movimiento ganan menos con la memoria espacial que los interiores tranquilos. El equipo apunta a almacenar contenido dinámico como el próximo problema a resolver.

¿Por qué importa para el panorama de IA generativa?

Los video world models son una de las áreas más activas de investigación en IA de video en este momento. Modelos como Veo producen clips internamente consistentes pero independientes, mientras los world models intentan que la escena sea navegable y se mantenga coherente en el tiempo. Google DeepMind mostró esto recientemente con Genie 3, que genera entornos interactivos en tiempo real y los sostiene por varios minutos. En su I/O, Google también presentó Gemini Omni como world model y posible sucesor de su modelo texto-a-video Veo.