
Microsoft Mirage: memoria espacial latente para video 10x más rápido
El nuevo modelo guarda los rasgos de la escena en el espacio latente del difusor, recorta hasta 55x la memoria gráfica y deja esquinas y muebles fijos cuando la cámara vuelve.
7 notas publicadas

Cosmos 3 unifica generación de mundos, razonamiento físico y predicción de acciones en una sola arquitectura MoT. Versiones Nano (16B) y Super (64B) liberadas hoy en Hugging Face.

Google DeepMind ancla su modelo del mundo Genie en imágenes reales de Street View y expande Project Genie a suscriptores de Google AI Ultra a nivel global.

DeepMind conecta su modelo de mundo Genie con los 280.000 millones de imágenes de Street View, lo que permite simular escenarios raros para entrenar agentes y robots en lugares concretos.

Un survey de Fudan y la Universidad Nacional de Singapur cataloga unos cien papers en dos familias arquitecturales y muestra cómo entrenar robots con videos cotidianos sin etiquetas.

Cristobal Valenzuela y Alejandro Matamala Ortiz, ambos de Santiago, junto al griego Anastasis Germanidis ya recaudaron USD 860 millones. La estrategia: entrenar IA con video, no con texto.

Tsinghua publicó un benchmark de 400 casos en cuatro dimensiones de razonamiento; los modelos comerciales doblan a los open source, pero la lógica desnuda a toda la categoría.
Otros temas que aparecen junto a #world models en nuestra cobertura editorial.