Moonlake: Los modelos del mundo causal deben ser multimodales, interactivos y eficientes, con Chris Manning y Fan-yun Sun

Hemos estado en una especie de mini serie de Modelos Mundiales durante el último trimestre: desde presentar el tema con Yi Tay, hasta explorar Marble con Fei-Fei Li y Justin Johnson de World Labs, pasando por una vista previa de los Modelos Mundiales aprendidos de conjuntos de datos de juegos masivos con Pim de Witte de General Intuition (quien ahora ha escrito su enfoque sobre los Modelos Mundiales con Not Boring), hasta discutir el Modelo Mundial Cosmos con Andrew White de Edison Scientific en nuestro nuevo módulo de Ciencias, hasta escribir nuestra Tesis propias sobre modelos de mundos adversarios. Mientras tanto, Nvidia, Waymo y Tesla han publicado sus propios enfoques, Google ha lanzado Genie 3 y Yann LeCun ha recaudado mil millones de dólares para AMI y ha publicado LeWorldModel.

Los invitados de hoy tienen un enfoque radicalmente diferente del modelado mundial para cada jugador que acabamos de mencionar; si bien Genie 3 es impresionante, sus muchos defectos demuestran los problemas con su enfoque: recorte del terreno, no interactividad (un jugador, sin física/sin objetos que no sean los que mueve el jugador) y una inmersión máxima de 60 segundos.

Moonlake AI (inspirada en el logotipo de Dreamworks) es diametralmente opuesto: multijugador inmediato, increíblemente interactivo, de vida útil indefinida, capaz de MUCHOS tipos diferentes de modelos mundiales mediante la simulación de entornos, la predicción de resultados y la planificación a largo plazo. Esto sabe logra arrancando desde motores de juegos y capacitando a agentes personalizados:

En Towards Efficient World Models, Chris Manning e Ian Goodfellow sabe unen a Fan-Yun para explicar por qué su enfoque hacia la eficiencia con estructura y casualidad en lugar de simplemente escalar a ciegas es sumamente necesario:

Los modelos SOTA todavía muestran fallas en la comprensión física o espacial, como objetos sólidos flotando en el aire o moviéndose "dentro" de otros objetos sólidos. Si el objetivo es planificar la siguiente acción, ¿con qué frecuencia sabe necesita una vista de píxeles de alta resolución para modelar el mundo? Nuestra apuesta es que hay una proporción desproporcionadamente grande de tareas económicamente valiosas en las que no sabe requiere tal detalle. Después de todo, los humanos con una amplia variedad de limitaciones sensoriales tienen pocas dificultades para hacer casi todo en el mundo. Además, para una gran cantidad de propósitos, describir una escena o una situación en unas pocas palabras (“los neumáticos del automóvil chirriaron al tomar una curva cerrada”) es suficiente para comprender y planificar. Los experimentos también muestran que los humanos sólo procesan parcialmente la información visual de arriba hacia abajo, dirigida a la tarea, a menudo haciendo uso de modelos abstractos a nivel de objetos. En casi todos los casos son suficientes representaciones parciales combinadas con comprensión semántica. … Si el objetivo es facilitar la comprensión de la causalidad en entornos multimodales, entonces el modelo mundial, ya sea que sabe utilice en el mundo virtual o en el mundo físico, debe priorizar propiedades como la coherencia del estado espacial y físico mantenida durante largos períodos de tiempo y la capacidad de evolucionar el mundo que refleje con precisión las consecuencias de las acciones. Eso es lo que Moonlake está construyendo.

Los motores de juegos son el punto de partida correcto para extraer eficientemente relaciones causales y construir las interfaces y la comunidad (incluida su nueva Creator Cup de $30,000) para poner en marcha el volante de las acciones a las observaciones.

Tuvimos la suerte de asistir a sus sesiones en GDC 2026 (la Meca de los desarrolladores de juegos) y quedamos impresionados por la enorme variedad y flexibilidad de los mundos que la gente ya estaba construyendo con las herramientas de Moonlake. Vídeos en vive en la cápsula.

¡Vídeo completo en YouTube!

Marcas de tiempo

00:00 La evaluación comparativa sabe vuelve difícil 00:47 Conozca a los fundadores de Moonlake 01:26 Por qué construir modelos mundiales 03:12 Estructura y no solo escala 05:37 Definición de mundos condicionados por la acción 07:32 Lección de abstracción versus amarga 14:39 Debate entre lenguaje versus JEPA 20:27 Rastros de razonamiento y capa de renderizado 37:00 Jugabilidad sobre gráficos 38:02 Reglas de ficción y ajustes mundiales 39:15 Los motores de código superan los antecedentes aprendidos 41:10 Límites de escala de difusión 43:23 Límite simbólico versus difusión 46:14 Visión de plataforma más allá de los juegos 50:24 Audio espacial y latentes multimodales 54:23 Contratación de raíces de PNL y nombre de Moon Lake

[00:00:00] Apertura en frío

[00:00:00] Chris Manning: Creo que todo este espacio es extremadamente difícil tal como están surgiendo las cosas ahora. Y quiere decir, no es sólo para los modelos mundiales, cree que es para todo, incluidos los modelos basados en texto, ¿verdad? Porque al principio parecía muy fácil tener buenos puntos de referencia porque podíamos hacer cosas como puntos de referencia de respuesta a preguntas.

[00:00:20] Pero en estos días gran parte de lo que la gente quiere hacer no es nada de eso, ¿verdad? Quieres recibir algunas recomendaciones sobre qué mochila sería mejor para ti para tu viaje a Europa el próximo mes. No es tan fácil llegar a un punto de referencia y el mismo problema ocurre con estos modelos mundiales.

[00:00:41] Conozca a los fundadores

[00:00:41] swyx: Está bien. Estamos de vuelta en el estudio con los dos protagonistas de Moon Lake. Supongo que también hay otros fundadores, pero Sun y Chris Manning. Bienvenido al estudio.

[00:00:54] Fan-yun Sun: Gracias. Gracias, Chris. Gracias por recibirnos.

[00:00:56] swyx: Ustedes, muchachos, han irrumpido en escena con una [00:01:00] nueva versión realmente refrescante de modelos de moldes.

[00:01:01] Sólo le gustaría, supongo, preguntar cómo ustedes dos sabe unieron. Chris, eres una leyenda de la PNL y solo de la IA en general. Eres, eres su estudiante de posgrado, supongo.

[00:01:10] Fan-yun Sun: En realidad, su cofundador.

[00:01:11] swyx: Ah, sí.

[00:01:12] Fan-yun Sun: Debería darle mucho crédito a su cofundadora, Sharon. Sí. En realidad estaba trabajando con la profesora Fe Androgyn y luego terminó trabajando con Ron y Chris Manning aquí.

[00:01:22] Y luego, le conecté inicialmente con Chris, en realidad a través de su cofundador,

[00:01:26] ¿Qué es el Lago Luna?

[00:01:26] swyx: ¿qué es Moon Lake? ¿Qué es? En realidad, también tiene mucha curiosidad por el nombre, pero ¿por qué entrar en modelos mundiales?

[00:01:33] Fan-yun Sun: Así que estaba trabajando mucho. En realidad, durante sus años de doctorado, Nvidia investigó esencialmente sobre la generación de mundos interactivos para entrenar agentes de aprendizaje por refuerzo o incorporar agentes de EA.

[00:01:44] Y luego hay dos observaciones. Uno en la academia y otro en la industria. Una industria como la gente de Nvidia en realidad está pagando muchos dólares para comprar este tipo de mundos interactivos, ya sea para evaluar o entrenar robots, o para políticas o modelos. Y [00:02:00] luego, en el mundo académico, está pasando lo mismo.

[00:02:02] Y más específicamente, cuando en realidad estaba trabajando con Nvidia en el proyecto de capacitación del modelo de base de datos sintéticos, en realidad estábamos generando muchos de estos datos sintéticos y demostrando que, bueno, en realidad sabe puede, estos datos sintéticos son en realidad tan útiles como los datos del mundo real cuando sabe trata de preentrenamiento multimodal.

[00:02:16] Pero luego, como dijo, sabe pagan muchos dólares a proveedores externos similares o similares. Otras personas pueden seleccionar manualmente este tipo de datos. Para nosotros estaba muy claro que, bueno, en nuestro camino hacia, llamémoslo, incorporar modelos de inteligencia general, es necesario aprender las consecuencias detrás de sus acciones, lo que significa que necesitan datos interactivos y la demanda de ese tipo de datos está creciendo exponencialmente.

[00:02:38] Pero todo el mundo piensa en ello desde una perspectiva pura, digamos, de generación de vídeo o algo más. Pero sentimos que la verdadera oportunidad es construir modelos de razonamiento que puedan hacer estas cosas, como cómo las hacen los humanos hoy en día. Así que eso es un poco sobre la génesis de Moon Lake, y cree que la razón por la que le metí en los modelos mundiales fue en parte.

[00:02:59] Una visión filosófica [00:03:00] del mundo que le gusta, cree en la teoría de la simulación y cosas así. Pero por otro lado, es realmente como, oh, como si hubiera una oportunidad ahí y siente que nadie lo está haciendo de la manera que cree que debería hacerse.

[00:03:10] Estructura, no escala: la visión

[00:03:10] Chris Manning: Puedo decir un poco sobre eso.

[00:03:12] Sí. Entonces, el objetivo general es la búsqueda de la inteligencia artificial y la mayor parte de su carrera la he hecho en el ámbito del lenguaje y ha sido extremadamente productiva. Como todos sabemos, en la historia de los últimos años, no tiene que contar cuánto hemos logrado con grandes modelos de lenguaje, pero, eh.

[00:03:31] Aunque han sido extremadamente efectivos para mejorar el lenguaje y la inteligencia general, claramente no es el mundo entero. Existe este mundo multimodal de visión, sonido y gusto con el que te gustaría tratar más que solo el lenguaje. Y luego la pregunta es cómo hacerlo. Y a pesar de una gran inversión en el espacio de la visión por computadora, cierto, como el campo de investigación de la visión por computadora [00:04:00] ha sido durante décadas, mucho, mucho más grande que el espacio del lenguaje, en realidad.

[00:04:05] Creo que es justo. Dicho esto, la visión y la comprensión sabe estancaron, ¿verdad? Llegaste al reconocimiento de objetos y luego simplemente no sabe avanzaba, ¿verdad? Si nos fijamos en cualquiera de estos modelos de lenguaje de visión, es el lenguaje el que hace el 90% del trabajo y la visión apenas funciona. Entonces, hay una pregunta de investigación realmente interesante sobre por qué es así y, en el fondo, las ideas detrás de Moon Lake son un intento de responder a eso, creyendo que puede haber una conexión realmente rica entre una capa más simbólica de comprensión abstracta de los dominios visuales, que no están en los modelos de visión convencionales, que todavía están tratando de operar en el nivel superficial de los píxeles.

[00:04:50] swyx: Creo que en una de las publicaciones de tu blog la expresas como estructura, no como escala. ¿Es eso una tesis general?

[00:04:57] Chris Manning: Sí. Bueno, la escala también es buena.

[00:04:58] swyx: Sí. La escala es buena. También

[00:04:59] Chris Manning: [00:05:00] muchos datos también son buenos y escalables, pero aun así, quieres la estructura. Sí. Para poder aprender de forma mucho más eficiente.

[00:05:07] swyx: Sí. La otra cosa que realmente le gustó es que presentaste un ejemplo de cómo sabe ven tus rastros de razonamiento.

[00:05:12] Correcto. La que destilarías es la palabra que te viene a la mente. Ni siquiera cree que sea una muy buena descripción, pero involucraría, por ejemplo, geometría, física, posibilidades, lógica simbólica, mapeos perceptivos y lo que sea. Pero así, ese es el tipo de ejemplo que involucra, llamémoslo razonamiento espacial, razonamiento de modelo a seguir en comparación con el razonamiento LM normal.

[00:05:36] Definición de modelos mundiales frente a generación de vídeo

[00:05:36] Vibhu: Pero también le gusta dar un paso atrás. Entonces, ¿cómo definen ustedes los modelos mundiales? Mucha gente ve bien, puedes hacer difusión, puedes hacer generación de video. Pero ustedes publicaron bastantes publicaciones en el blog. Publicaste un ensayo recientemente, incluso podemos sacarlo sobre modelos mundiales eficientes. Tienes una definición estructural bastante parecida aquí, pero para la audiencia general que no sigue muy bien el espacio, ¿verdad?

[00:05:55] ¿Cuál es la diferencia en lo que vemos desde un modelo de generación de video hasta [00:06:00] un simulador de generación A mundial? ¿Cómo sabe pinta eso que dura?

[00:06:02] Chris Manning: ¿año? Sí, cree que esto es en realidad un poco sutil porque la gente mira estos increíbles modelos de video de IA generativa, SAWA VO tres, una de estas cosas, y piensan, Genie, piensan, oh, esto es increíble.

[...]