Los generadores de video por IA están viviendo su mejor momento estético. Modelos como Sora 2, Seedance 2.0 y Veo 3.1 producen clips cada vez más impresionantes. Pero un nuevo banco de pruebas creado en Tsinghua University vuelve a confirmar lo que la conversación de la comunidad insiste: calidad visual y comprensión del mundo son dos cosas distintas.
WorldReasonBench, así se llama el experimento, deja de obsesionarse con la fidelidad de pixel y mide algo más incómodo: dado un fotograma inicial, ¿puede el modelo continuar la escena de un modo que tenga sentido físico, social, lógico e informacional?
¿Qué problema busca atrapar?
Un caso de prueba básico: una manzana en una rama y la instrucción "soltala". El video resultante puede verse magnífico (movimiento suave, texturas realistas, iluminación de cine) y aún así contradecir las leyes de Newton: la manzana puede volar hacia arriba, reventar como un globo o caer en línea recta sin curva natural. Las métricas de calidad de imagen, sin embargo, premiarían igual ese clip por su realismo. WorldReasonBench fue diseñado precisamente para cazar ese hueco.
¿Cómo está construido el benchmark?
Son alrededor de 400 casos de prueba repartidos en cuatro áreas: conocimiento del mundo (física, clima, normas culturales), escenas centradas en humanos (manipulación de objetos, interacción social), razonamiento lógico (matemáticas, geometría, experimentos científicos) e inferencia basada en datos (lectura de diagramas y números).
El esquema se divide en dos piezas. La primera es WorldReasonBench propiamente, con 22 subcategorías de razonamiento. La segunda es WorldRewardBench, un dataset adicional de unas 6.000 comparaciones de video rankeadas por anotadores entrenados.
La evaluación corre en dos etapas. Una primera fase, process-aware, usa preguntas estructuradas para verificar si el video llega al estado final correcto de manera plausible. Una segunda pasada califica calidad del razonamiento, consistencia temporal y estética visual.
¿Cómo quedó el ranking?
El equipo probó cinco sistemas comerciales (Sora 2, Kling, Wan 2.6, Seedance 2.0 y Veo 3.1-Fast) y seis open source (LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5 y LongCat-Video).
Los generadores comerciales puntuaron aproximadamente el doble que los open source en la métrica de razonamiento central, sin superposición estadística entre ambos grupos. Seedance 2.0 de ByteDance salió arriba, ganando en casi 9 de cada 10 re-runs estadísticos. Veo 3.1-Fast lideró en conocimiento del mundo y Sora 2 dominó las escenas con humanos.
¿Dónde fallan todos?
La conclusión más fuerte del paper no es quién gana, sino dónde pierden todos: el razonamiento lógico es la categoría más difícil para cada modelo evaluado. Incluso los mejores sistemas comerciales caen muy por debajo de sus promedios generales en ese eje, y la mayoría de los open source falla casi por completo.
La segunda categoría más dura es la inferencia basada en datos, sobre todo cuando la tarea exige transiciones físicamente coherentes o preservar exactamente texto y números a lo largo del video.
El estudio también introduce una métrica que rastrea cuántas respuestas correctas vienen de fases dinámicas (procesos a lo largo del tiempo) en vez de snapshots estáticos. Los modelos comerciales puntúan mucho más alto acá, lo que apunta al verdadero techo de los open source: no fallan en cómo se ven las cosas, fallan en entender causa y efecto.
¿Funciona el scoring automático?
Para validar el método, el equipo comparó sus métricas contra rankings hechos por anotadores humanos. Quince evaluadores entrenados puntuaron ocho videos anonimizados por caso, en tres ejes. El resultado: la métrica central de WorldReasonBench sigue de cerca el juicio humano y supera con claridad a los jueces de IA tradicionales que comparan videos de a pares.
El benchmark, el dataset y el código están disponibles en GitHub.
¿Son estos sistemas "modelos del mundo"?
La pregunta de fondo sigue dividiendo a la industria. Yann LeCun, científico jefe de IA en Meta, considera que sistemas como Sora son un callejón sin salida. Demis Hassabis, CEO de Google DeepMind, ve a Veo como un paso hacia el world model. OpenAI cerró Sora como producto comercial, pero mantuvo el equipo intacto para trabajar en investigación de modelos del mundo. Una definición propuesta llamada OpenWorldLib va más lejos: excluye explícitamente a los modelos de texto a video puros de esa categoría.




