Los modelos de IA todavía no juegan videojuegos largos sin desbarrancarse. La razón estructural, según un nuevo paper en arXiv firmado por Benjamin Schneider y tres coautores, es que los métodos actuales dependen de recompensas diseñadas a mano o de demostraciones con acciones etiquetadas, y ninguno de los dos enfoques escala. ASH (acrónimo de Agents that Self-Hone) propone una salida: aprender la política embodied a partir de video ruidoso de internet, sin recompensas ni anotaciones expertas.

¿Cómo aprende ASH sin etiquetas?

El truco está en un loop de auto-mejora. Cuando el agente se queda pegado en una tarea, ASH aprende un Inverse Dynamics Model (IDM) desde sus propias trayectorias previas, y luego usa ese IDM para extraer supervisión a partir de video relevante de internet. Es decir, el agente mira videos de gameplay sin saber explícitamente qué teclas se apretaron, infiere las acciones probables a partir de su propio modelo de dinámica, y aprende de ahí.

A eso se suma una segunda capa: aprendizaje no supervisado para identificar momentos clave dentro del material online y guardarlos como memoria de largo plazo. Esa memoria es lo que le permite atacar tareas de muchas horas sin perderse en el camino.

¿Qué tan bueno es en Pokémon y Zelda?

El paper evalúa ASH en dos entornos complementarios pensados para forzar planificación a largo plazo. El primero es Pokémon Emerald, un RPG por turnos cuyas misiones encadenadas exigen acumular contexto durante horas. El segundo es The Legend of Zelda: The Minish Cap, un juego de acción-aventura en tiempo real con puzzles encadenados.

En ambos juegos los baselines clásicos se estancan: behavioral cloning, retrieval-augmented y modelos zero-shot fundacionales se quedan pegados antes del final. ASH, en cambio, mantiene progresión durante una evaluación de 8 horas continuas.

Los números son concretos. ASH alcanza en promedio:

  • 11,2 de 12 hitos en Pokémon Emerald
  • 9,9 de 12 hitos en Legend of Zelda: Minish Cap

El baseline más fuerte queda estancado en 6,5/12 y 6,0/12 respectivamente, es decir, alrededor de la mitad de progreso.

¿Por qué importa fuera de los videojuegos?

Los videojuegos largos funcionan como un proxy razonable para tareas robóticas de horizonte largo: navegación en entornos complejos, manipulación con secuencias de subtareas, operaciones logísticas. Si el agente puede planificar durante 8 horas en Zelda sin recompensa diseñada, el siguiente paso lógico es probarlo en simuladores robóticos donde la barrera de recompensa ingenieril ha frenado el progreso del campo durante años.

La conclusión de Schneider y colegas es que los agentes auto-perfeccionables son una receta escalable para aprendizaje embodied a largo plazo, sin depender del cuello de botella de etiquetar acciones a mano. El paper completo está disponible bajo arXiv:2605.14211 y propone abrir esta línea como agenda de investigación independiente del diseño de recompensa.