ASH: agente aprende Pokémon y Zelda viendo video web

El sistema propuesto por Benjamin Schneider y colegas aprende sin recompensas ni demostraciones etiquetadas, y completa 11,2 de 12 hitos en Pokémon Emerald.

Publicado el 17 de mayo de 2026 · 04:33 p. m.2 min de lectura

Al grano

ASH es un sistema agéntico que aprende a jugar Pokémon Emerald y Zelda: Minish Cap mirando video sin etiquetar de internet.

El agente entrena un modelo de dinámica inversa con sus propias trayectorias para extraer supervisión sin recompensas ni anotaciones expertas.

ASH alcanza 11,2/12 hitos en Pokémon Emerald y 9,9/12 en Zelda, contra 6,5 y 6,0 del baseline más fuerte.

Por qué importa

Lo más interesante del paper no es que ASH gane Pokémon, sino que separa por primera vez de manera limpia dos cuellos de botella que siempre van mezclados: el diseño de recompensa y la planificación a largo plazo. Si la receta sostiene en simuladores robóticos, lo que sigue probablemente sea startups latinoamericanas usando video de YouTube para entrenar agentes en tareas industriales, con cámaras y poco más.

Los modelos de IA todavía no juegan videojuegos largos sin desbarrancarse. La razón estructural, según un nuevo paper en arXiv firmado por Benjamin Schneider y tres coautores, es que los métodos actuales dependen de recompensas diseñadas a mano o de demostraciones con acciones etiquetadas, y ninguno de los dos enfoques escala. ASH (acrónimo de Agents that Self-Hone) propone una salida: aprender la política embodied a partir de video ruidoso de internet, sin recompensas ni anotaciones expertas.

¿Cómo aprende ASH sin etiquetas?

El truco está en un loop de auto-mejora. Cuando el agente se queda pegado en una tarea, ASH aprende un Inverse Dynamics Model (IDM) desde sus propias trayectorias previas, y luego usa ese IDM para extraer supervisión a partir de video relevante de internet. Es decir, el agente mira videos de gameplay sin saber explícitamente qué teclas se apretaron, infiere las acciones probables a partir de su propio modelo de dinámica, y aprende de ahí.

A eso se suma una segunda capa: aprendizaje no supervisado para identificar momentos clave dentro del material online y guardarlos como memoria de largo plazo. Esa memoria es lo que le permite atacar tareas de muchas horas sin perderse en el camino.

¿Qué tan bueno es en Pokémon y Zelda?

El paper evalúa ASH en dos entornos complementarios pensados para forzar planificación a largo plazo. El primero es Pokémon Emerald, un RPG por turnos cuyas misiones encadenadas exigen acumular contexto durante horas. El segundo es The Legend of Zelda: The Minish Cap, un juego de acción-aventura en tiempo real con puzzles encadenados.

En ambos juegos los baselines clásicos se estancan: behavioral cloning, retrieval-augmented y modelos zero-shot fundacionales se quedan pegados antes del final. ASH, en cambio, mantiene progresión durante una evaluación de 8 horas continuas.

Los números son concretos. ASH alcanza en promedio:

11,2 de 12 hitos en Pokémon Emerald
9,9 de 12 hitos en Legend of Zelda: Minish Cap

El baseline más fuerte queda estancado en 6,5/12 y 6,0/12 respectivamente, es decir, alrededor de la mitad de progreso.

¿Por qué importa fuera de los videojuegos?

Los videojuegos largos funcionan como un proxy razonable para tareas robóticas de horizonte largo: navegación en entornos complejos, manipulación con secuencias de subtareas, operaciones logísticas. Si el agente puede planificar durante 8 horas en Zelda sin recompensa diseñada, el siguiente paso lógico es probarlo en simuladores robóticos donde la barrera de recompensa ingenieril ha frenado el progreso del campo durante años.

La conclusión de Schneider y colegas es que los agentes auto-perfeccionables son una receta escalable para aprendizaje embodied a largo plazo, sin depender del cuello de botella de etiquetar acciones a mano. El paper completo está disponible bajo arXiv:2605.14211 y propone abrir esta línea como agenda de investigación independiente del diseño de recompensa.

ASH: agente aprende Pokémon y Zelda viendo video web

Al grano

Por qué importa

¿Cómo aprende ASH sin etiquetas?

¿Qué tan bueno es en Pokémon y Zelda?

¿Por qué importa fuera de los videojuegos?

Seguir leyendo

NVIDIA verifica skills de agentes con firma criptográfica

Agente IA con memoria híbrida: tutorial paso a paso

Solvita duplica la exactitud de LLMs en programación competitiva

ChromaFlow: más orquestación bajó el accuracy en GAIA

→Al grano

✦Por qué importa

¿Cómo aprende ASH sin etiquetas?

¿Qué tan bueno es en Pokémon y Zelda?

¿Por qué importa fuera de los videojuegos?

Seguir leyendo

NVIDIA verifica skills de agentes con firma criptográfica

Agente IA con memoria híbrida: tutorial paso a paso

Solvita duplica la exactitud de LLMs en programación competitiva

ChromaFlow: más orquestación bajó el accuracy en GAIA

Al grano

Por qué importa