La manipulación fina sigue siendo uno de los muros más altos del aprendizaje robótico. Cada experimento exige humanos recolectando datos, reseteando la escena tras cada intento y ajustando algoritmos a mano. Esa sobrecarga ralentiza todo. ENPIRE, un proyecto conjunto de NVIDIA, Carnegie Mellon University y UC Berkeley, intenta romper el cuello de botella delegando ese trabajo a agentes de codificación IA que iteran sobre hardware real.

El concepto central es un loop de retroalimentación corriendo sobre robots físicos: resetear el espacio de trabajo, ejecutar una estrategia, evaluar el resultado y mejorar el próximo intento. Sin humano en el medio.

¿Cómo entrena el agente sin supervisión humana?

ENPIRE corre en dos fases. En la primera, el agente prepara un entorno de trabajo con algo de feedback humano: límites de seguridad, reset automático y evaluación automatizada del éxito. En vez de pedirle a una persona que califique cada intento, el agente escribe su propia reward function para distinguir éxito de fracaso, usando apenas unos minutos de video de ejemplo con intentos exitosos y fallidos.

Para la inserción de pines, por ejemplo, el agente desarrolló una verificación que combina alineamiento visual, altura del gripper y fuerza estimada. Para cerrar amarras de cable, combinó dos ángulos de cámara para evitar falsos positivos y bajó el tiempo de reacción por debajo de 150 milisegundos. Estas herramientas se construyen una vez y se reutilizan sin cambios.

En la segunda fase, el agente trabaja completamente solo. Lee papers de investigación, formula hipótesis y edita el código de entrenamiento directamente. Usa métodos como behavior cloning (la estrategia imita demostraciones humanas) o reinforcement learning (mejora por prueba y error). El propio agente elige el método según las señales de éxito reales en el mundo físico.

Una flota de ocho robots que se coordina vía Git

ENPIRE escala a una flota completa: ocho estaciones de robots YAM bi-brazo, cada una con su propio hardware, computador y agente de codificación. Los agentes prueban hipótesis distintas en paralelo y comparten resultados solo a través de Git, la herramienta estándar de control de versiones de software. Adoptan recetas de entrenamiento exitosas entre sí y descartan ideas malas por su cuenta. Un avance descubierto en una estación se propaga al resto.

Según el estudio, los agentes alcanzaron hasta 99% de éxito en tareas exigentes como el test Push-T —donde el robot tiene que deslizar un bloque en forma de T a una posición y orientación objetivo—, ordenar pines en una caja y cortar amarras de cable con un cortafrío. En la inserción de pines, la estrategia convergió a 100% más rápido que un método comparable con humano en el loop.

¿Cuánto tiempo y cuánto cómputo cuesta?

El escalado paga en tiempo. En el test Push-T, pasar de un agente a ocho redujo el tiempo hasta el éxito total de cinco horas a dos. Para la inserción de pines, bajó de más de 90 minutos a unos 40. Los investigadores probaron tres agentes de codificación actuales: Codex con GPT-5.5, Claude Code con Opus 4.7 y Kimi Code con Kimi K2.6. Codex rindió mejor en la mayoría de los casos.

Pero el mundo real sigue siendo el examen más duro. En Push-T los tres agentes resolvieron la tarea en simulación, pero dos de tres fallaron en el entorno físico. Los investigadores apuntan a condiciones variables como la dinámica del robot, la fricción y el movimiento de objetos. En la simulación RoboCasa, ENPIRE superó tanto a un modelo end-to-end vision-language-action (GR00T) como a un enfoque basado en herramientas sin autoinvestigación (CaP-X).

Para medir eficiencia los investigadores proponen dos métricas: Mean Robot Utilization (cuánto tiempo de investigación está realmente trabajando el robot) y Mean Token Utilization (uso del modelo de lenguaje por minuto). Las habilidades aprendidas también transfieren: la experiencia en inserción de pines ayudó a los agentes a montar GPUs en placas madre con los brazos robóticos.

¿Cuáles son los límites del enfoque?

El estudio reconoce sus restricciones con claridad. Robots y cómputo no se aprovechan al máximo porque los agentes pasan mucho tiempo leyendo logs, escribiendo código y esperando. Mientras más robots en la flota, menor la utilización por robot, ya que los agentes gastan más tiempo resumiendo resultados entre sí. Los costos en tokens crecen más rápido que las ganancias de rendimiento: flotas más grandes llegan antes a la meta, pero queman bastante más presupuesto de cómputo.

Aun así, los investigadores ven a ENPIRE como un camino práctico hacia robots que se mejoran solos en el mundo físico, sin coreógrafo humano detrás.