Investigadores de Nvidia permiten que los robots se autoentrenen mediante agentes de codificación de IA
El cuello de botella que supone la recopilación manual de datos y la constante intervención humana en la robótica finalmente está siendo abordado. Mediante el aprovechamiento de agentes de codificación de IA, los investigadores han desarrollado un sistema en el que los robots pueden escribir de forma autónoma su propio código de entrenamiento y perfeccionar su destreza en entornos del mundo real.
Rompiendo el cuello de botella manual con ENPIRE
Tradicionalmente, enseñar a un robot tareas complejas como el agarre de precisión requiere que ingenieros humanos restablezcan escenas, recopilen conjuntos de datos y ajusten algoritmos manualmente. Este proceso, que requiere mucha mano de obra, crea un punto de fricción masivo en el escalado de la inteligencia robótica. Para resolver esto, investigadores de Nvidia, la Universidad Carnegie Mellon y la UC Berkeley presentaron ENPIRE, un marco de trabajo que transforma el proceso de entrenamiento en un bucle de retroalimentación autosustentable.
En lugar de esperar instrucciones humanas, el sistema ENPIRE utiliza agentes de codificación de IA para gestionar todo el ciclo de vida: restablecer el espacio de trabajo, ejecutar una estrategia de movimiento, evaluar el resultado e iterar inmediatamente sobre el código para mejorar el rendimiento. Esto traslada la robótica del modelo "human-in-the-loop" al de "agent-in-the-loop".
Cómo los agentes de codificación autónomos impulsan la destreza
El marco de trabajo ENPIRE opera en dos fases distintas. En la primera fase, el agente establece un espacio de trabajo utilizando una guía humana mínima, a menudo solo unos pocos minutos de video que muestran intentos exitosos y fallidos. De manera crucial, el agente escribe sus propias funciones de recompensa. Por ejemplo, durante las tareas de inserción de pines, el agente desarrolló una comprobación personalizada que combina la alineación visual, la altura de la pinza y la fuerza estimada para determinar el éxito.
En la segunda fase, los agentes operan con total autonomía. Leen artículos de investigación, formulan hipótesis y editan el código de entrenamiento directamente. Pueden elegir entre métodos como la clonación de comportamiento (imitar el movimiento humano) o el aprendizaje por refuerzo (ensayo y error) basándose en qué enfoque produce mejores señales en el mundo real. Durante las pruebas, los investigadores utilizaron modelos de alto rendimiento, incluidos Codex (con GPT-5.5), Claude Code (con Opus 4.7) y Kimi Code (con Kimi K2.6), resultando Codex como el de mejor rendimiento.
Escalado mediante una flota de robots habilitada para Git
Uno de los aspectos más innovadores de esta investigación es la coordinación de una flota de ocho estaciones robóticas YAM de doble brazo. En lugar de trabajar de forma aislada, estas estaciones actúan como un equipo de investigación distribuido. Comparten sus hallazgos, "recetas" exitosas e hipótesis fallidas utilizando Git, la herramienta estándar de control de versiones utilizada en la ingeniería de software.
Este enfoque basado en flotas genera enormes ganancias temporales:
- Prueba Push-T: Escalar de uno a ocho agentes redujo el tiempo de finalización de cinco horas a solo dos.
- Inserción de pines: El tiempo de finalización de la tarea disminuyó de más de 90 minutos a aproximadamente 40 minutos.
- Tasas de éxito: La flota alcanzó hasta un 99 % de éxito en tareas exigentes, como la clasificación de pines y el corte de bridas.
La brecha de realidad: Simulación vs. Hardware
A pesar de estos avances, la investigación destaca la brecha "sim-to-real". Aunque los tres agentes probados resolvieron la prueba Push-T en simulación, dos de ellos fallaron al pasar al hardware físico debido a variables impredecibles como la fricción y la dinámica del robot. Sin embargo, ENPIRE demostró un rendimiento superior en la simulación RoboCasa en comparación con modelos establecidos como GR00T.
A medida que la industria avanza hacia la robótica de propósito general, la capacidad de las máquinas para "investigar por sí mismas" a través del código será la clave para ir más allá de movimientos estrechos y preprogramados hacia una inteligencia verdadera y adaptable.
Conclusiones clave
- Iteración autónoma: ENPIRE permite que los robots escriban sus propias funciones de recompensa y código de entrenamiento, lo que reduce significativamente la necesidad de que ingenieros humanos restablezcan escenas o ajusten algoritmos.
- Aprendizaje colaborativo: Al utilizar Git para compartir datos, una flota de ocho robots puede aprender colectivamente de los éxitos y fracasos de los demás, acelerando drásticamente el cronograma de entrenamiento.
- Complejidad del mundo real: Si bien el sistema alcanza hasta un 99 % de éxito en tareas específicas, la naturaleza impredecible de los entornos físicos sigue siendo un desafío significativo en comparación con el entrenamiento simulado.