Investigadores de Nvidia permiten que los robots se autoentrenen mediante agentes de codificación de IA

El cuello de botella que supone la recopilación manual de datos y la constante intervención humana en la robótica finalmente está siendo abordado. Mediante el aprovechamiento de agentes de codificación de IA, los investigadores han desarrollado un sistema en el que los robots pueden escribir de forma autónoma su propio código de entrenamiento y perfeccionar su destreza en entornos del mundo real.

Rompiendo el cuello de botella manual con ENPIRE

Tradicionalmente, enseñar a un robot tareas complejas como el agarre de precisión requiere que ingenieros humanos restablezcan escenas, recopilen conjuntos de datos y ajusten algoritmos manualmente. Este proceso, que requiere mucha mano de obra, crea un punto de fricción masivo en el escalado de la inteligencia robótica. Para resolver esto, investigadores de Nvidia, la Universidad Carnegie Mellon y la UC Berkeley presentaron ENPIRE, un marco de trabajo que transforma el proceso de entrenamiento en un bucle de retroalimentación autosustentable.

En lugar de esperar instrucciones humanas, el sistema ENPIRE utiliza agentes de codificación de IA para gestionar todo el ciclo de vida: restablecer el espacio de trabajo, ejecutar una estrategia de movimiento, evaluar el resultado e iterar inmediatamente sobre el código para mejorar el rendimiento. Esto traslada la robótica del modelo "human-in-the-loop" al de "agent-in-the-loop".

Cómo los agentes de codificación autónomos impulsan la destreza

El marco de trabajo ENPIRE opera en dos fases distintas. En la primera fase, el agente establece un espacio de trabajo utilizando una guía humana mínima, a menudo solo unos pocos minutos de video que muestran intentos exitosos y fallidos. De manera crucial, el agente escribe sus propias funciones de recompensa. Por ejemplo, durante las tareas de inserción de pines, el agente desarrolló una comprobación personalizada que combina la alineación visual, la altura de la pinza y la fuerza estimada para determinar el éxito.

En la segunda fase, los agentes operan con total autonomía. Leen artículos de investigación, formulan hipótesis y editan el código de entrenamiento directamente. Pueden elegir entre métodos como la clonación de comportamiento (imitar el movimiento humano) o el aprendizaje por refuerzo (ensayo y error) basándose en qué enfoque produce mejores señales en el mundo real. Durante las pruebas, los investigadores utilizaron modelos de alto rendimiento, incluidos Codex (con GPT-5.5), Claude Code (con Opus 4.7) y Kimi Code (con Kimi K2.6), resultando Codex como el de mejor rendimiento.

Escalado mediante una flota de robots habilitada para Git

Uno de los aspectos más innovadores de esta investigación es la coordinación de una flota de ocho estaciones robóticas YAM de doble brazo. En lugar de trabajar de forma aislada, estas estaciones actúan como un equipo de investigación distribuido. Comparten sus hallazgos, "recetas" exitosas e hipótesis fallidas utilizando Git, la herramienta estándar de control de versiones utilizada en la ingeniería de software.

Este enfoque basado en flotas genera enormes ganancias temporales:

La brecha de realidad: Simulación vs. Hardware

A pesar de estos avances, la investigación destaca la brecha "sim-to-real". Aunque los tres agentes probados resolvieron la prueba Push-T en simulación, dos de ellos fallaron al pasar al hardware físico debido a variables impredecibles como la fricción y la dinámica del robot. Sin embargo, ENPIRE demostró un rendimiento superior en la simulación RoboCasa en comparación con modelos establecidos como GR00T.

A medida que la industria avanza hacia la robótica de propósito general, la capacidad de las máquinas para "investigar por sí mismas" a través del código será la clave para ir más allá de movimientos estrechos y preprogramados hacia una inteligencia verdadera y adaptable.

Conclusiones clave