Investigadores de Nvidia permiten que los robots se autoentrenen mediante agentes de programación de IA

📅2 hours ago⏱3 min read

In this article

Investigadores de Nvidia permiten que los robots se autoentrenen mediante agentes de codificación de IA

El cuello de botella que supone la recopilación manual de datos y la constante intervención humana en la robótica finalmente está siendo abordado. Mediante el aprovechamiento de agentes de codificación de IA, los investigadores han desarrollado un sistema en el que los robots pueden escribir de forma autónoma su propio código de entrenamiento y perfeccionar su destreza en entornos del mundo real.

Rompiendo el cuello de botella manual con ENPIRE

Tradicionalmente, enseñar a un robot tareas complejas como el agarre de precisión requiere que ingenieros humanos restablezcan escenas, recopilen conjuntos de datos y ajusten algoritmos manualmente. Este proceso, que requiere mucha mano de obra, crea un punto de fricción masivo en el escalado de la inteligencia robótica. Para resolver esto, investigadores de Nvidia, la Universidad Carnegie Mellon y la UC Berkeley presentaron ENPIRE, un marco de trabajo que transforma el proceso de entrenamiento en un bucle de retroalimentación autosustentable.

En lugar de esperar instrucciones humanas, el sistema ENPIRE utiliza agentes de codificación de IA para gestionar todo el ciclo de vida: restablecer el espacio de trabajo, ejecutar una estrategia de movimiento, evaluar el resultado e iterar inmediatamente sobre el código para mejorar el rendimiento. Esto traslada la robótica del modelo "human-in-the-loop" al de "agent-in-the-loop".

Cómo los agentes de codificación autónomos impulsan la destreza

El marco de trabajo ENPIRE opera en dos fases distintas. En la primera fase, el agente establece un espacio de trabajo utilizando una guía humana mínima, a menudo solo unos pocos minutos de video que muestran intentos exitosos y fallidos. De manera crucial, el agente escribe sus propias funciones de recompensa. Por ejemplo, durante las tareas de inserción de pines, el agente desarrolló una comprobación personalizada que combina la alineación visual, la altura de la pinza y la fuerza estimada para determinar el éxito.

En la segunda fase, los agentes operan con total autonomía. Leen artículos de investigación, formulan hipótesis y editan el código de entrenamiento directamente. Pueden elegir entre métodos como la clonación de comportamiento (imitar el movimiento humano) o el aprendizaje por refuerzo (ensayo y error) basándose en qué enfoque produce mejores señales en el mundo real. Durante las pruebas, los investigadores utilizaron modelos de alto rendimiento, incluidos Codex (con GPT-5.5), Claude Code (con Opus 4.7) y Kimi Code (con Kimi K2.6), resultando Codex como el de mejor rendimiento.

Escalado mediante una flota de robots habilitada para Git

Uno de los aspectos más innovadores de esta investigación es la coordinación de una flota de ocho estaciones robóticas YAM de doble brazo. En lugar de trabajar de forma aislada, estas estaciones actúan como un equipo de investigación distribuido. Comparten sus hallazgos, "recetas" exitosas e hipótesis fallidas utilizando Git, la herramienta estándar de control de versiones utilizada en la ingeniería de software.

Este enfoque basado en flotas genera enormes ganancias temporales:

Prueba Push-T: Escalar de uno a ocho agentes redujo el tiempo de finalización de cinco horas a solo dos.
Inserción de pines: El tiempo de finalización de la tarea disminuyó de más de 90 minutos a aproximadamente 40 minutos.
Tasas de éxito: La flota alcanzó hasta un 99 % de éxito en tareas exigentes, como la clasificación de pines y el corte de bridas.

La brecha de realidad: Simulación vs. Hardware

A pesar de estos avances, la investigación destaca la brecha "sim-to-real". Aunque los tres agentes probados resolvieron la prueba Push-T en simulación, dos de ellos fallaron al pasar al hardware físico debido a variables impredecibles como la fricción y la dinámica del robot. Sin embargo, ENPIRE demostró un rendimiento superior en la simulación RoboCasa en comparación con modelos establecidos como GR00T.

A medida que la industria avanza hacia la robótica de propósito general, la capacidad de las máquinas para "investigar por sí mismas" a través del código será la clave para ir más allá de movimientos estrechos y preprogramados hacia una inteligencia verdadera y adaptable.

Conclusiones clave

Iteración autónoma: ENPIRE permite que los robots escriban sus propias funciones de recompensa y código de entrenamiento, lo que reduce significativamente la necesidad de que ingenieros humanos restablezcan escenas o ajusten algoritmos.
Aprendizaje colaborativo: Al utilizar Git para compartir datos, una flota de ocho robots puede aprender colectivamente de los éxitos y fracasos de los demás, acelerando drásticamente el cronograma de entrenamiento.
Complejidad del mundo real: Si bien el sistema alcanza hasta un 99 % de éxito en tareas específicas, la naturaleza impredecible de los entornos físicos sigue siendo un desafío significativo en comparación con el entrenamiento simulado.

Investigadores de Nvidia permiten que los robots se autoentrenen mediante agentes de programación de IA

Investigadores de Nvidia permiten que los robots se autoentrenen mediante agentes de codificación de IA

Rompiendo el cuello de botella manual con ENPIRE

Cómo los agentes de codificación autónomos impulsan la destreza

Escalado mediante una flota de robots habilitada para Git

La brecha de realidad: Simulación vs. Hardware

Conclusiones clave

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

𝗧𝗵𝗲 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜 𝗚𝗼𝘃𝗲𝗿𝗻𝗮𝗻𝗰𝗲 𝗙𝗿𝗮𝗺𝗲𝘄𝗼𝗿𝗸

𝗔𝗜 𝗦𝗲𝗹𝗳 𝗥𝗲𝗳𝗹𝗲𝗰𝘁𝗶𝗼𝗻

Cómo la flexibilidad de la IA podría resolver la crisis energética mundial de los centros de datos

𝗧𝗵𝗲 𝗦𝗹𝗼𝘁 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗪𝗮𝘀 𝘁𝗵𝗲 𝗣𝗼𝗶𝗻𝘁