Nvidia-onderzoekers stellen robots in staat zichzelf te trainen met behulp van AI-codeeragenten

📅2 hours ago⏱3 min read

In this article

Nvidia-onderzoekers stellen robots in staat om zichzelf te trainen met behulp van AI-code-agents

De flessenhals van handmatige gegevensverzameling en constante menselijke interventie in de robotica wordt eindelijk aangepakt. Door gebruik te maken van AI-code-agents hebben onderzoekers een systeem ontwikkeld waarbij robots autonoom hun eigen trainingscode kunnen schrijven en hun behendigheid in echte omgevingen kunnen verfijnen.

Het handmatige knelpunt doorbreken met ENPIRE

Traditioneel vereist het aanleren van complexe taken aan een robot, zoals behendig grijpen, dat menselijke ingenieurs scènes resetten, datasets verzamelen en algoritmen handmatig aanpassen. Dit arbeidsintensieve proces vormt een enorm wrijvingspunt bij het opschalen van robotintelligentie. Om dit op te lossen, hebben onderzoekers van Nvidia, Carnegie Mellon University en UC Berkeley ENPIRE geïntroduceerd, een framework dat het trainingsproces transformeert in een zelfvoorzienende feedbackloop.

In plaats van te wachten op menselijke instructies, gebruikt het ENPIRE-systeem AI-code-agents om de volledige levenscyclus te beheren: het resetten van de werkruimte, het uitvoeren van een bewegingsstrategie, het evalueren van de uitkomst en het onmiddellijk itereren op de code om de prestaties te verbeteren. Dit verplaatst robotica van "human-in-the-loop" naar "agent-in-the-loop".

Hoe autonome code-agents behendigheid stimuleren

Het ENPIRE-framework werkt in twee afzonderlijke fasen. In de eerste fase stelt de agent een werkruimte in met minimale menselijke begeleiding — vaak slechts enkele minuten video die succesvolle en mislukte pogingen laten zien. Cruciaal is dat de agent zijn eigen beloningsfuncties (reward functions) schrijft. Tijdens taken zoals het inbrengen van pinnen ontwikkelde de agent bijvoorbeeld een aangepaste controle die visuele uitlijning, grijperhoogte en geschatte kracht combineert om succes te bepalen.

In de tweede fase werken de agents met volledige autonomie. Ze lezen wetenschappelijke artikelen, formuleren hypothesen en bewerken de trainingscode rechtstreeks. Ze kunnen kiezen tussen methoden zoals behavior cloning (het nabootsen van menselijke bewegingen) of reinforcement learning (trial-and-error), afhankelijk van welke aanpak betere signalen in de echte wereld oplevert. Tijdens het testen gebruikten de onderzoekers high-performance modellen, waaronder Codex (met GPT-5.5), Claude Code (met Opus 4.7) en Kimi Code (met Kimi K2.6), waarbij Codex als de beste presteerder naar voren kwam.

Opschalen via een Git-ondersteunde robotvloot

One of the most innovative aspects of this research is the coordination of a fleet of eight dual-arm YAM robot stations. Rather than working in isolation, these stations act as a distributed research team. They share their findings, successful "recipes," and failed hypotheses using Git, the standard version control tool used in software engineering.

This fleet-based approach yields massive temporal gains:

Push-T Test: Scaling from one to eight agents reduced completion time from five hours to just two.
Pin Insertion: Task completion time dropped from over 90 minutes to approximately 40 minutes.
Success Rates: The fleet achieved up to 99% success on demanding tasks, including sorting pins and cutting cable ties.

The Reality Gap: Simulation vs. Hardware

Despite these breakthroughs, the research highlights the "sim-to-real" gap. While all three tested agents solved the Push-T test in simulation, two out of three failed when transitioned to physical hardware due to unpredictable variables like friction and robot dynamics. However, ENPIRE demonstrated superior performance in the RoboCasa simulation compared to established models like GR00T.

As the industry moves toward general-purpose robotics, the ability for machines to "self-research" through code will be the key to moving beyond narrow, pre-programmed motions toward true, adaptable intelligence.

Key Takeaways

Autonomous Iteration: ENPIRE allows robots to write their own reward functions and training code, significantly reducing the need for human engineers to reset scenes or tweak algorithms.
Collaborative Learning: By using Git to share data, a fleet of eight robots can collectively learn from each other's successes and failures, drastically accelerating the training timeline.
Real-World Complexity: While the system achieves up to 99% success on specific tasks, the unpredictable nature of physical environments remains a significant challenge compared to simulated training.

Nvidia-onderzoekers stellen robots in staat zichzelf te trainen met behulp van AI-codeeragenten

Nvidia-onderzoekers stellen robots in staat om zichzelf te trainen met behulp van AI-code-agents

Het handmatige knelpunt doorbreken met ENPIRE

Hoe autonome code-agents behendigheid stimuleren

Opschalen via een Git-ondersteunde robotvloot

The Reality Gap: Simulation vs. Hardware

Key Takeaways

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

𝗧𝗵𝗲 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜 𝗚𝗼𝘃𝗲𝗿𝗻𝗮𝗻𝗰𝗲 𝗙𝗿𝗮𝗺𝗲𝘄𝗼𝗿𝗸

𝗔𝗜 𝗦𝗲𝗹𝗳 𝗥𝗲𝗳𝗹𝗲𝗰𝘁𝗶𝗼𝗻

Hoe AI-flexibiliteit de wereldwijde stroomcrisis in datacenters zou kunnen oplossen

𝗧𝗵𝗲 𝗦𝗹𝗼𝘁 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗪𝗮𝘀 𝘁𝗵𝗲 𝗣𝗼𝗶𝗻𝘁