Penyelidik Nvidia Membolehkan Robot Melatih Diri Sendiri Menggunakan Ejen Pengekodan AI
Kekangan pengumpulan data secara manual dan campur tangan manusia yang berterusan dalam bidang robotik akhirnya sedang ditangani. Dengan memanfaatkan ejen pengekodan AI, penyelidik telah membangunkan satu sistem di mana robot boleh menulis kod latihan mereka sendiri secara autonomi dan memperhalusi ketangkasan mereka dalam persekitaran dunia nyata.
Mengatasi Kekangan Manual dengan ENPIRE
Secara tradisinya, mengajar robot tugasan kompleks seperti genggaman yang tangkas memerlukan jurutera manusia untuk menetapkan semula babak, mengumpul set data, dan mengubah suai algoritma secara manual. Proses yang intensif buruh ini mewujudkan titik geseran yang besar dalam meningkatkan skala kecerdasan robotik. Untuk menyelesaikan masalah ini, penyelidik dari Nvidia, Carnegie Mellon University, dan UC Berkeley memperkenalkan ENPIRE, sebuah rangka kerja yang mengubah proses latihan menjadi gelung maklum balas yang mampan sendiri.
Daripada menunggu arahan manusia, sistem ENPIRE menggunakan ejen pengekodan AI untuk menguruskan keseluruhan kitaran hayat: menetapkan semula ruang kerja, melaksanakan strategi pergerakan, menilai hasil, dan segera melakukan iterasi pada kod untuk meningkatkan prestasi. Ini mengubah robotik daripada "human-in-the-loop" kepada "agent-in-the-loop."
Bagaimana Ejen Pengekodan Autonomi Memacu Ketangkasan
Rangka kerja ENPIRE beroperasi dalam dua fasa yang berbeza. Dalam fasa pertama, ejen menetapkan ruang kerja menggunakan panduan manusia yang minimum—selalunya hanya beberapa minit video yang menunjukkan percubaan yang berjaya dan gagal. Yang paling penting, ejen menulis fungsi ganjaran (reward functions) sendiri. Sebagai contoh, semasa tugasan memasukkan pin, ejen membangunkan semakan tersuai yang menggabungkan penjajaran visual, ketinggian penggenggam (gripper), dan anggaran daya untuk menentukan kejayaan.
Dalam fasa kedua, ejen beroperasi dengan autonomi penuh. Mereka membaca kertas penyelidikan, merangka hipotesis, dan menyunting kod latihan secara langsung. Mereka boleh memilih antara kaedah seperti klon tingkah laku (behavior cloning - meniru pergerakan manusia) atau pembelajaran pengukuhan (reinforcement learning - cuba jaya) berdasarkan pendekatan mana yang menghasilkan isyarat dunia nyata yang lebih baik. Semasa ujian, penyelidik menggunakan model berprestasi tinggi termasuk Codex (dengan GPT-5.5), Claude Code (dengan Opus 4.7), dan Kimi Code (dengan Kimi K2.6), dengan Codex muncul sebagai pendahulu prestasi.
Meningkatkan Skala Melalui Armada Robot Berkeupayaan Git
One of the most innovative aspects of this research is the coordination of a fleet of eight dual-arm YAM robot stations. Rather than working in isolation, these stations act as a distributed research team. They share their findings, successful "recipes," and failed hypotheses using Git, the standard version control tool used in software engineering.
This fleet-based approach yields massive temporal gains:
- Push-T Test: Scaling from one to eight agents reduced completion time from five hours to just two.
- Pin Insertion: Task completion time dropped from over 90 minutes to approximately 40 minutes.
- Success Rates: The fleet achieved up to 99% success on demanding tasks, including sorting pins and cutting cable ties.
The Reality Gap: Simulation vs. Hardware
Despite these breakthroughs, the research highlights the "sim-to-real" gap. While all three tested agents solved the Push-T test in simulation, two out of three failed when transitioned to physical hardware due to unpredictable variables like friction and robot dynamics. However, ENPIRE demonstrated superior performance in the RoboCasa simulation compared to established models like GR00T.
As the industry moves toward general-purpose robotics, the ability for machines to "self-research" through code will be the key to moving beyond narrow, pre-programmed motions toward true, adaptable intelligence.
Key Takeaways
- Autonomous Iteration: ENPIRE allows robots to write their own reward functions and training code, significantly reducing the need for human engineers to reset scenes or tweak algorithms.
- Collaborative Learning: By using Git to share data, a fleet of eight robots can collectively learn from each other's successes and failures, drastically accelerating the training timeline.
- Real-World Complexity: While the system achieves up to 99% success on specific tasks, the unpredictable nature of physical environments remains a significant challenge compared to simulated training.