Peneliti Nvidia Memungkinkan Robot untuk Melatih Diri Sendiri Menggunakan Agen Pengodean AI

Hambatan dalam pengumpulan data manual dan intervensi manusia yang terus-menerus dalam robotika akhirnya mulai teratasi. Dengan memanfaatkan agen pengodean AI, para peneliti telah mengembangkan sistem di mana robot dapat menulis kode pelatihan mereka sendiri secara otonom dan mengasah ketangkasan mereka di lingkungan dunia nyata.

Mengatasi Hambatan Manual dengan ENPIRE

Secara tradisional, mengajarkan tugas-tugas kompleks kepada robot seperti menggenggam dengan tangkas memerlukan insinyur manusia untuk mengatur ulang adegan, mengumpulkan kumpulan data, dan menyesuaikan algoritma secara manual. Proses yang padat karya ini menciptakan titik gesekan besar dalam menskalakan kecerdasan robotik. Untuk mengatasi hal ini, para peneliti dari Nvidia, Carnegie Mellon University, dan UC Berkeley memperkenalkan ENPIRE, sebuah kerangka kerja yang mengubah proses pelatihan menjadi loop umpan balik yang berkelanjutan secara mandiri.

Alih-alih menunggu instruksi manusia, sistem ENPIRE menggunakan agen pengodean AI untuk mengelola seluruh siklus hidup: mengatur ulang ruang kerja, mengeksekusi strategi gerakan, mengevaluasi hasil, dan segera melakukan iterasi pada kode untuk meningkatkan performa. Hal ini mengubah robotika dari "human-in-the-loop" menjadi "agent-in-the-loop."

Bagaimana Agen Pengodean Otonom Mendorong Ketangkasan

Kerangka kerja ENPIRE beroperasi dalam dua fase yang berbeda. Pada fase pertama, agen menetapkan ruang kerja menggunakan panduan manusia yang minimal—seringkali hanya beberapa menit video yang menunjukkan upaya yang berhasil maupun yang gagal. Yang terpenting, agen menulis fungsi imbalan (reward functions) miliknya sendiri. Sebagai contoh, selama tugas penyisipan pin, agen mengembangkan pemeriksaan khusus yang menggabungkan penyelarasan visual, ketinggian penjepit (gripper), dan estimasi gaya untuk menentukan keberhasilan.

Pada fase kedua, para agen beroperasi dengan otonomi penuh. Mereka membaca makalah penelitian, merumuskan hipotesis, dan mengedit kode pelatihan secara langsung. Mereka dapat memilih di antara metode seperti behavior cloning (meniru gerakan manusia) atau reinforcement learning (uji coba/trial and error) berdasarkan pendekatan mana yang memberikan sinyal dunia nyata yang lebih baik. Selama pengujian, para peneliti menggunakan model berperforma tinggi termasuk Codex (dengan GPT-5.5), Claude Code (dengan Opus 4.7), dan Kimi Code (dengan Kimi K2.6), dengan Codex muncul sebagai yang berperforma terbaik.

Penskalaan melalui Armada Robot Berbasis Git

Salah satu aspek paling inovatif dari penelitian ini adalah koordinasi armada delapan stasiun robot YAM lengan ganda. Alih-alih bekerja secara terisolasi, stasiun-stasiun ini bertindak sebagai tim penelitian terdistribusi. Mereka berbagi temuan, "resep" yang berhasil, dan hipotesis yang gagal menggunakan Git, alat kontrol versi standar yang digunakan dalam rekayasa perangkat lunak.

Pendekatan berbasis armada ini memberikan keuntungan waktu yang masif:

Kesenjangan Realitas: Simulasi vs. Perangkat Keras

Terlepas dari terobosan ini, penelitian tersebut menyoroti kesenjangan "sim-to-real". Meskipun ketiga agen yang diuji berhasil menyelesaikan uji Push-T dalam simulasi, dua dari tiga agen gagal saat dipindahkan ke perangkat keras fisik karena variabel yang tidak terduga seperti gesekan dan dinamika robot. Namun, ENPIRE menunjukkan performa yang lebih unggul dalam simulasi RoboCasa dibandingkan dengan model mapan seperti GR00T.

Seiring industri bergerak menuju robotika multiguna, kemampuan mesin untuk "melakukan penelitian mandiri" melalui kode akan menjadi kunci untuk melampaui gerakan sempit yang telah diprogram sebelumnya menuju kecerdasan yang benar-benar adaptif.

Poin-Poin Penting