Peneliti Nvidia Memungkinkan Robot untuk Melatih Diri Sendiri Menggunakan Agen Pengodean AI
Hambatan dalam pengumpulan data manual dan intervensi manusia yang terus-menerus dalam robotika akhirnya mulai teratasi. Dengan memanfaatkan agen pengodean AI, para peneliti telah mengembangkan sistem di mana robot dapat menulis kode pelatihan mereka sendiri secara otonom dan mengasah ketangkasan mereka di lingkungan dunia nyata.
Mengatasi Hambatan Manual dengan ENPIRE
Secara tradisional, mengajarkan tugas-tugas kompleks kepada robot seperti menggenggam dengan tangkas memerlukan insinyur manusia untuk mengatur ulang adegan, mengumpulkan kumpulan data, dan menyesuaikan algoritma secara manual. Proses yang padat karya ini menciptakan titik gesekan besar dalam menskalakan kecerdasan robotik. Untuk mengatasi hal ini, para peneliti dari Nvidia, Carnegie Mellon University, dan UC Berkeley memperkenalkan ENPIRE, sebuah kerangka kerja yang mengubah proses pelatihan menjadi loop umpan balik yang berkelanjutan secara mandiri.
Alih-alih menunggu instruksi manusia, sistem ENPIRE menggunakan agen pengodean AI untuk mengelola seluruh siklus hidup: mengatur ulang ruang kerja, mengeksekusi strategi gerakan, mengevaluasi hasil, dan segera melakukan iterasi pada kode untuk meningkatkan performa. Hal ini mengubah robotika dari "human-in-the-loop" menjadi "agent-in-the-loop."
Bagaimana Agen Pengodean Otonom Mendorong Ketangkasan
Kerangka kerja ENPIRE beroperasi dalam dua fase yang berbeda. Pada fase pertama, agen menetapkan ruang kerja menggunakan panduan manusia yang minimal—seringkali hanya beberapa menit video yang menunjukkan upaya yang berhasil maupun yang gagal. Yang terpenting, agen menulis fungsi imbalan (reward functions) miliknya sendiri. Sebagai contoh, selama tugas penyisipan pin, agen mengembangkan pemeriksaan khusus yang menggabungkan penyelarasan visual, ketinggian penjepit (gripper), dan estimasi gaya untuk menentukan keberhasilan.
Pada fase kedua, para agen beroperasi dengan otonomi penuh. Mereka membaca makalah penelitian, merumuskan hipotesis, dan mengedit kode pelatihan secara langsung. Mereka dapat memilih di antara metode seperti behavior cloning (meniru gerakan manusia) atau reinforcement learning (uji coba/trial and error) berdasarkan pendekatan mana yang memberikan sinyal dunia nyata yang lebih baik. Selama pengujian, para peneliti menggunakan model berperforma tinggi termasuk Codex (dengan GPT-5.5), Claude Code (dengan Opus 4.7), dan Kimi Code (dengan Kimi K2.6), dengan Codex muncul sebagai yang berperforma terbaik.
Penskalaan melalui Armada Robot Berbasis Git
Salah satu aspek paling inovatif dari penelitian ini adalah koordinasi armada delapan stasiun robot YAM lengan ganda. Alih-alih bekerja secara terisolasi, stasiun-stasiun ini bertindak sebagai tim penelitian terdistribusi. Mereka berbagi temuan, "resep" yang berhasil, dan hipotesis yang gagal menggunakan Git, alat kontrol versi standar yang digunakan dalam rekayasa perangkat lunak.
Pendekatan berbasis armada ini memberikan keuntungan waktu yang masif:
- Uji Push-T: Peningkatan skala dari satu menjadi delapan agen mengurangi waktu penyelesaian dari lima jam menjadi hanya dua jam.
- Penyisipan Pin: Waktu penyelesaian tugas turun dari lebih dari 90 menit menjadi sekitar 40 menit.
- Tingkat Keberhasilan: Armada tersebut mencapai keberhasilan hingga 99% pada tugas-tugas yang menuntut, termasuk menyortir pin dan memotong pengikat kabel.
Kesenjangan Realitas: Simulasi vs. Perangkat Keras
Terlepas dari terobosan ini, penelitian tersebut menyoroti kesenjangan "sim-to-real". Meskipun ketiga agen yang diuji berhasil menyelesaikan uji Push-T dalam simulasi, dua dari tiga agen gagal saat dipindahkan ke perangkat keras fisik karena variabel yang tidak terduga seperti gesekan dan dinamika robot. Namun, ENPIRE menunjukkan performa yang lebih unggul dalam simulasi RoboCasa dibandingkan dengan model mapan seperti GR00T.
Seiring industri bergerak menuju robotika multiguna, kemampuan mesin untuk "melakukan penelitian mandiri" melalui kode akan menjadi kunci untuk melampaui gerakan sempit yang telah diprogram sebelumnya menuju kecerdasan yang benar-benar adaptif.
Poin-Poin Penting
- Iterasi Otonom: ENPIRE memungkinkan robot untuk menulis fungsi imbalan (reward functions) dan kode pelatihan mereka sendiri, sehingga secara signifikan mengurangi kebutuhan insinyur manusia untuk mengatur ulang adegan atau menyesuaikan algoritma.
- Pembelajaran Kolaboratif: Dengan menggunakan Git untuk berbagi data, armada delapan robot dapat belajar secara kolektif dari keberhasilan dan kegagalan satu sama lain, yang secara drastis mempercepat lini masa pelatihan.
- Kompleksitas Dunia Nyata: Meskipun sistem mencapai keberhasilan hingga 99% pada tugas-tugas tertentu, sifat lingkungan fisik yang tidak terduga tetap menjadi tantangan signifikan dibandingkan dengan pelatihan simulasi.