Nvidia संशोधकांनी AI कोडिंग एजंट्सचा वापर करून रोबोट्सना स्वतःहून प्रशिक्षण देण्यास सक्षम केले

रोबोटिक्समधील मॅन्युअल डेटा कलेक्शन आणि मानवी हस्तक्षेपाची सततची गरज या अडथळ्यावर अखेर उपाय शोधला जात आहे. AI कोडिंग एजंट्सचा वापर करून, संशोधकांनी अशी एक प्रणाली विकसित केली आहे जिथे रोबोट्स स्वतःचा ट्रेनिंग कोड स्वायत्तपणे लिहू शकतात आणि वास्तविक जगातील वातावरणात त्यांची कार्यक्षमता (dexterity) सुधारू शकतात.

ENPIRE द्वारे मॅन्युअल अडथळे दूर करणे

पारंपारिकपणे, रोबोटला dexterous grasping सारखी गुंतागुंतीची कामे शिकवण्यासाठी मानवी अभियंत्यांना सीन रिसेट करणे, डेटासेट गोळा करणे आणि अल्गोरिदममध्ये मॅन्युअली बदल करणे आवश्यक असते. ही श्रमसाध्य प्रक्रिया रोबोटिक इंटेलिजन्सच्या विस्तारामध्ये मोठा अडथळा निर्माण करते. हे सोडवण्यासाठी, Nvidia, Carnegie Mellon University आणि UC Berkeley च्या संशोधकांनी ENPIRE सादर केले आहे, जे एक असे फ्रेमवर्क आहे जे प्रशिक्षण प्रक्रियेला 'सेल्फ-सस्टेनिंग फीडबॅक लूप'मध्ये रूपांतरित करते.

मानवी सूचनांची वाट न पाहता, ENPIRE प्रणाली संपूर्ण जीवनचक्र व्यवस्थापित करण्यासाठी AI कोडिंग एजंट्सचा वापर करते: वर्कस्पेस रिसेट करणे, हालचालीची रणनीती राबवणे, निकालाचे मूल्यमापन करणे आणि कामगिरी सुधारण्यासाठी त्वरित कोडमध्ये सुधारणा करणे. यामुळे रोबोटिक्स "human-in-the-loop" कडून "agent-in-the-loop" कडे वळत आहे.

स्वायत्त कोडिंग एजंट्स कार्यक्षमता कशी वाढवतात

ENPIRE फ्रेमवर्क दोन वेगवेगळ्या टप्प्यांत कार्य करते. पहिल्या टप्प्यात, एजंट किमान मानवी मार्गदर्शनाचा वापर करून वर्कस्पेस तयार करतो—ज्यामध्ये अनेकदा यशस्वी आणि अयशस्वी प्रयत्नांचे केवळ काही मिनिटांचे व्हिडिओ असतात. महत्त्वाचे म्हणजे, एजंट स्वतःचे reward functions लिहितो. उदाहरणार्थ, pin insertion कामादरम्यान, एजंटने यशाचा निर्णय घेण्यासाठी व्हिज्युअल अलाइनमेंट, ग्रिपरची उंची आणि अंदाजित बल (force) यांचा एकत्रित वापर करून एक कस्टम चेक विकसित केला.

दुसऱ्या टप्प्यात, एजंट्स पूर्णपणे स्वायत्तपणे कार्य करतात. ते रिसर्च पेपर्स वाचतात, गृहितके (hypotheses) मांडतात आणि थेट ट्रेनिंग कोडमध्ये बदल करतात. कोणता दृष्टिकोन वास्तविक जगातील अधिक चांगले सिग्नल देतो, यावर आधारित ते behavior cloning (मानवी हालचालींची नक्कल करणे) किंवा reinforcement learning (प्रयत्न आणि चूक) यांसारख्या पद्धतींपैकी निवड करू शकतात. चाचणी दरम्यान, संशोधकांनी Codex (GPT-5.5 सह), Claude Code (Opus 4.7 सह) आणि Kimi Code (Kimi K2.6 सह) यांसारख्या हाय-परफॉर्मन्स मॉडेल्सचा वापर केला, ज्यामध्ये Codex सर्वोत्तम कामगिरी करणारा ठरला.

Git-सक्षम रोबोट फ्लीटद्वारे विस्तार (Scaling)

या संशोधनातील सर्वात नाविन्यपूर्ण पैलू म्हणजे आठ ड्युअल-आर्म YAM रोबोट स्टेशन्सच्या ताफ्याचा समन्वय. स्वतंत्रपणे काम करण्याऐवजी, ही स्टेशन्स एका वितरित संशोधन संघाप्रमाणे काम करतात. ते सॉफ्टवेअर इंजिनीअरिंगमध्ये वापरले जाणारे मानक व्हर्जन कंट्रोल टूल Git वापरून त्यांचे निष्कर्ष, यशस्वी "रेसिपी" आणि अयशस्वी गृहितके एकमेकांशी शेअर करतात.

या ताफा-आधारित दृष्टिकोनामुळे वेळेची मोठी बचत होते:

वास्तव आणि सिम्युलेशनमधील तफावत: सिम्युलेशन विरुद्ध हार्डवेअर

या मोठ्या प्रगतीनंतरही, हे संशोधन "sim-to-real" गॅपवर प्रकाश टाकते. सिम्युलेशनमध्ये तिन्ही चाचणी घेतलेल्या एजंट्सनी Push-T टेस्ट यशस्वीपणे सोडवली असली तरी, घर्षण आणि रोबोट डायनॅमिक्स सारख्या अनपेक्षित घटकांमुळे प्रत्यक्ष हार्डवेअरवर काम करताना तीनपैकी दोन एजंट्सना अपयश आले. तथापि, ENPIRE ने GR00T सारख्या प्रस्थापित मॉडेल्सच्या तुलनेत RoboCasa सिम्युलेशनमध्ये उत्कृष्ट कामगिरी प्रदर्शित केली.

जसजसे उद्योग सामान्य-उद्देश रोबोटिक्सकडे (general-purpose robotics) वळत आहे, तसतसे कोडच्या माध्यमातून मशीनची "स्वयं-संशोधन" करण्याची क्षमता ही मर्यादित, पूर्व-प्रोग्राम केलेल्या हालचालींच्या पलीकडे जाऊन खऱ्या, अनुकूलनक्षम बुद्धिमत्तेकडे जाण्यासाठी महत्त्वाची ठरेल.

मुख्य निष्कर्ष