AI कोडिंग एजंट्सचा वापर करून एनव्हिडिया संशोधकांनी रोबोट्सना स्वतःहून प्रशिक्षण घेण्यास सक्षम केले

📅2 hours ago⏱3 min read

In this article

Nvidia संशोधकांनी AI कोडिंग एजंट्सचा वापर करून रोबोट्सना स्वतःहून प्रशिक्षण देण्यास सक्षम केले

रोबोटिक्समधील मॅन्युअल डेटा कलेक्शन आणि मानवी हस्तक्षेपाची सततची गरज या अडथळ्यावर अखेर उपाय शोधला जात आहे. AI कोडिंग एजंट्सचा वापर करून, संशोधकांनी अशी एक प्रणाली विकसित केली आहे जिथे रोबोट्स स्वतःचा ट्रेनिंग कोड स्वायत्तपणे लिहू शकतात आणि वास्तविक जगातील वातावरणात त्यांची कार्यक्षमता (dexterity) सुधारू शकतात.

ENPIRE द्वारे मॅन्युअल अडथळे दूर करणे

पारंपारिकपणे, रोबोटला dexterous grasping सारखी गुंतागुंतीची कामे शिकवण्यासाठी मानवी अभियंत्यांना सीन रिसेट करणे, डेटासेट गोळा करणे आणि अल्गोरिदममध्ये मॅन्युअली बदल करणे आवश्यक असते. ही श्रमसाध्य प्रक्रिया रोबोटिक इंटेलिजन्सच्या विस्तारामध्ये मोठा अडथळा निर्माण करते. हे सोडवण्यासाठी, Nvidia, Carnegie Mellon University आणि UC Berkeley च्या संशोधकांनी ENPIRE सादर केले आहे, जे एक असे फ्रेमवर्क आहे जे प्रशिक्षण प्रक्रियेला 'सेल्फ-सस्टेनिंग फीडबॅक लूप'मध्ये रूपांतरित करते.

मानवी सूचनांची वाट न पाहता, ENPIRE प्रणाली संपूर्ण जीवनचक्र व्यवस्थापित करण्यासाठी AI कोडिंग एजंट्सचा वापर करते: वर्कस्पेस रिसेट करणे, हालचालीची रणनीती राबवणे, निकालाचे मूल्यमापन करणे आणि कामगिरी सुधारण्यासाठी त्वरित कोडमध्ये सुधारणा करणे. यामुळे रोबोटिक्स "human-in-the-loop" कडून "agent-in-the-loop" कडे वळत आहे.

स्वायत्त कोडिंग एजंट्स कार्यक्षमता कशी वाढवतात

ENPIRE फ्रेमवर्क दोन वेगवेगळ्या टप्प्यांत कार्य करते. पहिल्या टप्प्यात, एजंट किमान मानवी मार्गदर्शनाचा वापर करून वर्कस्पेस तयार करतो—ज्यामध्ये अनेकदा यशस्वी आणि अयशस्वी प्रयत्नांचे केवळ काही मिनिटांचे व्हिडिओ असतात. महत्त्वाचे म्हणजे, एजंट स्वतःचे reward functions लिहितो. उदाहरणार्थ, pin insertion कामादरम्यान, एजंटने यशाचा निर्णय घेण्यासाठी व्हिज्युअल अलाइनमेंट, ग्रिपरची उंची आणि अंदाजित बल (force) यांचा एकत्रित वापर करून एक कस्टम चेक विकसित केला.

दुसऱ्या टप्प्यात, एजंट्स पूर्णपणे स्वायत्तपणे कार्य करतात. ते रिसर्च पेपर्स वाचतात, गृहितके (hypotheses) मांडतात आणि थेट ट्रेनिंग कोडमध्ये बदल करतात. कोणता दृष्टिकोन वास्तविक जगातील अधिक चांगले सिग्नल देतो, यावर आधारित ते behavior cloning (मानवी हालचालींची नक्कल करणे) किंवा reinforcement learning (प्रयत्न आणि चूक) यांसारख्या पद्धतींपैकी निवड करू शकतात. चाचणी दरम्यान, संशोधकांनी Codex (GPT-5.5 सह), Claude Code (Opus 4.7 सह) आणि Kimi Code (Kimi K2.6 सह) यांसारख्या हाय-परफॉर्मन्स मॉडेल्सचा वापर केला, ज्यामध्ये Codex सर्वोत्तम कामगिरी करणारा ठरला.

Git-सक्षम रोबोट फ्लीटद्वारे विस्तार (Scaling)

या संशोधनातील सर्वात नाविन्यपूर्ण पैलू म्हणजे आठ ड्युअल-आर्म YAM रोबोट स्टेशन्सच्या ताफ्याचा समन्वय. स्वतंत्रपणे काम करण्याऐवजी, ही स्टेशन्स एका वितरित संशोधन संघाप्रमाणे काम करतात. ते सॉफ्टवेअर इंजिनीअरिंगमध्ये वापरले जाणारे मानक व्हर्जन कंट्रोल टूल Git वापरून त्यांचे निष्कर्ष, यशस्वी "रेसिपी" आणि अयशस्वी गृहितके एकमेकांशी शेअर करतात.

या ताफा-आधारित दृष्टिकोनामुळे वेळेची मोठी बचत होते:

Push-T Test: एका एजंटपासून आठ एजंट्सपर्यंत विस्तार केल्यामुळे पूर्ण होण्याचा वेळ पाच तासांवरून केवळ दोन तासांवर आला.
Pin Insertion: कार्य पूर्ण करण्याचा वेळ ९० मिनिटांहून अधिक वरून अंदाजे ४० मिनिटांपर्यंत कमी झाला.
Success Rates: पिन सॉर्टिंग आणि केबल टाईज कापण्यासारख्या कठीण कामांमध्ये या ताफ्याने ९९% पर्यंत यश मिळवले.

वास्तव आणि सिम्युलेशनमधील तफावत: सिम्युलेशन विरुद्ध हार्डवेअर

या मोठ्या प्रगतीनंतरही, हे संशोधन "sim-to-real" गॅपवर प्रकाश टाकते. सिम्युलेशनमध्ये तिन्ही चाचणी घेतलेल्या एजंट्सनी Push-T टेस्ट यशस्वीपणे सोडवली असली तरी, घर्षण आणि रोबोट डायनॅमिक्स सारख्या अनपेक्षित घटकांमुळे प्रत्यक्ष हार्डवेअरवर काम करताना तीनपैकी दोन एजंट्सना अपयश आले. तथापि, ENPIRE ने GR00T सारख्या प्रस्थापित मॉडेल्सच्या तुलनेत RoboCasa सिम्युलेशनमध्ये उत्कृष्ट कामगिरी प्रदर्शित केली.

जसजसे उद्योग सामान्य-उद्देश रोबोटिक्सकडे (general-purpose robotics) वळत आहे, तसतसे कोडच्या माध्यमातून मशीनची "स्वयं-संशोधन" करण्याची क्षमता ही मर्यादित, पूर्व-प्रोग्राम केलेल्या हालचालींच्या पलीकडे जाऊन खऱ्या, अनुकूलनक्षम बुद्धिमत्तेकडे जाण्यासाठी महत्त्वाची ठरेल.

मुख्य निष्कर्ष

Autonomous Iteration: ENPIRE रोबोट्सना त्यांचे स्वतःचे रिवॉर्ड फंक्शन्स आणि ट्रेनिंग कोड लिहिण्याची परवानगी देते, ज्यामुळे मानवी इंजिनीअर्सना सीन्स रिसेट करण्याची किंवा अल्गोरिदममध्ये बदल करण्याची गरज लक्षणीयरीत्या कमी होते.
Collaborative Learning: डेटा शेअर करण्यासाठी Git चा वापर करून, आठ रोबोट्सचा ताफा एकमेकांच्या यशातून आणि अपयशातून सामूहिकपणे शिकू शकतो, ज्यामुळे ट्रेनिंगचा कालावधी वेगाने कमी होतो.
Real-World Complexity: जरी हे सिस्टम विशिष्ट कामांमध्ये ९९% पर्यंत यश मिळवत असले, तरी सिम्युलेटेड ट्रेनिंगच्या तुलनेत भौतिक वातावरणाचे अनपेक्षित स्वरूप हे अजूनही एक मोठे आव्हान आहे.

AI कोडिंग एजंट्सचा वापर करून एनव्हिडिया संशोधकांनी रोबोट्सना स्वतःहून प्रशिक्षण घेण्यास सक्षम केले

Nvidia संशोधकांनी AI कोडिंग एजंट्सचा वापर करून रोबोट्सना स्वतःहून प्रशिक्षण देण्यास सक्षम केले

ENPIRE द्वारे मॅन्युअल अडथळे दूर करणे

स्वायत्त कोडिंग एजंट्स कार्यक्षमता कशी वाढवतात

Git-सक्षम रोबोट फ्लीटद्वारे विस्तार (Scaling)

वास्तव आणि सिम्युलेशनमधील तफावत: सिम्युलेशन विरुद्ध हार्डवेअर

मुख्य निष्कर्ष

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

एजेंटिक एआय गव्हर्नन्स फ्रेमवर्क

AI आत्म-चिंतन

एआय लवचिकता जागतिक डेटा सेंटरमधील वीज संकट कसे सोडवू शकते

𝗧𝗵𝗲 𝗦𝗹𝗼𝘁 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗪𝗮𝘀 𝘁𝗵𝗲 𝗣𝗼𝗶𝗻𝘁