Nvidia के शोधकर्ताओं ने AI कोडिंग एजेंटों का उपयोग करके रोबोट्स को स्वयं प्रशिक्षित करने में सक्षम बनाया

📅2 hours ago⏱3 min read

In this article

Nvidia के शोधकर्ताओं ने AI कोडिंग एजेंटों का उपयोग करके रोबोट्स को स्वयं प्रशिक्षण देने में सक्षम बनाया

रोबोटिक्स में मैन्युअल डेटा संग्रह और निरंतर मानवीय हस्तक्षेप की बाधा को आखिरकार दूर किया जा रहा है। AI कोडिंग एजेंटों का लाभ उठाकर, शोधकर्ताओं ने एक ऐसी प्रणाली विकसित की है जहाँ रोबोट स्वायत्त रूप से अपना स्वयं का प्रशिक्षण कोड लिख सकते हैं और वास्तविक दुनिया के वातावरण में अपनी निपुणता (dexterity) को निखार सकते हैं।

ENPIRE के साथ मैन्युअल बाधा को तोड़ना

पारंपरिक रूप से, रोबोट को निपुण पकड़ (dexterous grasping) जैसे जटिल कार्य सिखाने के लिए मानव इंजीनियरों को दृश्यों को रीसेट करने, डेटासेट एकत्र करने और एल्गोरिदम को मैन्युअल रूप से बदलने की आवश्यकता होती है। यह श्रम-साध्य प्रक्रिया रोबोटिक इंटेलिजेंस को स्केल करने में एक बड़ी बाधा उत्पन्न करती है। इसे हल करने के लिए, Nvidia, Carnegie Mellon University और UC Berkeley के शोधकर्ताओं ने ENPIRE पेश किया है, जो एक ऐसा फ्रेमवर्क है जो प्रशिक्षण प्रक्रिया को एक स्व-स्थायी फीडबैक लूप में बदल देता है।

मानवीय निर्देशों की प्रतीक्षा करने के बजाय, ENPIRE सिस्टम पूरे लाइफसाइकिल को प्रबंधित करने के लिए AI कोडिंग एजेंटों का उपयोग करता है: वर्कस्पेस को रीसेट करना, मूवमेंट रणनीति को निष्पादित करना, परिणाम का मूल्यांकन करना, और प्रदर्शन में सुधार के लिए तुरंत कोड में सुधार (iterate) करना। यह रोबोटिक्स को "human-in-the-loop" से "agent-in-the-loop" की ओर ले जाता है।

स्वायत्त कोडिंग एजेंट निपुणता को कैसे बढ़ाते हैं

ENPIRE फ्रेमवर्क दो अलग-अलग चरणों में काम करता है। पहले चरण में, एजेंट न्यूनतम मानवीय मार्गदर्शन का उपयोग करके एक वर्कस्पेस स्थापित करता है—अक्सर केवल कुछ मिनटों का वीडियो जिसमें सफल और असफल प्रयास दिखाए गए हों। महत्वपूर्ण बात यह है कि एजेंट अपने स्वयं के रिवॉर्ड फंक्शन (reward functions) लिखता है। उदाहरण के लिए, पिन इंसर्शन (pin insertion) कार्यों के दौरान, एजेंट ने सफलता निर्धारित करने के लिए विजुअल अलाइनमेंट, ग्रिपर की ऊंचाई और अनुमानित बल को संयोजित करने वाला एक कस्टम चेक विकसित किया।

दूसरे चरण में, एजेंट पूरी तरह से स्वायत्तता के साथ काम करते हैं। वे रिसर्च पेपर पढ़ते हैं, परिकल्पनाएं (hypotheses) बनाते हैं और सीधे ट्रेनिंग कोड को एडिट करते हैं। वे इस आधार पर व्यवहार क्लोनिंग (behavior cloning - मानव गतिविधि की नकल करना) या रीइन्फोर्समेंट लर्निंग (reinforcement learning - प्रयास और त्रुटि) जैसे तरीकों के बीच चयन कर सकते हैं कि कौन सा दृष्टिकोण बेहतर वास्तविक दुनिया के संकेत देता है। परीक्षण के दौरान, शोधकर्ताओं ने Codex (GPT-5.5 के साथ), Claude Code (Opus 4.7 के साथ), और Kimi Code (Kimi K2.6 के साथ) सहित उच्च-प्रदर्शन वाले मॉडलों का उपयोग किया, जिसमें Codex सर्वश्रेष्ठ प्रदर्शन करने वाला बनकर उभरा।

Git-सक्षम रोबोट फ़्लीट के माध्यम से स्केलिंग

इस शोध के सबसे अभिनव पहलुओं में से एक आठ ड्यूल-आर्म YAM रोबोट स्टेशनों के बेड़े (fleet) का समन्वय है। अलग-थलग काम करने के बजाय, ये स्टेशन एक वितरित अनुसंधान टीम (distributed research team) के रूप में कार्य करते हैं। वे सॉफ्टवेयर इंजीनियरिंग में उपयोग किए जाने वाले मानक वर्जन कंट्रोल टूल, Git का उपयोग करके अपने निष्कर्ष, सफल "रेसिपी" और विफल परिकल्पनाओं को साझा करते हैं।

यह बेड़े-आधारित दृष्टिकोण भारी समय की बचत प्रदान करता है:

Push-T Test: एक से आठ एजेंटों तक विस्तार करने से कार्य पूरा होने का समय पांच घंटे से घटकर केवल दो घंटे रह गया।
Pin Insertion: कार्य पूरा होने का समय 90 मिनट से अधिक से घटकर लगभग 40 मिनट हो गया।
Success Rates: बेड़े ने पिन छाँटने और केबल टाई काटने सहित कठिन कार्यों पर 99% तक सफलता प्राप्त की।

वास्तविकता का अंतर: सिमुलेशन बनाम हार्डवेयर

इन सफलताओं के बावजूद, यह शोध "sim-to-real" अंतर को उजागर करता है। हालांकि परीक्षण किए गए तीनों एजेंटों ने सिमुलेशन में Push-T टेस्ट को हल कर लिया था, लेकिन घर्षण (friction) और रोबोट डायनेमिक्स जैसे अप्रत्याशित चरों के कारण भौतिक हार्डवेयर में स्थानांतरित होने पर तीन में से दो विफल रहे। हालांकि, ENPIRE ने GR00T जैसे स्थापित मॉडलों की तुलना में RoboCasa सिमुलेशन में बेहतर प्रदर्शन किया।

जैसे-जैसे उद्योग सामान्य-उद्देश्य वाले रोबोटिक्स (general-purpose robotics) की ओर बढ़ रहा है, कोड के माध्यम से मशीनों की "स्वयं-अनुसंधान" (self-research) करने की क्षमता, संकीर्ण, पूर्व-प्रोग्राम किए गए गतियों से हटकर वास्तविक, अनुकूलन योग्य बुद्धिमत्ता की ओर बढ़ने की कुंजी होगी।

मुख्य निष्कर्ष

Autonomous Iteration: ENPIRE रोबोटों को अपने स्वयं के रिवॉर्ड फंक्शन (reward functions) और ट्रेनिंग कोड लिखने की अनुमति देता है, जिससे दृश्यों को रीसेट करने या एल्गोरिदम को बदलने के लिए मानव इंजीनियरों की आवश्यकता काफी कम हो जाती है।
Collaborative Learning: डेटा साझा करने के लिए Git का उपयोग करके, आठ रोबोटों का बेड़ा सामूहिक रूप से एक-दूसरे की सफलताओं और विफलताओं से सीख सकता है, जिससे प्रशिक्षण की समयसीमा में भारी तेजी आती है।
Real-World Complexity: हालांकि सिस्टम विशिष्ट कार्यों पर 99% तक सफलता प्राप्त करता है, लेकिन सिमुलेटेड ट्रेनिंग की तुलना में भौतिक वातावरण की अप्रत्याशित प्रकृति एक महत्वपूर्ण चुनौती बनी हुई है।

Nvidia के शोधकर्ताओं ने AI कोडिंग एजेंटों का उपयोग करके रोबोट्स को स्वयं प्रशिक्षित करने में सक्षम बनाया

Nvidia के शोधकर्ताओं ने AI कोडिंग एजेंटों का उपयोग करके रोबोट्स को स्वयं प्रशिक्षण देने में सक्षम बनाया

ENPIRE के साथ मैन्युअल बाधा को तोड़ना

स्वायत्त कोडिंग एजेंट निपुणता को कैसे बढ़ाते हैं

Git-सक्षम रोबोट फ़्लीट के माध्यम से स्केलिंग

वास्तविकता का अंतर: सिमुलेशन बनाम हार्डवेयर

मुख्य निष्कर्ष

Continue reading

द ह्यूमन इन द लूप SRE

एजेंटिक एआई गवर्नेंस फ्रेमवर्क

𝗔𝗜 𝗦𝗲𝗹𝗳 𝗥𝗲𝗳𝗹𝗲𝗰𝘁𝗶𝗼𝗻

How AI Flexibility Could Solve the Global Data Center Power Crunch

𝗧𝗵𝗲 𝗦𝗹𝗼𝘁 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗪𝗮𝘀 𝘁𝗵𝗲 𝗣𝗼𝗶𝗻𝘁