Nvidia के शोधकर्ताओं ने AI कोडिंग एजेंटों का उपयोग करके रोबोट्स को स्वयं प्रशिक्षण देने में सक्षम बनाया
रोबोटिक्स में मैन्युअल डेटा संग्रह और निरंतर मानवीय हस्तक्षेप की बाधा को आखिरकार दूर किया जा रहा है। AI कोडिंग एजेंटों का लाभ उठाकर, शोधकर्ताओं ने एक ऐसी प्रणाली विकसित की है जहाँ रोबोट स्वायत्त रूप से अपना स्वयं का प्रशिक्षण कोड लिख सकते हैं और वास्तविक दुनिया के वातावरण में अपनी निपुणता (dexterity) को निखार सकते हैं।
ENPIRE के साथ मैन्युअल बाधा को तोड़ना
पारंपरिक रूप से, रोबोट को निपुण पकड़ (dexterous grasping) जैसे जटिल कार्य सिखाने के लिए मानव इंजीनियरों को दृश्यों को रीसेट करने, डेटासेट एकत्र करने और एल्गोरिदम को मैन्युअल रूप से बदलने की आवश्यकता होती है। यह श्रम-साध्य प्रक्रिया रोबोटिक इंटेलिजेंस को स्केल करने में एक बड़ी बाधा उत्पन्न करती है। इसे हल करने के लिए, Nvidia, Carnegie Mellon University और UC Berkeley के शोधकर्ताओं ने ENPIRE पेश किया है, जो एक ऐसा फ्रेमवर्क है जो प्रशिक्षण प्रक्रिया को एक स्व-स्थायी फीडबैक लूप में बदल देता है।
मानवीय निर्देशों की प्रतीक्षा करने के बजाय, ENPIRE सिस्टम पूरे लाइफसाइकिल को प्रबंधित करने के लिए AI कोडिंग एजेंटों का उपयोग करता है: वर्कस्पेस को रीसेट करना, मूवमेंट रणनीति को निष्पादित करना, परिणाम का मूल्यांकन करना, और प्रदर्शन में सुधार के लिए तुरंत कोड में सुधार (iterate) करना। यह रोबोटिक्स को "human-in-the-loop" से "agent-in-the-loop" की ओर ले जाता है।
स्वायत्त कोडिंग एजेंट निपुणता को कैसे बढ़ाते हैं
ENPIRE फ्रेमवर्क दो अलग-अलग चरणों में काम करता है। पहले चरण में, एजेंट न्यूनतम मानवीय मार्गदर्शन का उपयोग करके एक वर्कस्पेस स्थापित करता है—अक्सर केवल कुछ मिनटों का वीडियो जिसमें सफल और असफल प्रयास दिखाए गए हों। महत्वपूर्ण बात यह है कि एजेंट अपने स्वयं के रिवॉर्ड फंक्शन (reward functions) लिखता है। उदाहरण के लिए, पिन इंसर्शन (pin insertion) कार्यों के दौरान, एजेंट ने सफलता निर्धारित करने के लिए विजुअल अलाइनमेंट, ग्रिपर की ऊंचाई और अनुमानित बल को संयोजित करने वाला एक कस्टम चेक विकसित किया।
दूसरे चरण में, एजेंट पूरी तरह से स्वायत्तता के साथ काम करते हैं। वे रिसर्च पेपर पढ़ते हैं, परिकल्पनाएं (hypotheses) बनाते हैं और सीधे ट्रेनिंग कोड को एडिट करते हैं। वे इस आधार पर व्यवहार क्लोनिंग (behavior cloning - मानव गतिविधि की नकल करना) या रीइन्फोर्समेंट लर्निंग (reinforcement learning - प्रयास और त्रुटि) जैसे तरीकों के बीच चयन कर सकते हैं कि कौन सा दृष्टिकोण बेहतर वास्तविक दुनिया के संकेत देता है। परीक्षण के दौरान, शोधकर्ताओं ने Codex (GPT-5.5 के साथ), Claude Code (Opus 4.7 के साथ), और Kimi Code (Kimi K2.6 के साथ) सहित उच्च-प्रदर्शन वाले मॉडलों का उपयोग किया, जिसमें Codex सर्वश्रेष्ठ प्रदर्शन करने वाला बनकर उभरा।
Git-सक्षम रोबोट फ़्लीट के माध्यम से स्केलिंग
इस शोध के सबसे अभिनव पहलुओं में से एक आठ ड्यूल-आर्म YAM रोबोट स्टेशनों के बेड़े (fleet) का समन्वय है। अलग-थलग काम करने के बजाय, ये स्टेशन एक वितरित अनुसंधान टीम (distributed research team) के रूप में कार्य करते हैं। वे सॉफ्टवेयर इंजीनियरिंग में उपयोग किए जाने वाले मानक वर्जन कंट्रोल टूल, Git का उपयोग करके अपने निष्कर्ष, सफल "रेसिपी" और विफल परिकल्पनाओं को साझा करते हैं।
यह बेड़े-आधारित दृष्टिकोण भारी समय की बचत प्रदान करता है:
- Push-T Test: एक से आठ एजेंटों तक विस्तार करने से कार्य पूरा होने का समय पांच घंटे से घटकर केवल दो घंटे रह गया।
- Pin Insertion: कार्य पूरा होने का समय 90 मिनट से अधिक से घटकर लगभग 40 मिनट हो गया।
- Success Rates: बेड़े ने पिन छाँटने और केबल टाई काटने सहित कठिन कार्यों पर 99% तक सफलता प्राप्त की।
वास्तविकता का अंतर: सिमुलेशन बनाम हार्डवेयर
इन सफलताओं के बावजूद, यह शोध "sim-to-real" अंतर को उजागर करता है। हालांकि परीक्षण किए गए तीनों एजेंटों ने सिमुलेशन में Push-T टेस्ट को हल कर लिया था, लेकिन घर्षण (friction) और रोबोट डायनेमिक्स जैसे अप्रत्याशित चरों के कारण भौतिक हार्डवेयर में स्थानांतरित होने पर तीन में से दो विफल रहे। हालांकि, ENPIRE ने GR00T जैसे स्थापित मॉडलों की तुलना में RoboCasa सिमुलेशन में बेहतर प्रदर्शन किया।
जैसे-जैसे उद्योग सामान्य-उद्देश्य वाले रोबोटिक्स (general-purpose robotics) की ओर बढ़ रहा है, कोड के माध्यम से मशीनों की "स्वयं-अनुसंधान" (self-research) करने की क्षमता, संकीर्ण, पूर्व-प्रोग्राम किए गए गतियों से हटकर वास्तविक, अनुकूलन योग्य बुद्धिमत्ता की ओर बढ़ने की कुंजी होगी।
मुख्य निष्कर्ष
- Autonomous Iteration: ENPIRE रोबोटों को अपने स्वयं के रिवॉर्ड फंक्शन (reward functions) और ट्रेनिंग कोड लिखने की अनुमति देता है, जिससे दृश्यों को रीसेट करने या एल्गोरिदम को बदलने के लिए मानव इंजीनियरों की आवश्यकता काफी कम हो जाती है।
- Collaborative Learning: डेटा साझा करने के लिए Git का उपयोग करके, आठ रोबोटों का बेड़ा सामूहिक रूप से एक-दूसरे की सफलताओं और विफलताओं से सीख सकता है, जिससे प्रशिक्षण की समयसीमा में भारी तेजी आती है।
- Real-World Complexity: हालांकि सिस्टम विशिष्ट कार्यों पर 99% तक सफलता प्राप्त करता है, लेकिन सिमुलेटेड ट्रेनिंग की तुलना में भौतिक वातावरण की अप्रत्याशित प्रकृति एक महत्वपूर्ण चुनौती बनी हुई है।