Nvidia के शोधकर्ताओं ने AI कोडिंग एजेंटों का उपयोग करके रोबोट्स को स्वयं प्रशिक्षण देने में सक्षम बनाया

रोबोटिक्स में मैन्युअल डेटा संग्रह और निरंतर मानवीय हस्तक्षेप की बाधा को आखिरकार दूर किया जा रहा है। AI कोडिंग एजेंटों का लाभ उठाकर, शोधकर्ताओं ने एक ऐसी प्रणाली विकसित की है जहाँ रोबोट स्वायत्त रूप से अपना स्वयं का प्रशिक्षण कोड लिख सकते हैं और वास्तविक दुनिया के वातावरण में अपनी निपुणता (dexterity) को निखार सकते हैं।

ENPIRE के साथ मैन्युअल बाधा को तोड़ना

पारंपरिक रूप से, रोबोट को निपुण पकड़ (dexterous grasping) जैसे जटिल कार्य सिखाने के लिए मानव इंजीनियरों को दृश्यों को रीसेट करने, डेटासेट एकत्र करने और एल्गोरिदम को मैन्युअल रूप से बदलने की आवश्यकता होती है। यह श्रम-साध्य प्रक्रिया रोबोटिक इंटेलिजेंस को स्केल करने में एक बड़ी बाधा उत्पन्न करती है। इसे हल करने के लिए, Nvidia, Carnegie Mellon University और UC Berkeley के शोधकर्ताओं ने ENPIRE पेश किया है, जो एक ऐसा फ्रेमवर्क है जो प्रशिक्षण प्रक्रिया को एक स्व-स्थायी फीडबैक लूप में बदल देता है।

मानवीय निर्देशों की प्रतीक्षा करने के बजाय, ENPIRE सिस्टम पूरे लाइफसाइकिल को प्रबंधित करने के लिए AI कोडिंग एजेंटों का उपयोग करता है: वर्कस्पेस को रीसेट करना, मूवमेंट रणनीति को निष्पादित करना, परिणाम का मूल्यांकन करना, और प्रदर्शन में सुधार के लिए तुरंत कोड में सुधार (iterate) करना। यह रोबोटिक्स को "human-in-the-loop" से "agent-in-the-loop" की ओर ले जाता है।

स्वायत्त कोडिंग एजेंट निपुणता को कैसे बढ़ाते हैं

ENPIRE फ्रेमवर्क दो अलग-अलग चरणों में काम करता है। पहले चरण में, एजेंट न्यूनतम मानवीय मार्गदर्शन का उपयोग करके एक वर्कस्पेस स्थापित करता है—अक्सर केवल कुछ मिनटों का वीडियो जिसमें सफल और असफल प्रयास दिखाए गए हों। महत्वपूर्ण बात यह है कि एजेंट अपने स्वयं के रिवॉर्ड फंक्शन (reward functions) लिखता है। उदाहरण के लिए, पिन इंसर्शन (pin insertion) कार्यों के दौरान, एजेंट ने सफलता निर्धारित करने के लिए विजुअल अलाइनमेंट, ग्रिपर की ऊंचाई और अनुमानित बल को संयोजित करने वाला एक कस्टम चेक विकसित किया।

दूसरे चरण में, एजेंट पूरी तरह से स्वायत्तता के साथ काम करते हैं। वे रिसर्च पेपर पढ़ते हैं, परिकल्पनाएं (hypotheses) बनाते हैं और सीधे ट्रेनिंग कोड को एडिट करते हैं। वे इस आधार पर व्यवहार क्लोनिंग (behavior cloning - मानव गतिविधि की नकल करना) या रीइन्फोर्समेंट लर्निंग (reinforcement learning - प्रयास और त्रुटि) जैसे तरीकों के बीच चयन कर सकते हैं कि कौन सा दृष्टिकोण बेहतर वास्तविक दुनिया के संकेत देता है। परीक्षण के दौरान, शोधकर्ताओं ने Codex (GPT-5.5 के साथ), Claude Code (Opus 4.7 के साथ), और Kimi Code (Kimi K2.6 के साथ) सहित उच्च-प्रदर्शन वाले मॉडलों का उपयोग किया, जिसमें Codex सर्वश्रेष्ठ प्रदर्शन करने वाला बनकर उभरा।

Git-सक्षम रोबोट फ़्लीट के माध्यम से स्केलिंग

इस शोध के सबसे अभिनव पहलुओं में से एक आठ ड्यूल-आर्म YAM रोबोट स्टेशनों के बेड़े (fleet) का समन्वय है। अलग-थलग काम करने के बजाय, ये स्टेशन एक वितरित अनुसंधान टीम (distributed research team) के रूप में कार्य करते हैं। वे सॉफ्टवेयर इंजीनियरिंग में उपयोग किए जाने वाले मानक वर्जन कंट्रोल टूल, Git का उपयोग करके अपने निष्कर्ष, सफल "रेसिपी" और विफल परिकल्पनाओं को साझा करते हैं।

यह बेड़े-आधारित दृष्टिकोण भारी समय की बचत प्रदान करता है:

वास्तविकता का अंतर: सिमुलेशन बनाम हार्डवेयर

इन सफलताओं के बावजूद, यह शोध "sim-to-real" अंतर को उजागर करता है। हालांकि परीक्षण किए गए तीनों एजेंटों ने सिमुलेशन में Push-T टेस्ट को हल कर लिया था, लेकिन घर्षण (friction) और रोबोट डायनेमिक्स जैसे अप्रत्याशित चरों के कारण भौतिक हार्डवेयर में स्थानांतरित होने पर तीन में से दो विफल रहे। हालांकि, ENPIRE ने GR00T जैसे स्थापित मॉडलों की तुलना में RoboCasa सिमुलेशन में बेहतर प्रदर्शन किया।

जैसे-जैसे उद्योग सामान्य-उद्देश्य वाले रोबोटिक्स (general-purpose robotics) की ओर बढ़ रहा है, कोड के माध्यम से मशीनों की "स्वयं-अनुसंधान" (self-research) करने की क्षमता, संकीर्ण, पूर्व-प्रोग्राम किए गए गतियों से हटकर वास्तविक, अनुकूलन योग्य बुद्धिमत्ता की ओर बढ़ने की कुंजी होगी।

मुख्य निष्कर्ष