Nvidia સંશોધકોએ AI કોડિંગ એજન્ટ્સનો ઉપયોગ કરીને રોબોટ્સને સ્વયં-તાલીમ આપવા માટે સક્ષમ બનાવ્યા
રોબોટિક્સમાં મેન્યુઅલ ડેટા કલેક્શન અને સતત માનવીય હસ્તક્ષેપની અવરોધક સમસ્યાનું અંતિમ નિરાકરણ લાવી રહ્યું છે. AI કોડિંગ એજન્ટ્સનો ઉપયોગ કરીને, સંશોધકોએ એક એવી સિસ્ટમ વિકસાવી છે જ્યાં રોબોટ્સ સ્વાયત્ત રીતે પોતાનો તાલીમ કોડ લખી શકે છે અને વાસ્તવિક વિશ્વના વાતાવરણમાં તેમની કુશળતા સુધારી શકે છે.
ENPIRE સાથે મેન્યુઅલ અવરોધને તોડવો
પરંપરાગત રીતે, રોબોટને કુશળતાપૂર્વક પકડવા (dexterous grasping) જેવા જટિલ કાર્યો શીખવવા માટે માનવ એન્જિનિયરોએ દ્રશ્યોને રિસેટ કરવા, ડેટાસેટ્સ એકત્રિત કરવા અને અલ્ગોરિધમ્સમાં મેન્યુઅલી ફેરફાર કરવા જરૂરી હોય છે. આ મહેનત માંગી લેતી પ્રક્રિયા રોબોટિક બુદ્ધિના સ્કેલિંગમાં મોટો અવરોધ ઊભો કરે છે. આ સમસ્યાના ઉકેલ માટે, Nvidia, Carnegie Mellon University અને UC Berkeley ના સંશોધકોએ ENPIRE રજૂ કર્યું છે, જે એક એવું ફ્રેમવર્ક છે જે તાલીમ પ્રક્રિયાને સ્વ-નિર્ભર ફીડબેક લૂપમાં પરિવર્તિત કરે છે.
માનવીય સૂચનાઓની રાહ જોવાને બદલે, ENPIRE સિસ્ટમ સમગ્ર જીવનચક્રનું સંચાલન કરવા માટે AI કોડિંગ એજન્ટ્સનો ઉપયોગ કરે છે: વર્કસ્પેસને રિસેટ કરવું, મૂવમેન્ટ સ્ટ્રેટેજી અમલમાં મૂકવી, પરિણામનું મૂલ્યાંકન કરવું અને કામગીરી સુધારવા માટે તરત જ કોડમાં સુધારો કરવો. આ રોબોટિક્સને "human-in-the-loop" થી "agent-in-the-loop" તરફ લઈ જાય છે.
સ્વાયત્ત કોડિંગ એજન્ટ્સ કુશળતા કેવી રીતે વધારે છે
ENPIRE ફ્રેમવર્ક બે અલગ-અલગ તબક્કામાં કાર્ય કરે છે. પ્રથમ તબક્કામાં, એજન્ટ ન્યૂનતમ માનવીય માર્ગદર્શનનો ઉપયોગ કરીને વર્કસ્પેસ સ્થાપિત કરે છે—જેમાં ઘણીવાર સફળ અને નિષ્ફળ પ્રયાસો દર્શાવતા માત્ર થોડી મિનિટોના વીડિયો હોય છે. મહત્વપૂર્ણ રીતે, એજન્ટ તેના પોતાના રિવોર્ડ ફંક્શન્સ લખે છે. ઉદાહરણ તરીકે, પિન ઇન્સર્શન કાર્યો દરમિયાન, એજન્ટ સફળતા નક્કી કરવા માટે વિઝ્યુઅલ એલાઈનમેન્ટ, ગ્રિપરની ઊંચાઈ અને અંદાજિત બળને જોડતી એક કસ્ટમ ચેક સિસ્ટમ વિકસાવી હતી.
બીજા તબક્કામાં, એજન્ટ્સ સંપૂર્ણ સ્વાયત્તતા સાથે કાર્ય કરે છે. તેઓ રિસર્ચ પેપર્સ વાંચે છે, પરિકલ્પનાઓ બનાવે છે અને તાલીમ કોડમાં સીધો ફેરફાર કરે છે. કયો અભિગમ વાસ્તવિક વિશ્વમાં વધુ સારા સિગ્નલ આપે છે તેના આધારે તેઓ બિહેવિયર ક્લોનિંગ (માનવ હલનચલનની નકલ કરવી) અથવા રિઇન્ફોર્સમેન્ટ લર્નિંગ (પ્રયાસ અને ભૂલ) જેવી પદ્ધતિઓ વચ્ચે પસંદગી કરી શકે છે. પરીક્ષણ દરમિયાન, સંશોધકોએ Codex (GPT-5.5 સાથે), Claude Code (Opus 4.7 સાથે), અને Kimi Code (Kimi K2.6 સાથે) સહિતના હાઇ-પરફોર્મન્સ મોડલ્સનો ઉપયોગ કર્યો હતો, જેમાં Codex શ્રેષ્ઠ પ્રદર્શન કરતું મોડલ તરીકે ઉભરી આવ્યું હતું.
Git-સક્ષમ રોબોટ ફ્લીટ દ્વારા સ્કેલિંગ
આ સંશોધનના સૌથી નવીન પાસાઓમાંનું એક આઠ ડ્યુઅલ-આર્મ YAM રોબોટ સ્ટેશનોના કાફલાનું સંકલન છે. અલગ રહીને કામ કરવાને બદલે, આ સ્ટેશનો એક વિતરિત (distributed) સંશોધન ટીમ તરીકે કાર્ય કરે છે. તેઓ સોફ્ટવેર એન્જિનિયરિંગમાં વપરાતા સ્ટાન્ડર્ડ વર્ઝન કંટ્રોલ ટૂલ Git નો ઉપયોગ કરીને તેમના તારણો, સફળ "રેસિપીઝ" અને નિષ્ફળ પરિકલ્પનાઓ શેર કરે છે.
આ કાફલા-આધારિત અભિગમથી સમયની મોટી બચત થાય છે:
- Push-T Test: એકથી આઠ એજન્ટ્સ સુધીના સ્કેલિંગથી કામ પૂર્ણ કરવાનો સમય પાંચ કલાકથી ઘટીને માત્ર બે કલાક થઈ ગયો.
- Pin Insertion: કાર્ય પૂર્ણ કરવાનો સમય 90 મિનિટથી ઘટીને અંદાજે 40 મિનિટ થઈ ગયો.
- Success Rates: કાફલાએ પિનનું વર્ગીકરણ કરવા અને કેબલ ટાઈ કાપવા સહિતના પડકારજનક કાર્યોમાં 99% સુધીની સફળતા મેળવી.
વાસ્તવિકતાનું અંતર: Simulation વિરુદ્ધ Hardware
આ સફળતા છતાં, સંશોધન "sim-to-real" અંતર પર પ્રકાશ પાડે છે. જ્યારે ત્રણેય પરીક્ષિત એજન્ટોએ સિમ્યુલેશનમાં Push-T ટેસ્ટ સફળતાપૂર્વક ઉકેલ્યો, ત્યારે ઘર્ષણ અને રોબોટ ડાયનેમિક્સ જેવા અનિશ્ચિત પરિબળોને કારણે ફિઝિકલ હાર્ડવેર પર સ્થાનાંતરિત કરતી વખતે ત્રણમાંથી બે નિષ્ફળ ગયા. જોકે, ENPIRE એ GR00T જેવા સ્થાપિત મોડલ્સની સરખામણીમાં RoboCasa સિમ્યુલેશનમાં શ્રેષ્ઠ પ્રદર્શન દર્શાવ્યું હતું.
જેમ જેમ ઉદ્યોગ જનરલ-પર્પઝ રોબોટિક્સ તરફ આગળ વધી રહ્યો છે, તેમ કોડ દ્વારા મશીનોની "self-research" કરવાની ક્ષમતા મર્યાદિત, પ્રી-પ્રોગ્રામ્ડ હલનચલનથી આગળ વધીને સાચી, અનુકૂલનશીલ બુદ્ધિ તરફ જવાની ચાવી બનશે.
મુખ્ય તારણો
- Autonomous Iteration: ENPIRE રોબોટ્સને તેમના પોતાના રિવોર્ડ ફંક્શન અને ટ્રેનિંગ કોડ લખવાની મંજૂરી આપે છે, જેનાથી સીન રિસેટ કરવા અથવા અલ્ગોરિધમ્સમાં ફેરફાર કરવા માટે માનવ એન્જિનિયરોની જરૂરિયાત નોંધપાત્ર રીતે ઘટે છે.
- Collaborative Learning: ડેટા શેર કરવા માટે Git નો ઉપયોગ કરીને, આઠ રોબોટ્સનો કાફલો સામૂહિક રીતે એકબીજાની સફળતા અને નિષ્ફળતામાંથી શીખી શકે છે, જેનાથી ટ્રેનિંગની સમયરેખા ઝડપથી આગળ વધે છે.
- Real-World Complexity: જોકે સિસ્ટમ ચોક્કસ કાર્યો પર 99% સુધીની સફળતા પ્રાપ્ત કરે છે, તેમ છતાં સિમ્યુલેટેડ ટ્રેનિંગની સરખામણીમાં ભૌતિક વાતાવરણનું અનિશ્ચિત સ્વરૂપ એક મોટો પડકાર છે.