Nvidia સંશોધકોએ AI કોડિંગ એજન્ટ્સનો ઉપયોગ કરીને રોબોટ્સને સ્વયં-તાલીમ આપવા માટે સક્ષમ બનાવ્યા

રોબોટિક્સમાં મેન્યુઅલ ડેટા કલેક્શન અને સતત માનવીય હસ્તક્ષેપની અવરોધક સમસ્યાનું અંતિમ નિરાકરણ લાવી રહ્યું છે. AI કોડિંગ એજન્ટ્સનો ઉપયોગ કરીને, સંશોધકોએ એક એવી સિસ્ટમ વિકસાવી છે જ્યાં રોબોટ્સ સ્વાયત્ત રીતે પોતાનો તાલીમ કોડ લખી શકે છે અને વાસ્તવિક વિશ્વના વાતાવરણમાં તેમની કુશળતા સુધારી શકે છે.

ENPIRE સાથે મેન્યુઅલ અવરોધને તોડવો

પરંપરાગત રીતે, રોબોટને કુશળતાપૂર્વક પકડવા (dexterous grasping) જેવા જટિલ કાર્યો શીખવવા માટે માનવ એન્જિનિયરોએ દ્રશ્યોને રિસેટ કરવા, ડેટાસેટ્સ એકત્રિત કરવા અને અલ્ગોરિધમ્સમાં મેન્યુઅલી ફેરફાર કરવા જરૂરી હોય છે. આ મહેનત માંગી લેતી પ્રક્રિયા રોબોટિક બુદ્ધિના સ્કેલિંગમાં મોટો અવરોધ ઊભો કરે છે. આ સમસ્યાના ઉકેલ માટે, Nvidia, Carnegie Mellon University અને UC Berkeley ના સંશોધકોએ ENPIRE રજૂ કર્યું છે, જે એક એવું ફ્રેમવર્ક છે જે તાલીમ પ્રક્રિયાને સ્વ-નિર્ભર ફીડબેક લૂપમાં પરિવર્તિત કરે છે.

માનવીય સૂચનાઓની રાહ જોવાને બદલે, ENPIRE સિસ્ટમ સમગ્ર જીવનચક્રનું સંચાલન કરવા માટે AI કોડિંગ એજન્ટ્સનો ઉપયોગ કરે છે: વર્કસ્પેસને રિસેટ કરવું, મૂવમેન્ટ સ્ટ્રેટેજી અમલમાં મૂકવી, પરિણામનું મૂલ્યાંકન કરવું અને કામગીરી સુધારવા માટે તરત જ કોડમાં સુધારો કરવો. આ રોબોટિક્સને "human-in-the-loop" થી "agent-in-the-loop" તરફ લઈ જાય છે.

સ્વાયત્ત કોડિંગ એજન્ટ્સ કુશળતા કેવી રીતે વધારે છે

ENPIRE ફ્રેમવર્ક બે અલગ-અલગ તબક્કામાં કાર્ય કરે છે. પ્રથમ તબક્કામાં, એજન્ટ ન્યૂનતમ માનવીય માર્ગદર્શનનો ઉપયોગ કરીને વર્કસ્પેસ સ્થાપિત કરે છે—જેમાં ઘણીવાર સફળ અને નિષ્ફળ પ્રયાસો દર્શાવતા માત્ર થોડી મિનિટોના વીડિયો હોય છે. મહત્વપૂર્ણ રીતે, એજન્ટ તેના પોતાના રિવોર્ડ ફંક્શન્સ લખે છે. ઉદાહરણ તરીકે, પિન ઇન્સર્શન કાર્યો દરમિયાન, એજન્ટ સફળતા નક્કી કરવા માટે વિઝ્યુઅલ એલાઈનમેન્ટ, ગ્રિપરની ઊંચાઈ અને અંદાજિત બળને જોડતી એક કસ્ટમ ચેક સિસ્ટમ વિકસાવી હતી.

બીજા તબક્કામાં, એજન્ટ્સ સંપૂર્ણ સ્વાયત્તતા સાથે કાર્ય કરે છે. તેઓ રિસર્ચ પેપર્સ વાંચે છે, પરિકલ્પનાઓ બનાવે છે અને તાલીમ કોડમાં સીધો ફેરફાર કરે છે. કયો અભિગમ વાસ્તવિક વિશ્વમાં વધુ સારા સિગ્નલ આપે છે તેના આધારે તેઓ બિહેવિયર ક્લોનિંગ (માનવ હલનચલનની નકલ કરવી) અથવા રિઇન્ફોર્સમેન્ટ લર્નિંગ (પ્રયાસ અને ભૂલ) જેવી પદ્ધતિઓ વચ્ચે પસંદગી કરી શકે છે. પરીક્ષણ દરમિયાન, સંશોધકોએ Codex (GPT-5.5 સાથે), Claude Code (Opus 4.7 સાથે), અને Kimi Code (Kimi K2.6 સાથે) સહિતના હાઇ-પરફોર્મન્સ મોડલ્સનો ઉપયોગ કર્યો હતો, જેમાં Codex શ્રેષ્ઠ પ્રદર્શન કરતું મોડલ તરીકે ઉભરી આવ્યું હતું.

Git-સક્ષમ રોબોટ ફ્લીટ દ્વારા સ્કેલિંગ

આ સંશોધનના સૌથી નવીન પાસાઓમાંનું એક આઠ ડ્યુઅલ-આર્મ YAM રોબોટ સ્ટેશનોના કાફલાનું સંકલન છે. અલગ રહીને કામ કરવાને બદલે, આ સ્ટેશનો એક વિતરિત (distributed) સંશોધન ટીમ તરીકે કાર્ય કરે છે. તેઓ સોફ્ટવેર એન્જિનિયરિંગમાં વપરાતા સ્ટાન્ડર્ડ વર્ઝન કંટ્રોલ ટૂલ Git નો ઉપયોગ કરીને તેમના તારણો, સફળ "રેસિપીઝ" અને નિષ્ફળ પરિકલ્પનાઓ શેર કરે છે.

આ કાફલા-આધારિત અભિગમથી સમયની મોટી બચત થાય છે:

વાસ્તવિકતાનું અંતર: Simulation વિરુદ્ધ Hardware

આ સફળતા છતાં, સંશોધન "sim-to-real" અંતર પર પ્રકાશ પાડે છે. જ્યારે ત્રણેય પરીક્ષિત એજન્ટોએ સિમ્યુલેશનમાં Push-T ટેસ્ટ સફળતાપૂર્વક ઉકેલ્યો, ત્યારે ઘર્ષણ અને રોબોટ ડાયનેમિક્સ જેવા અનિશ્ચિત પરિબળોને કારણે ફિઝિકલ હાર્ડવેર પર સ્થાનાંતરિત કરતી વખતે ત્રણમાંથી બે નિષ્ફળ ગયા. જોકે, ENPIRE એ GR00T જેવા સ્થાપિત મોડલ્સની સરખામણીમાં RoboCasa સિમ્યુલેશનમાં શ્રેષ્ઠ પ્રદર્શન દર્શાવ્યું હતું.

જેમ જેમ ઉદ્યોગ જનરલ-પર્પઝ રોબોટિક્સ તરફ આગળ વધી રહ્યો છે, તેમ કોડ દ્વારા મશીનોની "self-research" કરવાની ક્ષમતા મર્યાદિત, પ્રી-પ્રોગ્રામ્ડ હલનચલનથી આગળ વધીને સાચી, અનુકૂલનશીલ બુદ્ધિ તરફ જવાની ચાવી બનશે.

મુખ્ય તારણો