Nvidia Researchers Enable Robots to Self Train Using AI Coding Agents

📅2 hours ago⏱3 min read

In this article

Nvidia સંશોધકોએ AI કોડિંગ એજન્ટ્સનો ઉપયોગ કરીને રોબોટ્સને સ્વયં-તાલીમ આપવા માટે સક્ષમ બનાવ્યા

રોબોટિક્સમાં મેન્યુઅલ ડેટા કલેક્શન અને સતત માનવીય હસ્તક્ષેપની અવરોધક સમસ્યાનું અંતિમ નિરાકરણ લાવી રહ્યું છે. AI કોડિંગ એજન્ટ્સનો ઉપયોગ કરીને, સંશોધકોએ એક એવી સિસ્ટમ વિકસાવી છે જ્યાં રોબોટ્સ સ્વાયત્ત રીતે પોતાનો તાલીમ કોડ લખી શકે છે અને વાસ્તવિક વિશ્વના વાતાવરણમાં તેમની કુશળતા સુધારી શકે છે.

ENPIRE સાથે મેન્યુઅલ અવરોધને તોડવો

પરંપરાગત રીતે, રોબોટને કુશળતાપૂર્વક પકડવા (dexterous grasping) જેવા જટિલ કાર્યો શીખવવા માટે માનવ એન્જિનિયરોએ દ્રશ્યોને રિસેટ કરવા, ડેટાસેટ્સ એકત્રિત કરવા અને અલ્ગોરિધમ્સમાં મેન્યુઅલી ફેરફાર કરવા જરૂરી હોય છે. આ મહેનત માંગી લેતી પ્રક્રિયા રોબોટિક બુદ્ધિના સ્કેલિંગમાં મોટો અવરોધ ઊભો કરે છે. આ સમસ્યાના ઉકેલ માટે, Nvidia, Carnegie Mellon University અને UC Berkeley ના સંશોધકોએ ENPIRE રજૂ કર્યું છે, જે એક એવું ફ્રેમવર્ક છે જે તાલીમ પ્રક્રિયાને સ્વ-નિર્ભર ફીડબેક લૂપમાં પરિવર્તિત કરે છે.

માનવીય સૂચનાઓની રાહ જોવાને બદલે, ENPIRE સિસ્ટમ સમગ્ર જીવનચક્રનું સંચાલન કરવા માટે AI કોડિંગ એજન્ટ્સનો ઉપયોગ કરે છે: વર્કસ્પેસને રિસેટ કરવું, મૂવમેન્ટ સ્ટ્રેટેજી અમલમાં મૂકવી, પરિણામનું મૂલ્યાંકન કરવું અને કામગીરી સુધારવા માટે તરત જ કોડમાં સુધારો કરવો. આ રોબોટિક્સને "human-in-the-loop" થી "agent-in-the-loop" તરફ લઈ જાય છે.

સ્વાયત્ત કોડિંગ એજન્ટ્સ કુશળતા કેવી રીતે વધારે છે

ENPIRE ફ્રેમવર્ક બે અલગ-અલગ તબક્કામાં કાર્ય કરે છે. પ્રથમ તબક્કામાં, એજન્ટ ન્યૂનતમ માનવીય માર્ગદર્શનનો ઉપયોગ કરીને વર્કસ્પેસ સ્થાપિત કરે છે—જેમાં ઘણીવાર સફળ અને નિષ્ફળ પ્રયાસો દર્શાવતા માત્ર થોડી મિનિટોના વીડિયો હોય છે. મહત્વપૂર્ણ રીતે, એજન્ટ તેના પોતાના રિવોર્ડ ફંક્શન્સ લખે છે. ઉદાહરણ તરીકે, પિન ઇન્સર્શન કાર્યો દરમિયાન, એજન્ટ સફળતા નક્કી કરવા માટે વિઝ્યુઅલ એલાઈનમેન્ટ, ગ્રિપરની ઊંચાઈ અને અંદાજિત બળને જોડતી એક કસ્ટમ ચેક સિસ્ટમ વિકસાવી હતી.

બીજા તબક્કામાં, એજન્ટ્સ સંપૂર્ણ સ્વાયત્તતા સાથે કાર્ય કરે છે. તેઓ રિસર્ચ પેપર્સ વાંચે છે, પરિકલ્પનાઓ બનાવે છે અને તાલીમ કોડમાં સીધો ફેરફાર કરે છે. કયો અભિગમ વાસ્તવિક વિશ્વમાં વધુ સારા સિગ્નલ આપે છે તેના આધારે તેઓ બિહેવિયર ક્લોનિંગ (માનવ હલનચલનની નકલ કરવી) અથવા રિઇન્ફોર્સમેન્ટ લર્નિંગ (પ્રયાસ અને ભૂલ) જેવી પદ્ધતિઓ વચ્ચે પસંદગી કરી શકે છે. પરીક્ષણ દરમિયાન, સંશોધકોએ Codex (GPT-5.5 સાથે), Claude Code (Opus 4.7 સાથે), અને Kimi Code (Kimi K2.6 સાથે) સહિતના હાઇ-પરફોર્મન્સ મોડલ્સનો ઉપયોગ કર્યો હતો, જેમાં Codex શ્રેષ્ઠ પ્રદર્શન કરતું મોડલ તરીકે ઉભરી આવ્યું હતું.

Git-સક્ષમ રોબોટ ફ્લીટ દ્વારા સ્કેલિંગ

આ સંશોધનના સૌથી નવીન પાસાઓમાંનું એક આઠ ડ્યુઅલ-આર્મ YAM રોબોટ સ્ટેશનોના કાફલાનું સંકલન છે. અલગ રહીને કામ કરવાને બદલે, આ સ્ટેશનો એક વિતરિત (distributed) સંશોધન ટીમ તરીકે કાર્ય કરે છે. તેઓ સોફ્ટવેર એન્જિનિયરિંગમાં વપરાતા સ્ટાન્ડર્ડ વર્ઝન કંટ્રોલ ટૂલ Git નો ઉપયોગ કરીને તેમના તારણો, સફળ "રેસિપીઝ" અને નિષ્ફળ પરિકલ્પનાઓ શેર કરે છે.

આ કાફલા-આધારિત અભિગમથી સમયની મોટી બચત થાય છે:

Push-T Test: એકથી આઠ એજન્ટ્સ સુધીના સ્કેલિંગથી કામ પૂર્ણ કરવાનો સમય પાંચ કલાકથી ઘટીને માત્ર બે કલાક થઈ ગયો.
Pin Insertion: કાર્ય પૂર્ણ કરવાનો સમય 90 મિનિટથી ઘટીને અંદાજે 40 મિનિટ થઈ ગયો.
Success Rates: કાફલાએ પિનનું વર્ગીકરણ કરવા અને કેબલ ટાઈ કાપવા સહિતના પડકારજનક કાર્યોમાં 99% સુધીની સફળતા મેળવી.

વાસ્તવિકતાનું અંતર: Simulation વિરુદ્ધ Hardware

આ સફળતા છતાં, સંશોધન "sim-to-real" અંતર પર પ્રકાશ પાડે છે. જ્યારે ત્રણેય પરીક્ષિત એજન્ટોએ સિમ્યુલેશનમાં Push-T ટેસ્ટ સફળતાપૂર્વક ઉકેલ્યો, ત્યારે ઘર્ષણ અને રોબોટ ડાયનેમિક્સ જેવા અનિશ્ચિત પરિબળોને કારણે ફિઝિકલ હાર્ડવેર પર સ્થાનાંતરિત કરતી વખતે ત્રણમાંથી બે નિષ્ફળ ગયા. જોકે, ENPIRE એ GR00T જેવા સ્થાપિત મોડલ્સની સરખામણીમાં RoboCasa સિમ્યુલેશનમાં શ્રેષ્ઠ પ્રદર્શન દર્શાવ્યું હતું.

જેમ જેમ ઉદ્યોગ જનરલ-પર્પઝ રોબોટિક્સ તરફ આગળ વધી રહ્યો છે, તેમ કોડ દ્વારા મશીનોની "self-research" કરવાની ક્ષમતા મર્યાદિત, પ્રી-પ્રોગ્રામ્ડ હલનચલનથી આગળ વધીને સાચી, અનુકૂલનશીલ બુદ્ધિ તરફ જવાની ચાવી બનશે.

મુખ્ય તારણો

Autonomous Iteration: ENPIRE રોબોટ્સને તેમના પોતાના રિવોર્ડ ફંક્શન અને ટ્રેનિંગ કોડ લખવાની મંજૂરી આપે છે, જેનાથી સીન રિસેટ કરવા અથવા અલ્ગોરિધમ્સમાં ફેરફાર કરવા માટે માનવ એન્જિનિયરોની જરૂરિયાત નોંધપાત્ર રીતે ઘટે છે.
Collaborative Learning: ડેટા શેર કરવા માટે Git નો ઉપયોગ કરીને, આઠ રોબોટ્સનો કાફલો સામૂહિક રીતે એકબીજાની સફળતા અને નિષ્ફળતામાંથી શીખી શકે છે, જેનાથી ટ્રેનિંગની સમયરેખા ઝડપથી આગળ વધે છે.
Real-World Complexity: જોકે સિસ્ટમ ચોક્કસ કાર્યો પર 99% સુધીની સફળતા પ્રાપ્ત કરે છે, તેમ છતાં સિમ્યુલેટેડ ટ્રેનિંગની સરખામણીમાં ભૌતિક વાતાવરણનું અનિશ્ચિત સ્વરૂપ એક મોટો પડકાર છે.

Nvidia Researchers Enable Robots to Self Train Using AI Coding Agents

Nvidia સંશોધકોએ AI કોડિંગ એજન્ટ્સનો ઉપયોગ કરીને રોબોટ્સને સ્વયં-તાલીમ આપવા માટે સક્ષમ બનાવ્યા

ENPIRE સાથે મેન્યુઅલ અવરોધને તોડવો

સ્વાયત્ત કોડિંગ એજન્ટ્સ કુશળતા કેવી રીતે વધારે છે

Git-સક્ષમ રોબોટ ફ્લીટ દ્વારા સ્કેલિંગ

વાસ્તવિકતાનું અંતર: Simulation વિરુદ્ધ Hardware

મુખ્ય તારણો

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

𝗧𝗵𝗲 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜 𝗚𝗼𝘃𝗲𝗿𝗻𝗮𝗻𝗰𝗲 𝗙𝗿𝗮𝗺𝗲𝘄𝗼𝗿𝗸

𝗔𝗜 𝗦𝗲𝗹𝗳 𝗥𝗲𝗳𝗹𝗲𝗰𝘁𝗶𝗼𝗻

AI લવચીકતા કેવી રીતે વૈશ્વિક ડેટા સેન્ટર પાવર કટોકટીનો ઉકેલ લાવી શકે છે

સ્લોટ મશીન જ મુખ્ય મુદ્દો હતો