AI കോഡിംഗ് ഏജന്റുകൾ ഉപയോഗിച്ച് റോബോട്ടുകൾക്ക് സ്വയം പരിശീലനം നൽകാൻ Nvidia ഗവേഷകർക്ക് സാധിക്കുന്നു
റോബോട്ടിക്സിലെ മാനുവൽ ഡാറ്റാ ശേഖരണത്തിന്റെയും നിരന്തരമായ മനുഷ്യ ഇടപെടലുകളുടെയും തടസ്സങ്ങൾ ഒടുവിൽ പരിഹരിക്കപ്പെടുകയാണ്. AI കോഡിംഗ് ഏജന്റുകളെ പ്രയോജനപ്പെടുത്തിക്കൊണ്ട്, റോബോട്ടുകൾക്ക് സ്വന്തമായി പരിശീലന കോഡുകൾ എഴുതാനും യഥാർത്ഥ സാഹചര്യങ്ങളിൽ അവയുടെ പ്രവർത്തനക്ഷമത മെച്ചപ്പെടുത്താനും കഴിയുന്ന ഒരു സംവിധാനം ഗവേഷകർ വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്.
ENPIRE ഉപയോഗിച്ച് മാനുവൽ തടസ്സങ്ങൾ മറികടക്കുന്നു
പരമ്പരാഗതമായി, റോബോട്ടുകളെ സങ്കീർണ്ണമായ ജോലികൾ പഠിപ്പിക്കാൻ (ഉദാഹരണത്തിന് വസ്തുക്കൾ കൃത്യമായി പിടിക്കുക), മനുഷ്യരായ എഞ്ചിനീയർമാർ രംഗങ്ങൾ പുനഃക്രമീകരിക്കുകയും ഡാറ്റാസെറ്റുകൾ ശേഖരിക്കുകയും അൽഗോരിതങ്ങളിൽ നേരിട്ട് മാറ്റങ്ങൾ വരുത്തുകയും വേണം. ഈ കഠിനമായ പ്രക്രിയ റോബോട്ടിക് ബുദ്ധി വികസിപ്പിക്കുന്നതിൽ വലിയ തടസ്സങ്ങൾ സൃഷ്ടിക്കുന്നു. ഇത് പരിഹരിക്കുന്നതിനായി, Nvidia, Carnegie Mellon University, UC Berkeley എന്നിവയിലെ ഗവേഷകർ ENPIRE എന്ന ഒരു ഫ്രെയിംവർക്ക് അവതരിപ്പിച്ചു. ഇത് പരിശീലന പ്രക്രിയയെ സ്വയം നിലനിൽക്കുന്ന ഒരു ഫീഡ്ബാക്ക് ലൂപ്പായി മാറ്റുന്നു.
മനുഷ്യ നിർദ്ദേശങ്ങൾക്കായി കാത്തുനിൽക്കുന്നതിന് പകരം, വർക്ക്സ്പേസ് പുനഃക്രമീകരിക്കുക, ചലന തന്ത്രങ്ങൾ നടപ്പിലാക്കുക, ഫലം വിലയിരുത്തുക, പ്രകടനം മെച്ചപ്പെടുത്തുന്നതിനായി കോഡിൽ ഉടൻ തന്നെ മാറ്റങ്ങൾ വരുത്തുക എന്നിങ്ങനെ മുഴുവൻ പ്രക്രിയയും നിയന്ത്രിക്കാൻ ENPIRE സിസ്റ്റം AI കോഡിംഗ് ഏജന്റുകളെ ഉപയോഗിക്കുന്നു. ഇത് റോബോട്ടിക്സിനെ "human-in-the-loop" എന്ന അവസ്ഥയിൽ നിന്ന് "agent-in-the-loop" എന്ന അവസ്ഥയിലേക്ക് മാറ്റുന്നു.
സ്വയംഭരണാധികാരമുള്ള കോഡിംഗ് ഏജന്റുകൾ എങ്ങനെ പ്രവർത്തനക്ഷമത വർദ്ധിപ്പിക്കുന്നു
ENPIRE ഫ്രെയിംവർക്ക് രണ്ട് വ്യത്യസ്ത ഘട്ടങ്ങളിലായാണ് പ്രവർത്തിക്കുന്നത്. ആദ്യ ഘട്ടത്തിൽ, വളരെ കുറഞ്ഞ മനുഷ്യ മാർഗനിർദ്ദേശങ്ങൾ മാത്രം ഉപയോഗിച്ച് ഏജന്റ് ഒരു വർക്ക്സ്പേസ് സജ്ജീകരിക്കുന്നു—പലപ്പോഴും വിജയകരവും പരാജയപ്പെട്ടതുമായ ശ്രമങ്ങൾ കാണിക്കുന്ന ഏതാനും മിനിറ്റുകളുടെ വീഡിയോ മാത്രം മതിയാകും. ഏറ്റവും പ്രധാനമായി, ഏജന്റ് സ്വന്തമായി റിവാർഡ് ഫംഗ്ഷനുകൾ (reward functions) എഴുതുന്നു. ഉദാഹരണത്തിന്, പിൻ ഇൻസെർഷൻ (pin insertion) ജോലികൾക്കിടയിൽ, വിജയം നിർണ്ണയിക്കുന്നതിനായി വിഷ്വൽ അലൈൻമെന്റ്, ഗ്രിപ്പർ ഉയരം, ഏകദേശ ബലം എന്നിവ സംയോജിപ്പിച്ചുകൊണ്ടുള്ള ഒരു കസ്റ്റം ചെക്ക് ഏജന്റ് വികസിപ്പിച്ചെടുത്തു.
രണ്ടാമത്തെ ഘട്ടത്തിൽ, ഏജന്റുകൾ പൂർണ്ണമായ സ്വയംഭരണാധികാരത്തോടെ പ്രവർത്തിക്കുന്നു. അവ ഗവേഷണ പ്രബന്ധങ്ങൾ വായിക്കുകയും, അനുമാനങ്ങൾ രൂപീകരിക്കുകയും, പരിശീലന കോഡുകൾ നേരിട്ട് എഡിറ്റ് ചെയ്യുകയും ചെയ്യുന്നു. ഏത് രീതിയാണ് മികച്ച ഫലം നൽകുന്നത് എന്നതിനെ അടിസ്ഥാനമാക്കി, behavior cloning (മനുഷ്യ ചലനങ്ങളെ അനുകരിക്കുക) അല്ലെങ്കിൽ reinforcement learning (trial and error) എന്നിവയിൽ നിന്ന് ഏത് വേണമെന്ന് അവയ്ക്ക് തിരഞ്ഞെടുക്കാം. പരീക്ഷണ വേളയിൽ, ഗവേഷകർ Codex (GPT-5.5 സഹിതം), Claude Code (Opus 4.7 സഹിതം), Kimi Code (Kimi K2.6 സഹിതം) തുടങ്ങിയ ഉയർന്ന പ്രകടനമുള്ള മോഡലുകൾ ഉപയോഗിച്ചു, ഇതിൽ Codex ആണ് ഏറ്റവും മികച്ച പ്രകടനം കാഴ്ചവെച്ചത്.
Git-സജ്ജമായ റോബോട്ട് ഫ്ലീറ്റ് വഴി വിപുലീകരണം
ഈ ഗവേഷണത്തിലെ ഏറ്റവും നൂതനമായ വശങ്ങളിലൊന്ന് എട്ട് ഡ്യുവൽ-ആം YAM റോബോട്ട് സ്റ്റേഷനുകളുടെ ഏകോപനമാണ്. ഒറ്റപ്പെട്ട രീതിയിൽ പ്രവർത്തിക്കുന്നതിന് പകരം, ഈ സ്റ്റേഷനുകൾ ഒരു വിതരണം ചെയ്യപ്പെട്ട ഗവേഷണ സംഘമായി പ്രവർത്തിക്കുന്നു. സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗിൽ ഉപയോഗിക്കുന്ന സ്റ്റാൻഡേർഡ് വേർഷൻ കൺട്രോൾ ടൂളായ Git ഉപയോഗിച്ച് അവർ തങ്ങളുടെ കണ്ടെത്തലുകളും, വിജയകരമായ "രീതികളും", പരാജയപ്പെട്ട അനുമാനങ്ങളും പങ്കുവെക്കുന്നു.
ഈ ഫ്ലീറ്റ് അധിഷ്ഠിത സമീപനം വലിയ സമയ ലാഭം നൽകുന്നു:
- Push-T Test: ഏജന്റുകളുടെ എണ്ണം ഒന്നിന് പകരം എട്ടായി വർദ്ധിപ്പിച്ചത് പൂർത്തിയാക്കാൻ എടുക്കുന്ന സമയം അഞ്ച് മണിക്കൂറിൽ നിന്ന് വെറും രണ്ട് മണിക്കൂറായി കുറച്ചു.
- Pin Insertion: ടാസ്ക് പൂർത്തിയാക്കാൻ എടുക്കുന്ന സമയം 90 മിനിറ്റിൽ നിന്ന് ഏകദേശം 40 മിനിറ്റായി കുറഞ്ഞു.
- Success Rates: പിന്നുകൾ തരംതിരിക്കുന്നതും കേബിൾ ടൈകൾ മുറിക്കുന്നതും ഉൾപ്പെടെയുള്ള കഠിനമായ ജോലികളിൽ ഈ ഫ്ലീറ്റ് 99% വരെ വിജയം കൈവരിച്ചു.
റിയാലിറ്റി ഗ്യാപ്പ്: സിമുലേഷൻ vs ഹാർഡ്വെയർ
ഈ നേട്ടങ്ങൾക്കിടയിലും, ഗവേഷണം "സിം-ടു-റിയൽ" (sim-to-real) ഗ്യാപ്പിനെ എടുത്തു കാണിക്കുന്നു. പരിശോധിച്ച മൂന്ന് ഏജന്റുകളും സിമുലേഷനിൽ Push-T ടെസ്റ്റ് വിജയകരമായി പൂർത്തിയാക്കിയെങ്കിലും, ഘർഷണം (friction), റോബോട്ട് ഡൈനാമിക്സ് തുടങ്ങിയ പ്രവചനാതീതമായ ഘടകങ്ങൾ കാരണം ഭൗതിക ഹാർഡ്വെയറിലേക്ക് മാറ്റിയപ്പോൾ മൂന്നിൽ രണ്ട് ഏജന്റുകളും പരാജയപ്പെട്ടു. എന്നിരുന്നാലും, നിലവിലുള്ള GR00T പോലുള്ള മോഡലുകളെ അപേക്ഷിച്ച് RoboCasa സിമുലേഷനിൽ ENPIRE മികച്ച പ്രകടനം കാഴ്ചവെച്ചു.
വ്യവസായം ജനറൽ-പർപ്പസ് റോബോട്ടിക്സിലേക്ക് നീങ്ങുന്നതിനനുസരിച്ച്, കോഡിലൂടെ യന്ത്രങ്ങൾക്ക് "സ്വയം ഗവേഷണം" (self-research) ചെയ്യാനുള്ള കഴിവ്, പരിമിതമായ മുൻകൂട്ടി പ്രോഗ്രാം ചെയ്ത ചലനങ്ങളിൽ നിന്ന് യഥാർത്ഥവും അഡാപ്റ്റബിൾ ആയതുമായ ബുദ്ധിശക്തിയിലേക്കുള്ള മാറ്റത്തിന് പ്രധാനമാണ്.
പ്രധാന കാര്യങ്ങൾ
- Autonomous Iteration: റോബോട്ടുകൾക്ക് അവരുടേതായ റിവാർഡ് ഫംഗ്ഷനുകളും (reward functions) ട്രെയിനിംഗ് കോഡും എഴുതാൻ ENPIRE അനുവദിക്കുന്നു, ഇത് സീനുകൾ റീസെറ്റ് ചെയ്യാനോ അൽഗോരിതങ്ങളിൽ മാറ്റം വരുത്താനോ ഉള്ള മനുഷ്യ എഞ്ചിനീയർമാരുടെ ആവശ്യം ഗണ്യമായി കുറയ്ക്കുന്നു.
- Collaborative Learning: ഡാറ്റ പങ്കുവെക്കാൻ Git ഉപയോഗിക്കുന്നതിലൂടെ, എട്ട് റോബോട്ടുകളുടെ ഒരു സംഘത്തിന് പരസ്പരമുള്ള വിജയങ്ങളിൽ നിന്നും പരാജയങ്ങളിൽ നിന്നും കൂട്ടായി പഠിക്കാൻ കഴിയും, ഇത് പരിശീലന സമയം ഗണ്യമായി വേഗത്തിലാക്കുന്നു.
- Real-World Complexity: സിസ്റ്റം പ്രത്യേക ജോലികളിൽ 99% വരെ വിജയം കൈവരിക്കുന്നുണ്ടെങ്കിലും, സിമുലേറ്റഡ് പരിശീലനത്തെ അപേക്ഷിച്ച് ഭൗതിക സാഹചര്യങ്ങളുടെ പ്രവചനാതീതമായ സ്വഭാവം ഒരു വലിയ വെല്ലുവിളിയായി തുടരുന്നു.