AI കോഡിംഗ് ഏജന്റുകൾ ഉപയോഗിച്ച് റോബോട്ടുകൾക്ക് സ്വയം പരിശീലനം നൽകാൻ Nvidia ഗവേഷകർക്ക് സാധിക്കുന്നു

റോബോട്ടിക്സിലെ മാനുവൽ ഡാറ്റാ ശേഖരണത്തിന്റെയും നിരന്തരമായ മനുഷ്യ ഇടപെടലുകളുടെയും തടസ്സങ്ങൾ ഒടുവിൽ പരിഹരിക്കപ്പെടുകയാണ്. AI കോഡിംഗ് ഏജന്റുകളെ പ്രയോജനപ്പെടുത്തിക്കൊണ്ട്, റോബോട്ടുകൾക്ക് സ്വന്തമായി പരിശീലന കോഡുകൾ എഴുതാനും യഥാർത്ഥ സാഹചര്യങ്ങളിൽ അവയുടെ പ്രവർത്തനക്ഷമത മെച്ചപ്പെടുത്താനും കഴിയുന്ന ഒരു സംവിധാനം ഗവേഷകർ വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്.

ENPIRE ഉപയോഗിച്ച് മാനുവൽ തടസ്സങ്ങൾ മറികടക്കുന്നു

പരമ്പരാഗതമായി, റോബോട്ടുകളെ സങ്കീർണ്ണമായ ജോലികൾ പഠിപ്പിക്കാൻ (ഉദാഹരണത്തിന് വസ്തുക്കൾ കൃത്യമായി പിടിക്കുക), മനുഷ്യരായ എഞ്ചിനീയർമാർ രംഗങ്ങൾ പുനഃക്രമീകരിക്കുകയും ഡാറ്റാസെറ്റുകൾ ശേഖരിക്കുകയും അൽഗോരിതങ്ങളിൽ നേരിട്ട് മാറ്റങ്ങൾ വരുത്തുകയും വേണം. ഈ കഠിനമായ പ്രക്രിയ റോബോട്ടിക് ബുദ്ധി വികസിപ്പിക്കുന്നതിൽ വലിയ തടസ്സങ്ങൾ സൃഷ്ടിക്കുന്നു. ഇത് പരിഹരിക്കുന്നതിനായി, Nvidia, Carnegie Mellon University, UC Berkeley എന്നിവയിലെ ഗവേഷകർ ENPIRE എന്ന ഒരു ഫ്രെയിംവർക്ക് അവതരിപ്പിച്ചു. ഇത് പരിശീലന പ്രക്രിയയെ സ്വയം നിലനിൽക്കുന്ന ഒരു ഫീഡ്‌ബാക്ക് ലൂപ്പായി മാറ്റുന്നു.

മനുഷ്യ നിർദ്ദേശങ്ങൾക്കായി കാത്തുനിൽക്കുന്നതിന് പകരം, വർക്ക്സ്പേസ് പുനഃക്രമീകരിക്കുക, ചലന തന്ത്രങ്ങൾ നടപ്പിലാക്കുക, ഫലം വിലയിരുത്തുക, പ്രകടനം മെച്ചപ്പെടുത്തുന്നതിനായി കോഡിൽ ഉടൻ തന്നെ മാറ്റങ്ങൾ വരുത്തുക എന്നിങ്ങനെ മുഴുവൻ പ്രക്രിയയും നിയന്ത്രിക്കാൻ ENPIRE സിസ്റ്റം AI കോഡിംഗ് ഏജന്റുകളെ ഉപയോഗിക്കുന്നു. ഇത് റോബോട്ടിക്സിനെ "human-in-the-loop" എന്ന അവസ്ഥയിൽ നിന്ന് "agent-in-the-loop" എന്ന അവസ്ഥയിലേക്ക് മാറ്റുന്നു.

സ്വയംഭരണാധികാരമുള്ള കോഡിംഗ് ഏജന്റുകൾ എങ്ങനെ പ്രവർത്തനക്ഷമത വർദ്ധിപ്പിക്കുന്നു

ENPIRE ഫ്രെയിംവർക്ക് രണ്ട് വ്യത്യസ്ത ഘട്ടങ്ങളിലായാണ് പ്രവർത്തിക്കുന്നത്. ആദ്യ ഘട്ടത്തിൽ, വളരെ കുറഞ്ഞ മനുഷ്യ മാർഗനിർദ്ദേശങ്ങൾ മാത്രം ഉപയോഗിച്ച് ഏജന്റ് ഒരു വർക്ക്സ്പേസ് സജ്ജീകരിക്കുന്നു—പലപ്പോഴും വിജയകരവും പരാജയപ്പെട്ടതുമായ ശ്രമങ്ങൾ കാണിക്കുന്ന ഏതാനും മിനിറ്റുകളുടെ വീഡിയോ മാത്രം മതിയാകും. ഏറ്റവും പ്രധാനമായി, ഏജന്റ് സ്വന്തമായി റിവാർഡ് ഫംഗ്ഷനുകൾ (reward functions) എഴുതുന്നു. ഉദാഹരണത്തിന്, പിൻ ഇൻസെർഷൻ (pin insertion) ജോലികൾക്കിടയിൽ, വിജയം നിർണ്ണയിക്കുന്നതിനായി വിഷ്വൽ അലൈൻമെന്റ്, ഗ്രിപ്പർ ഉയരം, ഏകദേശ ബലം എന്നിവ സംയോജിപ്പിച്ചുകൊണ്ടുള്ള ഒരു കസ്റ്റം ചെക്ക് ഏജന്റ് വികസിപ്പിച്ചെടുത്തു.

രണ്ടാമത്തെ ഘട്ടത്തിൽ, ഏജന്റുകൾ പൂർണ്ണമായ സ്വയംഭരണാധികാരത്തോടെ പ്രവർത്തിക്കുന്നു. അവ ഗവേഷണ പ്രബന്ധങ്ങൾ വായിക്കുകയും, അനുമാനങ്ങൾ രൂപീകരിക്കുകയും, പരിശീലന കോഡുകൾ നേരിട്ട് എഡിറ്റ് ചെയ്യുകയും ചെയ്യുന്നു. ഏത് രീതിയാണ് മികച്ച ഫലം നൽകുന്നത് എന്നതിനെ അടിസ്ഥാനമാക്കി, behavior cloning (മനുഷ്യ ചലനങ്ങളെ അനുകരിക്കുക) അല്ലെങ്കിൽ reinforcement learning (trial and error) എന്നിവയിൽ നിന്ന് ഏത് വേണമെന്ന് അവയ്ക്ക് തിരഞ്ഞെടുക്കാം. പരീക്ഷണ വേളയിൽ, ഗവേഷകർ Codex (GPT-5.5 സഹിതം), Claude Code (Opus 4.7 സഹിതം), Kimi Code (Kimi K2.6 സഹിതം) തുടങ്ങിയ ഉയർന്ന പ്രകടനമുള്ള മോഡലുകൾ ഉപയോഗിച്ചു, ഇതിൽ Codex ആണ് ഏറ്റവും മികച്ച പ്രകടനം കാഴ്ചവെച്ചത്.

Git-സജ്ജമായ റോബോട്ട് ഫ്ലീറ്റ് വഴി വിപുലീകരണം

ഈ ഗവേഷണത്തിലെ ഏറ്റവും നൂതനമായ വശങ്ങളിലൊന്ന് എട്ട് ഡ്യുവൽ-ആം YAM റോബോട്ട് സ്റ്റേഷനുകളുടെ ഏകോപനമാണ്. ഒറ്റപ്പെട്ട രീതിയിൽ പ്രവർത്തിക്കുന്നതിന് പകരം, ഈ സ്റ്റേഷനുകൾ ഒരു വിതരണം ചെയ്യപ്പെട്ട ഗവേഷണ സംഘമായി പ്രവർത്തിക്കുന്നു. സോഫ്റ്റ്‌വെയർ എഞ്ചിനീയറിംഗിൽ ഉപയോഗിക്കുന്ന സ്റ്റാൻഡേർഡ് വേർഷൻ കൺട്രോൾ ടൂളായ Git ഉപയോഗിച്ച് അവർ തങ്ങളുടെ കണ്ടെത്തലുകളും, വിജയകരമായ "രീതികളും", പരാജയപ്പെട്ട അനുമാനങ്ങളും പങ്കുവെക്കുന്നു.

ഈ ഫ്ലീറ്റ് അധിഷ്ഠിത സമീപനം വലിയ സമയ ലാഭം നൽകുന്നു:

റിയാലിറ്റി ഗ്യാപ്പ്: സിമുലേഷൻ vs ഹാർഡ്‌വെയർ

ഈ നേട്ടങ്ങൾക്കിടയിലും, ഗവേഷണം "സിം-ടു-റിയൽ" (sim-to-real) ഗ്യാപ്പിനെ എടുത്തു കാണിക്കുന്നു. പരിശോധിച്ച മൂന്ന് ഏജന്റുകളും സിമുലേഷനിൽ Push-T ടെസ്റ്റ് വിജയകരമായി പൂർത്തിയാക്കിയെങ്കിലും, ഘർഷണം (friction), റോബോട്ട് ഡൈനാമിക്സ് തുടങ്ങിയ പ്രവചനാതീതമായ ഘടകങ്ങൾ കാരണം ഭൗതിക ഹാർഡ്‌വെയറിലേക്ക് മാറ്റിയപ്പോൾ മൂന്നിൽ രണ്ട് ഏജന്റുകളും പരാജയപ്പെട്ടു. എന്നിരുന്നാലും, നിലവിലുള്ള GR00T പോലുള്ള മോഡലുകളെ അപേക്ഷിച്ച് RoboCasa സിമുലേഷനിൽ ENPIRE മികച്ച പ്രകടനം കാഴ്ചവെച്ചു.

വ്യവസായം ജനറൽ-പർപ്പസ് റോബോട്ടിക്സിലേക്ക് നീങ്ങുന്നതിനനുസരിച്ച്, കോഡിലൂടെ യന്ത്രങ്ങൾക്ക് "സ്വയം ഗവേഷണം" (self-research) ചെയ്യാനുള്ള കഴിവ്, പരിമിതമായ മുൻകൂട്ടി പ്രോഗ്രാം ചെയ്ത ചലനങ്ങളിൽ നിന്ന് യഥാർത്ഥവും അഡാപ്റ്റബിൾ ആയതുമായ ബുദ്ധിശക്തിയിലേക്കുള്ള മാറ്റത്തിന് പ്രധാനമാണ്.

പ്രധാന കാര്യങ്ങൾ