Nvidia Researchers Enable Robots to Self Train Using AI Coding Agents

📅2 hours ago⏱3 min read

In this article

AI കോഡിംഗ് ഏജന്റുകൾ ഉപയോഗിച്ച് റോബോട്ടുകൾക്ക് സ്വയം പരിശീലനം നൽകാൻ Nvidia ഗവേഷകർക്ക് സാധിക്കുന്നു

റോബോട്ടിക്സിലെ മാനുവൽ ഡാറ്റാ ശേഖരണത്തിന്റെയും നിരന്തരമായ മനുഷ്യ ഇടപെടലുകളുടെയും തടസ്സങ്ങൾ ഒടുവിൽ പരിഹരിക്കപ്പെടുകയാണ്. AI കോഡിംഗ് ഏജന്റുകളെ പ്രയോജനപ്പെടുത്തിക്കൊണ്ട്, റോബോട്ടുകൾക്ക് സ്വന്തമായി പരിശീലന കോഡുകൾ എഴുതാനും യഥാർത്ഥ സാഹചര്യങ്ങളിൽ അവയുടെ പ്രവർത്തനക്ഷമത മെച്ചപ്പെടുത്താനും കഴിയുന്ന ഒരു സംവിധാനം ഗവേഷകർ വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്.

ENPIRE ഉപയോഗിച്ച് മാനുവൽ തടസ്സങ്ങൾ മറികടക്കുന്നു

പരമ്പരാഗതമായി, റോബോട്ടുകളെ സങ്കീർണ്ണമായ ജോലികൾ പഠിപ്പിക്കാൻ (ഉദാഹരണത്തിന് വസ്തുക്കൾ കൃത്യമായി പിടിക്കുക), മനുഷ്യരായ എഞ്ചിനീയർമാർ രംഗങ്ങൾ പുനഃക്രമീകരിക്കുകയും ഡാറ്റാസെറ്റുകൾ ശേഖരിക്കുകയും അൽഗോരിതങ്ങളിൽ നേരിട്ട് മാറ്റങ്ങൾ വരുത്തുകയും വേണം. ഈ കഠിനമായ പ്രക്രിയ റോബോട്ടിക് ബുദ്ധി വികസിപ്പിക്കുന്നതിൽ വലിയ തടസ്സങ്ങൾ സൃഷ്ടിക്കുന്നു. ഇത് പരിഹരിക്കുന്നതിനായി, Nvidia, Carnegie Mellon University, UC Berkeley എന്നിവയിലെ ഗവേഷകർ ENPIRE എന്ന ഒരു ഫ്രെയിംവർക്ക് അവതരിപ്പിച്ചു. ഇത് പരിശീലന പ്രക്രിയയെ സ്വയം നിലനിൽക്കുന്ന ഒരു ഫീഡ്‌ബാക്ക് ലൂപ്പായി മാറ്റുന്നു.

മനുഷ്യ നിർദ്ദേശങ്ങൾക്കായി കാത്തുനിൽക്കുന്നതിന് പകരം, വർക്ക്സ്പേസ് പുനഃക്രമീകരിക്കുക, ചലന തന്ത്രങ്ങൾ നടപ്പിലാക്കുക, ഫലം വിലയിരുത്തുക, പ്രകടനം മെച്ചപ്പെടുത്തുന്നതിനായി കോഡിൽ ഉടൻ തന്നെ മാറ്റങ്ങൾ വരുത്തുക എന്നിങ്ങനെ മുഴുവൻ പ്രക്രിയയും നിയന്ത്രിക്കാൻ ENPIRE സിസ്റ്റം AI കോഡിംഗ് ഏജന്റുകളെ ഉപയോഗിക്കുന്നു. ഇത് റോബോട്ടിക്സിനെ "human-in-the-loop" എന്ന അവസ്ഥയിൽ നിന്ന് "agent-in-the-loop" എന്ന അവസ്ഥയിലേക്ക് മാറ്റുന്നു.

സ്വയംഭരണാധികാരമുള്ള കോഡിംഗ് ഏജന്റുകൾ എങ്ങനെ പ്രവർത്തനക്ഷമത വർദ്ധിപ്പിക്കുന്നു

ENPIRE ഫ്രെയിംവർക്ക് രണ്ട് വ്യത്യസ്ത ഘട്ടങ്ങളിലായാണ് പ്രവർത്തിക്കുന്നത്. ആദ്യ ഘട്ടത്തിൽ, വളരെ കുറഞ്ഞ മനുഷ്യ മാർഗനിർദ്ദേശങ്ങൾ മാത്രം ഉപയോഗിച്ച് ഏജന്റ് ഒരു വർക്ക്സ്പേസ് സജ്ജീകരിക്കുന്നു—പലപ്പോഴും വിജയകരവും പരാജയപ്പെട്ടതുമായ ശ്രമങ്ങൾ കാണിക്കുന്ന ഏതാനും മിനിറ്റുകളുടെ വീഡിയോ മാത്രം മതിയാകും. ഏറ്റവും പ്രധാനമായി, ഏജന്റ് സ്വന്തമായി റിവാർഡ് ഫംഗ്ഷനുകൾ (reward functions) എഴുതുന്നു. ഉദാഹരണത്തിന്, പിൻ ഇൻസെർഷൻ (pin insertion) ജോലികൾക്കിടയിൽ, വിജയം നിർണ്ണയിക്കുന്നതിനായി വിഷ്വൽ അലൈൻമെന്റ്, ഗ്രിപ്പർ ഉയരം, ഏകദേശ ബലം എന്നിവ സംയോജിപ്പിച്ചുകൊണ്ടുള്ള ഒരു കസ്റ്റം ചെക്ക് ഏജന്റ് വികസിപ്പിച്ചെടുത്തു.

രണ്ടാമത്തെ ഘട്ടത്തിൽ, ഏജന്റുകൾ പൂർണ്ണമായ സ്വയംഭരണാധികാരത്തോടെ പ്രവർത്തിക്കുന്നു. അവ ഗവേഷണ പ്രബന്ധങ്ങൾ വായിക്കുകയും, അനുമാനങ്ങൾ രൂപീകരിക്കുകയും, പരിശീലന കോഡുകൾ നേരിട്ട് എഡിറ്റ് ചെയ്യുകയും ചെയ്യുന്നു. ഏത് രീതിയാണ് മികച്ച ഫലം നൽകുന്നത് എന്നതിനെ അടിസ്ഥാനമാക്കി, behavior cloning (മനുഷ്യ ചലനങ്ങളെ അനുകരിക്കുക) അല്ലെങ്കിൽ reinforcement learning (trial and error) എന്നിവയിൽ നിന്ന് ഏത് വേണമെന്ന് അവയ്ക്ക് തിരഞ്ഞെടുക്കാം. പരീക്ഷണ വേളയിൽ, ഗവേഷകർ Codex (GPT-5.5 സഹിതം), Claude Code (Opus 4.7 സഹിതം), Kimi Code (Kimi K2.6 സഹിതം) തുടങ്ങിയ ഉയർന്ന പ്രകടനമുള്ള മോഡലുകൾ ഉപയോഗിച്ചു, ഇതിൽ Codex ആണ് ഏറ്റവും മികച്ച പ്രകടനം കാഴ്ചവെച്ചത്.

Git-സജ്ജമായ റോബോട്ട് ഫ്ലീറ്റ് വഴി വിപുലീകരണം

ഈ ഗവേഷണത്തിലെ ഏറ്റവും നൂതനമായ വശങ്ങളിലൊന്ന് എട്ട് ഡ്യുവൽ-ആം YAM റോബോട്ട് സ്റ്റേഷനുകളുടെ ഏകോപനമാണ്. ഒറ്റപ്പെട്ട രീതിയിൽ പ്രവർത്തിക്കുന്നതിന് പകരം, ഈ സ്റ്റേഷനുകൾ ഒരു വിതരണം ചെയ്യപ്പെട്ട ഗവേഷണ സംഘമായി പ്രവർത്തിക്കുന്നു. സോഫ്റ്റ്‌വെയർ എഞ്ചിനീയറിംഗിൽ ഉപയോഗിക്കുന്ന സ്റ്റാൻഡേർഡ് വേർഷൻ കൺട്രോൾ ടൂളായ Git ഉപയോഗിച്ച് അവർ തങ്ങളുടെ കണ്ടെത്തലുകളും, വിജയകരമായ "രീതികളും", പരാജയപ്പെട്ട അനുമാനങ്ങളും പങ്കുവെക്കുന്നു.

ഈ ഫ്ലീറ്റ് അധിഷ്ഠിത സമീപനം വലിയ സമയ ലാഭം നൽകുന്നു:

Push-T Test: ഏജന്റുകളുടെ എണ്ണം ഒന്നിന് പകരം എട്ടായി വർദ്ധിപ്പിച്ചത് പൂർത്തിയാക്കാൻ എടുക്കുന്ന സമയം അഞ്ച് മണിക്കൂറിൽ നിന്ന് വെറും രണ്ട് മണിക്കൂറായി കുറച്ചു.
Pin Insertion: ടാസ്ക് പൂർത്തിയാക്കാൻ എടുക്കുന്ന സമയം 90 മിനിറ്റിൽ നിന്ന് ഏകദേശം 40 മിനിറ്റായി കുറഞ്ഞു.
Success Rates: പിന്നുകൾ തരംതിരിക്കുന്നതും കേബിൾ ടൈകൾ മുറിക്കുന്നതും ഉൾപ്പെടെയുള്ള കഠിനമായ ജോലികളിൽ ഈ ഫ്ലീറ്റ് 99% വരെ വിജയം കൈവരിച്ചു.

റിയാലിറ്റി ഗ്യാപ്പ്: സിമുലേഷൻ vs ഹാർഡ്‌വെയർ

ഈ നേട്ടങ്ങൾക്കിടയിലും, ഗവേഷണം "സിം-ടു-റിയൽ" (sim-to-real) ഗ്യാപ്പിനെ എടുത്തു കാണിക്കുന്നു. പരിശോധിച്ച മൂന്ന് ഏജന്റുകളും സിമുലേഷനിൽ Push-T ടെസ്റ്റ് വിജയകരമായി പൂർത്തിയാക്കിയെങ്കിലും, ഘർഷണം (friction), റോബോട്ട് ഡൈനാമിക്സ് തുടങ്ങിയ പ്രവചനാതീതമായ ഘടകങ്ങൾ കാരണം ഭൗതിക ഹാർഡ്‌വെയറിലേക്ക് മാറ്റിയപ്പോൾ മൂന്നിൽ രണ്ട് ഏജന്റുകളും പരാജയപ്പെട്ടു. എന്നിരുന്നാലും, നിലവിലുള്ള GR00T പോലുള്ള മോഡലുകളെ അപേക്ഷിച്ച് RoboCasa സിമുലേഷനിൽ ENPIRE മികച്ച പ്രകടനം കാഴ്ചവെച്ചു.

വ്യവസായം ജനറൽ-പർപ്പസ് റോബോട്ടിക്സിലേക്ക് നീങ്ങുന്നതിനനുസരിച്ച്, കോഡിലൂടെ യന്ത്രങ്ങൾക്ക് "സ്വയം ഗവേഷണം" (self-research) ചെയ്യാനുള്ള കഴിവ്, പരിമിതമായ മുൻകൂട്ടി പ്രോഗ്രാം ചെയ്ത ചലനങ്ങളിൽ നിന്ന് യഥാർത്ഥവും അഡാപ്റ്റബിൾ ആയതുമായ ബുദ്ധിശക്തിയിലേക്കുള്ള മാറ്റത്തിന് പ്രധാനമാണ്.

പ്രധാന കാര്യങ്ങൾ

Autonomous Iteration: റോബോട്ടുകൾക്ക് അവരുടേതായ റിവാർഡ് ഫംഗ്ഷനുകളും (reward functions) ട്രെയിനിംഗ് കോഡും എഴുതാൻ ENPIRE അനുവദിക്കുന്നു, ഇത് സീനുകൾ റീസെറ്റ് ചെയ്യാനോ അൽഗോരിതങ്ങളിൽ മാറ്റം വരുത്താനോ ഉള്ള മനുഷ്യ എഞ്ചിനീയർമാരുടെ ആവശ്യം ഗണ്യമായി കുറയ്ക്കുന്നു.
Collaborative Learning: ഡാറ്റ പങ്കുവെക്കാൻ Git ഉപയോഗിക്കുന്നതിലൂടെ, എട്ട് റോബോട്ടുകളുടെ ഒരു സംഘത്തിന് പരസ്പരമുള്ള വിജയങ്ങളിൽ നിന്നും പരാജയങ്ങളിൽ നിന്നും കൂട്ടായി പഠിക്കാൻ കഴിയും, ഇത് പരിശീലന സമയം ഗണ്യമായി വേഗത്തിലാക്കുന്നു.
Real-World Complexity: സിസ്റ്റം പ്രത്യേക ജോലികളിൽ 99% വരെ വിജയം കൈവരിക്കുന്നുണ്ടെങ്കിലും, സിമുലേറ്റഡ് പരിശീലനത്തെ അപേക്ഷിച്ച് ഭൗതിക സാഹചര്യങ്ങളുടെ പ്രവചനാതീതമായ സ്വഭാവം ഒരു വലിയ വെല്ലുവിളിയായി തുടരുന്നു.

Nvidia Researchers Enable Robots to Self Train Using AI Coding Agents

AI കോഡിംഗ് ഏജന്റുകൾ ഉപയോഗിച്ച് റോബോട്ടുകൾക്ക് സ്വയം പരിശീലനം നൽകാൻ Nvidia ഗവേഷകർക്ക് സാധിക്കുന്നു

ENPIRE ഉപയോഗിച്ച് മാനുവൽ തടസ്സങ്ങൾ മറികടക്കുന്നു

സ്വയംഭരണാധികാരമുള്ള കോഡിംഗ് ഏജന്റുകൾ എങ്ങനെ പ്രവർത്തനക്ഷമത വർദ്ധിപ്പിക്കുന്നു

Git-സജ്ജമായ റോബോട്ട് ഫ്ലീറ്റ് വഴി വിപുലീകരണം

റിയാലിറ്റി ഗ്യാപ്പ്: സിമുലേഷൻ vs ഹാർഡ്‌വെയർ

പ്രധാന കാര്യങ്ങൾ

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

𝗧𝗵𝗲 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜 𝗚𝗼𝘃𝗲𝗿𝗻𝗮𝗻𝗰𝗲 𝗙𝗿𝗮𝗺𝗲𝘄𝗼𝗿𝗸

AI സ്വയം വിശകലനം

How AI Flexibility Could Solve the Global Data Center Power Crunch

𝗧𝗵𝗲 𝗦𝗹𝗼𝘁 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗪𝗮𝘀 𝘁𝗵𝗲 𝗣𝗼𝗶𝗻𝘁