Nvidia Researchers Enable Robots to Self Train Using AI Coding Agents

📅2 hours ago⏱3 min read

In this article

AI கோடிங் ஏஜெண்டுகளைப் பயன்படுத்தி ரோபோக்கள் தாங்களாகவே பயிற்சி பெற Nvidia ஆராய்ச்சியாளர்கள் வழிவகை செய்கிறார்கள்

ரோபாட்டிக்ஸில் கையேடு தரவு சேகரிப்பு மற்றும் தொடர்ச்சியான மனிதத் தலையீடு ஆகியவற்றால் ஏற்படும் தடைகள் இறுதியாகத் தீர்க்கப்பட்டு வருகின்றன. AI கோடிங் ஏஜெண்டுகளைப் பயன்படுத்துவதன் மூலம், ஆராய்ச்சியாளர்கள் ரோபோக்கள் தங்களின் பயிற்சி குறியீடுகளை (training code) தாங்களாகவே எழுதவும், நிஜ உலகச் சூழல்களில் அவற்றின் நுணுக்கமான திறன்களை (dexterity) மேம்படுத்திக் கொள்ளவும் உதவும் ஒரு அமைப்பை உருவாக்கியுள்ளனர்.

ENPIRE மூலம் கையேடு தடைகளை உடைத்தல்

பாரம்பரியமாக, ஒரு ரோபோவிற்கு நுணுக்கமானப் பிடிமானம் (dexterous grasping) போன்ற சிக்கலான பணிகளைக் கற்பிப்பதற்கு, மனிதப் பொறியாளர்கள் காட்சிகளை மீண்டும் அமைத்தல், தரவுத் தொகுப்புகளைச் சேகரித்தல் மற்றும் அல்காரிதம்களைக் கையேடாகச் சரிசெய்தல் போன்ற பணிகளைச் செய்ய வேண்டியுள்ளது. இந்த உழைப்பு மிகுந்த செயல்முறை, ரோபோட்டிக் நுண்ணறிவை (robotic intelligence) விரிவுபடுத்துவதில் ஒரு பெரிய தடையை உருவாக்குகிறது. இதைத் தீர்க்க, Nvidia, Carnegie Mellon University மற்றும் UC Berkeley ஆராய்ச்சியாளர்கள் ENPIRE என்ற கட்டமைப்பை அறிமுகப்படுத்தியுள்ளனர். இது பயிற்சிச் செயல்முறையை ஒரு சுய-நிலைநிறுத்தப்பட்ட பின்னூட்டச் சுழற்சியாக (self-sustaining feedback loop) மாற்றுகிறது.

மனித அறிவுறுத்தல்களுக்காகக் காத்திருப்பதற்குப் பதிலாக, ENPIRE அமைப்பு முழு வாழ்க்கைச் சுழற்சியையும் நிர்வகிக்க AI கோடிங் ஏஜெண்டுகளைப் பயன்படுத்துகிறது: பணி இடத்தைத் தயார் செய்தல், ஒரு இயக்க உத்தியைச் செயல்படுத்துதல், முடிவை மதிப்பீடு செய்தல் மற்றும் செயல்திறனை மேம்படுத்த உடனடியாகக் குறியீட்டைத் திருத்துதல் போன்றவை இதில் அடங்கும். இது ரோபாட்டிக்ஸை "human-in-the-loop" நிலையிலிருந்து "agent-in-the-loop" நிலைக்கு நகர்த்துகிறது.

தன்னாட்சி கோடிங் ஏஜெண்டுகள் எவ்வாறு நுணுக்கமான திறனை மேம்படுத்துகின்றன

ENPIRE கட்டமைப்பு இரண்டு வெவ்வேறு நிலைகளில் செயல்படுகிறது. முதல் நிலையில், ஏஜென்ட் மிகக் குறைந்த மனித வழிகாட்டுதலுடன் ஒரு பணி இடத்தை அமைக்கிறது—பெரும்பாலும் வெற்றிகரமான மற்றும் தோல்வியடைந்த முயற்சிகளைக் காட்டும் சில நிமிட வீடியோக்கள் மட்டுமே இதற்குப் போதுமானதாக இருக்கும். மிக முக்கியமாக, ஏஜென்ட் தனது சொந்த reward functions-களை எழுதுகிறது. உதாரணமாக, பின் செருகும் (pin insertion) பணிகளின் போது, வெற்றித் தன்மையைத் தீர்மானிக்க visual alignment, gripper height மற்றும் estimated force ஆகியவற்றை இணைத்து ஒரு தனிப்பயனாக்கப்பட்ட சரிபார்ப்பு முறையை ஏஜென்ட் உருவாக்கியது.

இரண்டாவது நிலையில், ஏஜெண்டுகள் முழுமையான தன்னாட்சியுடன் செயல்படுகின்றன. அவை ஆராய்ச்சித் தாள்களைப் படிக்கின்றன, கருதுகோள்களை உருவாக்குகின்றன மற்றும் பயிற்சி குறியீட்டை நேரடியாகத் திருத்துகின்றன. எந்த அணுகுமுறை சிறந்த நிஜ உலகத் தரவுகளைத் தருகிறது என்பதன் அடிப்படையில், behavior cloning (மனித இயக்கத்தைப் பின்பற்றுதல்) அல்லது reinforcement learning (முயற்சி மற்றும் தவறு) போன்ற முறைகளில் ஒன்றைத் தேர்ந்தெடுக்க它们 முடியும். சோதனையின் போது, ஆராய்ச்சியாளர்கள் Codex (GPT-5.5 உடன்), Claude Code (Opus 4.7 உடன்) மற்றும் Kimi Code (Kimi K2.6 உடன்) உள்ளிட்ட உயர் செயல்திறன் கொண்ட மாடல்களைப் பயன்படுத்தினர், இதில் Codex சிறந்த செயல்திறனை வெளிப்படுத்தியது.

Git-இயக்கப்பட்ட ரோபோக் கூட்டணி மூலம் விரிவாக்கம் செய்தல்

இந்த ஆராய்ச்சியின் மிகவும் புதுமையான அம்சங்களில் ஒன்று, எட்டு இரட்டை-கை YAM ரோபோ நிலையங்களின் தொகுப்பை (fleet) ஒருங்கிணைப்பதாகும். இவை தனித்தனியாகச் செயல்படுவதற்குப் பதிலாக, ஒரு பரவலாக்கப்பட்ட ஆராய்ச்சி குழுவாகச் செயல்படுகின்றன. மென்பொருள் பொறியியலில் பயன்படுத்தப்படும் தரப்படுத்தப்பட்ட பதிப்பு கட்டுப்பாட்டு கருவியான Git மூலம், அவை தங்களின் கண்டுபிடிப்புகள், வெற்றிகரமான "செய்முறைகள்" மற்றும் தோல்வியடைந்த கருதுகோள்களைப் பகிர்ந்து கொள்கின்றன.

இந்தத் தொகுப்பு சார்ந்த அணுகுமுறை மிகப்பெரிய நேரச் சேமிப்பைத் தருகிறது:

Push-T Test: ஒரு முகவரியிலிருந்து எட்டு முகவரிகளாக அதிகரித்ததன் மூலம், பணிகளை முடிப்பதற்கான நேரம் ஐந்து மணிநேரத்திலிருந்து வெறும் இரண்டு மணிநேரமாகக் குறைந்தது.
Pin Insertion: பணி முடிப்பதற்கான நேரம் 90 நிமிடங்களுக்கு மேலிருந்து சுமார் 40 நிமிடங்களாகக் குறைந்தது.
Success Rates: பின் வகைப்படுத்துதல் மற்றும் கேபிள் டைகளை (cable ties) வெட்டுதல் போன்ற சவாலான பணிகளில் இந்தத் தொகுப்பு 99% வரை வெற்றியைப் பெற்றது.

யதார்த்த இடைவெளி: உருவகப்படுத்துதல் (Simulation) vs வன்பொருள் (Hardware)

இந்த முன்னேற்றங்கள் இருந்தபோதிலும், இந்த ஆராய்ச்சி "sim-to-real" இடைவெளியைச் சுட்டிக்காட்டுகிறது. சோதனை செய்யப்பட்ட மூன்று முகவரிகளும் உருவகப்படுத்துதலில் (simulation) Push-T சோதனையைத் தீர்த்தாலும், உராய்வு மற்றும் ரோபோ இயக்கவியல் (robot dynamics) போன்ற கணிக்க முடியாத காரணிகளால், மூன்றுவற்றில் இரண்டு முகவரிகள் இயற்பியல் வன்பொருளுக்கு (physical hardware) மாற்றப்பட்டபோது தோல்வியடைந்தன. இருப்பினும், GR00T போன்ற ஏற்கனவே உள்ள மாதிரிகளுடன் ஒப்பிடும்போது, RoboCasa உருவகப்படுத்துதலில் ENPIRE சிறந்த செயல்திறனை வெளிப்படுத்தியது.

தொழில்துறை பொது நோக்கத்திற்கான ரோபோட்டிக்ஸ் (general-purpose robotics) நோக்கி நகரும்போது, இயந்திரங்கள் குறியீடு (code) மூலம் "சுயமாக ஆராய்ச்சி" செய்யும் திறன், குறுகிய மற்றும் முன்கூட்டியே திட்டமிடப்பட்ட இயக்கங்களைக் கடந்து, உண்மையான மற்றும் மாற்றியமைக்கக்கூடிய நுண்ணறிவை நோக்கிச் செல்வதற்கான திறவுகோலாக இருக்கும்.

முக்கியக் கருத்துக்கள்

Autonomous Iteration: ENPIRE ரோபோக்கள் தங்களின் சொந்த வெகுமதி செயல்பாடுகள் (reward functions) மற்றும் பயிற்சி குறியீடுகளை (training code) எழுத அனுமதிக்கிறது, இது மனிதப் பொறியாளர்கள் காட்சிகளை மீண்டும் அமைப்பதற்கோ (reset scenes) அல்லது அல்காரிதம்களைச் சரிசெய்வதற்கோ (tweak algorithms) தேவைப்படுவதைக் கணிசமாகக் குறைக்கிறது.
Collaborative Learning: தரவைப் பகிர Git-ஐப் பயன்படுத்துவதன் மூலம், எட்டு ரோபோக்களின் தொகுப்பு ஒன்றையொன்று சார்ந்த வெற்றிகள் மற்றும் தோல்விகளிலிருந்து கூட்டாகக் கற்றுக்கொள்ள முடியும், இது பயிற்சி கால அளவை (training timeline) வியக்கத்தக்க வகையில் வேகப்படுத்துகிறது.
Real-World Complexity: இந்த அமைப்பு குறிப்பிட்ட பணிகளில் 99% வரை வெற்றியைப் பெற்றாலும், உருவகப்படுத்தப்பட்ட பயிற்சியுடன் ஒப்பிடும்போது இயற்பியல் சூழல்களின் கணிக்க முடியாத தன்மை ஒரு குறிப்பிடத்தக்க சவாலாகவே உள்ளது.

Nvidia Researchers Enable Robots to Self Train Using AI Coding Agents

ENPIRE மூலம் கையேடு தடைகளை உடைத்தல்

தன்னாட்சி கோடிங் ஏஜெண்டுகள் எவ்வாறு நுணுக்கமான திறனை மேம்படுத்துகின்றன

Git-இயக்கப்பட்ட ரோபோக் கூட்டணி மூலம் விரிவாக்கம் செய்தல்

யதார்த்த இடைவெளி: உருவகப்படுத்துதல் (Simulation) vs வன்பொருள் (Hardware)

முக்கியக் கருத்துக்கள்

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

ஏஜென்டிக் AI நிர்வாகக் கட்டமைப்பு

𝗔𝗜 𝗦𝗲𝗹𝗳 𝗥𝗲𝗳𝗹𝗲𝗰𝘁𝗶𝗼𝗻

AI நெகிழ்வுத்தன்மை எவ்வாறு உலகளாவிய தரவு மையங்களின் மின்சாரத் தட்டுப்பாட்டைத் தீர்க்கக்கூடும்

𝗧𝗵𝗲 𝗦𝗹𝗼𝘁 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗪𝗮𝘀 𝘁𝗵𝗲 𝗣𝗼𝗶𝗻𝘁