AI கோடிங் ஏஜெண்டுகளைப் பயன்படுத்தி ரோபோக்கள் தாங்களாகவே பயிற்சி பெற Nvidia ஆராய்ச்சியாளர்கள் வழிவகை செய்கிறார்கள்

ரோபாட்டிக்ஸில் கையேடு தரவு சேகரிப்பு மற்றும் தொடர்ச்சியான மனிதத் தலையீடு ஆகியவற்றால் ஏற்படும் தடைகள் இறுதியாகத் தீர்க்கப்பட்டு வருகின்றன. AI கோடிங் ஏஜெண்டுகளைப் பயன்படுத்துவதன் மூலம், ஆராய்ச்சியாளர்கள் ரோபோக்கள் தங்களின் பயிற்சி குறியீடுகளை (training code) தாங்களாகவே எழுதவும், நிஜ உலகச் சூழல்களில் அவற்றின் நுணுக்கமான திறன்களை (dexterity) மேம்படுத்திக் கொள்ளவும் உதவும் ஒரு அமைப்பை உருவாக்கியுள்ளனர்.

ENPIRE மூலம் கையேடு தடைகளை உடைத்தல்

பாரம்பரியமாக, ஒரு ரோபோவிற்கு நுணுக்கமானப் பிடிமானம் (dexterous grasping) போன்ற சிக்கலான பணிகளைக் கற்பிப்பதற்கு, மனிதப் பொறியாளர்கள் காட்சிகளை மீண்டும் அமைத்தல், தரவுத் தொகுப்புகளைச் சேகரித்தல் மற்றும் அல்காரிதம்களைக் கையேடாகச் சரிசெய்தல் போன்ற பணிகளைச் செய்ய வேண்டியுள்ளது. இந்த உழைப்பு மிகுந்த செயல்முறை, ரோபோட்டிக் நுண்ணறிவை (robotic intelligence) விரிவுபடுத்துவதில் ஒரு பெரிய தடையை உருவாக்குகிறது. இதைத் தீர்க்க, Nvidia, Carnegie Mellon University மற்றும் UC Berkeley ஆராய்ச்சியாளர்கள் ENPIRE என்ற கட்டமைப்பை அறிமுகப்படுத்தியுள்ளனர். இது பயிற்சிச் செயல்முறையை ஒரு சுய-நிலைநிறுத்தப்பட்ட பின்னூட்டச் சுழற்சியாக (self-sustaining feedback loop) மாற்றுகிறது.

மனித அறிவுறுத்தல்களுக்காகக் காத்திருப்பதற்குப் பதிலாக, ENPIRE அமைப்பு முழு வாழ்க்கைச் சுழற்சியையும் நிர்வகிக்க AI கோடிங் ஏஜெண்டுகளைப் பயன்படுத்துகிறது: பணி இடத்தைத் தயார் செய்தல், ஒரு இயக்க உத்தியைச் செயல்படுத்துதல், முடிவை மதிப்பீடு செய்தல் மற்றும் செயல்திறனை மேம்படுத்த உடனடியாகக் குறியீட்டைத் திருத்துதல் போன்றவை இதில் அடங்கும். இது ரோபாட்டிக்ஸை "human-in-the-loop" நிலையிலிருந்து "agent-in-the-loop" நிலைக்கு நகர்த்துகிறது.

தன்னாட்சி கோடிங் ஏஜெண்டுகள் எவ்வாறு நுணுக்கமான திறனை மேம்படுத்துகின்றன

ENPIRE கட்டமைப்பு இரண்டு வெவ்வேறு நிலைகளில் செயல்படுகிறது. முதல் நிலையில், ஏஜென்ட் மிகக் குறைந்த மனித வழிகாட்டுதலுடன் ஒரு பணி இடத்தை அமைக்கிறது—பெரும்பாலும் வெற்றிகரமான மற்றும் தோல்வியடைந்த முயற்சிகளைக் காட்டும் சில நிமிட வீடியோக்கள் மட்டுமே இதற்குப் போதுமானதாக இருக்கும். மிக முக்கியமாக, ஏஜென்ட் தனது சொந்த reward functions-களை எழுதுகிறது. உதாரணமாக, பின் செருகும் (pin insertion) பணிகளின் போது, வெற்றித் தன்மையைத் தீர்மானிக்க visual alignment, gripper height மற்றும் estimated force ஆகியவற்றை இணைத்து ஒரு தனிப்பயனாக்கப்பட்ட சரிபார்ப்பு முறையை ஏஜென்ட் உருவாக்கியது.

இரண்டாவது நிலையில், ஏஜெண்டுகள் முழுமையான தன்னாட்சியுடன் செயல்படுகின்றன. அவை ஆராய்ச்சித் தாள்களைப் படிக்கின்றன, கருதுகோள்களை உருவாக்குகின்றன மற்றும் பயிற்சி குறியீட்டை நேரடியாகத் திருத்துகின்றன. எந்த அணுகுமுறை சிறந்த நிஜ உலகத் தரவுகளைத் தருகிறது என்பதன் அடிப்படையில், behavior cloning (மனித இயக்கத்தைப் பின்பற்றுதல்) அல்லது reinforcement learning (முயற்சி மற்றும் தவறு) போன்ற முறைகளில் ஒன்றைத் தேர்ந்தெடுக்க它们 முடியும். சோதனையின் போது, ஆராய்ச்சியாளர்கள் Codex (GPT-5.5 உடன்), Claude Code (Opus 4.7 உடன்) மற்றும் Kimi Code (Kimi K2.6 உடன்) உள்ளிட்ட உயர் செயல்திறன் கொண்ட மாடல்களைப் பயன்படுத்தினர், இதில் Codex சிறந்த செயல்திறனை வெளிப்படுத்தியது.

Git-இயக்கப்பட்ட ரோபோக் கூட்டணி மூலம் விரிவாக்கம் செய்தல்

இந்த ஆராய்ச்சியின் மிகவும் புதுமையான அம்சங்களில் ஒன்று, எட்டு இரட்டை-கை YAM ரோபோ நிலையங்களின் தொகுப்பை (fleet) ஒருங்கிணைப்பதாகும். இவை தனித்தனியாகச் செயல்படுவதற்குப் பதிலாக, ஒரு பரவலாக்கப்பட்ட ஆராய்ச்சி குழுவாகச் செயல்படுகின்றன. மென்பொருள் பொறியியலில் பயன்படுத்தப்படும் தரப்படுத்தப்பட்ட பதிப்பு கட்டுப்பாட்டு கருவியான Git மூலம், அவை தங்களின் கண்டுபிடிப்புகள், வெற்றிகரமான "செய்முறைகள்" மற்றும் தோல்வியடைந்த கருதுகோள்களைப் பகிர்ந்து கொள்கின்றன.

இந்தத் தொகுப்பு சார்ந்த அணுகுமுறை மிகப்பெரிய நேரச் சேமிப்பைத் தருகிறது:

யதார்த்த இடைவெளி: உருவகப்படுத்துதல் (Simulation) vs வன்பொருள் (Hardware)

இந்த முன்னேற்றங்கள் இருந்தபோதிலும், இந்த ஆராய்ச்சி "sim-to-real" இடைவெளியைச் சுட்டிக்காட்டுகிறது. சோதனை செய்யப்பட்ட மூன்று முகவரிகளும் உருவகப்படுத்துதலில் (simulation) Push-T சோதனையைத் தீர்த்தாலும், உராய்வு மற்றும் ரோபோ இயக்கவியல் (robot dynamics) போன்ற கணிக்க முடியாத காரணிகளால், மூன்றுவற்றில் இரண்டு முகவரிகள் இயற்பியல் வன்பொருளுக்கு (physical hardware) மாற்றப்பட்டபோது தோல்வியடைந்தன. இருப்பினும், GR00T போன்ற ஏற்கனவே உள்ள மாதிரிகளுடன் ஒப்பிடும்போது, RoboCasa உருவகப்படுத்துதலில் ENPIRE சிறந்த செயல்திறனை வெளிப்படுத்தியது.

தொழில்துறை பொது நோக்கத்திற்கான ரோபோட்டிக்ஸ் (general-purpose robotics) நோக்கி நகரும்போது, இயந்திரங்கள் குறியீடு (code) மூலம் "சுயமாக ஆராய்ச்சி" செய்யும் திறன், குறுகிய மற்றும் முன்கூட்டியே திட்டமிடப்பட்ட இயக்கங்களைக் கடந்து, உண்மையான மற்றும் மாற்றியமைக்கக்கூடிய நுண்ணறிவை நோக்கிச் செல்வதற்கான திறவுகோலாக இருக்கும்.

முக்கியக் கருத்துக்கள்