Nvidia పరిశోధకులు AI కోడింగ్ ఏజెంట్లను ఉపయోగించి రోబోలు స్వయంగా శిక్షణ పొందేలా చేస్తున్నారు
రోబోటిక్స్లో మాన్యువల్ డేటా సేకరణ మరియు నిరంతర మానవ జోక్యం వల్ల కలిగే అడ్డంకిని చివరకు పరిష్కరిస్తున్నారు. AI కోడింగ్ ఏజెంట్లను ఉపయోగించడం ద్వారా, పరిశోధకులు రోబోలు స్వయంగా తమ శిక్షణ కోడ్ను రాసుకోవడానికి మరియు వాస్తవ ప్రపంచ వాతావరణంలో తమ నైపుణ్యాన్ని (dexterity) మెరుగుపరుచుకోవడానికి వీలు కల్పించే వ్యవస్థను అభివృద్ధి చేశారు.
ENPIREతో మాన్యువల్ అడ్డంకులను అధిగమించడం
సాంప్రదాయకంగా, రోబోలకు నైపుణ్యంతో కూడిన పట్టుకోవడం (dexterous grasping) వంటి సంక్లిష్టమైన పనులను నేర్పించడానికి, మానవ ఇంజనీర్లు సీన్లను రీసెట్ చేయడం, డేటాసెట్లను సేకరించడం మరియు అల్గారిథమ్లను మాన్యువల్గా మార్చడం వంటివి చేయాల్సి ఉంటుంది. ఈ శ్రమతో కూడిన ప్రక్రియ రోబోటిక్ ఇంటెలిజెన్స్ను విస్తరించడంలో పెద్ద అడ్డంకిగా మారుతుంది. దీనిని పరిష్కరించడానికి, Nvidia, Carnegie Mellon University మరియు UC Berkeley పరిశోధకులు ENPIREని పరిచయం చేశారు. ఇది శిక్షణ ప్రక్రియను స్వయం సమృద్ధి గల ఫీడ్బ్యాక్ లూప్గా మారుస్తుంది.
మానవ సూచనల కోసం వేచి చూడటానికి బదులుగా, ENPIRE సిస్టమ్ మొత్తం లైఫ్సైకిల్ను నిర్వహించడానికి AI కోడింగ్ ఏజెంట్లను ఉపయోగిస్తుంది: వర్క్స్పేస్ను రీసెట్ చేయడం, మూవ్మెంట్ స్ట్రాటజీని అమలు చేయడం, ఫలితాన్ని అంచనా వేయడం మరియు పనితీరును మెరుగుపరచడానికి వెంటనే కోడ్ను సవరించడం (iterating). ఇది రోబోటిక్స్ను "human-in-the-loop" నుండి "agent-in-the-loop" స్థాయికి తీసుకెళ్తుంది.
స్వయంప్రతిపత్త కోడింగ్ ఏజెంట్లు నైపుణ్యాన్ని ఎలా పెంచుతాయి
ENPIRE ఫ్రేమ్వర్క్ రెండు విభిన్న దశల్లో పనిచేస్తుంది. మొదటి దశలో, ఏజెంట్ కనీస మానవ మార్గదర్శకత్వంతో—తరచుగా విజయవంతమైన మరియు విఫలమైన ప్రయత్నాలను చూపే కొన్ని నిమిషాల వీడియో ద్వారా—వర్క్స్పేస్ను ఏర్పాటు చేస్తుంది. ముఖ్యంగా, ఏజెంట్ తన స్వంత రివార్డ్ ఫంక్షన్లను (reward functions) రాసుకుంటుంది. ఉదాహరణకు, పిన్ ఇన్సర్షన్ (pin insertion) పనుల సమయంలో, విజయాన్ని నిర్ణయించడానికి ఏజెంట్ విజువల్ అలైన్మెంట్, గ్రిప్పర్ ఎత్తు మరియు అంచనా వేయబడిన ఫోర్స్ (force)లను కలిపి ఒక కస్టమ్ చెక్ను అభివృద్ధి చేసింది.
రెండవ దశలో, ఏజెంట్లు పూర్తి స్వయంప్రతిపత్తితో పనిచేస్తాయి. అవి పరిశోధనా పత్రాలను చదువుతాయి, పరికల్పనలను (hypotheses) రూపొందిస్తాయి మరియు శిక్షణ కోడ్ను నేరుగా సవరిస్తాయి. ఏ పద్ధతి ద్వారా వాస్తవ ప్రపంచ సంకేతాలు (real-world signals) మెరుగ్గా వస్తాయనే దాని ఆధారంగా, అవి బిహేవియర్ క్లోనింగ్ (మానవ కదలికలను అనుకరించడం) లేదా రీఇన్ఫోర్స్మెంట్ లెర్నింగ్ (ప్రయత్నం మరియు తప్పు) వంటి పద్ధతుల మధ్య ఎంచుకోగలవు. పరీక్షల సమయంలో, పరిశోధకులు Codex (GPT-5.5 తో), Claude Code (Opus 4.7 తో), మరియు Kimi Code (Kimi K2.6 తో) వంటి హై-పెర్ఫార్మెన్స్ మోడళ్లను ఉపయోగించారు, ఇందులో Codex అత్యుత్తమంగా నిలిచింది.
Git-Enabled రోబోట్ ఫ్లీట్ ద్వారా విస్తరణ
ఈ పరిశోధనలో అత్యంత వినూత్నమైన అంశాలలో ఒకటి ఎనిమిది డ్యూయల్-ఆర్మ్ YAM రోబోట్ స్టేషన్ల ఫ్లీట్ను సమన్వయం చేయడం. ఇవి విడివిడిగా పనిచేయకుండా, ఒక పంపిణీ చేయబడిన పరిశోధనా బృందంగా పనిచేస్తాయి. సాఫ్ట్వేర్ ఇంజనీరింగ్లో ఉపయోగించే ప్రామాణిక వెర్షన్ కంట్రోల్ టూల్ అయిన Git ఉపయోగించి, అవి తమ ఫలితాలను, విజయవంతమైన "రెసిపీలను" మరియు విఫలమైన పరికల్పనలను పంచుకుంటాయి.
ఈ ఫ్లీట్-ఆధారిత విధానం అపారమైన సమయ లాభాలను ఇస్తుంది:
- Push-T Test: ఏజెంట్ల సంఖ్యను ఒకటి నుండి ఎనిమిదికి పెంచడం వల్ల, పని పూర్తి కావడానికి పట్టే సమయం ఐదు గంటల నుండి కేవలం రెండు గంటలకు తగ్గింది.
- Pin Insertion: పిన్ ఇన్సర్షన్ పని పూర్తి కావడానికి పట్టే సమయం 90 నిమిషాల నుండి సుమారు 40 నిమిషాలకు తగ్గింది.
- Success Rates: పిన్లను వర్గీకరించడం మరియు కేబుల్ టైలను కత్తిరించడం వంటి కష్టతరమైన పనులలో ఈ ఫ్లీట్ 99% వరకు విజయాన్ని సాధించింది.
రియాలిటీ గ్యాప్: సిమ్యులేషన్ వర్సెస్ హార్డ్వేర్
ఈ విజయాలు ఉన్నప్పటికీ, ఈ పరిశోధన "sim-to-real" గ్యాప్ను నొక్కి చెబుతుంది. పరీక్షించిన మూడు ఏజెంట్లు సిమ్యులేషన్లో Push-T టెస్ట్ను విజయవంతంగా పూర్తి చేసినప్పటికీ, ఘర్షణ (friction) మరియు రోబోట్ డైనమిక్స్ వంటి ఊహించని కారకాల వల్ల భౌతిక హార్డ్వేర్కు మారినప్పుడు మూడు అదుపులో మూడు విఫలమయ్యాయి. అయితే, GR00T వంటి స్థాపిత నమూనాల కంటే RoboCasa సిమ్యులేషన్లో ENPIRE అత్యుత్తమ పనితీరును ప్రదర్శించింది.
పరిశ్రమ సాధారణ ప్రయోజన రోబోటిక్స్ (general-purpose robotics) వైపు వెళ్తున్న కొద్దీ, యంత్రాలు కోడ్ ద్వారా "స్వయంగా పరిశోధించుకునే" (self-research) సామర్థ్యం, పరిమితమైన, ముందుగా ప్రోగ్రామ్ చేయబడిన కదలికల నుండి నిజమైన, అనుకూలత కలిగిన మేధస్సు వైపు వెళ్లడానికి కీలకం కానుంది.
ముఖ్య అంశాలు
- Autonomous Iteration: ENPIRE రోబోట్లు తమ స్వంత రివార్డ్ ఫంక్షన్లను మరియు ట్రైనింగ్ కోడ్ను వ్రాయడానికి అనుమతిస్తుంది, దీనివల్ల సీన్లను రీసెట్ చేయడానికి లేదా అల్గారిథమ్లను సవరించడానికి మానవ ఇంజనీర్ల అవసరం గణనీయంగా తగ్గుతుంది.
- Collaborative Learning: డేటాను పంచుకోవడానికి Gitని ఉపయోగించడం ద్వారా, ఎనిమిది రోబోట్ల ఫ్లీట్ ఒకదాని విజయాల నుండి మరియు వైఫల్యాల నుండి సమిష్టిగా నేర్చుకోగలదు, తద్వారా ట్రైనింగ్ కాలక్రమాన్ని గణనీయంగా వేగవంతం చేస్తుంది.
- Real-World Complexity: ఈ వ్యవస్థ నిర్దిష్ట పనులలో 99% వరకు విజయాన్ని సాధించినప్పటికీ, సిమ్యులేటెడ్ ట్రైనింగ్తో పోలిస్తే భౌతిక వాతావరణాల యొక్క ఊహించని స్వభావం ఒక పెద్ద సవాలుగా మిగిలి ఉంది.