AI కోడింగ్ ఏజెంట్ల సహాయంతో రోబోలు స్వయంగా శిక్షణ పొందేలా Nvidia పరిశోధకులు చేశారు

📅2 hours ago⏱3 min read

In this article

Nvidia పరిశోధకులు AI కోడింగ్ ఏజెంట్లను ఉపయోగించి రోబోలు స్వయంగా శిక్షణ పొందేలా చేస్తున్నారు

రోబోటిక్స్‌లో మాన్యువల్ డేటా సేకరణ మరియు నిరంతర మానవ జోక్యం వల్ల కలిగే అడ్డంకిని చివరకు పరిష్కరిస్తున్నారు. AI కోడింగ్ ఏజెంట్లను ఉపయోగించడం ద్వారా, పరిశోధకులు రోబోలు స్వయంగా తమ శిక్షణ కోడ్‌ను రాసుకోవడానికి మరియు వాస్తవ ప్రపంచ వాతావరణంలో తమ నైపుణ్యాన్ని (dexterity) మెరుగుపరుచుకోవడానికి వీలు కల్పించే వ్యవస్థను అభివృద్ధి చేశారు.

ENPIREతో మాన్యువల్ అడ్డంకులను అధిగమించడం

సాంప్రదాయకంగా, రోబోలకు నైపుణ్యంతో కూడిన పట్టుకోవడం (dexterous grasping) వంటి సంక్లిష్టమైన పనులను నేర్పించడానికి, మానవ ఇంజనీర్లు సీన్లను రీసెట్ చేయడం, డేటాసెట్‌లను సేకరించడం మరియు అల్గారిథమ్‌లను మాన్యువల్‌గా మార్చడం వంటివి చేయాల్సి ఉంటుంది. ఈ శ్రమతో కూడిన ప్రక్రియ రోబోటిక్ ఇంటెలిజెన్స్‌ను విస్తరించడంలో పెద్ద అడ్డంకిగా మారుతుంది. దీనిని పరిష్కరించడానికి, Nvidia, Carnegie Mellon University మరియు UC Berkeley పరిశోధకులు ENPIREని పరిచయం చేశారు. ఇది శిక్షణ ప్రక్రియను స్వయం సమృద్ధి గల ఫీడ్‌బ్యాక్ లూప్‌గా మారుస్తుంది.

మానవ సూచనల కోసం వేచి చూడటానికి బదులుగా, ENPIRE సిస్టమ్ మొత్తం లైఫ్‌సైకిల్‌ను నిర్వహించడానికి AI కోడింగ్ ఏజెంట్లను ఉపయోగిస్తుంది: వర్క్‌స్పేస్‌ను రీసెట్ చేయడం, మూవ్‌మెంట్ స్ట్రాటజీని అమలు చేయడం, ఫలితాన్ని అంచనా వేయడం మరియు పనితీరును మెరుగుపరచడానికి వెంటనే కోడ్‌ను సవరించడం (iterating). ఇది రోబోటిక్స్‌ను "human-in-the-loop" నుండి "agent-in-the-loop" స్థాయికి తీసుకెళ్తుంది.

స్వయంప్రతిపత్త కోడింగ్ ఏజెంట్లు నైపుణ్యాన్ని ఎలా పెంచుతాయి

ENPIRE ఫ్రేమ్‌వర్క్ రెండు విభిన్న దశల్లో పనిచేస్తుంది. మొదటి దశలో, ఏజెంట్ కనీస మానవ మార్గదర్శకత్వంతో—తరచుగా విజయవంతమైన మరియు విఫలమైన ప్రయత్నాలను చూపే కొన్ని నిమిషాల వీడియో ద్వారా—వర్క్‌స్పేస్‌ను ఏర్పాటు చేస్తుంది. ముఖ్యంగా, ఏజెంట్ తన స్వంత రివార్డ్ ఫంక్షన్‌లను (reward functions) రాసుకుంటుంది. ఉదాహరణకు, పిన్ ఇన్సర్షన్ (pin insertion) పనుల సమయంలో, విజయాన్ని నిర్ణయించడానికి ఏజెంట్ విజువల్ అలైన్‌మెంట్, గ్రిప్పర్ ఎత్తు మరియు అంచనా వేయబడిన ఫోర్స్ (force)లను కలిపి ఒక కస్టమ్ చెక్‌ను అభివృద్ధి చేసింది.

రెండవ దశలో, ఏజెంట్లు పూర్తి స్వయంప్రతిపత్తితో పనిచేస్తాయి. అవి పరిశోధనా పత్రాలను చదువుతాయి, పరికల్పనలను (hypotheses) రూపొందిస్తాయి మరియు శిక్షణ కోడ్‌ను నేరుగా సవరిస్తాయి. ఏ పద్ధతి ద్వారా వాస్తవ ప్రపంచ సంకేతాలు (real-world signals) మెరుగ్గా వస్తాయనే దాని ఆధారంగా, అవి బిహేవియర్ క్లోనింగ్ (మానవ కదలికలను అనుకరించడం) లేదా రీఇన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (ప్రయత్నం మరియు తప్పు) వంటి పద్ధతుల మధ్య ఎంచుకోగలవు. పరీక్షల సమయంలో, పరిశోధకులు Codex (GPT-5.5 తో), Claude Code (Opus 4.7 తో), మరియు Kimi Code (Kimi K2.6 తో) వంటి హై-పెర్ఫార్మెన్స్ మోడళ్లను ఉపయోగించారు, ఇందులో Codex అత్యుత్తమంగా నిలిచింది.

Git-Enabled రోబోట్ ఫ్లీట్ ద్వారా విస్తరణ

ఈ పరిశోధనలో అత్యంత వినూత్నమైన అంశాలలో ఒకటి ఎనిమిది డ్యూయల్-ఆర్మ్ YAM రోబోట్ స్టేషన్ల ఫ్లీట్‌ను సమన్వయం చేయడం. ఇవి విడివిడిగా పనిచేయకుండా, ఒక పంపిణీ చేయబడిన పరిశోధనా బృందంగా పనిచేస్తాయి. సాఫ్ట్‌వేర్ ఇంజనీరింగ్‌లో ఉపయోగించే ప్రామాణిక వెర్షన్ కంట్రోల్ టూల్ అయిన Git ఉపయోగించి, అవి తమ ఫలితాలను, విజయవంతమైన "రెసిపీలను" మరియు విఫలమైన పరికల్పనలను పంచుకుంటాయి.

ఈ ఫ్లీట్-ఆధారిత విధానం అపారమైన సమయ లాభాలను ఇస్తుంది:

Push-T Test: ఏజెంట్ల సంఖ్యను ఒకటి నుండి ఎనిమిదికి పెంచడం వల్ల, పని పూర్తి కావడానికి పట్టే సమయం ఐదు గంటల నుండి కేవలం రెండు గంటలకు తగ్గింది.
Pin Insertion: పిన్ ఇన్సర్షన్ పని పూర్తి కావడానికి పట్టే సమయం 90 నిమిషాల నుండి సుమారు 40 నిమిషాలకు తగ్గింది.
Success Rates: పిన్లను వర్గీకరించడం మరియు కేబుల్ టైలను కత్తిరించడం వంటి కష్టతరమైన పనులలో ఈ ఫ్లీట్ 99% వరకు విజయాన్ని సాధించింది.

రియాలిటీ గ్యాప్: సిమ్యులేషన్ వర్సెస్ హార్డ్‌వేర్

ఈ విజయాలు ఉన్నప్పటికీ, ఈ పరిశోధన "sim-to-real" గ్యాప్‌ను నొక్కి చెబుతుంది. పరీక్షించిన మూడు ఏజెంట్లు సిమ్యులేషన్‌లో Push-T టెస్ట్‌ను విజయవంతంగా పూర్తి చేసినప్పటికీ, ఘర్షణ (friction) మరియు రోబోట్ డైనమిక్స్ వంటి ఊహించని కారకాల వల్ల భౌతిక హార్డ్‌వేర్‌కు మారినప్పుడు మూడు అదుపులో మూడు విఫలమయ్యాయి. అయితే, GR00T వంటి స్థాపిత నమూనాల కంటే RoboCasa సిమ్యులేషన్‌లో ENPIRE అత్యుత్తమ పనితీరును ప్రదర్శించింది.

పరిశ్రమ సాధారణ ప్రయోజన రోబోటిక్స్ (general-purpose robotics) వైపు వెళ్తున్న కొద్దీ, యంత్రాలు కోడ్ ద్వారా "స్వయంగా పరిశోధించుకునే" (self-research) సామర్థ్యం, పరిమితమైన, ముందుగా ప్రోగ్రామ్ చేయబడిన కదలికల నుండి నిజమైన, అనుకూలత కలిగిన మేధస్సు వైపు వెళ్లడానికి కీలకం కానుంది.

ముఖ్య అంశాలు

Autonomous Iteration: ENPIRE రోబోట్లు తమ స్వంత రివార్డ్ ఫంక్షన్లను మరియు ట్రైనింగ్ కోడ్‌ను వ్రాయడానికి అనుమతిస్తుంది, దీనివల్ల సీన్లను రీసెట్ చేయడానికి లేదా అల్గారిథమ్‌లను సవరించడానికి మానవ ఇంజనీర్ల అవసరం గణనీయంగా తగ్గుతుంది.
Collaborative Learning: డేటాను పంచుకోవడానికి Gitని ఉపయోగించడం ద్వారా, ఎనిమిది రోబోట్ల ఫ్లీట్ ఒకదాని విజయాల నుండి మరియు వైఫల్యాల నుండి సమిష్టిగా నేర్చుకోగలదు, తద్వారా ట్రైనింగ్ కాలక్రమాన్ని గణనీయంగా వేగవంతం చేస్తుంది.
Real-World Complexity: ఈ వ్యవస్థ నిర్దిష్ట పనులలో 99% వరకు విజయాన్ని సాధించినప్పటికీ, సిమ్యులేటెడ్ ట్రైనింగ్‌తో పోలిస్తే భౌతిక వాతావరణాల యొక్క ఊహించని స్వభావం ఒక పెద్ద సవాలుగా మిగిలి ఉంది.

AI కోడింగ్ ఏజెంట్ల సహాయంతో రోబోలు స్వయంగా శిక్షణ పొందేలా Nvidia పరిశోధకులు చేశారు

Nvidia పరిశోధకులు AI కోడింగ్ ఏజెంట్లను ఉపయోగించి రోబోలు స్వయంగా శిక్షణ పొందేలా చేస్తున్నారు

ENPIREతో మాన్యువల్ అడ్డంకులను అధిగమించడం

స్వయంప్రతిపత్త కోడింగ్ ఏజెంట్లు నైపుణ్యాన్ని ఎలా పెంచుతాయి

Git-Enabled రోబోట్ ఫ్లీట్ ద్వారా విస్తరణ

రియాలిటీ గ్యాప్: సిమ్యులేషన్ వర్సెస్ హార్డ్‌వేర్

ముఖ్య అంశాలు

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

ఏజెంటిక్ AI గవర్నెన్స్ ఫ్రేమ్‌వర్క్

𝗔𝗜 𝗦𝗲𝗹𝗳 𝗥𝗲𝗳𝗹𝗲𝗰𝘁𝗶𝗼𝗻

How AI Flexibility Could Solve the Global Data Center Power Crunch

𝗧𝗵𝗲 𝗦𝗹𝗼𝘁 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗪𝗮𝘀 𝘁𝗵𝗲 𝗣𝗼𝗶𝗻𝘁