Nvidia کے محققین نے AI کوڈنگ ایجنٹس کا استعمال کرتے ہوئے روبوٹس کو خود سے تربیت دینے کے قابل بنا دیا ہے
روبوٹکس میں دستی ڈیٹا اکٹھا کرنے اور مسلسل انسانی مداخلت کی رکاوٹ کو آخر کار دور کیا جا رہا ہے۔ AI کوڈنگ ایجنٹس کا فائدہ اٹھاتے ہوئے، محققین نے ایک ایسا نظام تیار کیا ہے جہاں روبوٹس خود مختارانہ طور پر اپنا تربیتی کوڈ لکھ سکتے ہیں اور حقیقی دنیا کے ماحول میں اپنی مہارت (dexterity) کو بہتر بنا سکتے ہیں۔
ENPIRE کے ذریعے دستی رکاوٹ کو ختم کرنا
روایتی طور پر، روبوٹ کو مہارت سے چیزیں پکڑنے (dexterous grasping) جیسے پیچیدہ کام سکھانے کے لیے انسانی انجینئرز کو مناظر کو ری سیٹ کرنے، ڈیٹا سیٹس اکٹھا کرنے اور الگورتھم میں دستی طور پر تبدیلی کرنے کی ضرورت ہوتی ہے۔ یہ محنت طلب عمل روبوٹک ذہانت کو وسعت دینے میں ایک بڑی رکاوٹ پیدا کرتا ہے۔ اس مسئلے کو حل کرنے کے لیے، Nvidia، Carnegie Mellon University اور UC Berkeley کے محققین نے ENPIRE متعارف کرایا ہے، جو ایک ایسا فریم ورک ہے جو تربیتی عمل کو ایک خود کفیل فیڈ بیک لوپ میں تبدیل کر دیتا ہے۔
انسانی ہدایات کا انتظار کرنے کے بجائے، ENPIRE سسٹم پورے لائف سائیکل کو مینیج کرنے کے لیے AI کوڈنگ ایجنٹس کا استعمال کرتا ہے: ورک اسپیس کو ری سیٹ کرنا، حرکت کی حکمت عملی پر عمل درآمد کرنا، نتائج کا جائزہ لینا، اور کارکردگی کو بہتر بنانے کے لیے فوری طور پر کوڈ میں ترمیم کرنا۔ یہ روبوٹکس کو "human-in-the-loop" سے "agent-in-the-loop" کی طرف لے جاتا ہے۔
خود مختار کوڈنگ ایجنٹس مہارت (Dexterity) کو کیسے بڑھاتے ہیں
ENPIRE فریم ورک دو الگ مراحل میں کام کرتا ہے۔ پہلے مرحلے میں، ایجنٹ کم سے کم انسانی رہنمائی کے ذریعے ورک اسپیس قائم کرتا ہے—جو اکثر صرف چند منٹ کی ویڈیو ہوتی ہے جس میں کامیاب اور ناکام کوششیں دکھائی گئی ہوں۔ اہم بات یہ ہے کہ ایجنٹ اپنے ریوارڈ فنکشنز (reward functions) خود لکھتا ہے۔ مثال کے طور پر، پن لگانے (pin insertion) کے کام کے دوران، ایجنٹ نے کامیابی کا تعین کرنے کے لیے بصری ہم آہنگی (visual alignment)، گریپر کی اونچائی اور تخمینہ شدہ قوت کو ملا کر ایک کسٹم چیک تیار کیا۔
دوسرے مرحلے میں، ایجنٹس مکمل خود مختاری کے ساتھ کام کرتے ہیں۔ وہ تحقیقی مقالے پڑھتے ہیں، مفروضے قائم کرتے ہیں، اور براہ راست تربیتی کوڈ میں ترمیم کرتے ہیں۔ وہ اس بنیاد پر طریقوں کا انتخاب کر سکتے ہیں کہ کون سا طریقہ حقیقی دنیا میں بہتر نتائج دیتا ہے، جیسے کہ behavior cloning (انسانی حرکت کی نقل کرنا) یا reinforcement learning (کوشش اور غلطی)۔ ٹیسٹنگ کے دوران، محققین نے Codex (GPT-5.5 کے ساتھ)، Claude Code (Opus 4.7 کے ساتھ)، اور Kimi Code (Kimi K2.6 کے ساتھ) سمیت اعلیٰ کارکردگی والے ماڈلز کا استعمال کیا، جن میں Codex بہترین کارکردگی دکھانے والا ثابت ہوا۔
Git-Enabled روبوٹک بیڑے کے ذریعے وسعت دینا
One of the most innovative aspects of this research is the coordination of a fleet of eight dual-arm YAM robot stations. Rather than working in isolation, these stations act as a distributed research team. They share their findings, successful "recipes," and failed hypotheses using Git, the standard version control tool used in software engineering.
This fleet-based approach yields massive temporal gains:
- Push-T Test: Scaling from one to eight agents reduced completion time from five hours to just two.
- Pin Insertion: Task completion time dropped from over 90 minutes to approximately 40 minutes.
- Success Rates: The fleet achieved up to 99% success on demanding tasks, including sorting pins and cutting cable ties.
The Reality Gap: Simulation vs. Hardware
Despite these breakthroughs, the research highlights the "sim-to-real" gap. While all three tested agents solved the Push-T test in simulation, two out of three failed when transitioned to physical hardware due to unpredictable variables like friction and robot dynamics. However, ENPIRE demonstrated superior performance in the RoboCasa simulation compared to established models like GR00T.
As the industry moves toward general-purpose robotics, the ability for machines to "self-research" through code will be the key to moving beyond narrow, pre-programmed motions toward true, adaptable intelligence.
Key Takeaways
- Autonomous Iteration: ENPIRE allows robots to write their own reward functions and training code, significantly reducing the need for human engineers to reset scenes or tweak algorithms.
- Collaborative Learning: By using Git to share data, a fleet of eight robots can collectively learn from each other's successes and failures, drastically accelerating the training timeline.
- Real-World Complexity: While the system achieves up to 99% success on specific tasks, the unpredictable nature of physical environments remains a significant challenge compared to simulated training.