Nvidia کے محققین نے AI کوڈنگ ایجنٹس کا استعمال کرتے ہوئے روبوٹس کو خود سے تربیت دینے کے قابل بنا دیا ہے

روبوٹکس میں دستی ڈیٹا اکٹھا کرنے اور مسلسل انسانی مداخلت کی رکاوٹ کو آخر کار دور کیا جا رہا ہے۔ AI کوڈنگ ایجنٹس کا فائدہ اٹھاتے ہوئے، محققین نے ایک ایسا نظام تیار کیا ہے جہاں روبوٹس خود مختارانہ طور پر اپنا تربیتی کوڈ لکھ سکتے ہیں اور حقیقی دنیا کے ماحول میں اپنی مہارت (dexterity) کو بہتر بنا سکتے ہیں۔

ENPIRE کے ذریعے دستی رکاوٹ کو ختم کرنا

روایتی طور پر، روبوٹ کو مہارت سے چیزیں پکڑنے (dexterous grasping) جیسے پیچیدہ کام سکھانے کے لیے انسانی انجینئرز کو مناظر کو ری سیٹ کرنے، ڈیٹا سیٹس اکٹھا کرنے اور الگورتھم میں دستی طور پر تبدیلی کرنے کی ضرورت ہوتی ہے۔ یہ محنت طلب عمل روبوٹک ذہانت کو وسعت دینے میں ایک بڑی رکاوٹ پیدا کرتا ہے۔ اس مسئلے کو حل کرنے کے لیے، Nvidia، Carnegie Mellon University اور UC Berkeley کے محققین نے ENPIRE متعارف کرایا ہے، جو ایک ایسا فریم ورک ہے جو تربیتی عمل کو ایک خود کفیل فیڈ بیک لوپ میں تبدیل کر دیتا ہے۔

انسانی ہدایات کا انتظار کرنے کے بجائے، ENPIRE سسٹم پورے لائف سائیکل کو مینیج کرنے کے لیے AI کوڈنگ ایجنٹس کا استعمال کرتا ہے: ورک اسپیس کو ری سیٹ کرنا، حرکت کی حکمت عملی پر عمل درآمد کرنا، نتائج کا جائزہ لینا، اور کارکردگی کو بہتر بنانے کے لیے فوری طور پر کوڈ میں ترمیم کرنا۔ یہ روبوٹکس کو "human-in-the-loop" سے "agent-in-the-loop" کی طرف لے جاتا ہے۔

خود مختار کوڈنگ ایجنٹس مہارت (Dexterity) کو کیسے بڑھاتے ہیں

ENPIRE فریم ورک دو الگ مراحل میں کام کرتا ہے۔ پہلے مرحلے میں، ایجنٹ کم سے کم انسانی رہنمائی کے ذریعے ورک اسپیس قائم کرتا ہے—جو اکثر صرف چند منٹ کی ویڈیو ہوتی ہے جس میں کامیاب اور ناکام کوششیں دکھائی گئی ہوں۔ اہم بات یہ ہے کہ ایجنٹ اپنے ریوارڈ فنکشنز (reward functions) خود لکھتا ہے۔ مثال کے طور پر، پن لگانے (pin insertion) کے کام کے دوران، ایجنٹ نے کامیابی کا تعین کرنے کے لیے بصری ہم آہنگی (visual alignment)، گریپر کی اونچائی اور تخمینہ شدہ قوت کو ملا کر ایک کسٹم چیک تیار کیا۔

دوسرے مرحلے میں، ایجنٹس مکمل خود مختاری کے ساتھ کام کرتے ہیں۔ وہ تحقیقی مقالے پڑھتے ہیں، مفروضے قائم کرتے ہیں، اور براہ راست تربیتی کوڈ میں ترمیم کرتے ہیں۔ وہ اس بنیاد پر طریقوں کا انتخاب کر سکتے ہیں کہ کون سا طریقہ حقیقی دنیا میں بہتر نتائج دیتا ہے، جیسے کہ behavior cloning (انسانی حرکت کی نقل کرنا) یا reinforcement learning (کوشش اور غلطی)۔ ٹیسٹنگ کے دوران، محققین نے Codex (GPT-5.5 کے ساتھ)، Claude Code (Opus 4.7 کے ساتھ)، اور Kimi Code (Kimi K2.6 کے ساتھ) سمیت اعلیٰ کارکردگی والے ماڈلز کا استعمال کیا، جن میں Codex بہترین کارکردگی دکھانے والا ثابت ہوا۔

Git-Enabled روبوٹک بیڑے کے ذریعے وسعت دینا

One of the most innovative aspects of this research is the coordination of a fleet of eight dual-arm YAM robot stations. Rather than working in isolation, these stations act as a distributed research team. They share their findings, successful "recipes," and failed hypotheses using Git, the standard version control tool used in software engineering.

This fleet-based approach yields massive temporal gains:

The Reality Gap: Simulation vs. Hardware

Despite these breakthroughs, the research highlights the "sim-to-real" gap. While all three tested agents solved the Push-T test in simulation, two out of three failed when transitioned to physical hardware due to unpredictable variables like friction and robot dynamics. However, ENPIRE demonstrated superior performance in the RoboCasa simulation compared to established models like GR00T.

As the industry moves toward general-purpose robotics, the ability for machines to "self-research" through code will be the key to moving beyond narrow, pre-programmed motions toward true, adaptable intelligence.

Key Takeaways