Physical AI میں ڈیٹا کے اہم رکاوٹ (bottleneck) کو حل کرنے کے لیے XDOF کا ظہور

جیسے جیسے OpenAI کے اپنے روبوٹکس پروگرام کو دوبارہ شروع کرنے سے فزیکل انٹیلی جنس (physical intelligence) کی دوڑ تیز ہو رہی ہے، ایک نیا چیلنج سامنے آیا ہے: ہائی فائیڈیلٹی (high-fidelity) ٹریننگ ڈیٹا کی کمی۔ جہاں Large Language Models (LLMs) انٹرنیٹ کے وسیع ذخیرے سے ترقی یافتہ ہوئے، وہیں روبوٹکس کے لیے درست اور جسمانی تعامل (physical interaction) کے ڈیٹا کی ضرورت ہے جو موجودہ ڈیٹا سیٹس فراہم کرنے سے قاصر ہیں۔

ڈیٹا کا خلا: LLMs روبوٹکس کا مسئلہ کیوں حل نہیں کر سکتے

قابل روبوٹ بنانے میں بنیادی رکاوٹ صرف کمپیوٹ یا ماڈل آرکیٹیکچر نہیں ہے؛ بلکہ یہ ایک ایسے "ڈیٹا موٹ" (data moat) کی عدم موجودگی ہے جو GPT ماڈلز کے لیے استعمال ہونے والے متن کے برابر ہو۔ موجودہ متبادل، جیسے یوٹیوب ویڈیوز یا گگ ورکرز (gig workers) کے ذریعے حاصل کردہ کم معیار کی فوٹیج، روبوٹک حرکت کی پیچیدہ جسمانی حقیقتوں کے ساتھ ہم آہنگ کرنا مشکل ہے۔ یہ "مرغی اور انڈے" والا مسئلہ—ماڈلز کو تربیت دینے کے لیے ڈیٹا کی ضرورت ہے، لیکن موثر ڈیٹا جمع کرنے کے لیے ماڈلز کی ضرورت ہے—صنعت کے لیے بنیادی رکاوٹ بن گیا ہے۔

XDOF، ایک اسٹارٹ اپ جو اب تک خفیہ طور پر کام کر رہا تھا، خود کو اس مسئلے کے حل کے لیے انفراسٹرکچر لیئر کے طور پر پیش کر رہا ہے۔ Thrive Capital، Spark Capital، a16z، Lux، اور WndrCo جیسے بڑے سرمایہ کاروں سے 70 ملین ڈالر جمع کرنے کے بعد، کمپنی وہ پائپ لائنز، کلیکشن ٹولز اور اینوٹیشن سسٹم (annotation systems) تیار کر رہی ہے جنہیں جدید ترین AI لیبز خود بنانے کے لیے جدوجہد کر رہی ہیں۔

ABC ڈیٹا سیٹ اور ڈیٹا پائرامڈ کی تعمیر

اس ایکو سسٹم کو تیز کرنے کے لیے، XDOF، UC Berkeley کی AI Research لیب کے ساتھ شراکت داری کر کے "ABC" جاری کر رہا ہے، جو کہ اعلیٰ معیار کے روبوٹ ٹریننگ ڈیٹا کا ایک وسیع مجموعہ ہے۔ اس ڈیٹا سیٹ میں شامل ہیں:

اس ڈیٹا کا استعمال کرتے ہوئے، ٹیموں نے پہلے ہی روبوٹ کو باریک کاموں پر کامیابی سے تربیت دی ہے، جیسے کہ ٹی شرٹس کو تہہ کرنا، ڈبوں کو ہموار کرنا، اور AirPods کو ان کے کیسز میں لوڈ کرنے جیسے نازک کام انجام دینا۔

XDOF کی حکمت عملی جامع سیکھنے کو یقینی بنانے کے لیے تین درجوں والے "ڈیٹا پائرامڈ" (data pyramid) پر مبنی ہے۔ سب سے قیمتی درجہ وہ ٹیلی آپریشن (teleoperation) ڈیٹا ہے جو براہ راست ٹارگٹ روبوٹ پر جمع کیا جاتا ہے۔ اس کے بعد GELLO جیسے آلات کے ذریعے جمع کیا گیا عام ڈیٹا آتا ہے (GELLO ایک کم قیمت ٹیلی آپریشن سسٹم ہے جسے XDOF کے بانیوں Philippe Wu اور Fred Shentu نے تیار کیا ہے)۔ آخری درجہ "ایگوسینٹرک" (egocentric) ڈیٹا پر مشتمل ہے، جہاں انسان XDOF کے مخصوص سینسرز پہن کر روزمرہ کے کام انجام دیتے ہیں تاکہ فرسٹ پرسن (first-person) جسمانی حرکت کو ریکارڈ کیا جا سکے۔

فرنٹیر لیبز سے آگے نکلنا

سرمایہ کاروں کے لیے ایک اہم سوال یہ ہے کہ بڑی AI لیبز خود ان ڈیٹا فیکٹریوں کو کیوں نہیں بنا رہی ہیں۔ سی ای او Philippe Wu کے مطابق، اس کی آپریشنل پیچیدگی بے پناہ ہے۔ ڈیٹا اکٹھا کرنے کے عمل کو چلانے کے لیے لاکھوں مربع فٹ گودام کی جگہ، سینکڑوں کیلیبریٹڈ روبوٹس، اور ٹیلی آپریٹرز کی ایک بڑی اور تربیت یافتہ افرادی قوت کی ضرورت ہوتی ہے۔

اس "غیر پرکشش" کام میں مہارت حاصل کر کے—بشمول ڈیٹا کی صفائی اور ہارڈ ویئر کے مخصوص کیلیبریشن—XDOF، AI لیبز کو ماڈل آرکیٹیکچر پر توجہ مرکوز کرنے کی اجازت دیتا ہے جبکہ XDOF جسمانی ڈیٹا کی پیداوار کے بھاری لاجسٹک بوجھ کو سنبھالتا ہے۔ کمپنی کا نام، جو "degrees of freedom" سے ماخوذ ہے، حرکت کی کسی بھی پیچیدگی کے لیے ڈیٹا فراہم کرنے کے اس کے مقصد کی عکاسی کرتا ہے، چاہے وہ انسانی بازو کے سات ڈگریز آف فریڈم ہوں یا ہیومنائیڈ کے 30۔

اہم نکات