General Intuition نے ویڈیو گیم ڈیٹا کو حقیقی دنیا کے AI میں تبدیل کرنے کے لیے 320 ملین ڈالر جمع کیے
General Intuition کا یہ ماننا ہے کہ جسمانی ذہانت (physical intelligence) کے راز کھلاڑیوں کے ذریعے ریکارڈ کیے گئے ویڈیو گیمز کے لاکھوں گھنٹوں کے فوٹیج میں چھپے ہوئے ہیں۔ گیمنگ سے حاصل کردہ اعلیٰ معیار کے ایکشن ڈیٹا کا فائدہ اٹھاتے ہوئے، یہ اسٹارٹ اپ ایسے ایجنٹک ماڈلز (agentic models) بنانے کا ارادہ رکھتا ہے جو Fortnite جیسے ورچوئل ماحول سے جسمانی چار پیروں والے روبوٹس (quadrupedal robots) تک بغیر کسی رکاوٹ کے منتقل ہو سکیں۔
محض ویڈیو کے مقابلے میں ایکشن لیبلز کی طاقت
ان بہت سے حریفوں کے برعکس جو محض ویڈیو کے مشاہدے سے AI ایجنٹس کو تربیت دینے کی کوشش کرتے ہیں، General Intuition اپنے سابقہ ادارے Medal سے ورثے میں ملنے والے ایک مخصوص فائدے کا استعمال کرتا ہے۔ جہاں زیادہ تر ماڈلز صرف پکسلز سے حرکات و سکنات کا اندازہ لگانے کی کوشش کرتے ہیں، وہیں General Intuition "action labels" کا استعمال کرتا ہے—یعنی گیم پلے کلپس کے ساتھ ریکارڈ کیے گئے بٹن دبانے کے عین درست طریقے اور ٹائم اسٹیمپ۔
یہ فرق مکانی-زمانی استدلال (spatial-temporal reasoning) کو تیار کرنے کے لیے انتہائی اہم ہے۔ یہ جان کر کہ انسانی ان پٹ کس طرح 3D اسپیس میں ایک مخصوص حرکت کا باعث بنتا ہے، ماڈل وجہ اور اثر (causality) کو سیکھتا ہے: یعنی ایک عمل ماحول پر کیسے اثر انداز ہوتا ہے۔ CEO Pim de Witte کا کہنا ہے کہ یہ ماڈل کو "خود" (self) اور "ماحول" (environment) کے درمیان فرق کرنے کی اجازت دیتا ہے، جو کہ جسمانی دنیا میں کام کرنے کے لیے کسی بھی ایجنٹ کے لیے ایک بنیادی ضرورت ہے۔
Fortnite سیمولیشن سے روبوٹک وجود تک
کمپنی کا تکنیکی ڈھانچہ ایک "ورلڈ ماڈل" (world model) پر مبنی ہے جو ایک اندرونی تربیتی جم کے طور پر کام کرتا ہے۔ روایتی گیم انجنوں پر انحصار کرنے کے بجائے، یہ ماڈل فریم بہ فریم ماحول تیار کرتا ہے، جس سے ایجنٹس کو محض تکرار کے ذریعے طبیعیات پر مبنی حقیقتوں—جیسے دیواروں کی مضبوطی یا سایوں کی حرکت—کو سیکھنے کا موقع ملتا ہے۔
اس تربیت کا عملی اطلاق ان کے ہارڈ ویئر ڈیمو میں پہلے ہی نظر آ رہا ہے۔ کمپنی نے ورچوئل مناظر میں راستہ تلاش کرنے کے لیے استعمال ہونے والے اسی "دماغ" کو کامیابی سے ایک بڑے چار پیروں والے روبوٹ میں منتقل کر دیا ہے۔ حیرت انگیز طور پر، ٹیم نے بتایا کہ روبوٹ کی جسمانی نیویگیشن کے لیے ماڈل کو بہتر بنانے (fine-tune) کے لیے عوامی سڑکوں سے جمع کیے گئے حقیقی دنیا کے روبوٹکس ڈیٹا کے صرف آٹھ منٹ کافی تھے۔ اس سے پتہ چلتا ہے کہ ذہانت کا زیادہ تر کام سیمولیشن میں ہو رہا ہے، جس سے حقیقی دنیا میں تعیناتی نمایاں طور پر تیز اور سستی ہو جاتی ہے۔
2.3 بلین ڈالر کی بھاری ویلیویشن
اس عزیمت کا اندازہ کمپنی کی حالیہ فنڈنگ سے لگایا جا سکتا ہے۔ General Intuition نے Khosla Ventures کی قیادت میں ایک راؤنڈ میں 320 ملین ڈالر جمع کیے، جس سے اس کی کل ویلیویشن 2.3 بلین ڈالر تک پہنچ گئی ہے۔ سرمایہ کاروں کا یہ گروپ ٹیک کی دنیا کے بڑے ناموں پر مشتمل ہے، جن میں Jeff Bezos، Eric Schmidt، اور Google DeepMind اور MIT کے محققین شامل ہیں۔
یہ سرمایہ دو بنیادی مقاصد کے لیے مختص کیا گیا ہے:
- کمپیوٹ کی توسیع (Scaling Compute): CoreWeave کے ساتھ شراکت داری کے ذریعے، کمپنی اپنے ماڈل کی اگلی نسل کی پری ٹریننگ پر توجہ مرکوز کرے گی۔
- API تک رسائی: فنڈز کا ایک حصہ ایک وسیع API لانچ کرنے کے لیے استعمال کیا جائے گا، جس سے ممکنہ طور پر ڈویلپرز کو موسم گرما کے اختتام تک ان کے ایجنٹک ماڈلز تک رسائی حاصل کرنے کا موقع ملے گا۔
جیسے جیسے صنعت Large Language Models (LLMs) کے متن پر مبنی دور سے آگے بڑھ رہی ہے، General Intuition خود کو "ورلڈ ماڈلز" کے صف اول میں متعین کر رہی ہے—ایسا AI جو نہ صرف دنیا کے بارے میں بات کرتا ہے، بلکہ یہ بھی سمجھتا ہے کہ اس میں کیسے حرکت کی جائے۔
اہم نکات
- ایکشن پر مبنی تربیت: محض ویڈیو کے بجائے انسانی گیم پلے کے "action labels" کا استعمال کرتے ہوئے، ماڈل ویڈیو پر مبنی طریقوں کے مقابلے میں وجہ اور اثر (causality) اور مکانی استدلال کو کہیں زیادہ مؤثر طریقے سے سیکھتا ہے۔
- قابل توسیع سیمولیشن: یہ اسٹارٹ اپ ایجنٹس کو تربیت دینے کے لیے ویڈیو گیمز کو ایک "جم" کے طور پر استعمال کرتا ہے، جس سے جسمانی روبوٹس کو کنٹرول کرنے کے لیے درکار مہنگے، حقیقی دنیا کے ڈیٹا کی مقدار میں نمایاں کمی آتی ہے۔
- تزویراتی تعاون (Strategic Backing): 2.3 بلین ڈالر کی ویلیویشن اور Khosla Ventures اور Jeff Bezos جیسے بڑے ناموں کے تعاون کے ساتھ، کمپنی جنرلائزڈ AI ایجنٹس کے لیے ایک بنیادی تہہ (foundational layer) بننے کے لیے تیار ہے۔
