پتھر، کاغذ، سلیکون: میں نے ایک MacBook پر 235B AI ماڈل کیسے چلایا
زیادہ تر لوگ کہتے ہیں کہ آپ کنزیومر ہارڈ ویئر (consumer hardware) پر جدید ترین (frontier) AI ماڈلز نہیں چلا سکتے۔
Qwen3-235B جیسے ماڈل کو چلانے کے لیے آپ کو 470 GB RAM کی ضرورت ہوتی ہے۔ ایک ہائی اینڈ Mac Studio میں صرف 192 GB ہوتی ہے۔ صنعت آپ کو اس کے بجائے کلاؤڈ GPU کرایے پر لینے کا مشورہ دیتی ہے۔
میں ایک ویب ڈویلپر ہوں، سسٹم انجینئر نہیں۔ میں GPU kernels یا لو-لیول میموری (low-level memory) پر کام نہیں کرتا۔ لیکن میرے ذہن میں ایک سوال تھا: کیا ہو اگر آپ ماڈل کے صرف ان حصوں کو لوڈ کریں جو حقیقت میں کام (fire) کرتے ہیں؟
Mixture of Experts (MoE) ماڈل میں، زیادہ تر پیرامیٹرز زیادہ تر وقت خاموش رہتے ہیں۔ میں نے ایک ایسا سسٹم بنانے کا فیصلہ کیا جو ویٹس (weights) کو صرف ضرورت پڑنے سے عین پہلے لوڈ کرے۔
میں نے C++ کوڈ لکھنے میں مدد کے لیے ایک AI ایجنٹ کا استعمال کیا۔ میں تجسس لے کر آیا، اور ایجنٹ نے عمل درآمد کی گہرائی (implementation depth) فراہم کی۔
میری تحریک Filippo Biondi کے ایک سیٹلائٹ پیپر سے آئی۔ انہوں نے جیزہ کے عظیم اہرام (Great Pyramid of Giza) کے اندر دیکھنے کے لیے ریڈار کا استعمال کیا۔ ریڈار چٹان کے اندر نہیں جا سکتا، لیکن یہ چٹان کے ٹکرانے پر پیدا ہونے والی تھرتھراہٹ (vibrations) کو ناپ سکتا ہے۔ انہوں نے اندرونی نقشہ بنانے کے لیے ان تھرتھراہٹوں کی پیمائش کی۔
میں نے یہی منطق AI میموری پر لاگو کی۔
میں اسے S-MoE (Seismic Mixture of Experts) کہتا ہوں۔ یہ تین اسٹریمز (streams) کا استعمال کرتے ہوئے کام کرتا ہے:
• دی اسکاؤٹ (The Scout): ماڈل کا ایک ہلکا پھلکا حصہ جو RAM میں چلتا ہے۔ یہ پیش گوئی کرتا ہے کہ اگلے ماہرین (experts) کون سے ہوں گے جو فعال ہوں گے۔ • دی اسٹریمر (The Streamer): ایک I/O تھریڈ جو آپ کی SSD سے ان مخصوص ایکسپرٹ بلاکس کو میموری میں لوڈ کرتا ہے۔ • دی GPU: ابھی پہنچے ہوئے ویٹس (weights) کا استعمال کرتے ہوئے ریاضیاتی حسابات (math) مکمل کرتا ہے۔
یہ سسٹم OS کیشے (OS cache) کو نظر انداز کرنے کے لیے Direct I/O کا استعمال کرتا ہے۔ یہ کسی بھی runtime heap allocation کا استعمال نہیں کرتا۔ یہ تمام OS mutexes سے بچتا ہے۔
نتیجہ؟ ایک 16 GB والا Mac اور ایک 512 GB والا Mac، 235B ماڈل سے بالکل ایک جیسی ذہانت پیدا کریں گے۔ ایک بس دوسرے سے تیز ہوگا۔
AI کے گرد میموری کی دیوار (memory wall) ایک سافٹ ویئر کا مفروضہ ہے، فطرت کا قانون نہیں۔ آپ ان جدید ترین ماڈلز کو اس ہارڈ ویئر پر چلا سکتے ہیں جو پہلے سے آپ کے پاس موجود ہے۔
S-MoE اوپن سورس ہے۔
Optional learning community: https://t.me/GyaanSetuAi
