میں نے اپنے ASUS ROG Ally پر مقامی طور پر ایک LLM چلایا

میں نے چند ہفتوں تک اپنے ASUS ROG Ally پر ایک مقامی AI ماڈل چلایا۔ مجھے لگا تھا کہ یہ ایک دلچسپ پروجیکٹ ہوگا، لیکن اس کے بجائے، یہ ہارڈ ویئر کی حدود کا ایک سبق بن گیا۔

میں نے اسے کلاؤڈ کے متبادل کے طور پر استعمال نہیں کیا۔ میں نے اسے چھوٹے کاموں کے لیے ایک مخصوص ٹول کے طور پر استعمال کیا۔ ہینڈ ہیلڈ ہارڈ ویئر پر AI چلانے کے بارے میں میں نے جو کچھ سیکھا وہ یہاں ہے:

میموری کی رکاوٹ

ہینڈ ہیلڈ ڈیوائسز Unified Memory Architecture استعمال کرتی ہیں۔ اس کا مطلب ہے کہ CPU اور GPU ایک ہی RAM شیئر کرتے ہیں۔ ڈیفالٹ طور پر، GPU کو میموری کا ایک بہت چھوٹا حصہ ملتا ہے۔

اگر آپ کا ماڈل اس حصے میں فٹ نہیں بیٹھتا، تو سسٹم CPU کا استعمال کرتا ہے۔ اس سے جنریشن (generation) تکلیف دہ حد تک سست ہو جاتی ہے۔

حل:

  • اپنے BIOS میں جائیں۔
  • دستی طور پر UMA frame buffer میں اضافہ کریں۔
  • میں نے اسے 4 GB تک بڑھا دیا۔ اس تبدیلی نے کسی بھی دوسرے طریقہ کار سے زیادہ مدد کی۔

کیا کام نہیں کرتا

میں نے اپنی میموری سے زیادہ فائدہ اٹھانے کے لیے zRAM استعمال کرنے کی کوشش کی۔ یہ ناکام رہا۔ زیادہ تر AI ماڈلز GGUF فائلیں استعمال کرتے ہیں جو پہلے سے ہی کمپریسڈ ہوتی ہیں۔ آپ جگہ بنانے کے لیے انہیں مزید کمپریس نہیں کر سکتے۔

میں نے مدد کے لیے disk swap استعمال کرنے کی بھی کوشش کی۔ Swap چیزوں کو تیز نہیں کرتا، بلکہ انہیں ناقابل استعمال بنا دیتا ہے۔ اگر آپ کا ماڈل disk swap پر انحصار کرتا ہے، تو آپ کو ہر چند سیکنڈ بعد صرف ایک لفظ نظر آئے گا۔

Swap کو فعال رکھنے کی واحد وجہ یہ ہے کہ جب آپ کی RAM ختم ہو جائے تو سسٹم آپ کے پروسیس کو بند (kill) نہ کر دے۔

ہموار تجربے کے لیے تجاویز

اگر آپ کا AI آؤٹ پٹ اٹکتا ہوا یا غیر مستحکم محسوس ہو، تو اپنی Linux kernel سیٹنگز چیک کریں۔

  • اپنی vm.swappiness کی ویلیو کم کریں۔
  • یہ سسٹم کو میموری کو بہت جلد swap میں منتقل کرنے سے روکتا ہے۔
  • یہ جنریشن کو اٹکنے کے بجائے مستحکم بناتا ہے۔

ماڈل کا انتخاب استعمال کے مقصد (Use-Case) پر منحصر ہے

زیادہ تر لوگ تیز ترین ماڈل تلاش کرتے ہیں۔ میں نے اس کے بجائے ایک سست لیکن زیادہ درست (sharper) ماڈل کا انتخاب کیا۔

  • اگر آپ ریئل ٹائم میں چیٹ کرتے ہیں، تو آپ کو رفتار کی ضرورت ہے۔
  • اگر آپ بیک گراؤنڈ ایجنٹ چلاتے ہیں، تو آپ کو معیار کی ضرورت ہے۔

میں اپنے سیٹ اپ کو بیک گراؤنڈ ٹاسکس کے لیے استعمال کرتا ہوں۔ میں ایک درخواست بھیجتا ہوں اور بعد میں نتیجہ چیک کرتا ہوں۔ چونکہ میں اسکرین نہیں دیکھ رہا ہوتا، اس لیے مجھے اس سے فرق نہیں پڑتا کہ جواب 8 سیکنڈ کے بجائے 40 سیکنڈ لیتا ہے۔ مجھے بہترین جواب چاہیے، تیز ترین نہیں۔

ہینڈ ہیلڈ ڈیوائسز پر reasoning models سے پرہیز کریں۔ کمزور ہارڈ ویئر پر مرحلہ وار سوچنے کا عمل بہت زیادہ وقت لیتا ہے۔ معیار میں ہونے والا اضافہ اکثر اس انتظار کے قابل نہیں ہوتا۔

یہ کس کام کے لیے اچھا ہے

16 GB کا ڈیوائس ان کاموں کے لیے بہترین ہے:

  • مختصر ای میلز کا ڈرافٹ تیار کرنا۔
  • کوڈ کے چھوٹے ٹکڑوں (snippets) کا جائزہ لینا۔
  • روزانہ کی عمومی منصوبہ بندی۔
  • نجی کام جو آپ کے نیٹ ورک سے باہر نہیں جانے چاہئیں۔

یہ ان کاموں کے لیے برا ہے:

  • طویل دستاویزات۔
  • گہری تحقیق۔
  • پیچیدہ کوڈنگ پروجیکٹس۔

مقامی AI ایک ٹول ہے، کوئی معجزہ نہیں۔ یہ معمول کے ہلکے پھلکے کاموں کے لیے بہترین ہے۔

Source: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Optional learning community: https://t.me/GyaanSetuAi