𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

📅3 hours ago⏱2 min read

In this article

ایک GPU پر دو ماڈلز چلانا: لوکل LLMs کے پیچھے چھپی ریاضی

میں ایک ورک اسٹیشن پر ایجنٹ اسٹیک (agent stack) چلاتا ہوں۔ ماڈلز LAN کے ذریعے DGX Spark پر موجود ہیں۔ میں میموری کو بہتر طریقے سے مینیج کرنے کے لیے Ollama کے بجائے vLLM استعمال کرتا ہوں۔

مقصد ایک ہی وقت میں دو ماڈلز چلانا ہے:

بھاری ریژوننگ (heavy reasoning) کے لیے Qwen3-Next-80B۔
تیز رفتار جوابات (fast turns) کے لیے Qwen3-4B۔

دونوں ماڈلز LiteLLM پراکسی کے ذریعے ایک ہی URL پر رسائی حاصل کرتے ہیں۔ صحیح ریاضی (math) تلاش کرنے سے پہلے یہ سیٹ اپ کئی بار ناکام ہوا۔

یہاں اس جدوجہد سے حاصل ہونے والے اسباق درج ہیں۔

میموری کا جال

gpu_memory_utilization کی سیٹنگ آزاد میموری (free memory) کا ہدف نہیں ہے۔ یہ کل GPU میموری کا ایک حصہ ہے۔

اگر آپ کے پاس 120 GB کا کارڈ ہے اور آپ utilization کو 0.80 پر سیٹ کرتے ہیں، تو vLLM کل صلاحیت کا 96 GB حاصل کرنے کی کوشش کرتا ہے۔ یہ اس بات پر غور نہیں کرتا کہ اس وقت کتنی میموری خالی ہے۔ اگر آپ دو پروسیس چلانے کی کوشش کرتے ہیں، تو ان کے فیصد کا مجموعہ 0.95 سے کم ہونا چاہیے۔ آپ کو CUDA فریم ورک کے اوور ہیڈ (overhead) کے لیے جگہ چھوڑنی ہوگی۔

ماڈلز کے ساتھ کیا ہوا

میں نے 80B ماڈل کا Thinking ورژن استعمال کرنے کی کوشش کی۔ یہ ناکام رہا۔ ماڈل <think> ٹیگز کے اندر تو ریژوننگ کرتا تھا لیکن کبھی بھی اصل میں ٹول کال (tool call) ٹرگر نہیں کرتا تھا۔ وہ بس رک جاتا تھا۔

مجھے 80B بیک بون (backbone) کو Instruct ورژن سے بدلنا پڑا۔ اس سے ایجنٹ کو ٹولز کا صحیح طریقے سے استعمال کرنے کی اجازت ملی۔

اصل ریاضی

ٹیسٹنگ کے بعد، میں نے پایا کہ میرے سیٹ اپ کے لیے یہ نمبر کام کرتے ہیں:

• Qwen3-Next-80B (0.80 ہدف پر): تقریباً 87.8 GiB اصل میموری استعمال کرتا ہے۔ • Qwen3-4B (0.10 ہدف پر): تقریباً 13.8 GiB اصل میموری استعمال کرتا ہے۔ • کل استعمال: تقریباً 101.6 GiB۔ • خالی جگہ (Free headroom): تقریباً 18 GiB۔

اگر میں 80B کو 0.85 تک بڑھاتا، تو 4B ماڈل شروع نہیں ہو سکتا تھا۔ 80B بہت زیادہ جگہ گھیر لیتا، جس سے 4B کی کم از کم ضروریات کے لیے کوئی جگہ باقی نہیں رہتی۔

مشترکہ رہائش والے ماڈلز کے لیے میرا طریقہ کار

سب سے پہلے سب سے بڑا ماڈل لوڈ کریں۔
اسے سیٹ ہونے دیں۔
اصل استعمال شدہ میموری دیکھنے کے لیے nvidia-smi چلائیں۔
چھوٹے ماڈل کا سائز باقی بچی ہوئی خالی میموری میں سے اوور ہیڈ کے لیے 5 GB نکال کر طے کریں۔
استحکام (stability) کو یقینی بنانے کے لیے دونوں ماڈلز کو دو بار ری اسٹارٹ کریں۔

اپنی میموری سیٹنگز کا اندازہ نہ لگائیں۔ اپنی حقیقت دیکھنے کے لیے یہ کمانڈ استعمال کریں: nvidia-smi --query-gpu=memory.used --format=csv

اگر آپ کا ہدف (target allocation) اور آپ کا اصل استعمال 10% سے زیادہ فرق رکھتے ہیں، تو آپ کی ریاضی غلط ہے۔ اپنے ایجنٹ اسٹیک کو ڈیپلائے کرنے سے پہلے اسے درست کریں۔

Source: https://dev.to/ric03uec/two-qwen3-models-on-one-dgx-spark-the-residency-math-for-local-llm-coding-5bpj

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

ایک GPU پر دو ماڈلز چلانا: لوکل LLMs کے پیچھے چھپی ریاضی

میموری کا جال

ماڈلز کے ساتھ کیا ہوا

اصل ریاضی

مشترکہ رہائش والے ماڈلز کے لیے میرا طریقہ کار

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

𝗡𝘃𝗶𝗱𝗶𝗮 𝗗𝗚𝗫 𝗦𝗽𝗮𝗿𝗸: 𝗔 𝗧𝗼𝗼𝗹 𝗙𝗼𝗿 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿𝘀

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

𝗥𝗔𝗠 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗚𝗣𝗨