𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Translated for your language. Read the original.

AI-assisted draft.

گزشتہ پرسوں2min read

𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠 پر

آپ 24GB GPU پر ایک لوکل کوڈنگ ایجنٹ چلانا چاہتے ہیں۔ آپ کو استحکام (stability) کی ضرورت ہے۔ آپ کو طویل سیاق و سباق (long context) کی ضرورت ہے۔ آپ کو کریشز سے بچنا ہے۔

یہ سیٹ اپ vLLM کے ذریعے Qwen3.6-27B-GPTQ-Pro-4bit استعمال کرتا ہے۔ میرا مرکز صرف ٹیکسٹ پر ہے۔ ملٹی موڈل ماڈلز اس مخصوص مقصد کے لیے بہت زیادہ میموری استعمال کرتے ہیں۔

اسٹریٹجی: • ایک لوکل کوڈنگ ایجنٹ استعمال کریں۔ • تمام چائلڈ ایجنٹس (child agents) کو غیر فعال کریں۔ • سائیڈ ٹاسکس کو میموری استعمال کرنے سے روکیں۔ • محض رفتار کے بجائے مستحکم سیشنز کو ترجیح دیں۔

vLLM کنفیگریشن: vLLM کو gptq_marlin کوانٹائزیشن (quantization) کے ساتھ چلائیں۔ یہ RTX 3090 پر طویل سیاق و سباق اور پری فکس کیشنگ (prefix caching) کے لیے بہترین توازن فراہم کرتا ہے۔

استعمال کے لیے اہم فلیگز (flags):

--max-num-seqs 1: یہ انتہائی اہم ہے۔ پیرا للیزم (Parallelism) آپ کے مین ٹاسک سے KV cache چھین لیتا ہے۔ میں دو ناکام درخواستوں کے بجائے ایک کامیاب درخواست کو ترجیح دیتا ہوں۔
--max-model-len 131072: یہ ایک بہت بڑے سیاق و سباق (context) کی اجازت دیتا ہے۔ اگر آپ کو میموری ایررز کا سامنا ہو، تو اسے کم کر کے 110k یا 80k کر دیں۔
--enable-prefix-caching: یہ بار بار استعمال ہونے والے طویل پرامپٹس کو بہت تیز بنا دیتا ہے۔
--language-model-only: VRAM بچانے کے لیے اسے سادہ رکھیں۔

Hermes سیٹنگز: Hermes کو اپنے vLLM اینڈ پوائنٹ (endpoint) پر پوائنٹ کریں۔ بہترین نتائج کے لیے یہ مخصوص سیٹنگز استعمال کریں: • 'thinking' کو فعال کریں اور اسے برقرار رکھیں۔ • درخواست کے ٹائم آؤٹ (timeout) کو طویل رکھیں۔ 1800 سیکنڈ استعمال کریں۔ بڑے سیاق و سباق کو پری فل (prefill) ہونے میں وقت لگتا ہے۔ • ڈیلگیشن (delegation) اور چائلڈ ایجنٹس کو غیر فعال کریں۔ • ادھورے جوابات سے بچنے کے لیے سخت max_tokens کی حد کو ختم کریں۔

یہ کیوں کام کرتا ہے: پری فکس کیشنگ کوئی جادو نہیں ہے۔ یہ ایک آپٹیمائزیشن (optimization) ہے۔ اگر آپ اپنے ان پٹس کو سادہ اور بار بار دہرانے والے رکھتے ہیں، تو ماڈل ہر بار مکمل پری فل لاگت (prefill cost) ادا کرنا بند کر دیتا ہے۔

24GB VRAM پر میرے نتائج: • چھوٹا پرامپٹ (41 tokens): 0.29s TTFT۔ • بڑا پرامپٹ (41,985 tokens): 38.6s TTFT۔ • کیش شدہ پرامپٹ (41,985 tokens): 1.59s TTFT۔

ماڈل رکاوٹ (bottleneck) نہیں ہے۔ رکاوٹ آپ کا سرونگ ڈسپلن (serving discipline) ہے۔ اپنے سیاق و سباق کے سائز، اپنی درخواست کے تسلسل اور اپنی کنکرنسی (concurrency) کو کنٹرول کریں۔

یہ ٹیسٹ کرنا چھوڑ دیں کہ آیا ماڈل ایک پرامپٹ کا جواب دیتا ہے۔ یہ ٹیسٹ کریں کہ آیا ایجنٹ ایک لوپ (loop) میں برقرار رہتا ہے۔

Source: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

Optional learning community: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻