𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Translated for your language. اقرأ الأصل.

AI-assisted draft.

أول أمس2دقيقة قراءة

𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 على 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

تريد تشغيل وكيل برمجة (coding agent) محلي على وحدة معالجة رسومات (GPU) بسعة 24 جيجابايت. أنت بحاجة إلى الاستقرار. أنت بحاجة إلى سياق طويل (long context). أنت بحاجة لتجنب الانهيارات (crashes).

يستخدم هذا الإعداد Qwen3.6-27B-GPTQ-Pro-4bit عبر vLLM. أركز على النصوص فقط؛ فالموديلات متعددة الوسائط (Multimodal models) تستهلك الكثير من الذاكرة لهذا الهدف المحدد.

الاستراتيجية: • استخدم وكيل برمجة محلي واحد. • قم بتعطيل جميع الوكلاء الفرعيين (child agents). • امنع المهام الجانبية من استهلاك الذاكرة. • أعطِ الأولوية للجلسات المستقرة على السرعة المجردة.

إعدادات vLLM: قم بتشغيل vLLM باستخدام تقنية التكميم gptq_marlin. يوفر هذا أفضل توازن للسياق الطويل وتخزين البادئة المؤقت (prefix caching) على بطاقة RTX 3090.

أهم الأعلام (flags) التي يجب استخدامها:

--max-num-seqs 1: هذا أمر حيوي. التوازي (Parallelism) يسرق ذاكرة التخزين المؤقت (KV cache) من مهمتك الأساسية. أفضل طلباً واحداً ناجحاً على طلبين فاشلين.
--max-model-len 131072: يتيح هذا سياقاً ضخماً. إذا واجهت أخطاء في الذاكرة، فقم بخفض هذه القيمة إلى 110k أو 80k.
--enable-prefix-caching: يجعل المطالبات (prompts) الطويلة والمتكررة أسرع بكثير.
--language-model-only: حافظ على البساطة لتوفير ذاكرة VRAM.

إعدادات Hermes: وجه Hermes إلى نقطة نهاية (endpoint) vLLM الخاصة بك. استخدم هذه الإعدادات المحددة للحصول على أفضل النتائج: • قم بتفعيل التفكير (thinking) والحفاظ عليه (preserve thinking). • اضبط مهلة طلب (request timeout) طويلة. استخدم 1800 ثانية. السياقات الكبيرة تستغرق وقتاً لعملية الملء المسبق (prefill). • قم بتعطيل التفويض (delegation) والوكلاء الفرعيين. • قم بإزالة القيود الصارمة على max_tokens لمنع الإجابات المبتورة.

لماذا ينجح هذا: تخزين البادئة المؤقت (Prefix caching) ليس سحراً، بل هو عملية تحسين (optimization). إذا جعلت مدخلاتك رتيبة وقابلة للتكرار، سيتوقف النموذج عن دفع تكلفة الملء المسبق (prefill) الكاملة في كل دورة.

نتائجي على 24GB VRAM: • مطالبة صغيرة (41 توكن): 0.29 ثانية TTFT. • مطالبة كبيرة (41,985 توكن): 38.6 ثانية TTFT. • مطالبة مخزنة مؤقتاً (41,985 توكن): 1.59 ثانية TTFT.

النموذج ليس هو عنق الزجاجة (bottleneck). عنق الزجاجة هو انضباطك في عملية التقديم (serving). تحكم في حجم السياق، وتسلسل الطلبات، والتزامن (concurrency).

توقف عن اختبار ما إذا كان النموذج يجيب على مطالبة واحدة. اختبر ما إذا كان الوكيل يصمد خلال حلقة (loop) مستمرة.

المصدر: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

متابعة القراءة

Llama.cpp يضاهي الآن سرعة vLLM

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

تشغيل نموذجين على معالج رسومات واحد: الرياضيات وراء النماذج اللغوية الكبيرة (LLMs) المحلية

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻