𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 على 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

تريد تشغيل وكيل برمجة (coding agent) محلي على وحدة معالجة رسومات (GPU) بسعة 24 جيجابايت. أنت بحاجة إلى الاستقرار. أنت بحاجة إلى سياق طويل (long context). أنت بحاجة لتجنب الانهيارات (crashes).

يستخدم هذا الإعداد Qwen3.6-27B-GPTQ-Pro-4bit عبر vLLM. أركز على النصوص فقط؛ فالموديلات متعددة الوسائط (Multimodal models) تستهلك الكثير من الذاكرة لهذا الهدف المحدد.

الاستراتيجية: • استخدم وكيل برمجة محلي واحد. • قم بتعطيل جميع الوكلاء الفرعيين (child agents). • امنع المهام الجانبية من استهلاك الذاكرة. • أعطِ الأولوية للجلسات المستقرة على السرعة المجردة.

إعدادات vLLM: قم بتشغيل vLLM باستخدام تقنية التكميم gptq_marlin. يوفر هذا أفضل توازن للسياق الطويل وتخزين البادئة المؤقت (prefix caching) على بطاقة RTX 3090.

أهم الأعلام (flags) التي يجب استخدامها:

  • --max-num-seqs 1: هذا أمر حيوي. التوازي (Parallelism) يسرق ذاكرة التخزين المؤقت (KV cache) من مهمتك الأساسية. أفضل طلباً واحداً ناجحاً على طلبين فاشلين.
  • --max-model-len 131072: يتيح هذا سياقاً ضخماً. إذا واجهت أخطاء في الذاكرة، فقم بخفض هذه القيمة إلى 110k أو 80k.
  • --enable-prefix-caching: يجعل المطالبات (prompts) الطويلة والمتكررة أسرع بكثير.
  • --language-model-only: حافظ على البساطة لتوفير ذاكرة VRAM.

إعدادات Hermes: وجه Hermes إلى نقطة نهاية (endpoint) vLLM الخاصة بك. استخدم هذه الإعدادات المحددة للحصول على أفضل النتائج: • قم بتفعيل التفكير (thinking) والحفاظ عليه (preserve thinking). • اضبط مهلة طلب (request timeout) طويلة. استخدم 1800 ثانية. السياقات الكبيرة تستغرق وقتاً لعملية الملء المسبق (prefill). • قم بتعطيل التفويض (delegation) والوكلاء الفرعيين. • قم بإزالة القيود الصارمة على max_tokens لمنع الإجابات المبتورة.

لماذا ينجح هذا: تخزين البادئة المؤقت (Prefix caching) ليس سحراً، بل هو عملية تحسين (optimization). إذا جعلت مدخلاتك رتيبة وقابلة للتكرار، سيتوقف النموذج عن دفع تكلفة الملء المسبق (prefill) الكاملة في كل دورة.

نتائجي على 24GB VRAM: • مطالبة صغيرة (41 توكن): 0.29 ثانية TTFT. • مطالبة كبيرة (41,985 توكن): 38.6 ثانية TTFT. • مطالبة مخزنة مؤقتاً (41,985 توكن): 1.59 ثانية TTFT.

النموذج ليس هو عنق الزجاجة (bottleneck). عنق الزجاجة هو انضباطك في عملية التقديم (serving). تحكم في حجم السياق، وتسلسل الطلبات، والتزامن (concurrency).

توقف عن اختبار ما إذا كان النموذج يجيب على مطالبة واحدة. اختبر ما إذا كان الوكيل يصمد خلال حلقة (loop) مستمرة.

المصدر: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi