𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠 वर
तुम्हाला २४जीबी (24GB) GPU वर एक लोकल कोडिंग एजंट चालवायचा आहे. तुम्हाला स्थिरता (stability) हवी आहे. तुम्हाला लांब कॉन्टेक्स्ट (long context) हवा आहे. तुम्हाला क्रॅश्स टाळायचे आहेत.
ही सेटअप vLLM द्वारे Qwen3.6-27B-GPTQ-Pro-4bit वापरते. मी फक्त टेक्स्टवर लक्ष केंद्रित करतो. या विशिष्ट उद्दिष्टासाठी मल्टिमॉडेल मॉडेल्स खूप जास्त मेमरी वापरतात.
धोरण (The Strategy): • एक लोकल कोडिंग एजंट वापरा. • सर्व चाइल्ड एजंट्स (child agents) अक्षम (disable) करा. • साईड टास्कमुळे मेमरी खर्च होऊ नये याची काळजी घ्या. • केवळ वेगापेक्षा स्थिर सेशन्सना (stable sessions) प्राधान्य द्या.
vLLM कॉन्फिगरेशन:
vLLM gptq_marlin क्वांटायझेशनसह (quantization) चालवा. हे RTX 3090 वर लांब कॉन्टेक्स्ट आणि प्रिफिक्स कॅशिंगसाठी (prefix caching) सर्वोत्तम संतुलन प्रदान करते.
वापरण्यासाठी महत्त्वाचे फ्लॅग्स (flags):
--max-num-seqs 1: हे अत्यंत महत्त्वाचे आहे. पॅरललिझम (Parallelism) तुमच्या मुख्य टास्कमधून KV कॅशे (KV cache) चोरतो. मला दोन अयशस्वी विनंत्यांपेक्षा एक यशस्वी विनंती अधिक आवडते.--max-model-len 131072: हे मोठ्या प्रमाणावरील कॉन्टेक्स्टची परवानगी देते. जर तुम्हाला मेमरी एरर येत असतील, तर हे कमी करून 110k किंवा 80k करा.--enable-prefix-caching: यामुळे वारंवार येणारे लांब प्रॉम्प्ट्स (prompts) खूप जलद होतात.--language-model-only: VRAM वाचवण्यासाठी ते साधे ठेवा.
Hermes सेटिंग्ज:
Hermes ला तुमच्या vLLM एंडपॉइंटवर (endpoint) निर्देशित करा. सर्वोत्तम निकालांसाठी ही विशिष्ट सेटिंग्ज वापरा:
• थिंकिंग (thinking) सक्षम करा आणि थिंकिंग जतन करा.
• लांब रिक्वेस्ट टाइमआउट (request timeout) सेट करा. 1800 सेकंद वापरा. मोठ्या कॉन्टेक्स्टला प्रीफिल (prefill) होण्यासाठी वेळ लागतो.
• डेलिगेशन (delegation) आणि चाइल्ड एजंट्स अक्षम करा.
• अर्धवट उत्तरे टाळण्यासाठी max_tokens ची कडक मर्यादा काढून टाका.
हे का काम करते: प्रिफिक्स कॅशिंग (Prefix caching) ही जादू नाही. ते एक ऑप्टिमायझेशन (optimization) आहे. जर तुम्ही तुमचे इनपुट्स साधे आणि पुन्हा पुन्हा वापरण्यायोग्य ठेवले, तर मॉडेल प्रत्येक वेळी पूर्ण प्रीफिल खर्च (prefill cost) मोजणे थांबवते.
24GB VRAM वरील माझे निकाल: • लहान प्रॉम्प्ट (41 tokens): 0.29s TTFT. • मोठा प्रॉम्प्ट (41,985 tokens): 38.6s TTFT. • कॅश्ड प्रॉम्प्ट (41,985 tokens): 1.59s TTFT.
मॉडेल हा अडथळा (bottleneck) नाही. तुमचा सर्व्हिंग शिस्त (serving discipline) हा अडथळा आहे. तुमच्या कॉन्टेक्स्टचा आकार, तुमची विनंती अनुक्रम (request sequence) आणि तुमची कन्करन्सी (concurrency) नियंत्रित करा.
मॉडेल एका प्रॉम्प्टला उत्तर देते का हे तपासणे थांबवा. एजंट एका लूपमध्ये (loop) टिकून राहतो का ते तपासा.
स्त्रोत: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452
पर्यायी लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi