Qwen3.6-27B + vLLM + Hermes 24GB VRAM 'ਤੇ
ਤੁਸੀਂ 24GB GPU 'ਤੇ ਇੱਕ ਲੋਕਲ ਕੋਡਿੰਗ ਏਜੰਟ (local coding agent) ਚਲਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ। ਤੁਹਾਨੂੰ ਸਥਿਰਤਾ (stability) ਦੀ ਲੋੜ ਹੈ। ਤੁਹਾਨੂੰ ਲੰਬੇ ਕੰਟੈਕਸਟ (long context) ਦੀ ਲੋੜ ਹੈ। ਤੁਹਾਨੂੰ ਕ੍ਰੈਸ਼ਾਂ ਤੋਂ ਬਚਣ ਦੀ ਲੋੜ ਹੈ।
ਇਹ ਸੈੱਟਅੱਪ vLLM ਰਾਹੀਂ Qwen3.6-27B-GPTQ-Pro-4bit ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਮੈਂ ਸਿਰਫ਼ ਟੈਕਸਟ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹਾਂ। ਇਸ ਖਾਸ ਉਦੇਸ਼ ਲਈ ਮਲਟੀਮੋਡਲ ਮਾਡਲ (multimodal models) ਬਹੁਤ ਜ਼ਿਆਦਾ ਮੈਮੋਰੀ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ।
The Strategy: • ਇੱਕ ਲੋਕਲ ਕੋਡਿੰਗ ਏਜੰਟ ਦੀ ਵਰਤੋਂ ਕਰੋ। • ਸਾਰੇ ਚਾਈਲਡ ਏਜੰਟਾਂ (child agents) ਨੂੰ ਡਿਸੇਬਲ ਕਰੋ। • ਸਾਈਡ ਟਾਸਕਾਂ ਨੂੰ ਮੈਮੋਰੀ ਖਤਮ ਕਰਨ ਤੋਂ ਰੋਕੋ। • ਸਿਰਫ਼ ਰਫ਼ਤਾਰ ਦੀ ਬਜਾਏ ਸਥਿਰ ਸੈਸ਼ਨਾਂ ਨੂੰ ਪਹਿਲ ਦਿਓ।
The vLLM Configuration:
vLLM ਨੂੰ gptq_marlin quantization ਦੇ ਨਾਲ ਚਲਾਓ। ਇਹ RTX 3090 'ਤੇ ਲੰਬੇ ਕੰਟੈਕਸਟ ਅਤੇ prefix caching ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਸੰਤੁਲਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
Key flags to use:
--max-num-seqs 1: ਇਹ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ। ਪੈਰਲਲਿਜ਼ਮ (Parallelism) ਤੁਹਾਡੇ ਮੁੱਖ ਟਾਸਕ ਤੋਂ KV cache ਖੋਹ ਲੈਂਦਾ ਹੈ। ਮੈਂ ਦੋ ਅਸਫਲ ਰਿਕੁਐਸਟਾਂ ਦੀ ਬਜਾਏ ਇੱਕ ਸਫਲ ਰਿਕੁਐਸਟ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦਾ ਹਾਂ।--max-model-len 131072: ਇਹ ਇੱਕ ਵਿਸ਼ਾਲ ਕੰਟੈਕਸਟ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਜੇਕਰ ਤੁਹਾਨੂੰ ਮੈਮੋਰੀ ਐਰਰ ਆਉਂਦੇ ਹਨ, ਤਾਂ ਇਸਨੂੰ 110k ਜਾਂ 80k ਤੱਕ ਘਟਾ ਦਿਓ।--enable-prefix-caching: ਇਹ ਵਾਰ-ਵਾਰ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਲੰਬੇ ਪ੍ਰੋਂਪਟਸ (prompts) ਨੂੰ ਬਹੁਤ ਤੇਜ਼ ਬਣਾਉਂਦਾ ਹੈ।--language-model-only: VRAM ਬਚਾਉਣ ਲਈ ਇਸਨੂੰ ਸਰਲ ਰੱਖੋ।
Hermes Settings:
Hermes ਨੂੰ ਆਪਣੇ vLLM endpoint ਵੱਲ ਇਸ਼ਾਰਾ ਕਰੋ। ਸਭ ਤੋਂ ਵਧੀਆ ਨਤੀਜਿਆਂ ਲਈ ਇਹ ਖਾਸ ਸੈਟਿੰਗਾਂ ਵਰਤੋ:
• thinking ਨੂੰ ਇਨੇਬਲ ਕਰੋ ਅਤੇ thinking ਨੂੰ ਬਰਕਰਾਰ ਰੱਖੋ।
• ਇੱਕ ਲੰਬਾ request timeout ਸੈੱਟ ਕਰੋ। 1800 ਸੈਕਿੰਡ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਵੱਡੇ ਕੰਟੈਕਸਟਸ ਨੂੰ prefill ਹੋਣ ਵਿੱਚ ਸਮਾਂ ਲੱਗਦਾ ਹੈ।
• delegation ਅਤੇ ਚਾਈਲਡ ਏਜੰਟਾਂ ਨੂੰ ਡਿਸੇਬਲ ਕਰੋ।
• ਅਧੂਰੇ ਜਵਾਬਾਂ ਤੋਂ ਬਚਣ ਲਈ hard max_tokens caps ਨੂੰ ਹਟਾ ਦਿਓ।
Why this works: Prefix caching ਕੋਈ ਜਾਦੂ ਨਹੀਂ ਹੈ। ਇਹ ਇੱਕ ਆਪਟੀਮਾਈਜ਼ੇਸ਼ਨ (optimization) ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਆਪਣੇ ਇਨਪੁੱਟਸ ਨੂੰ ਇੱਕੋ ਜਿਹੇ ਅਤੇ ਦੁਹਰਾਉਣਯੋਗ ਰੱਖਦੇ ਹੋ, ਤਾਂ ਮਾਡਲ ਹਰ ਵਾਰ ਪੂਰੀ prefill ਲਾਗਤ ਨਹੀਂ ਲੈਂਦਾ।
My results on 24GB VRAM: • ਛੋਟਾ ਪ੍ਰੋਂਪਟ (41 tokens): 0.29s TTFT। • ਵੱਡਾ ਪ੍ਰੋਂਪਟ (41,985 tokens): 38.6s TTFT। • ਕੈਸ਼ਡ ਪ੍ਰੋਂਪਟ (41,985 tokens): 1.59s TTFT।
ਮਾਡਲ ਰੁਕਾਵਟ (bottleneck) ਨਹੀਂ ਹੈ। ਰੁਕਾਵਟ ਤੁਹਾਡਾ ਸਰਵਿੰਗ ਅਨੁਸ਼ਾਸਨ ਹੈ। ਆਪਣੇ ਕੰਟੈਕਸਟ ਦੇ ਆਕਾਰ, ਆਪਣੀ ਰਿਕੁਐਸ ਸੀਕਵੈਂਸ ਅਤੇ ਆਪਣੀ concurrency ਨੂੰ ਕੰਟਰੋਲ ਕਰੋ।
ਇਹ ਟੈਸਟ ਕਰਨਾ ਬੰਦ ਕਰੋ ਕਿ ਕੀ ਮਾਡਲ ਇੱਕ ਪ੍ਰੋਂਪਟ ਦਾ ਜਵਾਬ ਦਿੰਦਾ ਹੈ। ਇਹ ਟੈਸਟ ਕਰੋ ਕਿ ਕੀ ਏਜੰਟ ਇੱਕ ਲੂਪ (loop) ਵਿੱਚ ਟਿਕ ਸਕਦਾ ਹੈ।
Source: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452
Optional learning community: https://t.me/GyaanSetuAi