𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Translated for your language. Read the original.

AI-assisted draft.

-2 d2min read

Qwen3.6-27B + vLLM + Hermes 24GB VRAM 'ਤੇ

ਤੁਸੀਂ 24GB GPU 'ਤੇ ਇੱਕ ਲੋਕਲ ਕੋਡਿੰਗ ਏਜੰਟ (local coding agent) ਚਲਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ। ਤੁਹਾਨੂੰ ਸਥਿਰਤਾ (stability) ਦੀ ਲੋੜ ਹੈ। ਤੁਹਾਨੂੰ ਲੰਬੇ ਕੰਟੈਕਸਟ (long context) ਦੀ ਲੋੜ ਹੈ। ਤੁਹਾਨੂੰ ਕ੍ਰੈਸ਼ਾਂ ਤੋਂ ਬਚਣ ਦੀ ਲੋੜ ਹੈ।

ਇਹ ਸੈੱਟਅੱਪ vLLM ਰਾਹੀਂ Qwen3.6-27B-GPTQ-Pro-4bit ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਮੈਂ ਸਿਰਫ਼ ਟੈਕਸਟ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹਾਂ। ਇਸ ਖਾਸ ਉਦੇਸ਼ ਲਈ ਮਲਟੀਮੋਡਲ ਮਾਡਲ (multimodal models) ਬਹੁਤ ਜ਼ਿਆਦਾ ਮੈਮੋਰੀ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ।

The Strategy: • ਇੱਕ ਲੋਕਲ ਕੋਡਿੰਗ ਏਜੰਟ ਦੀ ਵਰਤੋਂ ਕਰੋ। • ਸਾਰੇ ਚਾਈਲਡ ਏਜੰਟਾਂ (child agents) ਨੂੰ ਡਿਸੇਬਲ ਕਰੋ। • ਸਾਈਡ ਟਾਸਕਾਂ ਨੂੰ ਮੈਮੋਰੀ ਖਤਮ ਕਰਨ ਤੋਂ ਰੋਕੋ। • ਸਿਰਫ਼ ਰਫ਼ਤਾਰ ਦੀ ਬਜਾਏ ਸਥਿਰ ਸੈਸ਼ਨਾਂ ਨੂੰ ਪਹਿਲ ਦਿਓ।

The vLLM Configuration: vLLM ਨੂੰ gptq_marlin quantization ਦੇ ਨਾਲ ਚਲਾਓ। ਇਹ RTX 3090 'ਤੇ ਲੰਬੇ ਕੰਟੈਕਸਟ ਅਤੇ prefix caching ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਸੰਤੁਲਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

Key flags to use:

--max-num-seqs 1: ਇਹ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ। ਪੈਰਲਲਿਜ਼ਮ (Parallelism) ਤੁਹਾਡੇ ਮੁੱਖ ਟਾਸਕ ਤੋਂ KV cache ਖੋਹ ਲੈਂਦਾ ਹੈ। ਮੈਂ ਦੋ ਅਸਫਲ ਰਿਕੁਐਸਟਾਂ ਦੀ ਬਜਾਏ ਇੱਕ ਸਫਲ ਰਿਕੁਐਸਟ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦਾ ਹਾਂ।
--max-model-len 131072: ਇਹ ਇੱਕ ਵਿਸ਼ਾਲ ਕੰਟੈਕਸਟ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਜੇਕਰ ਤੁਹਾਨੂੰ ਮੈਮੋਰੀ ਐਰਰ ਆਉਂਦੇ ਹਨ, ਤਾਂ ਇਸਨੂੰ 110k ਜਾਂ 80k ਤੱਕ ਘਟਾ ਦਿਓ।
--enable-prefix-caching: ਇਹ ਵਾਰ-ਵਾਰ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਲੰਬੇ ਪ੍ਰੋਂਪਟਸ (prompts) ਨੂੰ ਬਹੁਤ ਤੇਜ਼ ਬਣਾਉਂਦਾ ਹੈ।
--language-model-only: VRAM ਬਚਾਉਣ ਲਈ ਇਸਨੂੰ ਸਰਲ ਰੱਖੋ।

Hermes Settings: Hermes ਨੂੰ ਆਪਣੇ vLLM endpoint ਵੱਲ ਇਸ਼ਾਰਾ ਕਰੋ। ਸਭ ਤੋਂ ਵਧੀਆ ਨਤੀਜਿਆਂ ਲਈ ਇਹ ਖਾਸ ਸੈਟਿੰਗਾਂ ਵਰਤੋ: • thinking ਨੂੰ ਇਨੇਬਲ ਕਰੋ ਅਤੇ thinking ਨੂੰ ਬਰਕਰਾਰ ਰੱਖੋ। • ਇੱਕ ਲੰਬਾ request timeout ਸੈੱਟ ਕਰੋ। 1800 ਸੈਕਿੰਡ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਵੱਡੇ ਕੰਟੈਕਸਟਸ ਨੂੰ prefill ਹੋਣ ਵਿੱਚ ਸਮਾਂ ਲੱਗਦਾ ਹੈ। • delegation ਅਤੇ ਚਾਈਲਡ ਏਜੰਟਾਂ ਨੂੰ ਡਿਸੇਬਲ ਕਰੋ। • ਅਧੂਰੇ ਜਵਾਬਾਂ ਤੋਂ ਬਚਣ ਲਈ hard max_tokens caps ਨੂੰ ਹਟਾ ਦਿਓ।

Why this works: Prefix caching ਕੋਈ ਜਾਦੂ ਨਹੀਂ ਹੈ। ਇਹ ਇੱਕ ਆਪਟੀਮਾਈਜ਼ੇਸ਼ਨ (optimization) ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਆਪਣੇ ਇਨਪੁੱਟਸ ਨੂੰ ਇੱਕੋ ਜਿਹੇ ਅਤੇ ਦੁਹਰਾਉਣਯੋਗ ਰੱਖਦੇ ਹੋ, ਤਾਂ ਮਾਡਲ ਹਰ ਵਾਰ ਪੂਰੀ prefill ਲਾਗਤ ਨਹੀਂ ਲੈਂਦਾ।

My results on 24GB VRAM: • ਛੋਟਾ ਪ੍ਰੋਂਪਟ (41 tokens): 0.29s TTFT। • ਵੱਡਾ ਪ੍ਰੋਂਪਟ (41,985 tokens): 38.6s TTFT। • ਕੈਸ਼ਡ ਪ੍ਰੋਂਪਟ (41,985 tokens): 1.59s TTFT।

ਮਾਡਲ ਰੁਕਾਵਟ (bottleneck) ਨਹੀਂ ਹੈ। ਰੁਕਾਵਟ ਤੁਹਾਡਾ ਸਰਵਿੰਗ ਅਨੁਸ਼ਾਸਨ ਹੈ। ਆਪਣੇ ਕੰਟੈਕਸਟ ਦੇ ਆਕਾਰ, ਆਪਣੀ ਰਿਕੁਐਸ ਸੀਕਵੈਂਸ ਅਤੇ ਆਪਣੀ concurrency ਨੂੰ ਕੰਟਰੋਲ ਕਰੋ।

ਇਹ ਟੈਸਟ ਕਰਨਾ ਬੰਦ ਕਰੋ ਕਿ ਕੀ ਮਾਡਲ ਇੱਕ ਪ੍ਰੋਂਪਟ ਦਾ ਜਵਾਬ ਦਿੰਦਾ ਹੈ। ਇਹ ਟੈਸਟ ਕਰੋ ਕਿ ਕੀ ਏਜੰਟ ਇੱਕ ਲੂਪ (loop) ਵਿੱਚ ਟਿਕ ਸਕਦਾ ਹੈ।

Source: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

Optional learning community: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻