𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠-ൽ
നിങ്ങൾക്ക് ഒരു 24GB GPU-വിൽ ഒരു ലോക്കൽ കോഡിംഗ് ഏജന്റ് (coding agent) പ്രവർത്തിപ്പിക്കണമെന്നുണ്ടെങ്കിൽ, നിങ്ങൾക്ക് സ്ഥിരത (stability) ആവശ്യമാണ്. വലിയ കോൺടെക്സ്റ്റ് (long context) ആവശ്യമാണ്. ക്രാഷുകൾ ഒഴിവാക്കേണ്ടതുണ്ട്.
ഈ സെറ്റപ്പ് vLLM വഴി Qwen3.6-27B-GPTQ-Pro-4bit ഉപയോഗിക്കുന്നു. ഞാൻ ടെക്സ്റ്റിൽ മാത്രം ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. ഈ പ്രത്യേക ലക്ഷ്യത്തിനായി മൾട്ടിമോഡൽ (multimodal) മോഡലുകൾ വളരെയധികം മെമ്മറി ഉപയോഗിക്കുന്നു.
സ്ട്രാറ്റജി (The Strategy): • ഒരു ലോക്കൽ കോഡിംഗ് ഏജന്റ് ഉപയോഗിക്കുക. • എല്ലാ ചൈൽഡ് ഏജന്റുകളും (child agents) ഡിസേബിൾ ചെയ്യുക. • സൈഡ് ടാസ്ക്കുകൾ മെമ്മറി ഉപയോഗിക്കുന്നത് തടയുക. • വേഗതയേക്കാൾ ഉപരിയായി സ്റ്റേബിൾ സെഷനുകൾക്ക് മുൻഗണന നൽകുക.
vLLM കോൺഫിഗറേഷൻ (The vLLM Configuration): gptq_marlin quantization ഉപയോഗിച്ച് vLLM പ്രവർത്തിപ്പിക്കുക. ഒരു RTX 3090-ൽ ലോങ്ങ് കോൺടെക്സ്റ്റിനും പ്രിഫിക്സ് കാഷിംഗിനും (prefix caching) ഏറ്റവും മികച്ച ബാലൻസ് ഇത് നൽകുന്നു.
ഉപയോഗിക്കേണ്ട പ്രധാന ഫ്ലാഗുകൾ (Key flags to use):
--max-num-seqs 1: ഇത് വളരെ പ്രധാനമാണ്. പാരലലിസം (Parallelism) നിങ്ങളുടെ പ്രധാന ടാസ്കിൽ നിന്നുള്ള KV cache ഉപയോഗിക്കുന്നു. രണ്ട് പരാജയപ്പെട്ട റിക്വസ്റ്റുകളേക്കാൾ ഒരു വിജയകരമായ റിക്വസ്റ്റിനെയാണ് ഞാൻ ഇഷ്ടപ്പെടുന്നത്.--max-model-len 131072: ഇത് വലിയൊരു കോൺടെക്സ്റ്റ് അനുവദിക്കുന്നു. മെമ്മറി എററുകൾ ഉണ്ടായാൽ ഇത് 110k അല്ലെങ്കിൽ 80k ആയി കുറയ്ക്കുക.--enable-prefix-caching: ഇത് ആവർത്തിച്ചുള്ള വലിയ പ്രോംപ്റ്റുകൾ വേഗത്തിലാക്കുന്നു.--language-model-only: VRAM ലാഭിക്കാൻ ഇത് ലളിതമായി നിലനിർത്തുക.
Hermes സെറ്റിംഗുകൾ (Hermes Settings): Hermes-നെ നിങ്ങളുടെ vLLM എൻഡ്പോയിന്റിലേക്ക് (endpoint) തിരിച്ചുവിടുക. മികച്ച ഫലങ്ങൾക്കായി ഈ പ്രത്യേക സെറ്റിംഗുകൾ ഉപയോഗിക്കുക: • thinking എനേബിൾ ചെയ്യുക, thinking നിലനിർത്തുക. • നീളമുള്ള ഒരു request timeout സെറ്റ് ചെയ്യുക. 1800 സെക്കൻഡ് ഉപയോഗിക്കുക. വലിയ കോൺടെക്സ്റ്റുകൾ പ്രീഫിൽ (prefill) ചെയ്യാൻ സമയമെടുക്കും. • delegation-ഉം ചൈൽഡ് ഏജന്റുകളും ഡിസേബിൾ ചെയ്യുക. • ഉത്തരങ്ങൾ മുറിഞ്ഞുപോകാതിരിക്കാൻ (truncated) കടുപ്പമേറിയ max_tokens പരിധികൾ ഒഴിവാക്കുക.
ഇത് എങ്ങനെ പ്രവർത്തിക്കുന്നു: പ്രിഫിക്സ് കാഷിംഗ് (Prefix caching) എന്നത് ഒരു മാന്ത്രികവിദ്യയല്ല. അതൊരു ഒപ്റ്റിമൈസേഷൻ (optimization) ആണ്. നിങ്ങളുടെ ഇൻപുട്ടുകൾ ആവർത്തന സ്വഭാവമുള്ളതാണെങ്കിൽ, ഓരോ തവണയും മുഴുവൻ പ്രീഫിൽ ചിലവും (prefill cost) മോഡൽ വഹിക്കേണ്ടി വരില്ല.
24GB VRAM-ൽ എന്റെ ഫലങ്ങൾ: • ചെറിയ പ്രോംപ്റ്റ് (41 tokens): 0.29s TTFT. • വലിയ പ്രോംപ്റ്റ് (41,985 tokens): 38.6s TTFT. • കാഷഡ് പ്രോംപ്റ്റ് (41,985 tokens): 1.59s TTFT.
മോഡലല്ല ഇവിടെ തടസ്സം (bottleneck). നിങ്ങളുടെ സർവിംഗ് രീതികളാണ് (serving discipline) തടസ്സം. നിങ്ങളുടെ കോൺടെക്സ്റ്റ് സൈസ്, റിക്വസ്റ്റ് സീക്വൻസ്, കൺകറൻസി (concurrency) എന്നിവ നിയന്ത്രിക്കുക.
ഒരു പ്രോംപ്റ്റിന് മോഡൽ മറുപടി നൽകുന്നുണ്ടോ എന്ന് പരിശോധിക്കുന്നത് നിർത്തുക. ഒരു ലൂപ്പിൽ (loop) ഏജന്റ് നിലനിൽക്കുന്നുണ്ടോ എന്നാണ് പരിശോധിക്കേണ്ടത്.
Source: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452
Optional learning community: https://t.me/GyaanSetuAi