𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠
Je wilt een lokale coding agent draaien op een 24GB GPU. Je hebt stabiliteit nodig. Je hebt een lange context nodig. Je wilt crashes voorkomen.
Deze setup gebruikt Qwen3.6-27B-GPTQ-Pro-4bit via vLLM. Ik focus uitsluitend op tekst. Multimodale modellen verbruiken te veel geheugen voor dit specifieke doel.
De Strategie: • Gebruik één lokale coding agent. • Schakel alle child agents uit. • Voorkom dat zijtaken geheugen opeisen. • Geef prioriteit aan stabiele sessies boven pure snelheid.
De vLLM Configuratie:
Draai vLLM met de gptq_marlin quantisatie. Dit biedt de beste balans voor een lange context en prefix caching op een RTX 3090.
Belangrijke flags om te gebruiken:
--max-num-seqs 1: Dit is essentieel. Parallellisme steelt KV-cache van je hoofdtaken. Ik geef de voorkeur aan één succesvolle aanvraag boven twee mislukte.--max-model-len 131072: Dit maakt een enorme context mogelijk. Als je geheugenfouten krijgt, verlaag dit dan naar 110k of 80k.--enable-prefix-caching: Dit maakt herhaalde lange prompts veel sneller.--language-model-only: Houd het simpel om VRAM te besparen.
Hermes Instellingen:
Wijs Hermes naar je vLLM-endpoint. Gebruik deze specifieke instellingen voor het beste resultaat:
• Schakel 'thinking' in en behoud 'thinking'.
• Stel een lange request timeout in. Gebruik 1800 seconden. Grote contexten hebben tijd nodig voor de prefill.
• Schakel delegatie en child agents uit.
• Verwijder harde max_tokens limieten om afgekapte antwoorden te voorkomen.
Waarom dit werkt: Prefix caching is geen magie. Het is een optimalisatie. Als je je inputs eentonig en herhaalbaar houdt, hoeft het model niet voor elke beurt de volledige prefill-kosten te betalen.
Mijn resultaten op 24GB VRAM: • Kleine prompt (41 tokens): 0,29s TTFT. • Grote prompt (41.985 tokens): 38,6s TTFT. • Cached prompt (41.985 tokens): 1,59s TTFT.
Het model is niet de bottleneck. De bottleneck is je discipline bij het serveren. Beheers je contextgrootte, je aanvraagvolgorde en je concurrency.
Stop met testen of een model één prompt beantwoordt. Test of de agent een loop overleeft.
Bron: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452
Optionele leercommunity: https://t.me/GyaanSetuAi