𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗽 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Translated for your language. Read the original.

AI-assisted draft.

eergisteren2min read

𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Je wilt een lokale coding agent draaien op een 24GB GPU. Je hebt stabiliteit nodig. Je hebt een lange context nodig. Je wilt crashes voorkomen.

Deze setup gebruikt Qwen3.6-27B-GPTQ-Pro-4bit via vLLM. Ik focus uitsluitend op tekst. Multimodale modellen verbruiken te veel geheugen voor dit specifieke doel.

De Strategie: • Gebruik één lokale coding agent. • Schakel alle child agents uit. • Voorkom dat zijtaken geheugen opeisen. • Geef prioriteit aan stabiele sessies boven pure snelheid.

De vLLM Configuratie: Draai vLLM met de gptq_marlin quantisatie. Dit biedt de beste balans voor een lange context en prefix caching op een RTX 3090.

Belangrijke flags om te gebruiken:

--max-num-seqs 1: Dit is essentieel. Parallellisme steelt KV-cache van je hoofdtaken. Ik geef de voorkeur aan één succesvolle aanvraag boven twee mislukte.
--max-model-len 131072: Dit maakt een enorme context mogelijk. Als je geheugenfouten krijgt, verlaag dit dan naar 110k of 80k.
--enable-prefix-caching: Dit maakt herhaalde lange prompts veel sneller.
--language-model-only: Houd het simpel om VRAM te besparen.

Hermes Instellingen: Wijs Hermes naar je vLLM-endpoint. Gebruik deze specifieke instellingen voor het beste resultaat: • Schakel 'thinking' in en behoud 'thinking'. • Stel een lange request timeout in. Gebruik 1800 seconden. Grote contexten hebben tijd nodig voor de prefill. • Schakel delegatie en child agents uit. • Verwijder harde max_tokens limieten om afgekapte antwoorden te voorkomen.

Waarom dit werkt: Prefix caching is geen magie. Het is een optimalisatie. Als je je inputs eentonig en herhaalbaar houdt, hoeft het model niet voor elke beurt de volledige prefill-kosten te betalen.

Mijn resultaten op 24GB VRAM: • Kleine prompt (41 tokens): 0,29s TTFT. • Grote prompt (41.985 tokens): 38,6s TTFT. • Cached prompt (41.985 tokens): 1,59s TTFT.

Het model is niet de bottleneck. De bottleneck is je discipline bij het serveren. Beheers je contextgrootte, je aanvraagvolgorde en je concurrency.

Stop met testen of een model één prompt beantwoordt. Test of de agent een loop overleeft.

Bron: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

Optionele leercommunity: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗽 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

Twee modellen draaien op één GPU: De wiskunde achter lokale LLM's

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻