𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠
Sie möchten einen lokalen Coding-Agenten auf einer 24-GB-GPU ausführen. Sie benötigen Stabilität. Sie benötigen einen langen Kontext. Sie müssen Abstürze vermeiden.
Dieses Setup verwendet Qwen3.6-27B-GPTQ-Pro-4bit via vLLM. Ich konzentriere mich ausschließlich auf Text. Multimodale Modelle verbrauchen für dieses spezifische Ziel zu viel Speicher.
Die Strategie: • Verwenden Sie einen lokalen Coding-Agenten. • Deaktivieren Sie alle Child-Agenten. • Verhindern Sie, dass Nebenaufgaben Speicher beanspruchen. • Priorisieren Sie stabile Sitzungen gegenüber reiner Geschwindigkeit.
Die vLLM-Konfiguration:
Führen Sie vLLM mit der gptq_marlin-Quantisierung aus. Dies bietet die beste Balance für langen Kontext und Prefix Caching auf einer RTX 3090.
Wichtige Flags:
--max-num-seqs 1: Dies ist entscheidend. Parallelität entzieht der Hauptaufgabe den KV-Cache. Ich bevorzuge eine erfolgreiche Anfrage gegenüber zwei fehlgeschlagenen.--max-model-len 131072: Dies ermöglicht einen massiven Kontext. Wenn Speicherfehler auftreten, senken Sie diesen Wert auf 110k oder 80k.--enable-prefix-caching: Dies macht wiederholte lange Prompts wesentlich schneller.--language-model-only: Halten Sie es einfach, um VRAM zu sparen.
Hermes-Einstellungen:
Verweisen Sie Hermes auf Ihren vLLM-Endpoint. Verwenden Sie diese spezifischen Einstellungen für die besten Ergebnisse:
• Aktivieren Sie „Thinking“ und bewahren Sie „Thinking“.
• Legen Sie ein langes Request-Timeout fest. Verwenden Sie 1800 Sekunden. Große Kontexte benötigen Zeit für das Prefilling.
• Deaktivieren Sie Delegation und Child-Agenten.
• Entfernen Sie harte max_tokens-Limits, um abgeschnittene Antworten zu verhindern.
Warum das funktioniert: Prefix Caching ist keine Magie. Es ist eine Optimierung. Wenn Sie Ihre Inputs eintönig und wiederholbar halten, muss das Modell nicht bei jedem Durchgang die vollen Prefill-Kosten tragen.
Meine Ergebnisse auf 24 GB VRAM: • Kleiner Prompt (41 Token): 0,29s TTFT. • Großer Prompt (41.985 Token): 38,6s TTFT. • Gecachter Prompt (41.985 Token): 1,59s TTFT.
Das Modell ist nicht der Flaschenhals. Der Flaschenhals ist Ihre Disziplin beim Serving. Kontrollieren Sie Ihre Kontextgröße, Ihre Anfrage-Sequenz und Ihre Nebenläufigkeit (Concurrency).
Testen Sie nicht, ob ein Modell auf einen einzelnen Prompt antwortet. Testen Sie, ob der Agent eine Schleife übersteht.
Quelle: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452
Optionale Lern-Community: https://t.me/GyaanSetuAi