𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Sie möchten einen lokalen Coding-Agenten auf einer 24-GB-GPU ausführen. Sie benötigen Stabilität. Sie benötigen einen langen Kontext. Sie müssen Abstürze vermeiden.

Dieses Setup verwendet Qwen3.6-27B-GPTQ-Pro-4bit via vLLM. Ich konzentriere mich ausschließlich auf Text. Multimodale Modelle verbrauchen für dieses spezifische Ziel zu viel Speicher.

Die Strategie: • Verwenden Sie einen lokalen Coding-Agenten. • Deaktivieren Sie alle Child-Agenten. • Verhindern Sie, dass Nebenaufgaben Speicher beanspruchen. • Priorisieren Sie stabile Sitzungen gegenüber reiner Geschwindigkeit.

Die vLLM-Konfiguration: Führen Sie vLLM mit der gptq_marlin-Quantisierung aus. Dies bietet die beste Balance für langen Kontext und Prefix Caching auf einer RTX 3090.

Wichtige Flags:

  • --max-num-seqs 1: Dies ist entscheidend. Parallelität entzieht der Hauptaufgabe den KV-Cache. Ich bevorzuge eine erfolgreiche Anfrage gegenüber zwei fehlgeschlagenen.
  • --max-model-len 131072: Dies ermöglicht einen massiven Kontext. Wenn Speicherfehler auftreten, senken Sie diesen Wert auf 110k oder 80k.
  • --enable-prefix-caching: Dies macht wiederholte lange Prompts wesentlich schneller.
  • --language-model-only: Halten Sie es einfach, um VRAM zu sparen.

Hermes-Einstellungen: Verweisen Sie Hermes auf Ihren vLLM-Endpoint. Verwenden Sie diese spezifischen Einstellungen für die besten Ergebnisse: • Aktivieren Sie „Thinking“ und bewahren Sie „Thinking“. • Legen Sie ein langes Request-Timeout fest. Verwenden Sie 1800 Sekunden. Große Kontexte benötigen Zeit für das Prefilling. • Deaktivieren Sie Delegation und Child-Agenten. • Entfernen Sie harte max_tokens-Limits, um abgeschnittene Antworten zu verhindern.

Warum das funktioniert: Prefix Caching ist keine Magie. Es ist eine Optimierung. Wenn Sie Ihre Inputs eintönig und wiederholbar halten, muss das Modell nicht bei jedem Durchgang die vollen Prefill-Kosten tragen.

Meine Ergebnisse auf 24 GB VRAM: • Kleiner Prompt (41 Token): 0,29s TTFT. • Großer Prompt (41.985 Token): 38,6s TTFT. • Gecachter Prompt (41.985 Token): 1,59s TTFT.

Das Modell ist nicht der Flaschenhals. Der Flaschenhals ist Ihre Disziplin beim Serving. Kontrollieren Sie Ihre Kontextgröße, Ihre Anfrage-Sequenz und Ihre Nebenläufigkeit (Concurrency).

Testen Sie nicht, ob ein Modell auf einen einzelnen Prompt antwortet. Testen Sie, ob der Agent eine Schleife übersteht.

Quelle: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

Optionale Lern-Community: https://t.me/GyaanSetuAi