𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Translated for your language. Original lesen.

AI-assisted draft.

vorgestern2Min. Lesezeit

𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Sie möchten einen lokalen Coding-Agenten auf einer 24-GB-GPU ausführen. Sie benötigen Stabilität. Sie benötigen einen langen Kontext. Sie müssen Abstürze vermeiden.

Dieses Setup verwendet Qwen3.6-27B-GPTQ-Pro-4bit via vLLM. Ich konzentriere mich ausschließlich auf Text. Multimodale Modelle verbrauchen für dieses spezifische Ziel zu viel Speicher.

Die Strategie: • Verwenden Sie einen lokalen Coding-Agenten. • Deaktivieren Sie alle Child-Agenten. • Verhindern Sie, dass Nebenaufgaben Speicher beanspruchen. • Priorisieren Sie stabile Sitzungen gegenüber reiner Geschwindigkeit.

Die vLLM-Konfiguration: Führen Sie vLLM mit der gptq_marlin-Quantisierung aus. Dies bietet die beste Balance für langen Kontext und Prefix Caching auf einer RTX 3090.

Wichtige Flags:

--max-num-seqs 1: Dies ist entscheidend. Parallelität entzieht der Hauptaufgabe den KV-Cache. Ich bevorzuge eine erfolgreiche Anfrage gegenüber zwei fehlgeschlagenen.
--max-model-len 131072: Dies ermöglicht einen massiven Kontext. Wenn Speicherfehler auftreten, senken Sie diesen Wert auf 110k oder 80k.
--enable-prefix-caching: Dies macht wiederholte lange Prompts wesentlich schneller.
--language-model-only: Halten Sie es einfach, um VRAM zu sparen.

Hermes-Einstellungen: Verweisen Sie Hermes auf Ihren vLLM-Endpoint. Verwenden Sie diese spezifischen Einstellungen für die besten Ergebnisse: • Aktivieren Sie „Thinking“ und bewahren Sie „Thinking“. • Legen Sie ein langes Request-Timeout fest. Verwenden Sie 1800 Sekunden. Große Kontexte benötigen Zeit für das Prefilling. • Deaktivieren Sie Delegation und Child-Agenten. • Entfernen Sie harte max_tokens-Limits, um abgeschnittene Antworten zu verhindern.

Warum das funktioniert: Prefix Caching ist keine Magie. Es ist eine Optimierung. Wenn Sie Ihre Inputs eintönig und wiederholbar halten, muss das Modell nicht bei jedem Durchgang die vollen Prefill-Kosten tragen.

Meine Ergebnisse auf 24 GB VRAM: • Kleiner Prompt (41 Token): 0,29s TTFT. • Großer Prompt (41.985 Token): 38,6s TTFT. • Gecachter Prompt (41.985 Token): 1,59s TTFT.

Das Modell ist nicht der Flaschenhals. Der Flaschenhals ist Ihre Disziplin beim Serving. Kontrollieren Sie Ihre Kontextgröße, Ihre Anfrage-Sequenz und Ihre Nebenläufigkeit (Concurrency).

Testen Sie nicht, ob ein Modell auf einen einzelnen Prompt antwortet. Testen Sie, ob der Agent eine Schleife übersteht.

Quelle: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

Optionale Lern-Community: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Weiterlesen

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

Zwei Modelle auf einer GPU ausführen: Die Mathematik hinter lokalen LLMs

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻