𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Anda mahu menjalankan ejen pengekodan tempatan pada GPU 24GB. Anda memerlukan kestabilan. Anda memerlukan konteks yang panjang. Anda perlu mengelakkan kegagalan sistem (crashes).

Tetapan ini menggunakan Qwen3.6-27B-GPTQ-Pro-4bit melalui vLLM. Saya hanya fokus pada teks sahaja. Model multimodal menggunakan terlalu banyak memori untuk matlamat khusus ini.

Strategi: • Gunakan satu ejen pengekodan tempatan. • Matikan semua ejen anak (child agents). • Halang tugasan sampingan daripada menggunakan memori. • Utamakan sesi yang stabil berbanding kelajuan mentah.

Konfigurasi vLLM: Jalankan vLLM dengan kuantisasi gptq_marlin. Ini memberikan keseimbangan terbaik untuk konteks panjang dan prefix caching pada RTX 3090.

Bendera (flags) utama untuk digunakan:

  • --max-num-seqs 1: Ini sangat penting. Paralelisme mencuri KV cache daripada tugasan utama anda. Saya lebih suka satu permintaan yang berjaya berbanding dua yang gagal.
  • --max-model-len 131072: Ini membolehkan konteks yang sangat besar. Jika anda menghadapi ralat memori, turunkan nilai ini kepada 110k atau 80k.
  • --enable-prefix-caching: Ini menjadikan prom panjang yang berulang jauh lebih pantas.
  • --language-model-only: Kekalkan ia ringkas untuk menjimatkan VRAM.

Tetapan Hermes: Halakan Hermes ke endpoint vLLM anda. Gunakan tetapan khusus ini untuk hasil terbaik: • Aktifkan thinking dan kekalkan thinking. • Tetapkan masa tamat (timeout) permintaan yang panjang. Gunakan 1800 saat. Konteks yang besar memerlukan masa untuk prefill. • Matikan delegasi dan ejen anak. • Buang had max_tokens yang ketat untuk mengelakkan jawapan yang terpotong.

Mengapa ini berkesan: Prefix caching bukanlah magis. Ia adalah satu pengoptimuman. Jika anda mengekalkan input yang ringkas dan boleh diulang, model tidak lagi perlu membayar kos prefill sepenuhnya bagi setiap pusingan.

Keputusan saya pada 24GB VRAM: • Prom kecil (41 token): 0.29s TTFT. • Prom besar (41,985 token): 38.6s TTFT. • Prom tersimpan (cached prompt) (41,985 token): 1.59s TTFT.

Model bukanlah penghalang (bottleneck). Penghalangnya adalah disiplin penyajian (serving discipline) anda. Kawal saiz konteks, urutan permintaan, dan konkurensi anda.

Berhenti menguji sama ada model menjawab satu prom. Uji sama ada ejen tersebut dapat bertahan dalam satu gelung (loop).

Sumber: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi