𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Translated for your language. Read the original.

AI-assisted draft.

kelmarin2min read

𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Anda mahu menjalankan ejen pengekodan tempatan pada GPU 24GB. Anda memerlukan kestabilan. Anda memerlukan konteks yang panjang. Anda perlu mengelakkan kegagalan sistem (crashes).

Tetapan ini menggunakan Qwen3.6-27B-GPTQ-Pro-4bit melalui vLLM. Saya hanya fokus pada teks sahaja. Model multimodal menggunakan terlalu banyak memori untuk matlamat khusus ini.

Strategi: • Gunakan satu ejen pengekodan tempatan. • Matikan semua ejen anak (child agents). • Halang tugasan sampingan daripada menggunakan memori. • Utamakan sesi yang stabil berbanding kelajuan mentah.

Konfigurasi vLLM: Jalankan vLLM dengan kuantisasi gptq_marlin. Ini memberikan keseimbangan terbaik untuk konteks panjang dan prefix caching pada RTX 3090.

Bendera (flags) utama untuk digunakan:

--max-num-seqs 1: Ini sangat penting. Paralelisme mencuri KV cache daripada tugasan utama anda. Saya lebih suka satu permintaan yang berjaya berbanding dua yang gagal.
--max-model-len 131072: Ini membolehkan konteks yang sangat besar. Jika anda menghadapi ralat memori, turunkan nilai ini kepada 110k atau 80k.
--enable-prefix-caching: Ini menjadikan prom panjang yang berulang jauh lebih pantas.
--language-model-only: Kekalkan ia ringkas untuk menjimatkan VRAM.

Tetapan Hermes: Halakan Hermes ke endpoint vLLM anda. Gunakan tetapan khusus ini untuk hasil terbaik: • Aktifkan thinking dan kekalkan thinking. • Tetapkan masa tamat (timeout) permintaan yang panjang. Gunakan 1800 saat. Konteks yang besar memerlukan masa untuk prefill. • Matikan delegasi dan ejen anak. • Buang had max_tokens yang ketat untuk mengelakkan jawapan yang terpotong.

Mengapa ini berkesan: Prefix caching bukanlah magis. Ia adalah satu pengoptimuman. Jika anda mengekalkan input yang ringkas dan boleh diulang, model tidak lagi perlu membayar kos prefill sepenuhnya bagi setiap pusingan.

Keputusan saya pada 24GB VRAM: • Prom kecil (41 token): 0.29s TTFT. • Prom besar (41,985 token): 38.6s TTFT. • Prom tersimpan (cached prompt) (41,985 token): 1.59s TTFT.

Model bukanlah penghalang (bottleneck). Penghalangnya adalah disiplin penyajian (serving discipline) anda. Kawal saiz konteks, urutan permintaan, dan konkurensi anda.

Berhenti menguji sama ada model menjawab satu prom. Uji sama ada ejen tersebut dapat bertahan dalam satu gelung (loop).

Sumber: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

Menjalankan Dua Model pada Satu GPU: Matematik di Sebalik LLM Tempatan

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻