𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠
Bạn muốn chạy một coding agent cục bộ trên GPU 24GB. Bạn cần sự ổn định. Bạn cần ngữ cảnh dài. Bạn cần tránh tình trạng crash.
Thiết lập này sử dụng Qwen3.6-27B-GPTQ-Pro-4bit thông qua vLLM. Tôi chỉ tập trung vào văn bản. Các mô hình đa phương thức (multimodal) tiêu tốn quá nhiều bộ nhớ cho mục tiêu cụ thể này.
Chiến lược: • Sử dụng một coding agent cục bộ. • Vô hiệu hóa tất cả các child agent. • Ngăn chặn các tác vụ phụ chiếm dụng bộ nhớ. • Ưu tiên các phiên làm việc ổn định hơn là tốc độ thuần túy.
Cấu hình vLLM:
Chạy vLLM với quantization gptq_marlin. Điều này mang lại sự cân bằng tốt nhất cho ngữ cảnh dài và prefix caching trên RTX 3090.
Các flag quan trọng cần dùng:
--max-num-seqs 1: Điều này rất quan trọng. Việc chạy song song sẽ chiếm dụng KV cache từ tác vụ chính của bạn. Tôi thà chọn một yêu cầu thành công còn hơn là hai yêu cầu thất bại.--max-model-len 131072: Điều này cho phép một ngữ cảnh khổng lồ. Nếu bạn gặp lỗi bộ nhớ, hãy giảm con số này xuống 110k hoặc 80k.--enable-prefix-caching: Điều này giúp các prompt dài lặp lại trở nên nhanh hơn nhiều.--language-model-only: Giữ mọi thứ đơn giản để tiết kiệm VRAM.
Cài đặt Hermes:
Trỏ Hermes đến endpoint vLLM của bạn. Sử dụng các cài đặt cụ thể sau để có kết quả tốt nhất:
• Bật "thinking" và "preserve thinking".
• Thiết lập thời gian chờ (timeout) yêu cầu dài. Sử dụng 1800 giây. Các ngữ cảnh lớn cần thời gian để prefill.
• Vô hiệu hóa delegation và các child agent.
• Loại bỏ giới hạn max_tokens cứng để tránh việc câu trả lời bị cắt ngắn.
Tại sao cách này hiệu quả: Prefix caching không phải là phép màu. Nó là một sự tối ưu hóa. Nếu bạn giữ cho các đầu vào (inputs) đơn giản và có tính lặp lại, mô hình sẽ không phải trả toàn bộ chi phí prefill cho mỗi lượt.
Kết quả của tôi trên 24GB VRAM: • Prompt nhỏ (41 tokens): 0.29s TTFT. • Prompt lớn (41,985 tokens): 38.6s TTFT. • Prompt đã cache (41,985 tokens): 1.59s TTFT.
Mô hình không phải là nút thắt cổ chai. Nút thắt cổ chai chính là kỷ luật vận hành (serving discipline) của bạn. Hãy kiểm soát kích thước ngữ cảnh, trình tự yêu cầu và tính đồng thời (concurrency) của bạn.
Đừng chỉ kiểm tra xem mô hình có trả lời được một prompt hay không. Hãy kiểm tra xem agent có trụ vững qua một vòng lặp hay không.
Nguồn: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi