𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Translated for your language. Read the original.

AI-assisted draft.

Hôm kia2min read

𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Bạn muốn chạy một coding agent cục bộ trên GPU 24GB. Bạn cần sự ổn định. Bạn cần ngữ cảnh dài. Bạn cần tránh tình trạng crash.

Thiết lập này sử dụng Qwen3.6-27B-GPTQ-Pro-4bit thông qua vLLM. Tôi chỉ tập trung vào văn bản. Các mô hình đa phương thức (multimodal) tiêu tốn quá nhiều bộ nhớ cho mục tiêu cụ thể này.

Chiến lược: • Sử dụng một coding agent cục bộ. • Vô hiệu hóa tất cả các child agent. • Ngăn chặn các tác vụ phụ chiếm dụng bộ nhớ. • Ưu tiên các phiên làm việc ổn định hơn là tốc độ thuần túy.

Cấu hình vLLM: Chạy vLLM với quantization gptq_marlin. Điều này mang lại sự cân bằng tốt nhất cho ngữ cảnh dài và prefix caching trên RTX 3090.

Các flag quan trọng cần dùng:

--max-num-seqs 1: Điều này rất quan trọng. Việc chạy song song sẽ chiếm dụng KV cache từ tác vụ chính của bạn. Tôi thà chọn một yêu cầu thành công còn hơn là hai yêu cầu thất bại.
--max-model-len 131072: Điều này cho phép một ngữ cảnh khổng lồ. Nếu bạn gặp lỗi bộ nhớ, hãy giảm con số này xuống 110k hoặc 80k.
--enable-prefix-caching: Điều này giúp các prompt dài lặp lại trở nên nhanh hơn nhiều.
--language-model-only: Giữ mọi thứ đơn giản để tiết kiệm VRAM.

Cài đặt Hermes: Trỏ Hermes đến endpoint vLLM của bạn. Sử dụng các cài đặt cụ thể sau để có kết quả tốt nhất: • Bật "thinking" và "preserve thinking". • Thiết lập thời gian chờ (timeout) yêu cầu dài. Sử dụng 1800 giây. Các ngữ cảnh lớn cần thời gian để prefill. • Vô hiệu hóa delegation và các child agent. • Loại bỏ giới hạn max_tokens cứng để tránh việc câu trả lời bị cắt ngắn.

Tại sao cách này hiệu quả: Prefix caching không phải là phép màu. Nó là một sự tối ưu hóa. Nếu bạn giữ cho các đầu vào (inputs) đơn giản và có tính lặp lại, mô hình sẽ không phải trả toàn bộ chi phí prefill cho mỗi lượt.

Kết quả của tôi trên 24GB VRAM: • Prompt nhỏ (41 tokens): 0.29s TTFT. • Prompt lớn (41,985 tokens): 38.6s TTFT. • Prompt đã cache (41,985 tokens): 1.59s TTFT.

Mô hình không phải là nút thắt cổ chai. Nút thắt cổ chai chính là kỷ luật vận hành (serving discipline) của bạn. Hãy kiểm soát kích thước ngữ cảnh, trình tự yêu cầu và tính đồng thời (concurrency) của bạn.

Đừng chỉ kiểm tra xem mô hình có trả lời được một prompt hay không. Hãy kiểm tra xem agent có trụ vững qua một vòng lặp hay không.

Nguồn: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Continue reading

Llama.cpp hiện đã đạt tốc độ tương đương vLLM

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

Chạy hai mô hình trên một GPU: Toán học đằng sau các LLM cục bộ

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻