𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

Translated for your language. Read the original.

AI-assisted draft.

Hôm kia1min read

Tôi đã ngừng chạy theo MTP TPS và có được một Agent 27B chạy cục bộ trên 24GB VRAM

Tôi không quan tâm đến các benchmark cho một prompt duy nhất.

Tôi quan tâm đến vòng lặp (loop).

Một coding agent cần phải làm việc trong nhiều giờ. Nó cần xử lý các chỉnh sửa, lệnh terminal, thử lại (retries) và ngữ cảnh (context) ngày càng tăng. Nếu mô hình thất bại chỉ sau mười prompt, nó sẽ trở nên vô dụng.

Tôi muốn xem liệu mình có thể chạy một mô hình 27B trên một GPU 24GB duy nhất hay không. Tôi đã thử nghiệm Qwopus3.6-27B-v2 và tạo ra một phiên bản mới: XReyRobert/Qwopus3.6-27B-v2-GPTQ-Pro-v1.

Đây là thiết lập của tôi để có một vòng lặp agent ổn định trên 24GB:

Model: Qwopus3.6-27B GPTQ-Pro 4-bit
Engine: vLLM với GPTQ-Marlin
Context: 131k tokens
KV Cache: FP8 (fp8_e5m2)
Strategy: Đã bật prefix caching
Constraint: max_num_seqs=1

Tại sao lại là max_num_seqs=1?

Trên một card 24GB duy nhất, tính song song (parallelism) không hề miễn phí. Nếu bạn chạy nhiều yêu cầu (requests), chúng sẽ tranh giành bộ nhớ. Tôi muốn một yêu cầu được hoàn thành một cách gọn gàng. Tôi thà có một câu trả lời hữu ích còn hơn là hai câu trả lời lỗi.

Tôi cũng bỏ qua speculative decoding (MTP). Trên một card 3090 duy nhất, MTP làm tăng áp lực bộ nhớ và độ phức tạp mà không làm tăng tốc độ end-to-end cho các ngữ cảnh dài.

Các chỉ số thực sự quan trọng:

Tỷ lệ prefix cache hit: ~83%
TTFT trung bình: ~5.7s tại 33k tokens
Thông lượng prefill: ~1917 tok/s
Tốc độ decode: ~43 tok/s

Khi prefix cache hit, độ trễ (latency) của bạn sẽ giảm xuống. Khi bạn thay đổi tác vụ, cache sẽ bị "nguội" (cold) và độ trễ sẽ tăng lên. Điều đó là bình thường. Mục tiêu là quay trở lại mức tái sử dụng cache cao sau khi tác vụ đã ổn định.

Nếu bạn chỉ kiểm tra một prompt duy nhất, bạn đang kiểm tra sai hướng rồi. Đối với các coding agent, bạn phải kiểm tra tính ổn định trong thời gian dài.

Bạn có đang chạy các vòng lặp agent trên một GPU duy nhất không? Bạn sử dụng những mẹo gì cho KV cache hoặc prefix caching?

Nguồn: https://dev.to/xreyrobertibm/i-stopped-chasing-mtp-tps-and-got-a-local-27b-agent-that-actually-stayed-usable-on-24gb-vram-5897

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

Continue reading

Llama.cpp hiện đã đạt tốc độ tương đương vLLM

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

Chạy hai mô hình trên một GPU: Toán học đằng sau các LLM cục bộ

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Chạy Agent lập trình cục bộ trên Mac Mini