Tôi đã ngừng chạy theo MTP TPS và có được một Agent 27B chạy cục bộ trên 24GB VRAM

Tôi không quan tâm đến các benchmark cho một prompt duy nhất.

Tôi quan tâm đến vòng lặp (loop).

Một coding agent cần phải làm việc trong nhiều giờ. Nó cần xử lý các chỉnh sửa, lệnh terminal, thử lại (retries) và ngữ cảnh (context) ngày càng tăng. Nếu mô hình thất bại chỉ sau mười prompt, nó sẽ trở nên vô dụng.

Tôi muốn xem liệu mình có thể chạy một mô hình 27B trên một GPU 24GB duy nhất hay không. Tôi đã thử nghiệm Qwopus3.6-27B-v2 và tạo ra một phiên bản mới: XReyRobert/Qwopus3.6-27B-v2-GPTQ-Pro-v1.

Đây là thiết lập của tôi để có một vòng lặp agent ổn định trên 24GB:

  • Model: Qwopus3.6-27B GPTQ-Pro 4-bit
  • Engine: vLLM với GPTQ-Marlin
  • Context: 131k tokens
  • KV Cache: FP8 (fp8_e5m2)
  • Strategy: Đã bật prefix caching
  • Constraint: max_num_seqs=1

Tại sao lại là max_num_seqs=1?

Trên một card 24GB duy nhất, tính song song (parallelism) không hề miễn phí. Nếu bạn chạy nhiều yêu cầu (requests), chúng sẽ tranh giành bộ nhớ. Tôi muốn một yêu cầu được hoàn thành một cách gọn gàng. Tôi thà có một câu trả lời hữu ích còn hơn là hai câu trả lời lỗi.

Tôi cũng bỏ qua speculative decoding (MTP). Trên một card 3090 duy nhất, MTP làm tăng áp lực bộ nhớ và độ phức tạp mà không làm tăng tốc độ end-to-end cho các ngữ cảnh dài.

Các chỉ số thực sự quan trọng:

  • Tỷ lệ prefix cache hit: ~83%
  • TTFT trung bình: ~5.7s tại 33k tokens
  • Thông lượng prefill: ~1917 tok/s
  • Tốc độ decode: ~43 tok/s

Khi prefix cache hit, độ trễ (latency) của bạn sẽ giảm xuống. Khi bạn thay đổi tác vụ, cache sẽ bị "nguội" (cold) và độ trễ sẽ tăng lên. Điều đó là bình thường. Mục tiêu là quay trở lại mức tái sử dụng cache cao sau khi tác vụ đã ổn định.

Nếu bạn chỉ kiểm tra một prompt duy nhất, bạn đang kiểm tra sai hướng rồi. Đối với các coding agent, bạn phải kiểm tra tính ổn định trong thời gian dài.

Bạn có đang chạy các vòng lặp agent trên một GPU duy nhất không? Bạn sử dụng những mẹo gì cho KV cache hoặc prefix caching?

Nguồn: https://dev.to/xreyrobertibm/i-stopped-chasing-mtp-tps-and-got-a-local-27b-agent-that-actually-stayed-usable-on-24gb-vram-5897

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi