𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 𝗖𝘂𝘁 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

Các mô hình attention tiêu chuẩn gặp khó khăn với các chuỗi dài. Chi phí bộ nhớ và tính toán tăng quá nhanh khi văn bản dài hơn. Điều này giới hạn cửa sổ ngữ cảnh (context window) chỉ ở mức vài nghìn token.

Sparse KV cache thay đổi điều này. Chúng chuyển đổi chi phí bậc hai (quadratic) thành chi phí gần như tuyến tính (near-linear). Thay vì quét mọi khối bộ nhớ, mỗi truy vấn chỉ xem xét một tập hợp con nhỏ của dữ liệu.

Sự chuyển dịch này giúp việc sử dụng các cửa sổ ngữ cảnh khổng lồ trở nên khả thi trên một GPU duy nhất.

Các kết quả chính từ nghiên cứu của MiniMax:

• MSA giảm tính toán attention trên mỗi token xuống 28,4 lần tại ngữ cảnh một triệu token. • Mức sử dụng bộ nhớ KV giảm tới 50%. • Perplexity vẫn giữ nguyên như các mô hình dense, nghĩa là không bị giảm độ chính xác. • Prefill chạy nhanh hơn 14,2 lần trên GPU H800. • Decoding chạy nhanh hơn 7,6 lần trên GPU H800.

Những cải thiện về tốc độ này đến từ một bộ chọn Top-k mới và việc sử dụng tensor-core hiệu quả hơn.

Có những đánh đổi cần xem xét. Các kết quả này đến từ một mô hình cụ thể có 109 tỷ tham số (109B-parameter). Chúng ta vẫn chưa biết liệu những cải tiến này có hoạt động trên tất cả các loại phần cứng hoặc mô hình hay không. Ngoài ra, phương pháp này giả định rằng các token liên quan nằm trong một phạm vi cụ thể. Các tác vụ yêu cầu attention toàn cục (global attention) có thể gặp vấn đề.

Nếu các phương pháp này được áp dụng rộng rãi, bạn có thể tăng gấp đôi hoặc gấp ba cửa sổ ngữ cảnh của mình trên các GPU tiêu chuẩn. Bạn có thể thực hiện phân tích mã nguồn trên toàn bộ kho lưu trữ (repository) hoặc duy trì bộ nhớ hội thoại dài mà không cần thêm phần cứng.

Nguồn: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 𝗖𝘂𝘁 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

Continue reading

Lượng tử hóa KV Cache cho LLM trên thiết bị

FastContex: Tách biệt Tìm kiếm và Giải quyết

MiniMax M3: Một cách tiếp cận mới để xử lý ngữ cảnh dài

FlashMemory giảm KV Cache của DeepSeek V4 xuống còn 13,5%

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻