𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 𝗖𝘂𝘁 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻 𝗦𝗰𝗮𝗹𝗶𝗻𝗴
Các mô hình attention tiêu chuẩn gặp khó khăn với các chuỗi dài. Chi phí bộ nhớ và tính toán tăng quá nhanh khi văn bản dài hơn. Điều này giới hạn cửa sổ ngữ cảnh (context window) chỉ ở mức vài nghìn token.
Sparse KV cache thay đổi điều này. Chúng chuyển đổi chi phí bậc hai (quadratic) thành chi phí gần như tuyến tính (near-linear). Thay vì quét mọi khối bộ nhớ, mỗi truy vấn chỉ xem xét một tập hợp con nhỏ của dữ liệu.
Sự chuyển dịch này giúp việc sử dụng các cửa sổ ngữ cảnh khổng lồ trở nên khả thi trên một GPU duy nhất.
Các kết quả chính từ nghiên cứu của MiniMax:
• MSA giảm tính toán attention trên mỗi token xuống 28,4 lần tại ngữ cảnh một triệu token. • Mức sử dụng bộ nhớ KV giảm tới 50%. • Perplexity vẫn giữ nguyên như các mô hình dense, nghĩa là không bị giảm độ chính xác. • Prefill chạy nhanh hơn 14,2 lần trên GPU H800. • Decoding chạy nhanh hơn 7,6 lần trên GPU H800.
Những cải thiện về tốc độ này đến từ một bộ chọn Top-k mới và việc sử dụng tensor-core hiệu quả hơn.
Có những đánh đổi cần xem xét. Các kết quả này đến từ một mô hình cụ thể có 109 tỷ tham số (109B-parameter). Chúng ta vẫn chưa biết liệu những cải tiến này có hoạt động trên tất cả các loại phần cứng hoặc mô hình hay không. Ngoài ra, phương pháp này giả định rằng các token liên quan nằm trong một phạm vi cụ thể. Các tác vụ yêu cầu attention toàn cục (global attention) có thể gặp vấn đề.
Nếu các phương pháp này được áp dụng rộng rãi, bạn có thể tăng gấp đôi hoặc gấp ba cửa sổ ngữ cảnh của mình trên các GPU tiêu chuẩn. Bạn có thể thực hiện phân tích mã nguồn trên toàn bộ kho lưu trữ (repository) hoặc duy trì bộ nhớ hội thoại dài mà không cần thêm phần cứng.
Nguồn: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi