FlashMemory Giảm KV Cache của DeepSeek-V4 xuống còn 13,5%

Các mô hình ngữ cảnh dài đang đối mặt với một vấn đề khổng lồ. Giới hạn nằm ở bộ nhớ, chứ không phải ở toán học.

Khi bạn thêm các token, KV cache sẽ tăng lên. Ở mức 500.000 token, bộ nhớ đệm này trở nên cực kỳ lớn. Nó chiếm dụng toàn bộ bộ nhớ GPU, khiến việc phục vụ ngữ cảnh dài trở nên đắt đỏ và chậm chạp.

Một bài báo nghiên cứu mới mang tên FlashMemory-DeepSeek-V4 đã giải quyết vấn đề này bằng phương pháp Lookahead Sparse Attention (LSA).

Dưới đây là cách thức hoạt động của nó:

Các mô hình truyền thống sử dụng KV cache dày đặc (dense KV cache). Chúng lưu giữ mọi mẩu thông tin trong quá khứ vào bộ nhớ. Việc này giống như việc bạn phải bê cả một thư viện đến bàn làm việc chỉ để đọc một câu duy nhất.

LSA hoạt động theo cách khác. Nó sử dụng một Neural Memory Indexer. Bộ lập chỉ mục này đóng vai trò như một trợ lý. Nó dự đoán những phần cụ thể nào trong quá khứ mà bạn đang cần ngay lúc này, và chỉ mang những phần cụ thể đó đến bàn làm việc.

Kết quả trên DeepSeek-V4 rất ấn tượng:

  • Dung lượng bộ nhớ vật lý chiếm dụng giảm xuống còn 13,5% so với kích thước ban đầu.
  • Đây là mức giảm 90% tại ngưỡng 500.000 token.
  • Độ chính xác thực tế còn tăng thêm 0,6%.

Tại sao phương pháp này lại tốt hơn các phương pháp trước đây?

Các phương pháp sparse attention khác giúp tiết kiệm thời gian tính toán, nhưng chúng vẫn giữ toàn bộ cache trong bộ nhớ. LSA tiết kiệm được hàng gigabyte dung lượng thực tế bằng cách tránh việc phải lưu trữ toàn bộ cache.

Ngoài ra, việc huấn luyện bộ lập chỉ mục này rất rẻ. Nhóm nghiên cứu đã sử dụng phương pháp huấn luyện backbone-free. Họ không cần phải tải mô hình hàng nghìn tỷ tham số để huấn luyện bộ lập chỉ mục nhỏ này.

Điều này giúp việc vận hành các mô hình ngữ cảnh siêu dài trở nên khả thi về mặt chi phí.

Tóm tắt các phương pháp tiếp cận:

  • Full KV Cache: Chính xác nhưng sử dụng bộ nhớ khổng lồ.
  • Sliding Window: Bộ nhớ thấp nhưng hay quên thông tin cũ.
  • Block-Sparse: Tiết kiệm tính toán nhưng cache vẫn lớn.
  • LSA: Tiết kiệm bộ nhớ cực lớn và duy trì độ chính xác cao.

Nguồn: https://dev.to/pueding/flashmemory-cuts-deepseek-v4s-kv-cache-to-135-lookahead-sparse-attention-5coe

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi