FlashMemory Mengurangkan KV Cache DeepSeek V4 kepada 13.5%

Translated for your language. Read the original.

AI-assisted draft.

3 hari lalu1min read

𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 𝗖𝘂𝘁𝘀 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸-𝗩𝟰 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝘁𝗼 𝟭𝟯.𝟱%

Model konteks panjang menghadapi masalah besar. Memori, bukannya matematik, adalah hadnya.

Apabila anda menambah token, KV cache akan berkembang. Pada 500,000 token, cache tersebut menjadi sangat besar. Ia memakan semua memori GPU. Ini menjadikan penyediaan konteks panjang menjadi mahal dan perlahan.

Satu kertas kajian baharu yang bertajuk FlashMemory-DeepSeek-V4 menyelesaikan masalah ini dengan Lookahead Sparse Attention (LSA).

Begini cara ia berfungsi:

Model tradisional menggunakan KV cache yang padat (dense). Ia menyimpan setiap kepingan maklumat lampau dalam memori. Ini ibarat membawa seluruh perpustakaan ke meja anda hanya untuk membaca satu ayat.

LSA berfungsi secara berbeza. Ia menggunakan Neural Memory Indexer. Indexer ini bertindak seperti seorang pembantu. Ia meramalkan bahagian spesifik daripada maklumat lampau yang anda perlukan sekarang. Ia hanya membawa bahagian spesifik tersebut ke meja anda.

Keputusan pada DeepSeek-V4 sangat mengagumkan:

Jejak memori fizikal (physical memory footprint) menurun kepada 13.5% daripada saiz asal.
Ini adalah pengurangan sebanyak 90% pada 500,000 token.
Ketepatan sebenarnya meningkat sebanyak 0.6%.

Mengapakah ini lebih baik daripada kaedah sebelum ini?

Kaedah sparse attention yang lain menjimatkan masa pengiraan. Namun, ia masih menyimpan keseluruhan cache dalam memori. LSA menjimatkan ruang dalam unit gigabait yang sebenar. Ia mengelakkan daripada menyimpan cache tersebut sama sekali.

Selain itu, melatih indexer ini adalah murah. Pasukan tersebut menggunakan latihan backbone-free. Mereka tidak perlu memuatkan model trilion-parameter untuk melatih indexer kecil tersebut.

Ini menjadikan model konteks ultra-panjang mampu milik untuk dijalankan.

Ringkasan pendekatan:

Full KV Cache: Tepat tetapi menggunakan memori yang besar.
Sliding Window: Memori rendah tetapi melupakan maklumat lama.
Block-Sparse: Menjimatkan pengiraan tetapi cache kekal besar.
LSA: Menjimatkan memori yang besar dan mengekalkan ketepatan yang tinggi.

Sumber: https://dev.to/pueding/flashmemory-cuts-deepseek-v4s-kv-cache-to-135-lookahead-sparse-attention-5coe

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

FlashMemory Mengurangkan KV Cache DeepSeek V4 kepada 13.5%

Continue reading

Kuantisasi Cache KV untuk LLM pada Peranti

𝗙𝗮𝘀𝘁𝗖𝗼𝗻𝘁𝗲𝘅: 𝗦𝗲𝗽𝗮𝗿𝗮𝘁𝗲 𝗦𝗲𝗮𝗿𝗰𝗵 𝗳𝗿𝗼𝗺 𝗦𝗼𝗹𝘃𝗶𝗻𝗴

MiniMax M3: Cara Baharu Mengendalikan Konteks Panjang

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝗩𝟰 𝗙𝗹𝗮𝘀𝗵 𝗥𝗲𝘃𝗶𝗲𝘄: 𝗧𝘄𝗼 𝗪𝗲𝗲𝗸𝘀 𝗼𝗳 𝗧𝗲𝘀𝘁𝗶𝗻𝗴

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻