𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 𝗖𝘂𝘁𝘀 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸-𝗩𝟰 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝘁𝗼 𝟭𝟯.𝟱%
Model konteks panjang menghadapi masalah besar. Memori, bukannya matematik, adalah hadnya.
Apabila anda menambah token, KV cache akan berkembang. Pada 500,000 token, cache tersebut menjadi sangat besar. Ia memakan semua memori GPU. Ini menjadikan penyediaan konteks panjang menjadi mahal dan perlahan.
Satu kertas kajian baharu yang bertajuk FlashMemory-DeepSeek-V4 menyelesaikan masalah ini dengan Lookahead Sparse Attention (LSA).
Begini cara ia berfungsi:
Model tradisional menggunakan KV cache yang padat (dense). Ia menyimpan setiap kepingan maklumat lampau dalam memori. Ini ibarat membawa seluruh perpustakaan ke meja anda hanya untuk membaca satu ayat.
LSA berfungsi secara berbeza. Ia menggunakan Neural Memory Indexer. Indexer ini bertindak seperti seorang pembantu. Ia meramalkan bahagian spesifik daripada maklumat lampau yang anda perlukan sekarang. Ia hanya membawa bahagian spesifik tersebut ke meja anda.
Keputusan pada DeepSeek-V4 sangat mengagumkan:
- Jejak memori fizikal (physical memory footprint) menurun kepada 13.5% daripada saiz asal.
- Ini adalah pengurangan sebanyak 90% pada 500,000 token.
- Ketepatan sebenarnya meningkat sebanyak 0.6%.
Mengapakah ini lebih baik daripada kaedah sebelum ini?
Kaedah sparse attention yang lain menjimatkan masa pengiraan. Namun, ia masih menyimpan keseluruhan cache dalam memori. LSA menjimatkan ruang dalam unit gigabait yang sebenar. Ia mengelakkan daripada menyimpan cache tersebut sama sekali.
Selain itu, melatih indexer ini adalah murah. Pasukan tersebut menggunakan latihan backbone-free. Mereka tidak perlu memuatkan model trilion-parameter untuk melatih indexer kecil tersebut.
Ini menjadikan model konteks ultra-panjang mampu milik untuk dijalankan.
Ringkasan pendekatan:
- Full KV Cache: Tepat tetapi menggunakan memori yang besar.
- Sliding Window: Memori rendah tetapi melupakan maklumat lama.
- Block-Sparse: Menjimatkan pengiraan tetapi cache kekal besar.
- LSA: Menjimatkan memori yang besar dan mengekalkan ketepatan yang tinggi.
Sumber: https://dev.to/pueding/flashmemory-cuts-deepseek-v4s-kv-cache-to-135-lookahead-sparse-attention-5coe
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi