𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 𝗜𝗻𝗮𝗽𝘂𝗻𝗴𝘂𝘇𝗮 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝘆𝗮 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸-𝗩𝟰 𝗵𝗮𝗱𝗶 𝟭𝟯.𝟱%
Mifano ya muktadha mrefu (long context models) inakabiliwa na tatizo kubwa. Kumbukumbu (memory), na si hisabati, ndiyo kikomo.
Unapoongeza tokeni, KV cache hukua. Katika tokeni 500,000, cache inakuwa kubwa sana. Inatumia kumbukumbu yote ya GPU. Hii inafanya utoaji wa muktadha mrefu kuwa ghali na wa polepole.
Makala mpya inayoitwa FlashMemory-DeepSeek-V4 inatatua hili kwa kutumia Lookahead Sparse Attention (LSA).
Hivi ndivyo inavyofanya kazi:
Mifano ya kiasili hutumia dense KV cache. Wanahifadhi kila kipande cha habari za zamani kwenye kumbukumbu. Hii ni kama kubeba maktaba nzima hadi mezani kwako ili tu kusoma sentensi moja.
LSA inafanya kazi tofauti. Inatumia Neural Memory Indexer. Indexer hii inafanya kazi kama msaidizi. Inatabiri ni sehemu gani mahususi za habari za zamani unazohitaji sasa hivi. Inaleta sehemu hizo mahususi tu mezani.
Matokeo kwenye DeepSeek-V4 ni ya kushangaza:
- Kiwango cha matumizi ya kumbukumbu ya kimwili (physical memory footprint) kinashuka hadi 13.5% ya ukubwa wa awali.
- Hii ni upungufu wa 90% kwenye tokeni 500,000.
- Usahihi (accuracy) kwa kweli unaongezeka kwa 0.6%.
Kwa nini hii ni bora kuliko mbinu za awali?
Mbinu nyingine za sparse attention huokoa muda wa kutoa hesabu (compute time). Bado zinahifadhi cache nzima kwenye kumbukumbu. LSA inaokoa nafasi halisi ya gigabytes. Inaepuka kuhifadhi cache kabisa.
Pia, kufundisha indexer hii ni rahisi. Timu ilitumia backbone-free training. Hawahitaji kupakia modeli yenye trilioni za vigezo (trillion-parameter model) ili kufundisha indexer ndogo.
Hii inafanya modeli za muktadha mrefu sana (ultra-long context models) kuwa na gharama nafuu kuendesha.
Muhtasari wa mbinu:
- Full KV Cache: Sahihi lakini inatumia kumbukumbu kubwa sana.
- Sliding Window: Kumbukumbu ndogo lakini inasahau habari za zamani.
- Block-Sparse: Inaokoa compute lakini cache inabaki kuwa kubwa.
- LSA: Inaokoa kumbukumbu kubwa na inadumisha usahihi wa juu.
Chanzo: https://dev.to/pueding/flashmemory-cuts-deepseek-v4s-kv-cache-to-135-lookahead-sparse-attention-5coe
Jumuiya ya kujifunza ya hiari: https://t.me/GyaanSetuAi