𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 𝗖𝘂𝘁𝘀 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝗩𝟰 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝘁𝗼 𝟭𝟯.𝟱%

Translated for your language. Read the original.

AI-assisted draft.

siku 3 zilizopita1min read

𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 𝗜𝗻𝗮𝗽𝘂𝗻𝗴𝘂𝘇𝗮 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝘆𝗮 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸-𝗩𝟰 𝗵𝗮𝗱𝗶 𝟭𝟯.𝟱%

Mifano ya muktadha mrefu (long context models) inakabiliwa na tatizo kubwa. Kumbukumbu (memory), na si hisabati, ndiyo kikomo.

Unapoongeza tokeni, KV cache hukua. Katika tokeni 500,000, cache inakuwa kubwa sana. Inatumia kumbukumbu yote ya GPU. Hii inafanya utoaji wa muktadha mrefu kuwa ghali na wa polepole.

Makala mpya inayoitwa FlashMemory-DeepSeek-V4 inatatua hili kwa kutumia Lookahead Sparse Attention (LSA).

Hivi ndivyo inavyofanya kazi:

Mifano ya kiasili hutumia dense KV cache. Wanahifadhi kila kipande cha habari za zamani kwenye kumbukumbu. Hii ni kama kubeba maktaba nzima hadi mezani kwako ili tu kusoma sentensi moja.

LSA inafanya kazi tofauti. Inatumia Neural Memory Indexer. Indexer hii inafanya kazi kama msaidizi. Inatabiri ni sehemu gani mahususi za habari za zamani unazohitaji sasa hivi. Inaleta sehemu hizo mahususi tu mezani.

Matokeo kwenye DeepSeek-V4 ni ya kushangaza:

Kiwango cha matumizi ya kumbukumbu ya kimwili (physical memory footprint) kinashuka hadi 13.5% ya ukubwa wa awali.
Hii ni upungufu wa 90% kwenye tokeni 500,000.
Usahihi (accuracy) kwa kweli unaongezeka kwa 0.6%.

Kwa nini hii ni bora kuliko mbinu za awali?

Mbinu nyingine za sparse attention huokoa muda wa kutoa hesabu (compute time). Bado zinahifadhi cache nzima kwenye kumbukumbu. LSA inaokoa nafasi halisi ya gigabytes. Inaepuka kuhifadhi cache kabisa.

Pia, kufundisha indexer hii ni rahisi. Timu ilitumia backbone-free training. Hawahitaji kupakia modeli yenye trilioni za vigezo (trillion-parameter model) ili kufundisha indexer ndogo.

Hii inafanya modeli za muktadha mrefu sana (ultra-long context models) kuwa na gharama nafuu kuendesha.

Muhtasari wa mbinu:

Full KV Cache: Sahihi lakini inatumia kumbukumbu kubwa sana.
Sliding Window: Kumbukumbu ndogo lakini inasahau habari za zamani.
Block-Sparse: Inaokoa compute lakini cache inabaki kuwa kubwa.
LSA: Inaokoa kumbukumbu kubwa na inadumisha usahihi wa juu.

Chanzo: https://dev.to/pueding/flashmemory-cuts-deepseek-v4s-kv-cache-to-135-lookahead-sparse-attention-5coe

Jumuiya ya kujifunza ya hiari: https://t.me/GyaanSetuAi

𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 𝗖𝘂𝘁𝘀 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝗩𝟰 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝘁𝗼 𝟭𝟯.𝟱%

Continue reading

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

FastContex: Tenganisha Utafutaji kutoka kwa Utatuzi

𝗠𝗶𝗻𝗶𝗠𝗮𝘅 𝗠𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗧𝗼 𝗛𝗮𝗻𝗱𝗹𝗲 𝗟𝗼𝗻𝗴 𝗖𝗼𝗻𝘁𝗲𝘅𝘁

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝗩𝟰 𝗙𝗹𝗮𝘀𝗵 𝗥𝗲𝘃𝗶𝗲𝘄: 𝗧𝘄𝗼 𝗪𝗲𝗲𝗸𝘀 𝗼𝗳 𝗧𝗲𝘀𝘁𝗶𝗻𝗴

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻