𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 𝗖𝘂𝘁𝘀 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝗩𝟰 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝘁𝗼 𝟭𝟯.𝟱%

Translated for your language. Read the original.

AI-assisted draft.

3 ദിവസം മുമ്പ്1min read

FlashMemory, DeepSeek-V4-ന്റെ KV Cache 13.5% ആയി കുറയ്ക്കുന്നു

ലോങ്ങ് കോൺടെക്സ്റ്റ് (Long context) മോഡലുകൾ വലിയൊരു പ്രശ്നം നേരിടുന്നുണ്ട്. കണക്കുകളല്ല (math), മറിച്ച് മെമ്മറിയാണ് പരിമിതി.

ടോക്കണുകൾ (tokens) കൂടുന്തോറും KV cache വർദ്ധിച്ചുകൊണ്ടിരിക്കും. 500,000 ടോക്കണുകളിൽ എത്തുമ്പോൾ, കാഷെ (cache) വളരെ വലുതാകുന്നു. ഇത് മുഴുവൻ GPU മെമ്മറിയും ഉപയോഗിച്ചെടുക്കുന്നു. ഇത് ലോങ്ങ് കോൺടെക്സ്റ്റ് സേവനം ചെലവേറിയതും സാവധാനത്തിലുള്ളതുമാക്കുന്നു.

FlashMemory-DeepSeek-V4 എന്ന പുതിയ പേപ്പർ Lookahead Sparse Attention (LSA) ഉപയോഗിച്ച് ഈ പ്രശ്നം പരിഹരിക്കുന്നു.

ഇത് എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത് എന്ന് നോക്കാം:

പരമ്പരാഗത മോഡലുകൾ ഒരു ഡെൻസ് (dense) KV cache ആണ് ഉപയോഗിക്കുന്നത്. അവ കഴിഞ്ഞകാലത്തെ ഓരോ വിവരവും മെമ്മറിയിൽ സൂക്ഷിക്കുന്നു. ഒരു വാചകം വായിക്കാൻ വേണ്ടി മാത്രം ഒരു ലൈബ്രറി മുഴുവൻ നിങ്ങളുടെ മേശയിലേക്ക് കൊണ്ടുവരുന്നത് പോലെയാണിത്.

LSA വ്യത്യസ്തമായാണ് പ്രവർത്തിക്കുന്നത്. ഇത് ഒരു Neural Memory Indexer ഉപയോഗിക്കുന്നു. ഈ ഇൻഡെക്സർ ഒരു അസിസ്റ്റന്റിനെപ്പോലെ പ്രവർത്തിക്കുന്നു. കഴിഞ്ഞകാല വിവരങ്ങളിൽ ഏത് ഭാഗങ്ങളാണ് നിങ്ങൾക്ക് ഇപ്പോൾ ആവശ്യമുള്ളതെന്ന് ഇത് മുൻകൂട്ടി പ്രവചിക്കുന്നു. ആ പ്രത്യേക ഭാഗങ്ങൾ മാത്രം ഇത് മേശയിലേക്ക് എത്തിക്കുന്നു.

DeepSeek-V4-ൽ നിന്നുള്ള ഫലങ്ങൾ ശ്രദ്ധേയമാണ്:

ഫിസിക്കൽ മെമ്മറി ഉപയോഗം (Physical memory footprint) യഥാർത്ഥ വലുപ്പത്തിന്റെ 13.5% ആയി കുറയുന്നു.
500,000 ടോക്കണുകളിൽ ഇത് 90% കുറവാണ്.
കൃത്യത (Accuracy) യഥാർത്ഥത്തിൽ 0.6% വർദ്ധിക്കുന്നു.

എന്തുകൊണ്ടാണ് ഇത് മുൻപത്തെ രീതികളേക്കാൾ മികച്ചതാകുന്നത്?

മറ്റ് സ്പാർസ് അറ്റൻഷൻ (sparse attention) രീതികൾ കമ്പ്യൂട്ട് സമയം ലാഭിക്കുന്നുണ്ടെങ്കിലും, അവ ഇപ്പോഴും മുഴുവൻ കാഷെയും മെമ്മറിയിൽ സൂക്ഷിക്കുന്നു. എന്നാൽ LSA യഥാർത്ഥത്തിൽ ഗിഗാബൈറ്റുകൾ കണക്കിന് സ്ഥലം ലാഭിക്കുന്നു. ഇത് കാഷെ സൂക്ഷിക്കുന്നത് പൂർണ്ണമായും ഒഴിവാക്കുന്നു.

കൂടാതെ, ഈ ഇൻഡെക്സർ പരിശീലിപ്പിക്കുന്നത് (training) ചിലവ് കുറഞ്ഞതാണ്. ടീം backbone-free training ആണ് ഉപയോഗിച്ചത്. ഈ ചെറിയ ഇൻഡെക്സർ പരിശീലിപ്പിക്കാൻ trillion-parameter മോഡൽ ലോഡ് ചെയ്യേണ്ട ആവശ്യമില്ല.

ഇത് അൾട്രാ-ലോങ്ങ് കോൺടെക്സ്റ്റ് (ultra-long context) മോഡലുകൾ പ്രവർത്തിപ്പിക്കുന്നത് ലാഭകരമാക്കുന്നു.

സമീപനങ്ങളുടെ സംഗ്രഹം (Summary of approaches):

Full KV Cache: കൃത്യമാണ് എന്നാൽ വലിയ അളവിൽ മെമ്മറി ഉപയോഗിക്കുന്നു.
Sliding Window: കുറഞ്ഞ മെമ്മറി ഉപയോഗിക്കുന്നു എന്നാൽ പഴയ വിവരങ്ങൾ മറന്നുപോകുന്നു.
Block-Sparse: കമ്പ്യൂട്ട് ലാഭിക്കുന്നു എന്നാൽ കാഷെ വലുതായി തന്നെ തുടരുന്നു.
LSA: വലിയ അളവിൽ മെമ്മറി ലാഭിക്കുന്നു കൂടാതെ കൃത്യതയും നിലനിർത്തുന്നു.

ഉറവിടം: https://dev.to/pueding/flashmemory-cuts-deepseek-v4s-kv-cache-to-135-lookahead-sparse-attention-5coe

ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi

𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 𝗖𝘂𝘁𝘀 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝗩𝟰 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝘁𝗼 𝟭𝟯.𝟱%

Continue reading

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

𝗙𝗮𝘀𝘁𝗖𝗼𝗻𝘁𝗲𝘅: 𝗦𝗲𝗽𝗮𝗿𝗮𝘁𝗲 𝗦𝗲𝗮𝗿𝗰𝗵 𝗳𝗿𝗼𝗺 𝗦𝗼𝗹𝘃𝗶𝗻𝗴

𝗠𝗶𝗻𝗶𝗠𝗮𝘅 𝗠𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗧𝗼 𝗛𝗮𝗻𝗱𝗹𝗲 𝗟𝗼𝗻𝗴 𝗖𝗼𝗻𝘁𝗲𝘅𝘁

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝗩𝟰 𝗙𝗹𝗮𝘀𝗵 𝗥𝗲𝘃𝗶𝗲𝘄: 𝗧𝘄𝗼 𝗪𝗲𝗲𝗸𝘀 𝗼𝗳 𝗧𝗲𝘀𝘁𝗶𝗻𝗴

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻