FlashMemory, DeepSeek-V4-ന്റെ KV Cache 13.5% ആയി കുറയ്ക്കുന്നു
ലോങ്ങ് കോൺടെക്സ്റ്റ് (Long context) മോഡലുകൾ വലിയൊരു പ്രശ്നം നേരിടുന്നുണ്ട്. കണക്കുകളല്ല (math), മറിച്ച് മെമ്മറിയാണ് പരിമിതി.
ടോക്കണുകൾ (tokens) കൂടുന്തോറും KV cache വർദ്ധിച്ചുകൊണ്ടിരിക്കും. 500,000 ടോക്കണുകളിൽ എത്തുമ്പോൾ, കാഷെ (cache) വളരെ വലുതാകുന്നു. ഇത് മുഴുവൻ GPU മെമ്മറിയും ഉപയോഗിച്ചെടുക്കുന്നു. ഇത് ലോങ്ങ് കോൺടെക്സ്റ്റ് സേവനം ചെലവേറിയതും സാവധാനത്തിലുള്ളതുമാക്കുന്നു.
FlashMemory-DeepSeek-V4 എന്ന പുതിയ പേപ്പർ Lookahead Sparse Attention (LSA) ഉപയോഗിച്ച് ഈ പ്രശ്നം പരിഹരിക്കുന്നു.
ഇത് എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത് എന്ന് നോക്കാം:
പരമ്പരാഗത മോഡലുകൾ ഒരു ഡെൻസ് (dense) KV cache ആണ് ഉപയോഗിക്കുന്നത്. അവ കഴിഞ്ഞകാലത്തെ ഓരോ വിവരവും മെമ്മറിയിൽ സൂക്ഷിക്കുന്നു. ഒരു വാചകം വായിക്കാൻ വേണ്ടി മാത്രം ഒരു ലൈബ്രറി മുഴുവൻ നിങ്ങളുടെ മേശയിലേക്ക് കൊണ്ടുവരുന്നത് പോലെയാണിത്.
LSA വ്യത്യസ്തമായാണ് പ്രവർത്തിക്കുന്നത്. ഇത് ഒരു Neural Memory Indexer ഉപയോഗിക്കുന്നു. ഈ ഇൻഡെക്സർ ഒരു അസിസ്റ്റന്റിനെപ്പോലെ പ്രവർത്തിക്കുന്നു. കഴിഞ്ഞകാല വിവരങ്ങളിൽ ഏത് ഭാഗങ്ങളാണ് നിങ്ങൾക്ക് ഇപ്പോൾ ആവശ്യമുള്ളതെന്ന് ഇത് മുൻകൂട്ടി പ്രവചിക്കുന്നു. ആ പ്രത്യേക ഭാഗങ്ങൾ മാത്രം ഇത് മേശയിലേക്ക് എത്തിക്കുന്നു.
DeepSeek-V4-ൽ നിന്നുള്ള ഫലങ്ങൾ ശ്രദ്ധേയമാണ്:
- ഫിസിക്കൽ മെമ്മറി ഉപയോഗം (Physical memory footprint) യഥാർത്ഥ വലുപ്പത്തിന്റെ 13.5% ആയി കുറയുന്നു.
- 500,000 ടോക്കണുകളിൽ ഇത് 90% കുറവാണ്.
- കൃത്യത (Accuracy) യഥാർത്ഥത്തിൽ 0.6% വർദ്ധിക്കുന്നു.
എന്തുകൊണ്ടാണ് ഇത് മുൻപത്തെ രീതികളേക്കാൾ മികച്ചതാകുന്നത്?
മറ്റ് സ്പാർസ് അറ്റൻഷൻ (sparse attention) രീതികൾ കമ്പ്യൂട്ട് സമയം ലാഭിക്കുന്നുണ്ടെങ്കിലും, അവ ഇപ്പോഴും മുഴുവൻ കാഷെയും മെമ്മറിയിൽ സൂക്ഷിക്കുന്നു. എന്നാൽ LSA യഥാർത്ഥത്തിൽ ഗിഗാബൈറ്റുകൾ കണക്കിന് സ്ഥലം ലാഭിക്കുന്നു. ഇത് കാഷെ സൂക്ഷിക്കുന്നത് പൂർണ്ണമായും ഒഴിവാക്കുന്നു.
കൂടാതെ, ഈ ഇൻഡെക്സർ പരിശീലിപ്പിക്കുന്നത് (training) ചിലവ് കുറഞ്ഞതാണ്. ടീം backbone-free training ആണ് ഉപയോഗിച്ചത്. ഈ ചെറിയ ഇൻഡെക്സർ പരിശീലിപ്പിക്കാൻ trillion-parameter മോഡൽ ലോഡ് ചെയ്യേണ്ട ആവശ്യമില്ല.
ഇത് അൾട്രാ-ലോങ്ങ് കോൺടെക്സ്റ്റ് (ultra-long context) മോഡലുകൾ പ്രവർത്തിപ്പിക്കുന്നത് ലാഭകരമാക്കുന്നു.
സമീപനങ്ങളുടെ സംഗ്രഹം (Summary of approaches):
- Full KV Cache: കൃത്യമാണ് എന്നാൽ വലിയ അളവിൽ മെമ്മറി ഉപയോഗിക്കുന്നു.
- Sliding Window: കുറഞ്ഞ മെമ്മറി ഉപയോഗിക്കുന്നു എന്നാൽ പഴയ വിവരങ്ങൾ മറന്നുപോകുന്നു.
- Block-Sparse: കമ്പ്യൂട്ട് ലാഭിക്കുന്നു എന്നാൽ കാഷെ വലുതായി തന്നെ തുടരുന്നു.
- LSA: വലിയ അളവിൽ മെമ്മറി ലാഭിക്കുന്നു കൂടാതെ കൃത്യതയും നിലനിർത്തുന്നു.
ഉറവിടം: https://dev.to/pueding/flashmemory-cuts-deepseek-v4s-kv-cache-to-135-lookahead-sparse-attention-5coe
ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi