𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 ने DeepSeek-V4 KV Cache को घटाकर 13.5% कर दिया

लॉन्ग कॉन्टेक्स्ट मॉडल्स (Long context models) एक बहुत बड़ी समस्या का सामना कर रहे हैं। सीमा गणित नहीं, बल्कि मेमोरी है।

जैसे-जैसे आप टोकन जोड़ते हैं, KV cache बढ़ता जाता है। 500,000 टोकन पर, कैश बहुत बड़ा हो जाता है। यह पूरी GPU मेमोरी को खा जाता है। इससे लॉन्ग कॉन्टेक्स्ट को सर्व करना महंगा और धीमा हो जाता है।

FlashMemory-DeepSeek-V4 नामक एक नया पेपर Lookahead Sparse Attention (LSA) के साथ इस समस्या का समाधान करता है।

यह कैसे काम करता है, यहाँ देखें:

पारंपरिक मॉडल्स एक डेंस (dense) KV cache का उपयोग करते हैं। वे पिछली जानकारी के हर एक टुकड़े को मेमोरी में रखते हैं। यह केवल एक वाक्य पढ़ने के लिए पूरी लाइब्रेरी को अपनी डेस्क पर लाने जैसा है।

LSA अलग तरह से काम करता है। यह एक Neural Memory Indexer का उपयोग करता है। यह इंडेक्सर एक सहायक की तरह काम करता है। यह अनुमान लगाता है कि आपको अभी अतीत के किन विशिष्ट हिस्सों की आवश्यकता है। यह केवल उन्हीं विशिष्ट हिस्सों को डेस्क पर लाता है।

DeepSeek-V4 पर परिणाम प्रभावशाली हैं:

  • फिजिकल मेमोरी फुटप्रिंट घटकर मूल आकार का 13.5% रह जाता है।
  • 500,000 टोकन पर यह 90% की कमी है।
  • सटीकता (Accuracy) वास्तव में 0.6% बढ़ जाती है।

यह पिछले तरीकों से बेहतर क्यों है?

अन्य स्पार्स अटेंशन (sparse attention) तरीके कंप्यूट समय बचाते हैं। वे फिर भी पूरे कैश को मेमोरी में रखते हैं। LSA वास्तव में गीगाबाइट (gigabytes) जगह बचाता है। यह कैश को रखने से ही बचता है।

साथ ही, इस इंडेक्सर को ट्रेन करना सस्ता है। टीम ने backbone-free ट्रेनिंग का उपयोग किया। छोटे इंडेक्सर को ट्रेन करने के लिए उन्हें ट्रिलियन-पैरामीटर वाले मॉडल को लोड करने की आवश्यकता नहीं है।

यह अल्ट्रा-लॉन्ग कॉन्टेक्स्ट मॉडल्स को चलाना किफायती बनाता है।

दृष्टिकोणों का सारांश:

  • Full KV Cache: सटीक लेकिन बहुत अधिक मेमोरी का उपयोग करता है।
  • Sliding Window: कम मेमोरी लेकिन पुरानी जानकारी भूल जाता है।
  • Block-Sparse: कंप्यूट बचाता है लेकिन कैश बड़ा रहता है।
  • LSA: भारी मात्रा में मेमोरी बचाता है और सटीकता को उच्च रखता है।

स्रोत: https://dev.to/pueding/flashmemory-cuts-deepseek-v4s-kv-cache-to-135-lookahead-sparse-attention-5coe

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi