FlashMemory ने DeepSeek V4 KV Cache को घटाकर 13.5% कर दिया

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

3 दिन पहले1मिनट पढ़ें

𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 ने DeepSeek-V4 KV Cache को घटाकर 13.5% कर दिया

लॉन्ग कॉन्टेक्स्ट मॉडल्स (Long context models) एक बहुत बड़ी समस्या का सामना कर रहे हैं। सीमा गणित नहीं, बल्कि मेमोरी है।

जैसे-जैसे आप टोकन जोड़ते हैं, KV cache बढ़ता जाता है। 500,000 टोकन पर, कैश बहुत बड़ा हो जाता है। यह पूरी GPU मेमोरी को खा जाता है। इससे लॉन्ग कॉन्टेक्स्ट को सर्व करना महंगा और धीमा हो जाता है।

FlashMemory-DeepSeek-V4 नामक एक नया पेपर Lookahead Sparse Attention (LSA) के साथ इस समस्या का समाधान करता है।

यह कैसे काम करता है, यहाँ देखें:

पारंपरिक मॉडल्स एक डेंस (dense) KV cache का उपयोग करते हैं। वे पिछली जानकारी के हर एक टुकड़े को मेमोरी में रखते हैं। यह केवल एक वाक्य पढ़ने के लिए पूरी लाइब्रेरी को अपनी डेस्क पर लाने जैसा है।

LSA अलग तरह से काम करता है। यह एक Neural Memory Indexer का उपयोग करता है। यह इंडेक्सर एक सहायक की तरह काम करता है। यह अनुमान लगाता है कि आपको अभी अतीत के किन विशिष्ट हिस्सों की आवश्यकता है। यह केवल उन्हीं विशिष्ट हिस्सों को डेस्क पर लाता है।

DeepSeek-V4 पर परिणाम प्रभावशाली हैं:

फिजिकल मेमोरी फुटप्रिंट घटकर मूल आकार का 13.5% रह जाता है।
500,000 टोकन पर यह 90% की कमी है।
सटीकता (Accuracy) वास्तव में 0.6% बढ़ जाती है।

यह पिछले तरीकों से बेहतर क्यों है?

अन्य स्पार्स अटेंशन (sparse attention) तरीके कंप्यूट समय बचाते हैं। वे फिर भी पूरे कैश को मेमोरी में रखते हैं। LSA वास्तव में गीगाबाइट (gigabytes) जगह बचाता है। यह कैश को रखने से ही बचता है।

साथ ही, इस इंडेक्सर को ट्रेन करना सस्ता है। टीम ने backbone-free ट्रेनिंग का उपयोग किया। छोटे इंडेक्सर को ट्रेन करने के लिए उन्हें ट्रिलियन-पैरामीटर वाले मॉडल को लोड करने की आवश्यकता नहीं है।

यह अल्ट्रा-लॉन्ग कॉन्टेक्स्ट मॉडल्स को चलाना किफायती बनाता है।

दृष्टिकोणों का सारांश:

Full KV Cache: सटीक लेकिन बहुत अधिक मेमोरी का उपयोग करता है।
Sliding Window: कम मेमोरी लेकिन पुरानी जानकारी भूल जाता है।
Block-Sparse: कंप्यूट बचाता है लेकिन कैश बड़ा रहता है।
LSA: भारी मात्रा में मेमोरी बचाता है और सटीकता को उच्च रखता है।

स्रोत: https://dev.to/pueding/flashmemory-cuts-deepseek-v4s-kv-cache-to-135-lookahead-sparse-attention-5coe

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

FlashMemory ने DeepSeek V4 KV Cache को घटाकर 13.5% कर दिया

पढ़ना जारी रखें

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

𝗙𝗮𝘀𝘁𝗖𝗼𝗻𝘁𝗲𝘅: 𝗦𝗲𝗽𝗮𝗿𝗮𝘁𝗲 𝗦𝗲𝗮𝗿𝗰𝗵 𝗳𝗿𝗼𝗺 𝗦𝗼𝗹𝘃𝗶𝗻𝗴

𝗠𝗶𝗻𝗶𝗠𝗮𝘅 𝗠𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗧𝗼 𝗛𝗮𝗻𝗱𝗹𝗲 𝗟𝗼𝗻𝗴 𝗖𝗼𝗻𝘁𝗲𝘅𝘁

DeepSeek V4 Flash रिव्यू: टेस्टिंग के दो सप्ताह

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻