Sparse KV कॅशेसमुळे अटेंशन स्केलिंग कमी होते

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial८ तासांपूर्वी1min read

𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 मुळे Attention Scaling मध्ये मोठी घट

Standard attention मॉडेल्सना लांब sequences हाताळताना अडचणी येतात. मजकूर जसा मोठा होतो, तसा मेमरी आणि compute चा खर्च खूप वेगाने वाढतो. यामुळे context windows काही हजार tokens पर्यंत मर्यादित राहतात.

Sparse KV caches हे चित्र बदलतात. ते quadratic खर्च कमी करून तो जवळजवळ linear करतात. प्रत्येक memory block स्कॅन करण्याऐवजी, प्रत्येक query डेटाच्या एका लहान subset कडे पाहते.

या बदलामुळे एकाच GPU वर massive context windows वापरणे व्यावहारिक होते.

MiniMax अभ्यासातील मुख्य निष्कर्ष:

• MSA मुळे १० लाख token context मध्ये प्रति-token attention compute २८.४ पटीने कमी होतो. • KV memory चा वापर ५०% पर्यंत कमी होतो. • Perplexity dense मॉडेल्सइतकीच राहते, म्हणजेच अचूकतेमध्ये (accuracy) कोणतीही घट होत नाही. • H800 GPU वर Prefill १४.२ पटीने वेगाने चालते. • H800 GPU वर Decoding ७.६ पटीने वेगाने चालते.

हे वेगवान परिणाम एका नवीन Top-k selector आणि उत्तम tensor-core वापरामुळे येतात.

यात काही तडजोडी (trade-offs) विचारात घेणे आवश्यक आहे. हे निष्कर्ष एका विशिष्ट १०९B-parameter मॉडेलवर आधारित आहेत. हे फायदे सर्व प्रकारच्या hardware किंवा model प्रकारांवर लागू होतील की नाही, हे अद्याप माहित नाही. तसेच, ही पद्धत असे गृहीत धरते की संबंधित tokens एका विशिष्ट range मध्ये राहतात. ज्या कामांसाठी global attention आवश्यक आहे, त्यांना समस्या येऊ शकतात.

जर या पद्धती मोठ्या प्रमाणावर यशस्वी झाल्या, तर तुम्ही standard GPUs वर तुमचे context windows दुप्पट किंवा तिप्पट करू शकता. तुम्ही अतिरिक्त hardware शिवाय संपूर्ण repositories वर code analysis करू शकता किंवा दीर्घ संवादात्मक स्मृती (conversational memories) जतन करू शकता.

Source: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795

Optional learning community: https://t.me/GyaanSetuAi

Sparse KV कॅशेसमुळे अटेंशन स्केलिंग कमी होते

Continue reading

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

FastContex: शोध आणि निराकरण वेगळे करा

MiniMax M3: लाँग कॉन्टेक्स्ट हाताळण्याची एक नवीन पद्धत

FlashMemory ने DeepSeek V4 KV Cache १३.५% पर्यंत कमी केला

KV Cache आणि PagedAttention: तुमचा LLM सर्व्हर का मंदावतो