𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 मुळे Attention Scaling मध्ये मोठी घट

Standard attention मॉडेल्सना लांब sequences हाताळताना अडचणी येतात. मजकूर जसा मोठा होतो, तसा मेमरी आणि compute चा खर्च खूप वेगाने वाढतो. यामुळे context windows काही हजार tokens पर्यंत मर्यादित राहतात.

Sparse KV caches हे चित्र बदलतात. ते quadratic खर्च कमी करून तो जवळजवळ linear करतात. प्रत्येक memory block स्कॅन करण्याऐवजी, प्रत्येक query डेटाच्या एका लहान subset कडे पाहते.

या बदलामुळे एकाच GPU वर massive context windows वापरणे व्यावहारिक होते.

MiniMax अभ्यासातील मुख्य निष्कर्ष:

• MSA मुळे १० लाख token context मध्ये प्रति-token attention compute २८.४ पटीने कमी होतो. • KV memory चा वापर ५०% पर्यंत कमी होतो. • Perplexity dense मॉडेल्सइतकीच राहते, म्हणजेच अचूकतेमध्ये (accuracy) कोणतीही घट होत नाही. • H800 GPU वर Prefill १४.२ पटीने वेगाने चालते. • H800 GPU वर Decoding ७.६ पटीने वेगाने चालते.

हे वेगवान परिणाम एका नवीन Top-k selector आणि उत्तम tensor-core वापरामुळे येतात.

यात काही तडजोडी (trade-offs) विचारात घेणे आवश्यक आहे. हे निष्कर्ष एका विशिष्ट १०९B-parameter मॉडेलवर आधारित आहेत. हे फायदे सर्व प्रकारच्या hardware किंवा model प्रकारांवर लागू होतील की नाही, हे अद्याप माहित नाही. तसेच, ही पद्धत असे गृहीत धरते की संबंधित tokens एका विशिष्ट range मध्ये राहतात. ज्या कामांसाठी global attention आवश्यक आहे, त्यांना समस्या येऊ शकतात.

जर या पद्धती मोठ्या प्रमाणावर यशस्वी झाल्या, तर तुम्ही standard GPUs वर तुमचे context windows दुप्पट किंवा तिप्पट करू शकता. तुम्ही अतिरिक्त hardware शिवाय संपूर्ण repositories वर code analysis करू शकता किंवा दीर्घ संवादात्मक स्मृती (conversational memories) जतन करू शकता.

Source: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795

Optional learning community: https://t.me/GyaanSetuAi