𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 𝗖𝘂𝘁 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial11 گھنٹے پہلے1min read

Sparse KV Caches Attention Scaling کو کم کرتے ہیں

معیاری attention ماڈلز طویل تسلسل (sequences) کے ساتھ جدوجہد کرتے ہیں۔ جیسے جیسے متن طویل ہوتا جاتا ہے، میموری اور کمپیوٹ کے اخراجات بہت تیزی سے بڑھتے ہیں۔ یہ چیز context windows کو چند ہزار ٹوکنز تک محدود کر دیتی ہے۔

Sparse KV caches اس صورتحال کو بدل دیتے ہیں۔ یہ quadratic اخراجات کو تقریباً linear اخراجات میں تبدیل کر دیتے ہیں۔ ہر میموری بلاک کو اسکین کرنے کے بجائے، ہر query ڈیٹا کے ایک چھوٹے سے حصے (subset) کو دیکھتی ہے۔

یہ تبدیلی ایک ہی GPU پر بڑے پیمانے کے context windows کو عملی بناتی ہے۔

MiniMax کے مطالعے کے اہم نتائج:

• MSA دس لاکھ ٹوکنز کے context پر فی ٹوکن attention compute کو 28.4x کم کر دیتا ہے۔ • KV میموری کا استعمال 50% تک کم ہو جاتا ہے۔ • Perplexity dense models کے برابر ہی رہتی ہے، جس کا مطلب ہے کہ درستگی (accuracy) میں کوئی کمی نہیں آتی۔ • H800 GPU پر Prefill 14.2x زیادہ تیزی سے چلتا ہے۔ • H800 GPU پر Decoding 7.6x زیادہ تیزی سے چلتی ہے۔

یہ رفتار میں اضافہ ایک نئے Top-k selector اور tensor-core کے بہتر استعمال کی وجہ سے حاصل ہوتا ہے۔

اس میں کچھ سمجھوتوں (trade-offs) پر غور کرنا ضروری ہے۔ یہ نتائج ایک مخصوص 109B-parameter ماڈل سے حاصل کیے گئے ہیں۔ ہمیں ابھی تک یہ معلوم نہیں ہے کہ آیا یہ فوائد تمام ہارڈ ویئر یا ماڈل کی اقسام پر کام کریں گے یا نہیں۔ اس کے علاوہ، یہ طریقہ کار یہ فرض کرتا ہے کہ متعلقہ ٹوکنز ایک مخصوص حد (range) کے اندر رہتے ہیں۔ وہ کام جن کے لیے global attention کی ضرورت ہوتی ہے، انہیں مسائل کا سامنا کرنا پڑ سکتا ہے۔

اگر یہ طریقے بڑے پیمانے پر کامیاب رہتے ہیں، تو آپ معیاری GPUs پر اپنے context windows کو دو یا تین گنا بڑھا سکتے ہیں۔ آپ اضافی ہارڈ ویئر کے بغیر مکمل ریپوزٹریز (repositories) پر کوڈ کا تجزیہ کر سکتے ہیں یا طویل گفتگو کی یادداشت (conversational memories) برقرار رکھ سکتے ہیں۔

ماخذ: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi

𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 𝗖𝘂𝘁 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

Continue reading

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

𝗙𝗮𝘀𝘁𝗖𝗼𝗻𝘁𝗲𝘅: 𝗦𝗲𝗽𝗮𝗿𝗮𝘁𝗲 𝗦𝗲𝗮𝗿𝗰𝗵 𝗳𝗿𝗼𝗺 𝗦𝗼𝗹𝘃𝗶𝗻𝗴

𝗠𝗶𝗻𝗶𝗠𝗮𝘅 𝗠𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗧𝗼 𝗛𝗮𝗻𝗱𝗹𝗲 𝗟𝗼𝗻𝗴 𝗖𝗼𝗻𝘁𝗲𝘅𝘁

𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 𝗖𝘂𝘁𝘀 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝗩𝟰 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝘁𝗼 𝟭𝟯.𝟱%

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻