স্পার্স KV ক্যাশে অ্যাটেনশন স্কেলিং হ্রাস করে

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial৯ ঘন্টা আগে1min read

Sparse KV Caches অ্যাটেনশন স্কেলিং হ্রাস করে

স্ট্যান্ডার্ড অ্যাটেনশন মডেলগুলো দীর্ঘ সিকোয়েন্সের ক্ষেত্রে সমস্যার সম্মুখীন হয়। টেক্সট যত দীর্ঘ হয়, মেমরি এবং কম্পিউট খরচ তত দ্রুত বৃদ্ধি পায়। এটি কনটেক্সট উইন্ডোকে মাত্র কয়েক হাজার টোকেনে সীমাবদ্ধ করে ফেলে।

Sparse KV caches এই চিত্র বদলে দেয়। এগুলো কোয়াড্র্যাটিক (quadratic) খরচকে প্রায় লিনিয়ার (linear) খরচে রূপান্তরিত করে। প্রতিটি মেমরি ব্লক স্ক্যান করার পরিবর্তে, প্রতিটি কুয়েরি ডেটার একটি ছোট সাবসেট দেখে।

এই পরিবর্তন একটি সিঙ্গেল GPU-তে বিশাল কনটেক্সট উইন্ডো ব্যবহার করাকে বাস্তবসম্মত করে তোলে।

MiniMax স্টাডি থেকে প্রাপ্ত মূল ফলাফলসমূহ:

• MSA এক মিলিয়ন টোকেন কনটেক্সটে প্রতি-টোকেন অ্যাটেনশন কম্পিউট ২৮.৪ গুণ কমিয়ে দেয়। • KV মেমরি ব্যবহার ৫০% পর্যন্ত কমে যায়। • Perplexity ডেন্স মডেলগুলোর মতোই থাকে, যার অর্থ নির্ভুলতা বা অ্যাকুরেসি হ্রাস পায় না। • H800 GPU-তে Prefill ১৪.২ গুণ দ্রুত চলে। • H800 GPU-তে Decoding ৭.৬ গুণ দ্রুত চলে।

এই গতি বৃদ্ধির কারণ হলো একটি নতুন Top-k selector এবং উন্নত tensor-core ব্যবহার।

এখানে কিছু ট্রেড-অফ (trade-offs) বিবেচনা করার আছে। এই ফলাফলগুলো একটি নির্দিষ্ট ১০৯B-প্যারামিটার মডেল থেকে পাওয়া। এই সুবিধাগুলো সব ধরনের হার্ডওয়্যার বা মডেল টাইপে কাজ করবে কি না, তা আমরা এখনও জানি না। এছাড়াও, এই পদ্ধতিটি ধরে নেয় যে প্রাসঙ্গিক টোকেনগুলো একটি নির্দিষ্ট সীমার মধ্যে থাকে। যেসব কাজে গ্লোবাল অ্যাটেনশন প্রয়োজন, সেখানে সমস্যা হতে পারে।

যদি এই পদ্ধতিগুলো ব্যাপকভাবে কাজ করে, তবে আপনি স্ট্যান্ডার্ড GPU-তে আপনার কনটেক্সট উইন্ডো দ্বিগুণ বা তিনগুণ করতে পারবেন। আপনি অতিরিক্ত হার্ডওয়্যার ছাড়াই সম্পূর্ণ রিপোজিটরির ওপর কোড অ্যানালাইসিস চালাতে পারবেন বা দীর্ঘ কথোপকথনের মেমরি বজায় রাখতে পারবেন।

Source: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

স্পার্স KV ক্যাশে অ্যাটেনশন স্কেলিং হ্রাস করে

Continue reading

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

FastContex: অনুসন্ধান ও সমাধানকে পৃথক করা

MiniMax M3: দীর্ঘ কনটেক্সট সামলানোর একটি নতুন পদ্ধতি

𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 𝗖𝘂𝘁𝘀 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝗩𝟰 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝘁𝗼 𝟭𝟯.𝟱%

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻