Sparse KV Caches অ্যাটেনশন স্কেলিং হ্রাস করে
স্ট্যান্ডার্ড অ্যাটেনশন মডেলগুলো দীর্ঘ সিকোয়েন্সের ক্ষেত্রে সমস্যার সম্মুখীন হয়। টেক্সট যত দীর্ঘ হয়, মেমরি এবং কম্পিউট খরচ তত দ্রুত বৃদ্ধি পায়। এটি কনটেক্সট উইন্ডোকে মাত্র কয়েক হাজার টোকেনে সীমাবদ্ধ করে ফেলে।
Sparse KV caches এই চিত্র বদলে দেয়। এগুলো কোয়াড্র্যাটিক (quadratic) খরচকে প্রায় লিনিয়ার (linear) খরচে রূপান্তরিত করে। প্রতিটি মেমরি ব্লক স্ক্যান করার পরিবর্তে, প্রতিটি কুয়েরি ডেটার একটি ছোট সাবসেট দেখে।
এই পরিবর্তন একটি সিঙ্গেল GPU-তে বিশাল কনটেক্সট উইন্ডো ব্যবহার করাকে বাস্তবসম্মত করে তোলে।
MiniMax স্টাডি থেকে প্রাপ্ত মূল ফলাফলসমূহ:
• MSA এক মিলিয়ন টোকেন কনটেক্সটে প্রতি-টোকেন অ্যাটেনশন কম্পিউট ২৮.৪ গুণ কমিয়ে দেয়। • KV মেমরি ব্যবহার ৫০% পর্যন্ত কমে যায়। • Perplexity ডেন্স মডেলগুলোর মতোই থাকে, যার অর্থ নির্ভুলতা বা অ্যাকুরেসি হ্রাস পায় না। • H800 GPU-তে Prefill ১৪.২ গুণ দ্রুত চলে। • H800 GPU-তে Decoding ৭.৬ গুণ দ্রুত চলে।
এই গতি বৃদ্ধির কারণ হলো একটি নতুন Top-k selector এবং উন্নত tensor-core ব্যবহার।
এখানে কিছু ট্রেড-অফ (trade-offs) বিবেচনা করার আছে। এই ফলাফলগুলো একটি নির্দিষ্ট ১০৯B-প্যারামিটার মডেল থেকে পাওয়া। এই সুবিধাগুলো সব ধরনের হার্ডওয়্যার বা মডেল টাইপে কাজ করবে কি না, তা আমরা এখনও জানি না। এছাড়াও, এই পদ্ধতিটি ধরে নেয় যে প্রাসঙ্গিক টোকেনগুলো একটি নির্দিষ্ট সীমার মধ্যে থাকে। যেসব কাজে গ্লোবাল অ্যাটেনশন প্রয়োজন, সেখানে সমস্যা হতে পারে।
যদি এই পদ্ধতিগুলো ব্যাপকভাবে কাজ করে, তবে আপনি স্ট্যান্ডার্ড GPU-তে আপনার কনটেক্সট উইন্ডো দ্বিগুণ বা তিনগুণ করতে পারবেন। আপনি অতিরিক্ত হার্ডওয়্যার ছাড়াই সম্পূর্ণ রিপোজিটরির ওপর কোড অ্যানালাইসিস চালাতে পারবেন বা দীর্ঘ কথোপকথনের মেমরি বজায় রাখতে পারবেন।
Source: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795
ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi