𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻 𝗦𝗰𝗮𝗹𝗶𝗻𝗴-ஐக் குறைக்கின்றன
வழக்கமான attention மாதிரிகள் நீண்ட தொடர்ச்சிகளைக் (long sequences) கையாள சிரமப்படுகின்றன. உரை நீளமடையும் போது நினைவகம் (Memory) மற்றும் கணக்கீட்டுச் செலவுகள் (compute costs) மிக வேகமாக அதிகரிக்கின்றன. இது context windows-களை சில ஆயிரம் டோக்கன்களாகக் (tokens) கட்டுப்படுத்துகிறது.
Sparse KV caches இதை மாற்றுகின்றன. அவை quadratic செலவுகளை கிட்டத்தட்ட நேரியல் (near-linear) செலவுகளாக மாற்றுகின்றன. ஒவ்வொரு நினைவகத் தொகுதியையும் (memory block) ஸ்கேன் செய்வதற்குப் பதிலாக, ஒவ்வொரு வினவும் (query) தரவின் ஒரு சிறிய பகுதியை மட்டுமே பார்க்கிறது.
இந்த மாற்றம் மிகப்பெரிய context windows-களை ஒரு தனி GPU-விலேயே நடைமுறைப்படுத்தக்கூடியதாக மாற்றுகிறது.
MiniMax ஆய்விலிருந்து பெறப்பட்ட முக்கிய முடிவுகள்:
• MSA, பத்து லட்சம் டோக்கன் (one-million-token) சூழலில், ஒரு டோக்கனுக்கான attention கணக்கீட்டை 28.4 மடங்கு குறைக்கிறது. • KV நினைவகப் பயன்பாடு 50% வரை குறைகிறது. • Perplexity, dense மாதிரிகளைப் போலவே இருக்கும், அதாவது துல்லியத்தில் எந்த இழப்பும் இல்லை. • H800 GPU-வில் Prefill 14.2 மடங்கு வேகமாக இயங்குகிறது. • H800 GPU-வில் Decoding 7.6 மடங்கு வேகமாக இயங்குகிறது.
இந்த வேக அதிகரிப்புகள் ஒரு புதிய Top-k selector மற்றும் சிறந்த tensor-core பயன்பாட்டிலிருந்து வருகின்றன.
இதில் சில சமரசங்களை (trade-offs) கருத்தில் கொள்ள வேண்டியுள்ளது. இந்த முடிவுகள் ஒரு குறிப்பிட்ட 109B-parameter மாதிரியிலிருந்து பெறப்பட்டவை. இந்த முன்னேற்றங்கள் அனைத்து வன்பொருள் (hardware) அல்லது மாதிரி வகைகளிலும் செயல்படுமா என்பது இன்னும் தெரியவில்லை. மேலும், தொடர்புடைய டோக்கன்கள் (relevant tokens) ஒரு குறிப்பிட்ட வரம்பிற்குள் இருக்கும் என்று இந்த முறை கருதுகிறது. உலகளாவிய attention (global attention) தேவைப்படும் பணிகளில் சிக்கல்கள் ஏற்படலாம்.
இந்த முறைகள் பரவலாகச் செயல்பட்டால், சாதாரண GPU-க்களிலேயே உங்கள் context windows-களை இரண்டு அல்லது மூன்று மடங்கு அதிகரிக்க முடியும். கூடுதல் வன்பொருள் இன்றி, முழுமையான களஞ்சியங்களின் (repositories) மீது குறியீடு பகுப்பாய்வை (code analysis) மேற்கொள்ளலாம் அல்லது நீண்ட உரையாடல் நினைவகங்களை (conversational memories) பராமரிக்கலாம்.
ஆதாரம்: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795
விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi