𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 𝗖𝘂𝘁 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial8 மணிநேரம் முன்1min read

𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻 𝗦𝗰𝗮𝗹𝗶𝗻𝗴-ஐக் குறைக்கின்றன

வழக்கமான attention மாதிரிகள் நீண்ட தொடர்ச்சிகளைக் (long sequences) கையாள சிரமப்படுகின்றன. உரை நீளமடையும் போது நினைவகம் (Memory) மற்றும் கணக்கீட்டுச் செலவுகள் (compute costs) மிக வேகமாக அதிகரிக்கின்றன. இது context windows-களை சில ஆயிரம் டோக்கன்களாகக் (tokens) கட்டுப்படுத்துகிறது.

Sparse KV caches இதை மாற்றுகின்றன. அவை quadratic செலவுகளை கிட்டத்தட்ட நேரியல் (near-linear) செலவுகளாக மாற்றுகின்றன. ஒவ்வொரு நினைவகத் தொகுதியையும் (memory block) ஸ்கேன் செய்வதற்குப் பதிலாக, ஒவ்வொரு வினவும் (query) தரவின் ஒரு சிறிய பகுதியை மட்டுமே பார்க்கிறது.

இந்த மாற்றம் மிகப்பெரிய context windows-களை ஒரு தனி GPU-விலேயே நடைமுறைப்படுத்தக்கூடியதாக மாற்றுகிறது.

MiniMax ஆய்விலிருந்து பெறப்பட்ட முக்கிய முடிவுகள்:

• MSA, பத்து லட்சம் டோக்கன் (one-million-token) சூழலில், ஒரு டோக்கனுக்கான attention கணக்கீட்டை 28.4 மடங்கு குறைக்கிறது. • KV நினைவகப் பயன்பாடு 50% வரை குறைகிறது. • Perplexity, dense மாதிரிகளைப் போலவே இருக்கும், அதாவது துல்லியத்தில் எந்த இழப்பும் இல்லை. • H800 GPU-வில் Prefill 14.2 மடங்கு வேகமாக இயங்குகிறது. • H800 GPU-வில் Decoding 7.6 மடங்கு வேகமாக இயங்குகிறது.

இந்த வேக அதிகரிப்புகள் ஒரு புதிய Top-k selector மற்றும் சிறந்த tensor-core பயன்பாட்டிலிருந்து வருகின்றன.

இதில் சில சமரசங்களை (trade-offs) கருத்தில் கொள்ள வேண்டியுள்ளது. இந்த முடிவுகள் ஒரு குறிப்பிட்ட 109B-parameter மாதிரியிலிருந்து பெறப்பட்டவை. இந்த முன்னேற்றங்கள் அனைத்து வன்பொருள் (hardware) அல்லது மாதிரி வகைகளிலும் செயல்படுமா என்பது இன்னும் தெரியவில்லை. மேலும், தொடர்புடைய டோக்கன்கள் (relevant tokens) ஒரு குறிப்பிட்ட வரம்பிற்குள் இருக்கும் என்று இந்த முறை கருதுகிறது. உலகளாவிய attention (global attention) தேவைப்படும் பணிகளில் சிக்கல்கள் ஏற்படலாம்.

இந்த முறைகள் பரவலாகச் செயல்பட்டால், சாதாரண GPU-க்களிலேயே உங்கள் context windows-களை இரண்டு அல்லது மூன்று மடங்கு அதிகரிக்க முடியும். கூடுதல் வன்பொருள் இன்றி, முழுமையான களஞ்சியங்களின் (repositories) மீது குறியீடு பகுப்பாய்வை (code analysis) மேற்கொள்ளலாம் அல்லது நீண்ட உரையாடல் நினைவகங்களை (conversational memories) பராமரிக்கலாம்.

ஆதாரம்: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi

𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 𝗖𝘂𝘁 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

Continue reading

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

𝗙𝗮𝘀𝘁𝗖𝗼𝗻𝘁𝗲𝘅: 𝗦𝗲𝗽𝗮𝗿𝗮𝘁𝗲 𝗦𝗲𝗮𝗿𝗰𝗵 𝗳𝗿𝗼𝗺 𝗦𝗼𝗹𝘃𝗶𝗻𝗴

MiniMax M3: நீண்ட சூழலை (Long Context) கையாளுவதற்கான ஒரு புதிய வழி

𝗙𝗹𝗮𝘀𝗵𝗠𝗲𝗺𝗼𝗿𝘆 𝗖𝘂𝘁𝘀 𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝗩𝟰 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝘁𝗼 𝟭𝟯.𝟱%

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻