𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 𝗖𝘂𝘁 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial8 годин тому1min read

Розріджені KV-кеші зменшують масштабування уваги

Стандартні моделі уваги мають труднощі з довгими послідовностями. Витрати пам'яті та обчислювальних ресурсів зростають занадто швидко зі збільшенням довжини тексту. Це обмежує контекстні вікна кількома тисячами токенів.

Розріджені (Sparse) KV-кеші змінюють цю ситуацію. Вони перетворюють квадратичні витрати на майже лінійні. Замість сканування кожного блоку пам'яті, кожен запит переглядає лише невелику підмножину даних.

Такий перехід робить використання величезних контекстних вікон практичним на одному GPU.

Ключові результати дослідження MiniMax:

• MSA зменшує обчислення уваги на токен у 28,4 раза при контексті в один мільйон токенів. • Використання пам'яті KV знижується до 50%. • Перплексія залишається такою ж, як у щільних (dense) моделей, що означає відсутність втрати точності. • Prefill працює у 14,2 раза швидше на GPU H800. • Decoding працює у 7,6 раза швидше на GPU H800.

Таке прискорення досягається завдяки новому селектору Top-k та кращому використанню тензорних ядер (tensor cores).

Варто враховувати певні компроміси. Результати отримані на конкретній моделі з 109 млрд параметрів. Ми ще не знаємо, чи поширюються ці переваги на все обладнання або всі типи моделей. Крім того, метод передбачає, що релевантні токени залишаються в певному діапазоні. Завдання, що потребують глобальної уваги, можуть зіткнутися з труднощами.

Якщо ці методи стануть широко вживаними, ви зможете подвоїти або потроїти розмір контекстного вікна на стандартних GPU. Ви зможете проводити аналіз коду цілих репозиторіїв або підтримувати довгу пам'ять діалогів без додаткового обладнання.

Source: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795

Optional learning community: https://t.me/GyaanSetuAi

𝗦𝗽𝗮𝗿𝘀𝗲 𝗞𝗩 𝗖𝗮𝗰𝗵𝗲𝘀 𝗖𝘂𝘁 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

Continue reading

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

𝗙𝗮𝘀𝘁𝗖𝗼𝗻𝘁𝗲𝘅: 𝗦𝗲𝗽𝗮𝗿𝗮𝘁𝗲 𝗦𝗲𝗮𝗿𝗰𝗵 𝗳𝗿𝗼𝗺 𝗦𝗼𝗹𝘃𝗶𝗻𝗴

MiniMax M3: Новий підхід до обробки довгого контексту

FlashMemory скорочує KV-кеш DeepSeek V4 до 13,5%

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻