Розріджені KV-кеші зменшують масштабування уваги
Стандартні моделі уваги мають труднощі з довгими послідовностями. Витрати пам'яті та обчислювальних ресурсів зростають занадто швидко зі збільшенням довжини тексту. Це обмежує контекстні вікна кількома тисячами токенів.
Розріджені (Sparse) KV-кеші змінюють цю ситуацію. Вони перетворюють квадратичні витрати на майже лінійні. Замість сканування кожного блоку пам'яті, кожен запит переглядає лише невелику підмножину даних.
Такий перехід робить використання величезних контекстних вікон практичним на одному GPU.
Ключові результати дослідження MiniMax:
• MSA зменшує обчислення уваги на токен у 28,4 раза при контексті в один мільйон токенів. • Використання пам'яті KV знижується до 50%. • Перплексія залишається такою ж, як у щільних (dense) моделей, що означає відсутність втрати точності. • Prefill працює у 14,2 раза швидше на GPU H800. • Decoding працює у 7,6 раза швидше на GPU H800.
Таке прискорення досягається завдяки новому селектору Top-k та кращому використанню тензорних ядер (tensor cores).
Варто враховувати певні компроміси. Результати отримані на конкретній моделі з 109 млрд параметрів. Ми ще не знаємо, чи поширюються ці переваги на все обладнання або всі типи моделей. Крім того, метод передбачає, що релевантні токени залишаються в певному діапазоні. Завдання, що потребують глобальної уваги, можуть зіткнутися з труднощами.
Якщо ці методи стануть широко вживаними, ви зможете подвоїти або потроїти розмір контекстного вікна на стандартних GPU. Ви зможете проводити аналіз коду цілих репозиторіїв або підтримувати довгу пам'ять діалогів без додаткового обладнання.
Source: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795
Optional learning community: https://t.me/GyaanSetuAi