Разреженные KV-кэши снижают затраты на масштабирование внимания
Стандартные модели внимания с трудом справляются с длинными последовательностями. Затраты памяти и вычислений растут слишком быстро по мере увеличения длины текста. Это ограничивает контекстные окна несколькими тысячами токенов.
Разреженные KV-кэши меняют ситуацию. Они превращают квадратичную сложность в почти линейную. Вместо сканирования каждого блока памяти каждый запрос просматривает лишь небольшое подмножество данных.
Этот сдвиг делает использование огромных контекстных окон практически возможным на одном GPU.
Ключевые результаты исследования MiniMax:
• MSA снижает вычислительные затраты на внимание на токен в 28,4 раза при контексте в один миллион токенов. • Использование памяти KV снижается на величину до 50%. • Перплексия остается на уровне плотных моделей, что означает отсутствие потери точности. • Prefill выполняется в 14,2 раза быстрее на GPU H800. • Декодирование выполняется в 7,6 раза быстрее на GPU H800.
Такое ускорение достигается благодаря новому селектору Top-k и более эффективному использованию тензорных ядер.
Есть и компромиссы, которые стоит учитывать. Результаты получены на конкретной модели с 109 млрд параметров. Пока неизвестно, будут ли эти преимущества работать на всем оборудовании или на всех типах моделей. Кроме того, метод предполагает, что релевантные токены остаются в определенном диапазоне. Задачи, требующие глобального внимания, могут столкнуться с трудностями.
Если эти методы получат широкое распространение, вы сможете увеличить размер контекстного окна в два или три раза на стандартных GPU. Вы сможете проводить анализ кода целых репозиториев или поддерживать долгую историю диалогов без дополнительного оборудования.
Источник: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795
Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi