Разреженные KV-кэши снижают затраты на масштабирование внимания

Стандартные модели внимания с трудом справляются с длинными последовательностями. Затраты памяти и вычислений растут слишком быстро по мере увеличения длины текста. Это ограничивает контекстные окна несколькими тысячами токенов.

Разреженные KV-кэши меняют ситуацию. Они превращают квадратичную сложность в почти линейную. Вместо сканирования каждого блока памяти каждый запрос просматривает лишь небольшое подмножество данных.

Этот сдвиг делает использование огромных контекстных окон практически возможным на одном GPU.

Ключевые результаты исследования MiniMax:

• MSA снижает вычислительные затраты на внимание на токен в 28,4 раза при контексте в один миллион токенов. • Использование памяти KV снижается на величину до 50%. • Перплексия остается на уровне плотных моделей, что означает отсутствие потери точности. • Prefill выполняется в 14,2 раза быстрее на GPU H800. • Декодирование выполняется в 7,6 раза быстрее на GPU H800.

Такое ускорение достигается благодаря новому селектору Top-k и более эффективному использованию тензорных ядер.

Есть и компромиссы, которые стоит учитывать. Результаты получены на конкретной модели с 109 млрд параметров. Пока неизвестно, будут ли эти преимущества работать на всем оборудовании или на всех типах моделей. Кроме того, метод предполагает, что релевантные токены остаются в определенном диапазоне. Задачи, требующие глобального внимания, могут столкнуться с трудностями.

Если эти методы получат широкое распространение, вы сможете увеличить размер контекстного окна в два или три раза на стандартных GPU. Вы сможете проводить анализ кода целых репозиториев или поддерживать долгую историю диалогов без дополнительного оборудования.

Источник: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi