Разреженные KV-кэши оптимизируют масштабирование внимания

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorial9 часов назад1мин чтения

Разреженные KV-кэши снижают затраты на масштабирование внимания

Стандартные модели внимания с трудом справляются с длинными последовательностями. Затраты памяти и вычислений растут слишком быстро по мере увеличения длины текста. Это ограничивает контекстные окна несколькими тысячами токенов.

Разреженные KV-кэши меняют ситуацию. Они превращают квадратичную сложность в почти линейную. Вместо сканирования каждого блока памяти каждый запрос просматривает лишь небольшое подмножество данных.

Этот сдвиг делает использование огромных контекстных окон практически возможным на одном GPU.

Ключевые результаты исследования MiniMax:

• MSA снижает вычислительные затраты на внимание на токен в 28,4 раза при контексте в один миллион токенов. • Использование памяти KV снижается на величину до 50%. • Перплексия остается на уровне плотных моделей, что означает отсутствие потери точности. • Prefill выполняется в 14,2 раза быстрее на GPU H800. • Декодирование выполняется в 7,6 раза быстрее на GPU H800.

Такое ускорение достигается благодаря новому селектору Top-k и более эффективному использованию тензорных ядер.

Есть и компромиссы, которые стоит учитывать. Результаты получены на конкретной модели с 109 млрд параметров. Пока неизвестно, будут ли эти преимущества работать на всем оборудовании или на всех типах моделей. Кроме того, метод предполагает, что релевантные токены остаются в определенном диапазоне. Задачи, требующие глобального внимания, могут столкнуться с трудностями.

Если эти методы получат широкое распространение, вы сможете увеличить размер контекстного окна в два или три раза на стандартных GPU. Вы сможете проводить анализ кода целых репозиториев или поддерживать долгую историю диалогов без дополнительного оборудования.

Источник: https://dev.to/olaughter/sparse-kv-caches-cut-attention-scaling-795

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi

Разреженные KV-кэши оптимизируют масштабирование внимания

Продолжить чтение

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

FastContex: Разделение поиска и решения

MiniMax M3: новый подход к обработке длинного контекста

FlashMemory сокращает KV-кэш DeepSeek V4 до 13,5%

KV-кэш и PagedAttention: почему ваш LLM-сервер замедляется