FlashMemoryがDeepSeek V4のKVキャッシュを13.5%に削減

Translated for your language. 原文を読む.

AI-assisted draft.

3 日前1分で読めます

FlashMemoryがDeepSeek-V4のKVキャッシュを13.5%に削減

長文コンテキストモデルは、巨大な問題に直面しています。限界は計算量ではなく、メモリです。

トークンが増えるにつれて、KVキャッシュは増大します。50万トークンに達すると、キャッシュは膨大なものになり、GPUメモリをすべて使い果たしてしまいます。これにより、長文コンテキストの提供は高コストかつ低速になります。

「FlashMemory-DeepSeek-V4」という新しい論文は、Lookahead Sparse Attention (LSA) を用いてこの問題を解決します。

その仕組みは以下の通りです：

従来のモデルは、高密度（dense）なKVキャッシュを使用します。過去のあらゆる情報をメモリ内に保持するため、これは、たった一行を読むためだけに図書館丸ごとをデスクに運び込むようなものです。

LSAは仕組みが異なります。Neural Memory Indexerを使用します。このインデクサーはアシスタントのように機能します。それは、過去のどの特定の情報が今必要かを予測します。そして、その特定のパーツだけをデスクに持ってくるのです。

DeepSeek-V4における結果は驚異的です：

なぜこれが従来の手法よりも優れているのでしょうか？

他のスパースアテンション（sparse attention）手法は、計算時間を節約しますが、キャッシュ全体をメモリに保持し続けます。一方、LSAは実際のギガバイト単位の容量を節約します。キャッシュを保持すること自体を回避するのです。

また、このインデクサーの学習コストは低いです。チームはbackbone-free trainingを採用しました。小さなインデクサーを学習させるために、数兆パラメータのモデルをロードする必要はありません。

これにより、超長文コンテキストモデルを低コストで実行できるようになります。

各手法のまとめ：

オプションの学習コミュニティ: https://t.me/GyaanSetuAi

続きを読む