𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹 𝗳𝗼𝗿 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲

GoogleがGemma 2をリリースしました。このモデルは、高いパフォーマンスを得るために巨大なサイズは必要ないことを証明しています。27Bモデルは、その2倍のサイズを持つモデルとも競合します。

その秘密はアーキテクチャにあります。

Gemma 2はハイブリッド・アテンション手法を採用しています。標準的なアテンションは低速で負荷が高いものですが、Gemma 2は2種類のアテンションを切り替えることでこの問題を解決しています。

• Local sliding window attention(ローカル・スライディング・ウィンドウ・アテンション):4096トークンのウィンドウに焦点を当てます。これにより、直近のコンテキストを高速に処理できます。 • Global attention(グローバル・アテンション):8192トークンの全コンテキストを参照します。

この組み合わせにより、高い計算コストをかけることなく、効率性と深いコンテキスト理解を両立させています。

また、これらのモデルはGrouped-Query Attention (GQA)を使用しています。これにより、複数のクエリヘッドが1つのキーと値のセットを共有できるようになります。その結果、メモリ使用量が削減され、テキスト生成が高速化されます。9Bおよび27BモデルはGQAを使用しており、2Bモデルはさらに高速なMulti-Query Attention (MQA)と呼ばれるバージョンを使用しています。

学習方法も進化しました。2Bおよび9Bモデルは知識蒸留(knowledge distillation)を採用しています。これらはより大規模なティーチャーモデルから学習することで、標準的な学習よりも複雑なパターンをより深く理解できるようになっています。

これがユーザーにもたらすメリット:

• コストの削減:Gemma 2 27Bを単一のNVIDIA H100 GPUで実行できます。 • アクセスの向上:より小さなモデルは、コンシューマー向けハードウェアやモバイルデバイスでも動作します。 • テストの容易化:Ollamaを使用して、インストラクション・チューニング済みのモデルをローカル環境で実行できます。

業界は変化しています。単にパラメータ数を増やすだけの時代から、パラメータあたりの知能(intelligence per parameter)に焦点を当てる時代へと移行しています。これにより、高品質なAIがより持続可能で、あらゆる人々にとって実用的なものになります。

Source: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc

Optional learning community: https://t.me/GyaanSetuAi