𝗠𝗶𝘅𝘁𝘂𝗿𝗲 𝗼𝗳 𝗘𝘅𝗽𝗲𝗿𝘁𝘀 (𝗠𝗼𝗘): 𝗛𝗼𝘄 𝗜𝘁 𝗪𝗼𝗿𝗸𝘀 𝗮𝗻𝗱 𝗪𝗵𝗲𝗻 𝘁𝗼 𝗨𝘀𝗲 𝗜𝘁

Translated for your language. 原文を読む.

AI-assisted draft.

GyaanSetu Editorial3 週間前2分で読めます

𝗠𝗶𝘅𝘁𝘂𝗿𝗲 𝗼𝗳 𝗘𝘅𝗽𝗲𝗿𝘁𝘀 (𝗠𝗼𝗘): 𝗛𝗼𝘄 𝗜𝘁 𝗪𝗼𝗿𝗸𝘀 𝗮𝗻𝗱 𝗪𝗵𝗲𝗻 𝘁𝗼 𝗨𝘀𝗲 𝗜𝘁

4枚のGPUを追加で購入することなく、7Bモデルから70Bモデルへとスケールアップしたいと考えているとしましょう。

そこで誰かがMixture of Experts (MoE)を提案します。彼らは、わずか7Bの計算量で70B相当のパフォーマンスが得られると主張します。

まるでフリーランチ（タダ飯）のように聞こえますが、そこには落とし穴があります。

どのような仕組みなのでしょうか？

Llama 3.2のようなDense（密）なTransformerは、すべてのトークンに対してパラメータの100%を使用します。7Bから70Bにスケールアップする場合、メモリと計算量の両方が10倍になります。

MoEはこの2つを切り離します。モデルはより多くのパラメータを保持しますが（メモリコストは増加）、各トークンに対してはそれらのごく一部のみを使用します（計算コストは抑制）。

トレードオフ:

落とし穴: 依然として大規模モデルのメモリコストがかかります。Mixtralを単一の24 GB GPUで動かすことはできません。使用されていないエキスパートも含め、すべてのエキスパートを保持できる十分なVRAMが必要になります。

アーキテクチャ:

Sparse（疎）なMoEでは、標準的なFeed-Forward Network (FFN) が、複数の「エキスパート」FFNと学習可能なルーターに置き換えられます。

ルーターがトークンを受け取ります。
各エキスパートにスコアを割り当てます。
上位k個のエキスパートを選択します（Mixtralの場合は k=2）。
そのトークンを、選択されたエキスパートのみに通します。
結果を統合します。

ルーターは手動のスケジューラーではありません。学習されたレイヤーです。数学のトークンはあるエキスパートに、コードのトークンは別のエキスパートに送るように学習します。

学習における課題:

最大の懸念は「ルーターの崩壊（router collapse）」です。適切な対策を講じないと、ルーターがすべてのトークンを同じ2つのエキスパートに送ってしまう可能性があります。すると、そのエキスパートはさらに洗練され、ルーターはさらに多くのトラフィックをそれらに送るようになります。結果として、他のエキスパートは役に立たなくなってしまいます。

エンジニアはこれを解決するために、補助的な負荷分散損失（auxiliary load-balancing loss）を使用します。これは、すべてのエキスパートを均等に使用していない場合にモデルにペナルティを与えます。

MoEを避けるべきケース:

• 一貫したレイテンシが必要な場合: MoEは応答時間のばらつきが大きくなります。 • VRAMが限られている場合: 48 GB未満のGPUを1枚しか持っていない場合は、Denseモデルを使用してください。 • 小規模なモデルを構築する場合: パラメータ数が3B未満のモデルでは、オーバーヘッドが大きすぎます。 • シンプルなインフラを必要とする場合: MoEには複雑なエキスパート並列化（expert parallelism）やカスタムカーネルが必要です。

MoEは、ベースラインとなるDenseモデルが30Bパラメータ以上であり、それをサポートできるメモリがある場合に最適です。

Mixture of Experts (MoE): 内部の仕組みと、どのような時にその真価が発揮されるのか

大規模言語モデル（LLM）の進化において、モデルのパラメータ数を増やすことは、より高い能力を得るための標準的な方法となっています。しかし、パラメータ数が増えるにつれて、計算コスト（FLOPs）も比例して増大するという問題があります。

ここで登場するのが Mixture of Experts (MoE) です。MoEは、モデルのパラメータ数を劇的に増やしながら、推論時の計算コストを低く抑えるためのアーキテクチャです。

この記事では、MoEが内部でどのように動作しているのか、そしてどのような状況でその恩恵を受けられるのかを詳しく解説します。

Mixture of Experts (MoE) とは何か？

従来の「デンス（Dense）」モデルでは、入力されたすべてのトークンに対して、モデル内のすべてのパラメータが計算に使用されます。つまり、モデルが大きくなればなるほど、1つの単語を処理するために必要な計算量も増えます。

一方、Mixture of Experts (MoE) は「スパース（Sparse）」なモデルです。MoEモデルは、モデル全体をいくつかの小さなネットワーク、すなわち「エキスパート（Experts）」に分割します。入力された各トークンに対して、すべてのエキスパートが動くわけではなく、**ゲートネットワーク（Gating Network）**によって選択された、ごく一部のエキスパートのみが計算を行います。

内部の仕組み：ゲートネットワークとエキスパート

MoEの仕組みは、主に2つのコンポーネントで構成されています。

1. エキスパート (Experts)

エキスパートは、通常のフィードフォワード・ネットワーク（FFN）に相当する小さなネットワークの集合です。各エキスパートは、特定の種類のパターンや知識に特化するように学習が進みます（例：あるエキスパートは文法に強く、別のエキスパートは数学的な概念に強い、といった具合です）。

2. ゲートネットワーク (Gating Network / Router)

ゲートネットワーク（またはルーター）は、入力されたトークンをどの方策（エキスパート）に送るかを決定する「交通整理役」です。

プロセスは以下の通りです：

トークンが入力される。
ゲートネットワークがそのトークンの特徴を分析する。
ゲートネットワークは、そのトークンを処理するのに最も適した上位 $k$ 個のエキスパート（通常 $k=1$ または $2$）を選択する。
選択されたエキスパートのみが計算を実行し、その結果が統合される。

この「必要な部分だけを動かす」仕組みが、**スパースな活性化（Sparse Activation）**と呼ばれます。

なぜ MoE が重要なのか？（メリット）

1. 計算効率の向上

MoEの最大の利点は、「パラメータ数」と「計算コスト」を切り離せることです。例えば、1兆パラメータを持つMoEモデルであっても、1つのトークンを処理する際に実際に動くのはそのうちの数％（例：100Bパラメータ分）だけであれば、計算コストは100Bパラメータのデンスモデルと同程度に抑えられます。これにより、巨大な知識容量を持ちながら、高速な推論が可能になります。

2. スケーリングの容易さ

MoEを使用すると、計算リソースを爆発的に増やすことなく、モデルの容量（知識量）を拡大できます。これは、限られた計算予算の中で、より高性能なモデルを構築したい場合に非常に有利です。

MoE の課題とトレードオフ

MoEは魔法の杖ではありません。いくつかの重要な課題があります。

1. メモリ（VRAM）消費量

計算コストは抑えられますが、モデルの全パラメータをメモリに載せておく必要があります。 1兆パラメータのMoEモデルを動かすには、推論時に実際に計算するのは一部であっても、1兆パラメータ分のVRAM容量が必要です。これは、ハードウェア要件を非常に高くします。

2. 学習の不安定さと「エキスパートの偏り」

学習プロセスにおいて、特定の数個のエキスパートばかりが選ばれ、他のエキスパートがほとんど使われないという現象（Expert Collapse）が起こることがあります。これを防ぐために、各エキスパートが均等に学習されるように調整する「ロードバランシング・ロス（Load Balancing Loss）」などの特殊な手法が必要になります。

3. 通信オーバーヘッド

分散学習や大規模な推論を行う際、異なるエキスパートが異なるGPUに配置されている場合、トークンを適切なエキスパートに送るための通信（All-to-All通信）が発生し、これがボトルネックになることがあります。

まとめ：いつ MoE を採用すべきか？

MoEは、以下のような状況で真価を発揮します。

計算リソース（FLOPs）を節約しつつ、モデルの知識容量を最大化したい場合。
推論のレイテンシ（遅延）を抑えながら、非常に大規模なモデルを利用したい場合。

逆に、メモリ容量が限られている環境や、モデルのサイズ自体を小さく抑えたい場合には、デンスモデルの方が適しています。

現在、Mixtral 8x7B や GPT-4（噂レベルですが）のように、MoEは次世代のAI開発における中心的なアーキテクチャとなっています。

Optional learning community: https://t.me/GyaanSetuAi