𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 -> DiffusionGemma 26B: 並列テキスト生成

Google DeepMindはDiffusionGemma 26Bをリリースしました。このモデルは、標準的な自己回帰(autoregressive)方式の代わりに、離散拡散(discrete diffusion)を採用しています。

GPTやLlamaのようなほとんどのモデルは、テキストを一度に1トークンずつ生成します。トークンごとにフルパスを実行する必要があるため、ローカルでの利用やリアルタイムのタスクでは速度が低下します。

DiffusionGemmaは仕組みが異なります。まず256個のランダムなトークンのブロックから開始し、複数回のパスを経てそれらを精緻化していきます。

なぜこれが重要なのか:

• 速度:H100 GPU上で毎秒1,000トークンに達することが可能です。標準的なモデルでは、同じハードウェアでも毎秒70トークン程度にとどまります。 • 効率性:256個のトークンに対して256回のパスを行う代わりに、わずか10回程度のパスで済みます。 • GPU使用率:メモリ帯域幅よりも計算リソースをより効果的に活用します。

トレードオフ:

速度の向上は、品質との引き換えになります。DiffusionGemmaは、標準的なGemma 4 26Bと比較して、推論やコーディングのベンチマークスコアが低くなっています。

最適なユースケース:

  • コードのインフィリング(穴埋め)。
  • JSONスキーマの補完。
  • 構造化ドキュメントの完成。
  • 低レイテンシが優先されるローカルタスク。

使用を避けるべきケース:

  • 大規模なバッチを扱う高並列API。
  • 品質のみが最優先されるタスク。
  • テキストを単語ごとにストリーミング表示する必要があるアプリケーション。

このモデルはMixture-of-Experts (MoE)アーキテクチャを採用しています。総パラメータ数は25.2Bですが、1ステップあたりに使用されるアクティブなパラメータ数は3.8Bのみです。4ビット版であれば、24GBのVRAMを搭載したRTX 4090で実行可能です。

これは実験的なモデルです。最高の精度が必要な場合は標準的なGemma 4を使用してください。ローカルアプリケーションで極限の速度を求める場合は、DiffusionGemmaを使用してください。

出典: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-26b-how-googles-text-diffusion-model-generates-tokens-in-parallel-56og

オプションの学習コミュニティ: https://t.me/GyaanSetuAi