𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 -> DiffusionGemma 26B: 並列テキスト生成
Google DeepMindはDiffusionGemma 26Bをリリースしました。このモデルは、標準的な自己回帰(autoregressive)方式の代わりに、離散拡散(discrete diffusion)を採用しています。
GPTやLlamaのようなほとんどのモデルは、テキストを一度に1トークンずつ生成します。トークンごとにフルパスを実行する必要があるため、ローカルでの利用やリアルタイムのタスクでは速度が低下します。
DiffusionGemmaは仕組みが異なります。まず256個のランダムなトークンのブロックから開始し、複数回のパスを経てそれらを精緻化していきます。
なぜこれが重要なのか:
• 速度:H100 GPU上で毎秒1,000トークンに達することが可能です。標準的なモデルでは、同じハードウェアでも毎秒70トークン程度にとどまります。 • 効率性:256個のトークンに対して256回のパスを行う代わりに、わずか10回程度のパスで済みます。 • GPU使用率:メモリ帯域幅よりも計算リソースをより効果的に活用します。
トレードオフ:
速度の向上は、品質との引き換えになります。DiffusionGemmaは、標準的なGemma 4 26Bと比較して、推論やコーディングのベンチマークスコアが低くなっています。
最適なユースケース:
- コードのインフィリング(穴埋め)。
- JSONスキーマの補完。
- 構造化ドキュメントの完成。
- 低レイテンシが優先されるローカルタスク。
使用を避けるべきケース:
- 大規模なバッチを扱う高並列API。
- 品質のみが最優先されるタスク。
- テキストを単語ごとにストリーミング表示する必要があるアプリケーション。
このモデルはMixture-of-Experts (MoE)アーキテクチャを採用しています。総パラメータ数は25.2Bですが、1ステップあたりに使用されるアクティブなパラメータ数は3.8Bのみです。4ビット版であれば、24GBのVRAMを搭載したRTX 4090で実行可能です。
これは実験的なモデルです。最高の精度が必要な場合は標準的なGemma 4を使用してください。ローカルアプリケーションで極限の速度を求める場合は、DiffusionGemmaを使用してください。
オプションの学習コミュニティ: https://t.me/GyaanSetuAi