𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Translated for your language. 原文を読む.

AI-assisted draft.

4 日前1分で読めます

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 -> DiffusionGemma 26B: 並列テキスト生成

Google DeepMindはDiffusionGemma 26Bをリリースしました。このモデルは、標準的な自己回帰（autoregressive）方式の代わりに、離散拡散（discrete diffusion）を採用しています。

GPTやLlamaのようなほとんどのモデルは、テキストを一度に1トークンずつ生成します。トークンごとにフルパスを実行する必要があるため、ローカルでの利用やリアルタイムのタスクでは速度が低下します。

DiffusionGemmaは仕組みが異なります。まず256個のランダムなトークンのブロックから開始し、複数回のパスを経てそれらを精緻化していきます。

なぜこれが重要なのか：

• 速度：H100 GPU上で毎秒1,000トークンに達することが可能です。標準的なモデルでは、同じハードウェアでも毎秒70トークン程度にとどまります。 • 効率性：256個のトークンに対して256回のパスを行う代わりに、わずか10回程度のパスで済みます。 • GPU使用率：メモリ帯域幅よりも計算リソースをより効果的に活用します。

トレードオフ：

速度の向上は、品質との引き換えになります。DiffusionGemmaは、標準的なGemma 4 26Bと比較して、推論やコーディングのベンチマークスコアが低くなっています。

最適なユースケース：

コードのインフィリング（穴埋め）。
JSONスキーマの補完。
構造化ドキュメントの完成。
低レイテンシが優先されるローカルタスク。

使用を避けるべきケース：

大規模なバッチを扱う高並列API。
品質のみが最優先されるタスク。
テキストを単語ごとにストリーミング表示する必要があるアプリケーション。

このモデルはMixture-of-Experts (MoE)アーキテクチャを採用しています。総パラメータ数は25.2Bですが、1ステップあたりに使用されるアクティブなパラメータ数は3.8Bのみです。4ビット版であれば、24GBのVRAMを搭載したRTX 4090で実行可能です。

これは実験的なモデルです。最高の精度が必要な場合は標準的なGemma 4を使用してください。ローカルアプリケーションで極限の速度を求める場合は、DiffusionGemmaを使用してください。

出典: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-26b-how-googles-text-diffusion-model-generates-tokens-in-parallel-56og

オプションの学習コミュニティ: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

続きを読む

𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗦𝗵𝗼𝘄𝘀 𝗛𝗼𝘄 𝗙𝗮𝗿 𝗟𝗼𝗰𝗮𝗹 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗔𝗜 𝗛𝗮𝘀 𝗠𝗼𝘃𝗲𝗱

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

DiffusionGemma: 毎秒1,000トークン

Gemma 2のアーキテクチャ：より軽量なモデルで、より高いパフォーマンスを

𝗚𝗼𝗼𝗴𝗹𝗲 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗔𝗜 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗙𝗼𝗿𝗲𝘃𝗲𝗿