DiffusionGemma:每秒 1,000 个 Token

大多数语言模型一次只能处理一个单词。它们从左向右生成。这造成了速度限制,因为模型必须等待每个单词生成完毕后才能开始下一个。

Google DeepMind 通过 DiffusionGemma 改变了这一点。

它不再采用顺序写作,而是使用一种去噪过程。它一次性处理多达 256 个 token 的数据块并对其进行优化。这种方法在单张 NVIDIA H100 上实现了每秒超过 1,000 个 token 的速度。这比标准模型快了四倍。

工作原理:

  • 模型从一组占位符 token 开始。
  • 它通过多次迭代来清理这些占位符。
  • 块中的每个 token 都会同时观察其他所有 token。
  • 这种双向视角有助于模型从两侧理解上下文。

硬件性能:

• NVIDIA H100:1,000+ tokens/秒 • NVIDIA DGX Station:最高 2,000 tokens/秒 • GeForce RTX 5090:约 700 tokens/秒 • 显存需求:量化后约 18GB

使用场景:

DiffusionGemma 在本地环境中表现出色。在云端,公司通过将大量用户进行批处理来保持效率。而在你自己的电脑上,GPU 在单词生成之间经常处于闲置状态。DiffusionGemma 通过将内存瓶颈转化为纯计算任务解决了这个问题。

适用于:

  • 代码填充:在函数中间添加代码。
  • 文本编辑:修改段落中的句子。
  • 约束任务:解决需要整个数据块协调一致的谜题或数学问题。

权衡之处在于质量。基准测试显示,DiffusionGemma 在推理和编程方面的得分低于标准的 Gemma 4。语言比图像更难进行扩散处理,因为一个错误的单词就可能毁掉整个句子。

结论:

如果你在本地硬件上需要速度,请使用 DiffusionGemma。如果你需要最高的准确性和深度推理,请使用标准的 Gemma 4。

来源:https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

可选学习社区:https://t.me/GyaanSetuAi