DiffusionGemma：每秒 1,000 个 Token

Translated for your language. 阅读原文.

AI-assisted draft.

4天前2分钟阅读

DiffusionGemma：每秒 1,000 个 Token

大多数语言模型一次只能处理一个单词。它们从左向右生成。这造成了速度限制，因为模型必须等待每个单词生成完毕后才能开始下一个。

Google DeepMind 通过 DiffusionGemma 改变了这一点。

它不再采用顺序写作，而是使用一种去噪过程。它一次性处理多达 256 个 token 的数据块并对其进行优化。这种方法在单张 NVIDIA H100 上实现了每秒超过 1,000 个 token 的速度。这比标准模型快了四倍。

工作原理：

硬件性能：

• NVIDIA H100：1,000+ tokens/秒 • NVIDIA DGX Station：最高 2,000 tokens/秒 • GeForce RTX 5090：约 700 tokens/秒 • 显存需求：量化后约 18GB

使用场景：

DiffusionGemma 在本地环境中表现出色。在云端，公司通过将大量用户进行批处理来保持效率。而在你自己的电脑上，GPU 在单词生成之间经常处于闲置状态。DiffusionGemma 通过将内存瓶颈转化为纯计算任务解决了这个问题。

适用于：

权衡之处在于质量。基准测试显示，DiffusionGemma 在推理和编程方面的得分低于标准的 Gemma 4。语言比图像更难进行扩散处理，因为一个错误的单词就可能毁掉整个句子。

结论：

如果你在本地硬件上需要速度，请使用 DiffusionGemma。如果你需要最高的准确性和深度推理，请使用标准的 Gemma 4。

继续阅读