Gemma 2 架构:以更小的模型实现更高的性能

Google 发布了 Gemma 2。该模型证明了你不需要庞大的参数规模也能获得高性能。27B 模型可以与规模是其两倍的模型相媲美。

秘密在于其架构。

Gemma 2 使用了一种混合注意力机制。标准的注意力机制既慢又重。Gemma 2 通过在两种类型的注意力之间进行切换解决了这个问题:

• 局部滑动窗口注意力 (Local sliding window attention):专注于 4096 个 token 的窗口。它能快速处理即时上下文。 • 全局注意力 (Global attention):查看完整的 8192 个 token 上下文。

这种结合在不产生高昂计算成本的情况下,为你提供了效率和深层的上下文理解能力。

这些模型还使用了分组查询注意力 (Grouped-Query Attention, GQA)。这允许多个查询头 (query heads) 共享一组键 (key) 和值 (value)。这减少了内存占用并加快了文本生成速度。9B 和 27B 模型使用 GQA。2B 模型则使用一种更快的版本,称为多查询注意力 (Multi-Query Attention, MQA)。

训练方法也发生了变化。2B 和 9B 模型使用了知识蒸馏 (knowledge distillation)。它们从更大的教师模型中学习。这有助于它们比标准训练更好地理解复杂的模式。

这对你意味着什么:

• 更低的成本:你可以在单块 NVIDIA H100 GPU 上运行 Gemma 2 27B。 • 更高的可访问性:较小的模型可以在消费级硬件和移动设备上运行。 • 更简单的测试:你可以使用 Ollama 在本地运行指令微调 (instruction-tuned) 模型。

行业正在发生转变。我们不再仅仅追求增加参数量,现在的重点是“单位参数的智能度”。这使得高质量的 AI 对每个人来说都更加可持续且实用。

来源:https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc

可选学习社区:https://t.me/GyaanSetuAi