Why Groq Feels Like Cheating

Translated for your language. 阅读原文.

AI-assisted draft.

GyaanSetu Editorial2周前2分钟阅读

为什么 Groq 让人感觉像是在“作弊”

我最近使用 LangGraph 构建了一个多智能体流水线。我将 Groq 与标准的 LLM 提供商进行了对比。这种差异感非常巨大。

其他提供商的感觉就像是普通的 API 调用。你发送一个请求，然后等待文本返回。而 Groq 感觉就像是在“作弊”。一个 70B 的模型在我还没读完自己的提示词（prompt）之前，就已经返回了完整的响应。

大多数人认为 Groq 使用了更好的 GPU。这是错误的。Groq 完全没有使用 GPU。他们开发了一种名为 LPU（Language Processing Unit，语言处理单元）的新型芯片。

GPU 是为图形处理和模型训练而设计的。在处理大规模批处理数据时，它们表现出色。但在实时推理方面，它们却显得力不从心。

问题在于“内存墙”（memory wall）。在 GPU 中，模型权重存储在与计算核心分离的内存中。芯片花费了太多时间等待数据到达。

Groq 通过将内存直接置于芯片上解决了这个问题。他们使用 SRAM 而不是 HBM。这在带宽上创造了 10 倍的差距。如果考虑到延迟，数据访问速度甚至提升了 20 倍。

速度快的另一个原因是：确定性（determinism）。

GPU 使用动态调度。芯片在运行时决定下一步做什么。这会产生微小的延迟。Groq 采用的是“软件优先”的方法。他们的编译器会预先计算每一个操作和指令。芯片遵循预设的调度计划，无需思考下一步该做什么。

结果不言而喻： • Llama 2 70B 在 Groq 上以每秒 300 个 token 的速度运行。 • Nvidia H100 的运行速度为每秒 30–40 个 token。 • Llama 3 8B 在 Groq 上达到了每秒超过 1,300 个 token。

Groq 也更加高效。由于完成任务的速度极快，它每个 token 消耗的总能量更少。

这种设计也有权衡（tradeoffs）。SRAM 非常昂贵，且占用大量的物理空间。单个芯片无法容纳巨大的模型。你需要数百个 LPU 协同工作才能运行大型模型。这使得硬件成本比 GPU 更高。

Groq 并不试图训练模型。他们的重点是尽可能快地运行现有的模型，如 Llama 或 Mixtral。

行业正朝着两者并用的方向发展。GPU 处理繁重的训练和初始处理，而 LPU 则负责快速、实时的对话。

Nvidia 针对总计算量进行了优化。Groq 则针对“确保计算永不等待数据”进行了优化。对于实时 AI 智能体（agents）而言，后者的目标更为关键。

继续阅读