为什么 Groq 让人感觉像是在“作弊”
我最近使用 LangGraph 构建了一个多智能体流水线。我将 Groq 与标准的 LLM 提供商进行了对比。这种差异感非常巨大。
其他提供商的感觉就像是普通的 API 调用。你发送一个请求,然后等待文本返回。而 Groq 感觉就像是在“作弊”。一个 70B 的模型在我还没读完自己的提示词(prompt)之前,就已经返回了完整的响应。
大多数人认为 Groq 使用了更好的 GPU。这是错误的。Groq 完全没有使用 GPU。他们开发了一种名为 LPU(Language Processing Unit,语言处理单元)的新型芯片。
GPU 是为图形处理和模型训练而设计的。在处理大规模批处理数据时,它们表现出色。但在实时推理方面,它们却显得力不从心。
问题在于“内存墙”(memory wall)。在 GPU 中,模型权重存储在与计算核心分离的内存中。芯片花费了太多时间等待数据到达。
Groq 通过将内存直接置于芯片上解决了这个问题。他们使用 SRAM 而不是 HBM。这在带宽上创造了 10 倍的差距。如果考虑到延迟,数据访问速度甚至提升了 20 倍。
速度快的另一个原因是:确定性(determinism)。
GPU 使用动态调度。芯片在运行时决定下一步做什么。这会产生微小的延迟。Groq 采用的是“软件优先”的方法。他们的编译器会预先计算每一个操作和指令。芯片遵循预设的调度计划,无需思考下一步该做什么。
结果不言而喻: • Llama 2 70B 在 Groq 上以每秒 300 个 token 的速度运行。 • Nvidia H100 的运行速度为每秒 30–40 个 token。 • Llama 3 8B 在 Groq 上达到了每秒超过 1,300 个 token。
Groq 也更加高效。由于完成任务的速度极快,它每个 token 消耗的总能量更少。
这种设计也有权衡(tradeoffs)。SRAM 非常昂贵,且占用大量的物理空间。单个芯片无法容纳巨大的模型。你需要数百个 LPU 协同工作才能运行大型模型。这使得硬件成本比 GPU 更高。
Groq 并不试图训练模型。他们的重点是尽可能快地运行现有的模型,如 Llama 或 Mixtral。
行业正朝着两者并用的方向发展。GPU 处理繁重的训练和初始处理,而 LPU 则负责快速、实时的对话。
Nvidia 针对总计算量进行了优化。Groq 则针对“确保计算永不等待数据”进行了优化。对于实时 AI 智能体(agents)而言,后者的目标更为关键。
来源:https://dev.to/priyanshu79/why-groq-feels-like-cheating-29hm
可选学习社区:https://t.me/GyaanSetuAi
