Snowflake CEO:GLM-5.2 以极低成本媲美 Claude Opus 4.7
Snowflake 最近进行的一项实测基准测试在 AI 行业引起了轰动,结果显示中国的 GLM-5.2 在专业编程任务中可以与西方顶尖模型相抗衡。虽然 Claude Opus 4.7 在技术上仍保持领先,但巨大的价格差异预示着大语言模型 (LLM) 经济模式即将发生转变。
基准测试:复杂环境下的编程能力对等
Snowflake CEO Sridhar Ramaswamy 主导了一项严苛的测试,包含 103 个不同的任务,旨在评估在 DuckDB 和 Snowflake 环境下的代码生成能力。结果出人意料地接近:在每个任务给予三次尝试机会的情况下,GLM-5.2 完成了 66% 的任务,仅略微落后于成功率为 67% 的 Claude Opus 4.7。
然而,性能的细微差别揭示了可靠性方面的差距。Opus 4.7 表现出更优越的一致性,首次尝试准确率为 53.7%,而 GLM-5.2 为 47.6%。这款中国模型还表现出一种“过度思考”或陷入不必要流程循环的倾向。在一个显著的案例中,GLM-5.2 在 24 分钟内执行了 411 次工具调用(检查行数、分布和空值),但三次尝试均告失败。相比之下,Opus 4.7 仅用 9 分钟和 49 次调用就解决了同一个任务。
AI 经济学:来自中国的价格压力
虽然 Opus 4.7 是更高效、更稳定的模型,但真正的看点在于单位经济效益。西方旗舰模型与 GLM-5.2 之间的成本差异令人震惊,这可能会从根本上改变企业 AI 部署的投资回报率 (ROI) 计算。
根据智谱 (Zhipu) 的官方定价,GLM-5.2 每百万输入 token 的成本为 1.40 美元,每百万输出 token 的成本为 4.40 美元。为了直观对比:
- Claude Opus 4.7: $5.00 (输入) / $25.00 (输出)
- GPT-5.5: $5.00 (输入) / $30.00 (输出)
尽管 GLM-5.2 更加“消耗 token”——每个任务平均运行 99 次(Opus 为 80 次),消耗 8.6 亿 token(Opus 为 4.39 亿)——但它仍然具有显著的价格优势。这种定价模式对 OpenAI 和 Anthropic 目前采用的高利润策略构成了直接挑战。
为什么这对 AI 格局至关重要
像 GLM-5.2 这样高性能、低成本模型的出现,充当了对“AI 泡沫”的压力测试。西方 AI 实验室的高估值是建立在收入快速且高利润增长的假设之上的。如果开发者和企业在编程和数据工程等高频任务中转向更便宜的替代方案,旗舰模型的预期收入流可能会面临大幅萎缩。
随着 Snowflake 准备向其客户提供 GLM-5.2,行业正趋向于这样一个现实:“智能”不再是一种奢侈品,而是一种商品化的公用事业。
核心要点
- 竞争对等: GLM-5.2 在复杂的 Snowflake/DuckDB 编程基准测试中达到了 66% 的成功率,几乎与 Claude Opus 4.7 的 67% 持平。
- 效率差距: 虽然 GLM-5.2 能力极强,但效率较低,需要更多的工具调用和更高的 token 消耗才能得出解决方案。
- 经济颠覆: GLM-5.2 的输出 token 定价仅为 Claude Opus 4.7 或 GPT-5.5 的约 1/5 到 1/7,这给西方 AI 提供商带来了巨大的价格压力。
