Claude Sonnet 5:高性能掩盖了显著的价格上涨
Anthropic 的最新发布版本 Claude Sonnet 5 在基准测试中取得了令人印象深刻的进步,但却给开发者带来了隐形的财务负担。虽然官方的 token 费率保持不变,但新数据表明,该模型日益增加的冗长程度(verbosity)和智能体行为(agentic behavior)显著推高了实际的任务成本。
智能提升 vs. Token 消耗
根据 Artificial Analysis Intelligence Index v4.1,Claude Sonnet 5 取得了一个重大的技术里程碑。它获得了 53 分,位列全球第五,与 GPT-5.5 (high) 并列,并超越了其前身 Sonnet 4.6(得分为 47 分)。这种性能飞跃在多个专业基准测试中都显而易见,包括在 Terminal-Bench v2.1 上提升了 9 分,在 Humanity's Last Exam 上提升了 10 分。
然而,这些智能上的提升是以极高的 token 消耗为代价的。在 AA-Briefcase 和 GDPval-AA 等基于智能体(agent-based)的知识工作基准测试中,Sonnet 5 执行的智能体循环(agent loops)次数大约是 Sonnet 4.6 的三倍。在最高性能设置下,与上一代相比,该模型在每个任务中消耗的输出 token 增加了约 40%。
静态 Token 定价的幻象
从表面上看,Anthropic 维持了其定价结构:每百万输入 token 为 3 美元,每百万输出 token 为 15 美元。这明显比 Opus 4.8 档位更便宜,后者的价格分别为 5 美元和 25 美元。然而,“单任务成本”却揭示了不同的情况。
Artificial Analysis 的报告显示,在 Intelligence Index 中,Sonnet 5 的平均单任务成本为 2.29 美元,而价格更昂贵的 Opus 4.8 仅为 1.97 美元。对于从 Sonnet 4.6(单任务成本约为 1.20 美元)迁移过来的开发者来说,转向 Sonnet 5 意味着运营支出几乎翻倍。这种模式在之前的发布中也有所体现,例如 Opus 4.7,尽管费率“保持不变”,但分词器(tokenizer)的更改实际上使成本增加了高达 37.4%。
竞争压力与透明度的需求
虽然 Sonnet 5 在某些智能体任务中表现出色,但在高水平物理推理方面仍显吃力。在阿贡国家实验室(Argonne National Labs)的 CritPt 基准测试中,它仅获得了 17% 的分数,落后于 GLM-5.2、Claude Fable 5 和 GPT-5.5 等重量级模型。
这种性能差距和不断上升的成本结构使 Anthropic 处于一个危险的境地。随着 Deepseek V4 Pro 和 GLM-5.2 等中国竞争对手以极低的成本提供相当的中端性能,Claude 系列“隐性”的价格攀升成为了企业采用该模型的一个关键因素。行业正趋向于需要更透明的指标——例如每个标准化任务的成本——而不是依赖于不再能反映智能体工作流实际计算负载的原始 token 计数。
核心要点
- 隐性成本增加: 尽管 token 费率相同,但由于 token 消耗增加,Sonnet 5 的单任务成本比 Sonnet 4.6 高出约 90%。
- 基准测试性能: Sonnet 5 以 53 分位列全球第五,在智能体循环以及 SciCode 和 Terminal-Bench 等特定基准测试中表现出巨大的进步。
- 定价差异: 若以现实世界的智能基准测试衡量,看似“更便宜”的 Sonnet 5 实际单任务成本(2.29 美元)反而高于高端的 Opus 4.8(1.97 美元)。
