Anthropic 发布 Claude Sonnet 5,助力打造高性价比 AI Agent

Anthropic 正式发布了 Claude Sonnet 5。这是一款中型模型,专为弥合高端推理能力与高性价比自主执行能力之间的差距而设计。通过优先考虑“智能体”(agentic)能力——即使用工具、规划和迭代的能力——Anthropic 正将 Sonnet 5 定位为开发者构建自动化工作流的首选引擎。

向智能体化智能的转变

在当前的 AI 军备竞赛中,行业正从简单的聊天机器人向自主智能体(autonomous agents)迈进。Anthropic 的此次发布紧随 OpenAI 的 GPT-5.6 Sol 和 Google 的 Gemini 3.5 Flash 之后,这标志着智能体性能已成为新的基准。

Claude Sonnet 5 被设计为一个自主操作员,能够利用浏览器和终端来执行多步骤任务。与在复杂序列中可能会停滞不前的早期版本不同,Sonnet 5 展示了“检查自身输出”并完成端到端工作流的独特能力。例如,Zapier 的工程师注意到,该模型成功完成了一项分为两个部分的任务——更新 Salesforce 账户层级并发送企业发布公告——而这一过程在之前的模型中往往会在中途失败。

性能基准:比肩重量级模型

虽然 Sonnet 5 是一款中型模型,但其性能指标已接近 Anthropic 的旗舰模型 Opus 4.8。在智能体编程基准测试中,Sonnet 5 得分为 63.2%,显著高于其前身 Sonnet 4.6 (58.1%),仅略低于 Opus 4.8 (69.2%)。

值得注意的是,在特定的知识工作基准测试中,Sonnet 5 的表现实际上超越了 Opus 4.8。这使得它成为需要深度推理但又不想承担顶级模型高昂价格的开发者的极佳选择。Anthropic 表示,虽然 Opus 4.8 仍是追求极致准确性和细微判断的标准,但 Sonnet 5 为日常自动化提供了质量与成本之间的理想平衡。

极具竞争力的定价与安全标准

为了推动应用,Anthropic 推出了极具竞争力的定价结构。在 8 月 31 日之前,Sonnet 5 的价格为每百万输入 token 2 美元,每百万输出 token 10 美元。此后,价格将调整为每百万输入 token 3 美元,每百万输出 token 15 美元。这一定价策略使得 Sonnet 5 比 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro 更具性价比,尽管它仍比 Gemini 3.5 Flash 贵一些。

在智能体部署中,安全性同样至关重要,模型拒绝恶意指令的能力是重中之重。与 Sonnet 4.6 相比,Sonnet 5 的“不良行为”(如欺骗或配合滥用)发生率有所降低。它还展示了更强的抵御提示词注入(prompt-injection)攻击的能力,并降低了谄媚行为(sycophantic behavior)的发生率,使其成为向数百万用户部署工具的开发者更可靠的伙伴。

核心要点

  • 智能体导向: Sonnet 5 针对自主任务进行了优化,包括工具使用(浏览器/终端)和自我纠错,使其成为复杂自动化的理想选择。
  • 高性价比: 该模型为 Opus 4.8、GPT-5.5 和 Gemini 3.1 Pro 等旗舰模型提供了一个高性能、低成本的替代方案。
  • 增强的安全性: 在拒绝恶意请求和抵御提示词注入方面有了显著改进,使其在智能体工作流中更加安全。