你所需要的 LLM 基准测试分数并不存在

Machine-translated. Read the original.

📅4 hours ago⏱2 min read

你需要的 LLM 基准测试分数并不存在

大多数 LLM 排行榜都在误导你。

上个月，我为一个智能体（agentic）流水线评估模型。我需要代码生成和多步推理能力。我选择了某个热门排行榜上的排名第一的模型。我将其上线，结果它在基础的工具使用任务上失败了。

排行榜上的分数是真实的，但对我的工作来说却毫无用处。

公开的基准测试是在隔离状态下测试模型。但在生产环境中，你运行的是智能体。智能体会调用工具、搜索网络并执行代码。标准基准测试无法衡量这些。

LXT 报告显示了巨大的差距。在 2026 年 2 月，在具备工具访问权限的情况下，分数如下：

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

如果没有工具访问权限，这些分数会大幅下降。对于智能体而言，工具辅助分数与非工具分数之间的差距才是唯一重要的指标。

在常识问答或静态测试中胜出的模型，往往连编写一个单一的函数调用都做不到。

如果你正在构建智能体，请关注以下三个领域：

工具调用可靠性。模型在受到干扰时能否正确格式化调用？它能否从错误中恢复？
上下文窗口经济性。某些工具设置的 Token 消耗会增加 10 到 32 倍。如果每次调用都会耗尽你的预算，那么庞大的上下文窗口就是一种浪费。
多步规划能力。模型能否维持一个 5 步的计划？许多模型在进行到第 3 步时就会迷失方向。

不要再把公开排行榜当作唯一的指南。相反，你应该这样做：

• 运行微型基准测试。从你自己的日志中提取 20 到 50 个真实的工具调用。针对你特定的 Schema 测量准确率。 • 测试错误情况。观察当工具返回错误或空数据时，模型的表现如何。 • 测量单项任务成本。一个性能提升 5% 但成本高出 3 倍的模型通常不是正确的选择。 • 使用专门的排行榜。查看 BenchLM.ai 上的工具使用和编程智能体分数，而不是看综合排名。

排名第 3 的模型可能非常适合处理单个提示词，但对于智能体来说，它可能是一场灾难。

花一个下午的时间测试你自己的工具，这能为你以后节省一周的调试时间。

你如何评估你的模型？请在评论区告诉我。

Source: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-28ka

Optional learning community: https://t.me/GyaanSetuAi

你所需要的 LLM 基准测试分数并不存在

Continue reading

𝗦𝘁𝗼𝗽 𝗔𝘀𝗸𝗶𝗻𝗴 𝗪𝗵𝗶𝗰𝗵 𝗟𝗟𝗠 𝗜𝘀 𝗕𝗲𝘀𝘁

𝗟𝗟𝗠 𝗚𝗔𝗧𝗘𝗪𝗔𝗬𝗦 𝗙𝗢𝗥 𝗔𝗜 𝗦𝗔𝗔𝗦

最强模型的迷思

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

LLM 基准测试的谎言