2026年 LLM 作为评判者的可靠性

Machine-translated. Read the original.

📅3 hours ago⏱1 min read

2026 年 LLM-as-Judge 的可靠性

如今，几乎所有的排行榜和奖励模型都在运行 LLM-as-Judge。2026 年 6 月的八项新研究揭示了一个巨大的问题：这些评判者往往是不可靠的。

最重要的发现是：评判者自身意见不一的频率与抛硬币的正反面概率相当。一项研究在 29 个任务中使用了两个 OpenAI 评判者，每个任务运行了 50 次试验。结果极其不一致，以至于研究人员将其称为“抛硬币评判者”。

以下是这些评判者失败的主要方式：

低可靠性：即使在设置固定的情况下，评判者对相同的输入也会给出不同的获胜者。单次运行的排行榜领先往往只是噪声。
计算偏差：模型的表现好坏取决于评估允许的计算量。如果测试限制过低，你就会错失模型的真实能力。
目标错位：在教育领域，在基准测试中胜出的模型往往无法真正教导学生。它们能解决任务，但无法支持学习。
品牌偏见：评判者对 GPT 或 Claude 等知名名称表现出偏好。这会使结果产生偏差。

你应该如何应对：

对于独立开发者：跳过 LLM-as-Judge。改为手动标注 30 个输出。一个糟糕的评判者会带来虚假的信心。
对于团队：选择一个能让人工标注变得容易的工具。工具的重要性不如实际进行人工操作。
对于高吞吐量任务：每个项目至少运行 20 到 50 次试验。使用多数投票法来确定真正的获胜者。
对于企业主：如果供应商声称领先优势小于 10 分，请将其视为平局。评判者产生的噪声可能比领先优势还要大。

不要再问哪个评判者最好。要问哪个工具能帮你最快地根据人工标注来验证结果。

来源：https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca