2026 年 LLM-as-Judge 的可靠性
如今,几乎所有的排行榜和奖励模型都在运行 LLM-as-Judge。2026 年 6 月的八项新研究揭示了一个巨大的问题:这些评判者往往是不可靠的。
最重要的发现是:评判者自身意见不一的频率与抛硬币的正反面概率相当。一项研究在 29 个任务中使用了两个 OpenAI 评判者,每个任务运行了 50 次试验。结果极其不一致,以至于研究人员将其称为“抛硬币评判者”。
以下是这些评判者失败的主要方式:
- 低可靠性:即使在设置固定的情况下,评判者对相同的输入也会给出不同的获胜者。单次运行的排行榜领先往往只是噪声。
- 计算偏差:模型的表现好坏取决于评估允许的计算量。如果测试限制过低,你就会错失模型的真实能力。
- 目标错位:在教育领域,在基准测试中胜出的模型往往无法真正教导学生。它们能解决任务,但无法支持学习。
- 品牌偏见:评判者对 GPT 或 Claude 等知名名称表现出偏好。这会使结果产生偏差。
你应该如何应对:
- 对于独立开发者:跳过 LLM-as-Judge。改为手动标注 30 个输出。一个糟糕的评判者会带来虚假的信心。
- 对于团队:选择一个能让人工标注变得容易的工具。工具的重要性不如实际进行人工操作。
- 对于高吞吐量任务:每个项目至少运行 20 到 50 次试验。使用多数投票法来确定真正的获胜者。
- 对于企业主:如果供应商声称领先优势小于 10 分,请将其视为平局。评判者产生的噪声可能比领先优势还要大。
不要再问哪个评判者最好。要问哪个工具能帮你最快地根据人工标注来验证结果。
来源:https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca