2026 年 LLM-as-Judge 的可靠性

如今,几乎所有的排行榜和奖励模型都在运行 LLM-as-Judge。2026 年 6 月的八项新研究揭示了一个巨大的问题:这些评判者往往是不可靠的。

最重要的发现是:评判者自身意见不一的频率与抛硬币的正反面概率相当。一项研究在 29 个任务中使用了两个 OpenAI 评判者,每个任务运行了 50 次试验。结果极其不一致,以至于研究人员将其称为“抛硬币评判者”。

以下是这些评判者失败的主要方式:

你应该如何应对:

不要再问哪个评判者最好。要问哪个工具能帮你最快地根据人工标注来验证结果。

来源:https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca