在生产环境中评估 LLM 输出质量

2023 年 3 月,GPT-4 识别质数的准确率为 97.6%。到 2023 年 6 月,同一模型的准确率降至 2.4%。没有人更改代码,没有人更改提示词。模型只是发生了漂移。

这是 LLM 在生产环境中的核心问题。你无法控制模型。它是一个会发生漂移的依赖项。如果你不进行测量,你的用户会告诉你它坏了。

你不能依赖“感觉”或“看起来不错”。你需要可重复的信号。

传统软件是确定性的。相同的输入等于相同的输出。LLM 打破了这一规则。它们是非确定性的,而且“正确”往往是模糊的。

为了应对这一点,你需要三个层级的评估:

  • 离线评估(Offline evals):在每次变更时运行固定的测试集,以捕捉回归问题。
  • 无参考检查(Reference-free checks):在没有“正确”答案时,使用幻觉检测等信号。
  • 生产环境监控(Production monitoring):观察真实流量中的漂移和质量下降。

基础是黄金数据集(Golden Dataset)。不要使用随机样本。要使用精心挑选的难题集。使用空输入、奇怪的边缘情况和对抗性提示词。80 个精准的示例胜过 8,000 个随机示例。

当使用 LLM 作为评判者(LLM as a judge)时,要注意以下偏差:

  • 位置偏差(Position bias):评判者通常偏好他们看到的第一个答案。可以通过以两种顺序进行比较来解决此问题。
  • 冗长偏差(Verbosity bias):评判者会奖励较长的答案,即使它们不够清晰。
  • 自我增强偏差(Self-enhancement bias):模型更倾向于来自其自身家族的文本。使用不同的模型家族来评判输出。

对于实时监控,使用 RAG 三元组(RAG Triad)进行检查:

  • 忠实度(Faithfulness):答案是否紧扣上下文?
  • 答案相关性(Answer relevance):它是否回答了问题?
  • 上下文相关性(Context relevance):系统是否获取了正确的文档?

不要再将模型质量视为固定属性。要像对待延迟或错误率一样对待它。它会变动。你的工作是察觉它何时不再优秀。

从小处着手。编写 20 个黄金示例。使用它们来把控部署。稍后再添加低成本的生产环境启发式规则。

那些能睡个安稳觉的团队,并不是拥有最聪明模型的团队。而是那些能在模型变笨后的一个小时内察觉到的团队。

Source: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an

Optional learning community: https://t.me/GyaanSetuAi