评估生产环境中的 LLM 输出质量

Translated for your language. 阅读原文.

AI-assisted draft.

在生产环境中评估 LLM 输出质量

2023 年 3 月，GPT-4 识别质数的准确率为 97.6%。到 2023 年 6 月，同一模型的准确率降至 2.4%。没有人更改代码，没有人更改提示词。模型只是发生了漂移。

这是 LLM 在生产环境中的核心问题。你无法控制模型。它是一个会发生漂移的依赖项。如果你不进行测量，你的用户会告诉你它坏了。

你不能依赖“感觉”或“看起来不错”。你需要可重复的信号。

传统软件是确定性的。相同的输入等于相同的输出。LLM 打破了这一规则。它们是非确定性的，而且“正确”往往是模糊的。

为了应对这一点，你需要三个层级的评估：

基础是黄金数据集（Golden Dataset）。不要使用随机样本。要使用精心挑选的难题集。使用空输入、奇怪的边缘情况和对抗性提示词。80 个精准的示例胜过 8,000 个随机示例。

当使用 LLM 作为评判者（LLM as a judge）时，要注意以下偏差：

对于实时监控，使用 RAG 三元组（RAG Triad）进行检查：

不要再将模型质量视为固定属性。要像对待延迟或错误率一样对待它。它会变动。你的工作是察觉它何时不再优秀。

从小处着手。编写 20 个黄金示例。使用它们来把控部署。稍后再添加低成本的生产环境启发式规则。

那些能睡个安稳觉的团队，并不是拥有最聪明模型的团队。而是那些能在模型变笨后的一个小时内察觉到的团队。

Optional learning community: https://t.me/GyaanSetuAi