为什么 Cohen's Kappa 会发生漂移

你的 LLM-as-judge kappa 每周都在变化。你检查了标注员,他们表现正常。问题出在你的校准集(calibration set)上。

Cohen's kappa 公式为 (Po - Pe) / (1 - Pe)。 Po 是观测一致性(observed agreement)。 Pe 是随机期望一致性(expected agreement by chance)。 Pe 取决于你数据集中标签的分布情况。

上周,70% 的 trace 是可接受的。本周,50% 是可接受的。 Pe 发生了偏移。 即使标注员的工作质量保持不变,Kappa 值也会发生变动。

尝试以下三点:

  • 跨时间窗口采样。使用 4 周滚动窗口。这可以防止某一周的数据主导 Pe。
  • 使用各类别(per-class)的精确率(precision)和召回率(recall)。单一的数值会掩盖真相,而各类别指标能揭示分歧发生的具体位置。
  • 对于少于 100 个 trace 的数据集,使用 Wilson 置信区间。这比点估计(point estimates)更稳定。

来源:https://dev.to/maya_andersson_dev/why-cohens-kappa-drifts-week-to-week-and-what-to-do-about-it-2alh 可选学习社区:https://t.me/GyaanSetuAi