コーエンのカッパ(Cohen's Kappa)が変動する理由
LLM-as-judgeのカッパ値が毎週変わってしまう。ラベル付け作業者を確認しても、彼らに問題はない。問題はキャリブレーションセットにある。
コーエンのカッパの公式は (Po - Pe) / (1 - Pe) です。 Poは観測された一致率です。 Peは偶然による期待一致率です。 Peはセット内のラベルの構成比に依存します。
先週はトレースの70%が「許容可能」だった。今週は50%が「許容可能」になった。 Peが変化する。 ラベル付け作業者が前回と同じ仕事をしていても、カッパ値は変動してしまう。
次の3つの方法を試してみてください:
- 時間窓(タイムウィンドウ)をまたいでサンプリングする。ローリング4週間ウィンドウを使用してください。これにより、特定の1週間がPeに過度な影響を与えるのを防げます。
- クラスごとの適合率(precision)と再現率(recall)を使用する。単一の数値では真実が隠れてしまいます。クラスごとの指標を用いることで、どこで不一致が起きているかが明確になります。
- 100トレース未満のセットにはウィルソン信頼区間(Wilson confidence intervals)を使用する。これは点推定(point estimates)よりも安定しています。
出典: https://dev.to/maya_andersson_dev/why-cohens-kappa-drifts-week-to-week-and-what-to-do-about-it-2alh オプションの学習コミュニティ: https://t.me/GyaanSetuAi