Mengapa Cohen's Kappa Berubah

Nilai kappa LLM-as-judge anda berubah setiap minggu. Anda menyemak pelabel anda. Mereka dalam keadaan baik. Masalahnya adalah set penentukur (calibration set) anda.

Formula Cohen's kappa ialah (Po - Pe) / (1 - Pe). Po ialah persetujuan yang diperhatikan (observed agreement). Pe ialah persetujuan yang dijangkakan secara kebetulan (expected agreement by chance). Pe bergantung pada campuran label dalam set anda.

Minggu lepas, 70% jejak (traces) adalah boleh diterima. Minggu ini, 50% adalah boleh diterima. Pe beralih. Kappa berubah walaupun pelabel anda melakukan kerja yang sama.

Cuba tiga perkara ini:

  • Ambil sampel merentasi tingkap masa (time windows). Gunakan tingkap 4 minggu yang bergerak (rolling 4-week window). Ini menghalang satu minggu daripada mendominasi Pe.
  • Gunakan ketepatan (precision) dan imbas kembali (recall) bagi setiap kelas. Satu angka menyembunyikan kebenaran. Metrik bagi setiap kelas menunjukkan di mana ketidaksetujuan berlaku.
  • Gunakan selang keyakinan Wilson (Wilson confidence intervals) untuk set di bawah 100 jejak. Ini lebih stabil daripada anggaran titik (point estimates).

Sumber: https://dev.to/maya_andersson_dev/why-cohens-kappa-drifts-week-to-week-and-what-to-do-about-it-2alh Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi