Чому дрейфує каппа Коена

Ваша каппа LLM-as-judge змінюється щотижня. Ви перевіряєте своїх розмітників. З ними все гаразд. Проблема у вашому калібрувальному наборі.

Формула каппи Коена: (Po - Pe) / (1 - Pe). Po — спостережувана згода. Pe — очікувана згода за випадковістю. Pe залежить від розподілу міток у вашому наборі.

Минулого тижня 70% трасів були прийнятними. Цього тижня — 50%. Pe зміщується. Каппа змінюється, навіть якщо ваші розмітники працюють так само.

Спробуйте ці три речі:

  • Використовуйте вибірки в межах часових вікон. Використовуйте ковзне 4-тижневе вікно. Це не дозволить одному тижню домінувати в Pe.
  • Використовуйте точність (precision) та повноту (recall) для кожного класу. Одне число приховує правду. Метрики за класами показують, де саме виникають розбіжності.
  • Використовуйте довірчі інтервали Вільсона для наборів менше 100 трасів. Це стабільніше за точкові оцінки.

Джерело: https://dev.to/maya_andersson_dev/why-cohens-kappa-drifts-week-to-week-and-what-to-do-about-it-2alh Додаткова спільнота для навчання: https://t.me/GyaanSetuAi