Чому дрейфує каппа Коена
Ваша каппа LLM-as-judge змінюється щотижня. Ви перевіряєте своїх розмітників. З ними все гаразд. Проблема у вашому калібрувальному наборі.
Формула каппи Коена: (Po - Pe) / (1 - Pe). Po — спостережувана згода. Pe — очікувана згода за випадковістю. Pe залежить від розподілу міток у вашому наборі.
Минулого тижня 70% трасів були прийнятними. Цього тижня — 50%. Pe зміщується. Каппа змінюється, навіть якщо ваші розмітники працюють так само.
Спробуйте ці три речі:
- Використовуйте вибірки в межах часових вікон. Використовуйте ковзне 4-тижневе вікно. Це не дозволить одному тижню домінувати в Pe.
- Використовуйте точність (precision) та повноту (recall) для кожного класу. Одне число приховує правду. Метрики за класами показують, де саме виникають розбіжності.
- Використовуйте довірчі інтервали Вільсона для наборів менше 100 трасів. Це стабільніше за точкові оцінки.
Джерело: https://dev.to/maya_andersson_dev/why-cohens-kappa-drifts-week-to-week-and-what-to-do-about-it-2alh Додаткова спільнота для навчання: https://t.me/GyaanSetuAi