Чому дрейфує каппа Коена

Translated for your language. Read the original.

AI-assisted draft.

3 тижні тому1min read

Чому дрейфує каппа Коена

Ваша каппа LLM-as-judge змінюється щотижня. Ви перевіряєте своїх розмітників. З ними все гаразд. Проблема у вашому калібрувальному наборі.

Формула каппи Коена: (Po - Pe) / (1 - Pe). Po — спостережувана згода. Pe — очікувана згода за випадковістю. Pe залежить від розподілу міток у вашому наборі.

Минулого тижня 70% трасів були прийнятними. Цього тижня — 50%. Pe зміщується. Каппа змінюється, навіть якщо ваші розмітники працюють так само.

Спробуйте ці три речі:

Використовуйте вибірки в межах часових вікон. Використовуйте ковзне 4-тижневе вікно. Це не дозволить одному тижню домінувати в Pe.
Використовуйте точність (precision) та повноту (recall) для кожного класу. Одне число приховує правду. Метрики за класами показують, де саме виникають розбіжності.
Використовуйте довірчі інтервали Вільсона для наборів менше 100 трасів. Це стабільніше за точкові оцінки.

Джерело: https://dev.to/maya_andersson_dev/why-cohens-kappa-drifts-week-to-week-and-what-to-do-about-it-2alh Додаткова спільнота для навчання: https://t.me/GyaanSetuAi

Чому дрейфує каппа Коена

Continue reading

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

Надійність LLM як судді у 2026 році

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲