कोहेन का कप्पा क्यों बदलता रहता है

आपका LLM-as-judge कप्पा हर हफ्ते बदल जाता है। आप अपने लेबलर्स की जाँच करते हैं। वे ठीक हैं। समस्या आपके कैलिब्रेशन सेट में है।

कोहेन का कप्पा फॉर्मूला (Po - Pe) / (1 - Pe) है। Po प्रेक्षित सहमति (observed agreement) है। Pe संयोग से अपेक्षित सहमति (expected agreement by chance) है। Pe आपके सेट में लेबल के मिश्रण (label mix) पर निर्भर करता है।

पिछले हफ्ते, 70% ट्रेसेस स्वीकार्य थे। इस हफ्ते, 50% स्वीकार्य हैं। Pe बदल जाता है। कप्पा तब भी बदल जाता है जब आपके लेबलर्स वही काम कर रहे हों।

इन तीन चीजों को आजमाएं:

  • टाइम विंडोज़ (time windows) में सैंपलिंग करें। एक रोलिंग 4-हफ्ते की विंडो का उपयोग करें। यह एक ही हफ्ते को Pe पर हावी होने से रोकता है।
  • प्रति-क्लास प्रिसिजन (per-class precision) और रिकॉल (recall) का उपयोग करें। एक अकेला नंबर सच्चाई को छुपा देता है। प्रति-क्लास मेट्रिक्स दिखाते हैं कि असहमति कहाँ हो रही है।
  • 100 से कम ट्रेसेस वाले सेट के लिए विल्सन कॉन्फिडेंस इंटरवल (Wilson confidence intervals) का उपयोग करें। यह पॉइंट एस्टीमेट्स (point estimates) की तुलना में अधिक स्थिर है।

स्रोत: https://dev.to/maya_andersson_dev/why-cohens-kappa-drifts-week-to-week-and-what-to-do-about-it-2alh वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi