कोहेन्स कप्पा (Cohen's Kappa) का बदलतो
तुमचा LLM-as-judge कप्पा दर आठवड्याला बदलतो. तुम्ही तुमच्या लेबलर्सची (labellers) तपासणी करता. ते ठीक आहेत. समस्या तुमच्या कॅलिब्रेशन सेटमध्ये (calibration set) आहे.
कोहेन्स कप्पाचे सूत्र (Po - Pe) / (1 - Pe) असे आहे. Po म्हणजे प्रत्यक्ष आढळलेला करार (observed agreement). Pe म्हणजे योगायोगाने अपेक्षित असलेला करार (expected agreement by chance). Pe तुमच्या सेटमधील लेबलच्या मिश्रणावर (label mix) अवलंबून असतो.
गेल्या आठवड्यात, 70% ट्रेसेस (traces) स्वीकारार्ह होते. या आठवड्यात, 50% स्वीकारार्ह आहेत. Pe बदलतो. तुमचे लेबलर्स तेच काम करत असूनही कप्पा बदलतो.
या तीन गोष्टी करून पहा:
- टाइम विंडोजमध्ये (time windows) सॅम्पलिंग करा. रोलिंग 4-वीक विंडो वापरा. यामुळे एका आठवड्याचा Pe वर जास्त प्रभाव पडणार नाही.
- प्रति-वर्ग (per-class) प्रिसिजन (precision) आणि रिकॉल (recall) वापरा. एकच संख्या सत्य लपवते. प्रति-वर्ग मेट्रिक्स (per-class metrics) मतभेद कुठे होतात हे दर्शवतात.
- 100 पेक्षा कमी ट्रेसेस असलेल्या सेटसाठी विल्सन कॉन्फिडन्स इंटरव्हल्स (Wilson confidence intervals) वापरा. हे पॉइंट एस्टिमेट्सपेक्षा (point estimates) अधिक स्थिर असते.
स्रोत: https://dev.to/maya_andersson_dev/why-cohens-kappa-drifts-week-to-week-and-what-to-do-about-it-2alh वैकल्पिक शिक्षण समुदाय: https://t.me/GyaanSetuAi