കോഹൻസ് കപ്പ (Cohen's Kappa) എന്തുകൊണ്ട് മാറിക്കൊണ്ടിരിക്കുന്നു

നിങ്ങളുടെ LLM-as-judge കപ്പ ഓരോ ആഴ്ചയും മാറിക്കൊണ്ടിരിക്കുന്നു. നിങ്ങൾ ലേബലർമാരെ പരിശോധിക്കുന്നു, അവർ കൃത്യമാണ്. എന്നാൽ പ്രശ്നം നിങ്ങളുടെ കാലിബ്രേഷൻ സെറ്റിലാണ് (calibration set).

കോഹൻസ് കപ്പ ഫോർമുല (Po - Pe) / (1 - Pe) ആണ്. Po എന്നത് നിരീക്ഷിക്കപ്പെട്ട യോജിപ്പാണ് (observed agreement). Pe എന്നത് യാദൃശ്ചികമായി ഉണ്ടാകാൻ സാധ്യതയുള്ള യോജിപ്പാണ് (expected agreement by chance). Pe എന്നത് നിങ്ങളുടെ സെറ്റിലെ ലേബലുകളുടെ മിശ്രിതത്തെ (label mix) ആശ്രയിച്ചിരിക്കുന്നു.

കഴിഞ്ഞ ആഴ്ച, 70% ട്രേസുകളും (traces) സ്വീകാര്യമായിരുന്നു. ഈ ആഴ്ച, 50% മാത്രമാണ് സ്വീകാര്യം. Pe മാറുന്നു. ലേബലർമാർ ഒരേ രീതിയിൽ തന്നെ ജോലി ചെയ്താലും കപ്പ മാറിക്കൊണ്ടിരിക്കും.

ഈ മൂന്ന് കാര്യങ്ങൾ പരീക്ഷിച്ചു നോക്കൂ:

  • സമയ പരിധികളിലുടനീളം സാമ്പിൾ എടുക്കുക (Sample across time windows). ഒരു റോളിംഗ് 4-ആഴ്ച വിൻഡോ (rolling 4-week window) ഉപയോഗിക്കുക. ഇത് ഒരു ആഴ്ചയിലെ ഡാറ്റ മാത്രം Pe-യെ സ്വാധീനിക്കുന്നത് തടയുന്നു.
  • ഓരോ ക്ലാസിനും പ്രത്യേകം പ്രിസിഷനും റീകോളിനും (per-class precision and recall) ഉപയോഗിക്കുക. ഒരു ഒറ്റ സംഖ്യ സത്യം മറച്ചുവെച്ചേക്കാം. ഓരോ ക്ലാസിനും പ്രത്യേകം കണക്കാക്കുന്ന മെട്രിക്സുകൾ (per-class metrics) യോജിപ്പില്ലാത്ത ഇടങ്ങൾ കൃത്യമായി കാണിച്ചുതരുന്നു.
  • 100-ൽ താഴെ ട്രേസുകൾ മാത്രമുള്ള സെറ്റുകൾക്കായി വിൽസൺ കോൺഫിഡൻസ് ഇന്റർവലുകൾ (Wilson confidence intervals) ഉപയോഗിക്കുക. പോയിന്റ് എസ്റ്റിമേറ്റുകളെക്കാൾ (point estimates) ഇത് കൂടുതൽ സ്ഥിരതയുള്ളതാണ്.

സ്രോതസ്സ്: https://dev.to/maya_andersson_dev/why-cohens-kappa-drifts-week-to-week-and-what-to-do-about-it-2alh ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi