لماذا يحدث انحراف في معامل كوهين كابا (Cohen's Kappa)

يتغير معامل كابا الخاص بنموذجك (LLM-as-judge) كل أسبوع. تقوم بفحص المصنفين (labellers)، وهم يؤدون عملهم بشكل جيد. المشكلة تكمن في مجموعة المعايرة (calibration set) الخاصة بك.

صيغة معامل كوهين كابا هي (Po - Pe) / (1 - Pe). Po هو الاتفاق الملحوظ (observed agreement). Pe هو الاتفاق المتوقع بالصدفة (expected agreement by chance). تعتمد Pe على مزيج التصنيفات (label mix) في مجموعتك.

في الأسبوع الماضي، كانت 70% من المسارات (traces) مقبولة. هذا الأسبوع، 50% فقط مقبولة. تتغير Pe. يتغير معامل كابا حتى لو قام المصنفون بنفس العمل تماماً.

جرب هذه الأشياء الثلاثة:

  • أخذ عينات عبر نوافذ زمنية. استخدم نافذة متحركة مدتها 4 أسابيع. هذا يمنع أسبوعاً واحداً من الهيمنة على Pe.
  • استخدم الدقة (precision) والاستدعاء (recall) لكل فئة. الرقم الواحد يخفي الحقيقة، بينما تظهر المقاييس لكل فئة أين تحدث حالات عدم الاتفاق.
  • استخدم فترات ثقة ويلسون (Wilson confidence intervals) للمجموعات التي تقل عن 100 مسار. هذا أكثر استقراراً من التقديرات النقطية (point estimates).

المصدر: https://dev.to/maya_andersson_dev/why-cohens-kappa-drifts-week-to-week-and-what-to-do-about-it-2alh مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi