ทำไมค่า Cohen's Kappa ถึงเกิดการ Drift
ค่า kappa ของ LLM-as-judge ของคุณเปลี่ยนไปทุกสัปดาห์ คุณตรวจสอบผู้ทำเลเบล (labellers) แล้ว พวกเขาก็ทำงานได้ปกติ แต่ปัญหาจริงๆ คือชุดข้อมูลสำหรับปรับจูน (calibration set) ของคุณ
สูตรของ Cohen's kappa คือ (Po - Pe) / (1 - Pe). Po คือความสอดคล้องที่สังเกตได้ (observed agreement) Pe คือความสอดคล้องที่คาดหวังจากความบังเอิญ (expected agreement by chance) Pe ขึ้นอยู่กับสัดส่วนของเลเบล (label mix) ในชุดข้อมูลของคุณ
สัปดาห์ที่แล้ว 70% ของ traces อยู่ในเกณฑ์ที่ยอมรับได้ แต่สัปดาห์นี้เหลือเพียง 50% ทำให้ค่า Pe เปลี่ยนไป ส่งผลให้ค่า Kappa ขยับ ทั้งที่ผู้ทำเลเบลยังคงทำงานด้วยมาตรฐานเดิม
ลองทำ 3 สิ่งนี้:
- สุ่มตัวอย่างแบบครอบคลุมช่วงเวลา (Sample across time windows) โดยใช้หน้าต่างเวลาแบบเลื่อน (rolling 4-week window) วิธีนี้จะช่วยป้องกันไม่ให้ข้อมูลของสัปดาห์ใดสัปดาห์หนึ่งมีอิทธิพลต่อค่า Pe มากเกินไป
- ใช้ค่า precision และ recall แยกตามคลาส (per-class) เพราะตัวเลขเพียงค่าเดียวอาจบดบังความจริง แต่เมทริกซ์แยกตามคลาสจะแสดงให้เห็นว่าความไม่สอดคล้องเกิดขึ้นที่จุดไหน
- ใช้ช่วงความเชื่อมั่นแบบ Wilson (Wilson confidence intervals) สำหรับชุดข้อมูลที่มีน้อยกว่า 100 traces เนื่องจากมีความเสถียรมากกว่าการใช้ค่าประมาณจุด (point estimates)
แหล่งที่มา: https://dev.to/maya_andersson_dev/why-cohens-kappa-drifts-week-to-week-and-what-to-do-about-it-2alh ชุมชนแห่งการเรียนรู้ (ไม่บังคับ): https://t.me/GyaanSetuAi