𝗪𝗵𝘆 𝗖𝗼𝗵𝗲𝗻𝘀 𝗞𝗮𝗽𝗽𝗮 𝗗𝗿𝗶𝗳𝘁𝘀

Translated for your language. Read the original.

AI-assisted draft.

3 สัปดาห์ที่ผ่านมา1min read

ทำไมค่า Cohen's Kappa ถึงเกิดการ Drift

ค่า kappa ของ LLM-as-judge ของคุณเปลี่ยนไปทุกสัปดาห์ คุณตรวจสอบผู้ทำเลเบล (labellers) แล้ว พวกเขาก็ทำงานได้ปกติ แต่ปัญหาจริงๆ คือชุดข้อมูลสำหรับปรับจูน (calibration set) ของคุณ

สูตรของ Cohen's kappa คือ (Po - Pe) / (1 - Pe). Po คือความสอดคล้องที่สังเกตได้ (observed agreement) Pe คือความสอดคล้องที่คาดหวังจากความบังเอิญ (expected agreement by chance) Pe ขึ้นอยู่กับสัดส่วนของเลเบล (label mix) ในชุดข้อมูลของคุณ

สัปดาห์ที่แล้ว 70% ของ traces อยู่ในเกณฑ์ที่ยอมรับได้ แต่สัปดาห์นี้เหลือเพียง 50% ทำให้ค่า Pe เปลี่ยนไป ส่งผลให้ค่า Kappa ขยับ ทั้งที่ผู้ทำเลเบลยังคงทำงานด้วยมาตรฐานเดิม

ลองทำ 3 สิ่งนี้:

สุ่มตัวอย่างแบบครอบคลุมช่วงเวลา (Sample across time windows) โดยใช้หน้าต่างเวลาแบบเลื่อน (rolling 4-week window) วิธีนี้จะช่วยป้องกันไม่ให้ข้อมูลของสัปดาห์ใดสัปดาห์หนึ่งมีอิทธิพลต่อค่า Pe มากเกินไป
ใช้ค่า precision และ recall แยกตามคลาส (per-class) เพราะตัวเลขเพียงค่าเดียวอาจบดบังความจริง แต่เมทริกซ์แยกตามคลาสจะแสดงให้เห็นว่าความไม่สอดคล้องเกิดขึ้นที่จุดไหน
ใช้ช่วงความเชื่อมั่นแบบ Wilson (Wilson confidence intervals) สำหรับชุดข้อมูลที่มีน้อยกว่า 100 traces เนื่องจากมีความเสถียรมากกว่าการใช้ค่าประมาณจุด (point estimates)

แหล่งที่มา: https://dev.to/maya_andersson_dev/why-cohens-kappa-drifts-week-to-week-and-what-to-do-about-it-2alh ชุมชนแห่งการเรียนรู้ (ไม่บังคับ): https://t.me/GyaanSetuAi

𝗪𝗵𝘆 𝗖𝗼𝗵𝗲𝗻𝘀 𝗞𝗮𝗽𝗽𝗮 𝗗𝗿𝗶𝗳𝘁𝘀

Continue reading

ความน่าเชื่อถือของ LLM ในฐานะผู้ตัดสินในปี 2026

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

ความน่าเชื่อถือของ LLM ในฐานะผู้ตัดสินในปี 2026

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

ความมั่นใจของ Qwen 2.5 7B ไม่น่าเชื่อถือ