𝗪𝗵𝘆 𝗖𝗼𝗵𝗲𝗻𝘀 𝗞𝗮𝗽𝗽𝗮 𝗗𝗿𝗶𝗳𝘁𝘀
LLM-as-judge의 카파 값이 매주 변합니다. 레이블러(labellers)를 확인해 봐도 문제는 없습니다. 문제는 캘리브레이션 세트(calibration set)에 있습니다.
코헨 카파(Cohen's kappa) 공식은 (Po - Pe) / (1 - Pe)입니다. Po는 관찰된 일치도(observed agreement)입니다. Pe는 우연에 의한 기대 일치도(expected agreement by chance)입니다. Pe는 세트 내의 레이블 구성(label mix)에 따라 달라집니다.
지난주에는 트레이스(traces)의 70%가 수용 가능(acceptable)했습니다. 이번 주에는 50%가 수용 가능합니다. Pe가 변합니다. 레이블러가 동일한 작업을 수행하더라도 카파 값은 변동합니다.
다음 세 가지 방법을 시도해 보세요:
- 시간 창(time windows)에 걸쳐 샘플링하세요. 4주 이동 창(rolling 4-week window)을 사용하면 특정 주가 Pe에 지배적인 영향을 미치는 것을 방지할 수 있습니다.
- 클래스별 정밀도(precision)와 재현율(recall)을 사용하세요. 단일 수치는 실상을 가릴 수 있습니다. 클래스별 지표는 불일치가 어디에서 발생하는지 보여줍니다.
- 트레이스가 100개 미만인 세트에는 윌슨 신뢰 구간(Wilson confidence intervals)을 사용하세요. 이는 점 추정치(point estimates)보다 더 안정적입니다.
Source: https://dev.to/maya_andersson_dev/why-cohens-kappa-drifts-week-to-week-and-what-to-do-about-it-2alh Optional learning community: https://t.me/GyaanSetuAi