코헨의 카파(Cohen's Kappa)가 드리프트되는 이유

Translated for your language. Read the original.

AI-assisted draft.

3주 전1min read

𝗪𝗵𝘆 𝗖𝗼𝗵𝗲𝗻𝘀 𝗞𝗮𝗽𝗽𝗮 𝗗𝗿𝗶𝗳𝘁𝘀

LLM-as-judge의 카파 값이 매주 변합니다. 레이블러(labellers)를 확인해 봐도 문제는 없습니다. 문제는 캘리브레이션 세트(calibration set)에 있습니다.

코헨 카파(Cohen's kappa) 공식은 (Po - Pe) / (1 - Pe)입니다. Po는 관찰된 일치도(observed agreement)입니다. Pe는 우연에 의한 기대 일치도(expected agreement by chance)입니다. Pe는 세트 내의 레이블 구성(label mix)에 따라 달라집니다.

지난주에는 트레이스(traces)의 70%가 수용 가능(acceptable)했습니다. 이번 주에는 50%가 수용 가능합니다. Pe가 변합니다. 레이블러가 동일한 작업을 수행하더라도 카파 값은 변동합니다.

다음 세 가지 방법을 시도해 보세요:

시간 창(time windows)에 걸쳐 샘플링하세요. 4주 이동 창(rolling 4-week window)을 사용하면 특정 주가 Pe에 지배적인 영향을 미치는 것을 방지할 수 있습니다.
클래스별 정밀도(precision)와 재현율(recall)을 사용하세요. 단일 수치는 실상을 가릴 수 있습니다. 클래스별 지표는 불일치가 어디에서 발생하는지 보여줍니다.
트레이스가 100개 미만인 세트에는 윌슨 신뢰 구간(Wilson confidence intervals)을 사용하세요. 이는 점 추정치(point estimates)보다 더 안정적입니다.

Source: https://dev.to/maya_andersson_dev/why-cohens-kappa-drifts-week-to-week-and-what-to-do-about-it-2alh Optional learning community: https://t.me/GyaanSetuAi

코헨의 카파(Cohen's Kappa)가 드리프트되는 이유

Continue reading

2026년 LLM Judge의 신뢰성

2026년 LLM as Judge의 신뢰성

2026년 LLM Judge의 신뢰성

AI 신뢰도 점수가 거짓인 이유

Qwen 2.5 7B의 확신도는 신뢰할 수 없습니다