Cohen's Kappa
일반적으로 카파 상관 계수는 코헨 (Cohen)의 카파 상관 계수 (Kappa)를 가리키며 이는 2명의 관찰자 (또는 평가자)의 신뢰도를 확보하기위한 확률로서 평가 지표로 사용되는 상관 계수이다. 2명 이상에서 신뢰도를 얻기 위해서는 플레이스 카파 상관 계수 (Fleiss' kappa)를 사용할 수 있다.
이 메트릭은 두 평가자 (ex: 지상 실측값, 인간 레이블링 및 추정자) 간의 일치를 측정하는 것이 목표이다. 평가자가 완전한 인식 없이 (일반적으로 우연히) 일치할 가능성을 고려한다. 계산은 다음과 같다.
두 값은 평가자 간에 관측된 합치도와 확률 합치도를 각각 나타낸다. 계수 κ은 0 (합치 없음)과 1 (합치 합계) 사이에 제한된다. 실제로, pobserved = 1과 pchance = 0, ω = 1인 반면 pobserved = 0과 pchance = 0, k = 0이다. 모든 중간 값은 특정 선택이나 우연에 의해 야기될 수 있는 불일치를 나타낸다. 따라서, 이 메트릭은 표준 정확도 계산에서 랜덤 선택의 가능한 영향을 평가해야 할 때 유용하다. 예를 들어, 분류기는 90%의 정확도를 나타낼 수 있지만 예측의 60%는 랜덤화되어 있다. 확률이라는 용어는 정확한 확률 예측의 가능성을 고려하고 비례적으로 추정치를 수정한다. 실제 값과 로지스틱 회귀를 사용하여 코헨의 카파 계수를 계산하는 방법을 보여준다.
from sklearn.metrics import cohen_kappa_score
print(cohen_kappa_score(Y_test, lr.predict(X_test)))
0.936
이 값은 확률 합치의 확률이 거의 무시할 수 있음을 나타낸다. 따라서 추정기를 완전히 신뢰할 수 있다. 일반적으로 κ > 0.8일 때는 합치도가 매우 높은 반면 0.4에서 0.8 사이의 값은 불확실성이 있는 이산 합치를 나타낸다. 낮은 결과는 거의 완전한 불일치를 보여주며 추정기를 신뢰할 수 없다.
이 메트릭과 이진 혼동 행렬 사이에는 강력한 관계가 있다. 사실, 이 경우 다음과 같은 결과를 얻었다.
[[61 1]
[ 3 60]]
TP = 61, FN = 1, FP = 3, TN = 60이 있다. Cohen's Kappa의 모수는 다음과 같이 계산된다.
확률 합치의 확률은 ppositive와 pnegative로 분할되어야 한다. 혼동 행렬을 관찰하고 몇 가지 기본 확률 규칙을 적용하면 두 경우 모두 두 평가자가 임의의 양/음 레이블을 출력하는 확률의 곱을 고려해야 한다는 것을 쉽게 이해할 수 있다. 첫 번째 경우에는 다음과 같은 이점이 있다.
확률 이론에 대한 자세한 지식이 없는 독자의 경우, p 양수 = p1positive · p2positive이고 위첨자는 비율을 나타낸다. 따라서, 추정기에 대한 실측값을 고려할 때 첫 번째 항은 총 참 양의 확률 (TP + FN)을 나타내며 두 번째 항은 총 예측 양의 확률 (TP + FP)을 나타낸다. 같은 방법으로 pnegative를 얻는다.
따라서, 코헨의 카파 계수는 다음과 같이 된다.
'Statistics' 카테고리의 다른 글
피어슨 상관 계수 (Pearson correlation coefficient) (0) | 2023.07.13 |
---|---|
급내 상관 계수 (Intraclass Correlation Coefficients) (0) | 2023.07.12 |
유의 확률 (P-Value) (0) | 2023.07.03 |
Bland–Altman plot (0) | 2023.06.26 |
통계학 (Statistics) (0) | 2022.05.19 |