ある2つの評価者がいて、それぞれが同じデータセットに対して、カテゴリー分類を行うとき、
それぞれの判断結果が似ているか、そうでないかを定量的に議論したい時がある。
そういう時において、使えるのがcohen's kappa coefficientである。
ここで、は、お互いの判断結果が一致している確率。N個に分ける問題なら、NかけるNの表を作って、それぞれに結果の人数を入れて、その対角成分を足し合わせるとできる。
は、たまたま一致している確率。
どうやって計算するかというと、それぞれを独立だと思って、平均場近似みたいな考え方をする。
例えば、2個のカテゴリー(甲と乙)に分ける問題なら、
片方の人が甲と判断した確率ともう片方の人が甲と判断した確率と、
片方の人が乙と判断した確率ともう片方の人が乙と判断した確率を足し合わせる。
こうして、cohen's kappa statistics, カッパ統計量は得られた。統計の世界の人は、代表値を得た時、同時に信頼区間も欲しくなる。
信頼区間
ただし、
似たような統計量として、
Scott's piや、Fleiss' kappaがある。
Scott's piは、Cohen's kappaのの計算方法が少し違うだけ。
Fleiss' kappaは、Scott's piの次元が増えたもの
N人の被験者がいて、n人の評価者が、k個のカテゴリーに分けたい問題を考える時に使える計算手法である。
kappa統計量について、調べた。評価者、という主観的なダイナミクスにどこまでアプローチできるかが、これからのkappa統計量からの発展には欠かせない。