- まず、こちらのペイパーを見る
- χ二乗統計は、ノンパラメトリックな手法で、独立でない変数が測定されたとき、群間の差を解析するときに使う。早起きか否かと、朝食をとるか否か、など。データの分布について、頑健である。データの等分散性を必要としない。2分された双方のデータや、多重にも出来る。
- χ二乗独立検定は、変数がnominalなら仮説検定に使える。どのカテゴリーが差に寄与したかを説明できる。
- χ二乗検定は、ノンパラメトリックな統計手法で、分布に依存しない。ノンパラメトリックが使われるべきは、
- 全ての変数がnominalまたはordinal
- 群のサンプルサイズが等しくなくてもよい
- 元データは一定間隔か比で計測されたが、1)分布が歪んだあるいは尖った、2)等分散性がない、3)連続データが壊れて、複数のカテゴリーに分かれた
- χ二乗検定での想定は、
- データは頻度や物の数であるべきで、%などの変換物は好ましくない
- カテゴリーは排他的
- 1つのものは、1回しか出てこない(同じものを何回も検定しない)
- 群は独立である。(カテゴリー同士が関係物でない)
- セル数が多いと、想定6を満たしにくくなる
- セルの値が8割で5以上であってほしい。1以下のセルがあってほしくない。サンプル数はセル数の5倍より多くあってほしい。
- 肺炎連鎖球菌のワクチンの臨床治験について、χ二乗検定で調べた例。
- χ二乗検定は、
- 表の行と列の和をとり、総和をとる
- 各セルごとに、(それぞれのカテゴリー同士で結果が変わらないとしたときの)期待値Eを出す。
として、m行n列の時、(m-1)(n-1)の自由度のχ分布から、p値を求め、有意水準と比較。
- χ二乗検定以外に、2×2のみで使われるFisher's正確検定がある。ほかにも最大尤度比χ二乗検定というものがある。それは、サンプル数が少なすぎるときに使われる。
- 検定によって、正確な結果を生むことも、タイプ1エラーやタイプ2エラーを起こすこともある。
- χ二乗検定の強度を測る、Cramer's V testなるものがある。それは、
とかける。これにより、相関の強さがわかる。
気持ち的には、2種類のものが、本来独立のものとして、仮説を立てて、実際に絡まりあってるものなら、棄却する。という流れだ。
χ二乗検定は、独立なものの集合、を2つ、A,Bを集めて、AとBの要素を1つずつのペアに対して、1つの自然数を割り当てて、作った表に対する、操作、だと読み替える。
すると離散数学の問題と絡められそうだ。(離散数学について、はこちらの記事参照、導入のもの)
離散数学を、グラフという離散数学の一部に注目して、グラフの行列表現を用いて、χ二乗検定とつなげる。
これは、Nの点とMの点が繋がっているか否かを1か0かで表した行列にすると、
これを、表とみなして、χの値を出す、、、という作業に入るという手法だ。
バイバイ!