ただのメモ

他の人に見せても良い方のメモ

Chi-square test +α

  • まず、こちらのペイパーを見る
  • χ二乗統計は、ノンパラメトリックな手法で、独立でない変数が測定されたとき、群間の差を解析するときに使う。早起きか否かと、朝食をとるか否か、など。データの分布について、頑健である。データの等分散性を必要としない。2分された双方のデータや、多重にも出来る。
  • χ二乗独立検定は、変数がnominalなら仮説検定に使える。どのカテゴリーが差に寄与したかを説明できる。
  • χ二乗検定は、ノンパラメトリックな統計手法で、分布に依存しない。ノンパラメトリックが使われるべきは、
  1. 全ての変数がnominalまたはordinal
  2. 群のサンプルサイズが等しくなくてもよい
  3. 元データは一定間隔か比で計測されたが、1)分布が歪んだあるいは尖った、2)等分散性がない、3)連続データが壊れて、複数のカテゴリーに分かれた
  • χ二乗検定での想定は、
  1. データは頻度や物の数であるべきで、%などの変換物は好ましくない
  2. カテゴリーは排他的
  3. 1つのものは、1回しか出てこない(同じものを何回も検定しない)
  4. 群は独立である。(カテゴリー同士が関係物でない)
  5. セル数が多いと、想定6を満たしにくくなる
  6. セルの値が8割で5以上であってほしい。1以下のセルがあってほしくない。サンプル数はセル数の5倍より多くあってほしい。
  • 肺炎連鎖球菌のワクチンの臨床治験について、χ二乗検定で調べた例。
  • χ二乗検定は、
  1. 表の行と列の和をとり、総和をとる
  2. 各セルごとに、(それぞれのカテゴリー同士で結果が変わらないとしたときの)期待値Eを出す。
  3.  \chi^2 = (O - E)^2/E
  4.  \chi = \Sigma_{i,j} \chi_{ij}として、m行n列の時、(m-1)(n-1)の自由度のχ分布から、p値を求め、有意水準と比較。
  • χ二乗検定以外に、2×2のみで使われるFisher's正確検定がある。ほかにも最大尤度比χ二乗検定というものがある。それは、サンプル数が少なすぎるときに使われる。
  • 検定によって、正確な結果を生むことも、タイプ1エラーやタイプ2エラーを起こすこともある。
  • χ二乗検定の強度を測る、Cramer's V testなるものがある。それは、 V = \sqrt{\chi^2/\{n(k-1)\}}とかける。これにより、相関の強さがわかる。

 

気持ち的には、2種類のものが、本来独立のものとして、仮説を立てて、実際に絡まりあってるものなら、棄却する。という流れだ。

χ二乗検定は、独立なものの集合、を2つ、A,Bを集めて、AとBの要素を1つずつのペアに対して、1つの自然数を割り当てて、作った表に対する、操作、だと読み替える。

すると離散数学の問題と絡められそうだ。(離散数学について、はこちらの記事参照、導入のもの)

離散数学を、グラフという離散数学の一部に注目して、グラフの行列表現を用いて、χ二乗検定とつなげる。

f:id:medical-science:20210902115825p:plain

これは、Nの点とMの点が繋がっているか否かを1か0かで表した行列にすると、

f:id:medical-science:20210902120208p:plain

これを、表とみなして、χの値を出す、、、という作業に入るという手法だ。

 

バイバイ!