Information Geometry 1st

駆け足で学ぶ情報幾何。

教材はこちら。

ds9.jaist.ac.jp

情報幾何とは、情報理論統計学を、微分幾何という観点で考える学問である(つまり、微分幾何のお勉強がNecessary)

確率分布を幾何学的に捉えてみたい。確率分布同士の「距離」のような考え方が欲しい。例えば、2つの正規分布の2つの組があり、平均値はどちらも、AとBの組だが、分散が他方は1と1、もう片方が10と10のとき、重なり合う部分は違う。分散の大小によって、分布の距離が変わる(つまり、ゆがむ)空間だと、2組の違いが判別出来てよい。

 

確率分布を幾何学的に見る ~ 確率分布に合う幾何学的構造を決める

そのためには、確率分布の族を多様体として捉える、そして、幾何学的な要素を決める。

ある事象Xがある時、その発生する確率を与える関数を確率分布という。確率分布がn個の実数パラメーターεによって与えられる時、パラメーターの組み合わせを考慮して、確率分布p(X, ε)全体の集合、S={p(X, ε)}を統計的モデルといい、Sをn次元多様体としてみなす。

統計的モデルには正規分布ポアソン分布、離散分布などがある。パラメーターが変化すると、確率分布がどのように変わるかを、幾何学的に捉えるのが、情報幾何のお仕事である。

多様体上の1点(1つの確率分布に相当する)に対して、n個の実数値を対応付ける関数を座標系と呼ぶ。

接空間とは多様体上の1点の近傍における微少線形空間のこと。

接ベクトルとは、多様体Sの点Pを通る曲線の、点Pでの方向成分のこと。接ベクトルの集合は接空間となる。

自然基底とはパラメーターで偏微分する演算子で表される。

 

物の距離を測定する時には、物差しがいる。物差しのことを計量とよび、接空間のなかでの物差しを指す。計量には、内積がよく用いられる。内積というものは各店ごとに異なる。

求めたいのは確率分布間の距離なので、距離の近い ~ 似た分布 というものが欲しい。

計量には普遍性が欲しい。

Fisher計量とは、確率分布の対数をi, j番目のパラメーターでそれぞれ偏微分したものの期待値を求めると算出出来る。

ja.wikipedia.org

Cramer-Raoの式などがあるそうだ。何らかの情報を得て、母数を復元する時に、この式では、いかなる不偏推定量であったとしても、元データの情報以上に良い推定をするはできない、ということを表す式だ。 

 

情報幾何は面白い。To be continued.