情報幾何関連の回歴

物理は体系だっていて、かなり厳密なスタイルだ。

生物はモゾモゾしていて、体系がまだない。

もしかしてだが、チャンスは生物にあるのかもしれない。

 

情報幾何(統計学情報理論、確率理論、大偏差理論の交差点)

参考文献はこちら

 

統計多様体と指数型分布族

(確率分布を要素と持つ多様体

測度空間 \Omega, F, \muで、

 P(\Omega, F, \mu ) = \{ p | p : \Omega \rightarrow \mathbb{R}^{+}, \int_\Omega pd\mu = 1 \}

が測度空間上の確率密度関数の集合

 

その部分集合Mで、 \theta = (\theta^1, \cdots, \theta^n)という座標系を用意すると、Mは統計多様体っぽくなる(十分な滑らかさが厳密には必要)。

例えば、Gauss分布の集合は、平均と分散の2つのパラメータについて、2次元多様体と思える。

また、他の分布についても、全体での積分値が1になるという制約があることを考慮する。

(無限次元Banach多様体については、後に記述する)

 

次に統計的多様体の中の、特徴である指数型分布族について

統計的多様体Mについて、

 p_\theta (\omega ) = \exp{C(\omega + \sum_{i=1}^{n}\theta^i F_i(\omega ) - \psi(\theta )}

という形で表せたら、指数型分布族であるという。

正の確率分布全体は、指数型分布族である。

指数型分布族のパラメータの塊を、自然座標系という。

 

 

統計多様体から微分幾何学の話へ。

Fisher計量

統計多様体 M = \{ p_\theta |\theta \in \Theta \}について

 g_{ij}(\theta ) = E_\theta [ \partial_i l_\theta \partial_j l_\theta ]

を成分とする行列を、Fisher情報行列という。この行列が多様体の各点において定まる。

ここで、 l_\theta = \log{p_\theta}

言い換えると、確率密度関数の対数のパラメータによる偏微分を全てのパラメータに対して用意し、それらの積の期待値を成分にする行列。

この行列は半正定値である、2階共変テンソルとなっている。このRiemann計量をFisher計量という。

 

実は、Fisher計量の定義の仕方は別の方法もある。 g_{ij} = - E_\theta [ \partial_i \partial_j l_\theta ]

 

 g_{ij}(\theta ) = 4 \int \partial_i \sqrt{p_\theta} \partial_j \sqrt{p_\theta} d\mu という性質もあり、これによってある球面の計量に一致する。

 

Fisher計量の不変性があって、データや測度(dominating measure)の変換に対して、Fisher計量が不変である。つまり、最初の測度空間の部分を変更しようとしまいと、パラメータに依存しないなら、Fisher計量は変わらない、ということ。

 

 

α接続について

今までは統計多様体とその局所的な情報であるFisher計量について見てきた。

この局所的な情報同士がどう繋がっていくかが、全体の理解のために必要である。

affine接続、共変微分、接続係数

"""

∇に対し、affine座標系であるとは、接続係数が0となること。∇平行

∇が平坦であることは、∇-affineであること。

"""

各点の接ベクトルを考える写像を、ベクトル場という。

m個の関数を使って、 X = \sum_{i = 1}^{m}X^i \partial_i

と変換する。

ここで、2つのベクトル場を、1つのベクトル場に対応させる写像を考える。(共変微分

 \nabla_X Y において、接続係数で表現できるとき、あファイン接続という。

こういう接続の仕方によって、ちょっとだけ離れた2点の接空間の間の線形な対応が得られる。

ここで、接続係数をαなるパラメータで特徴づけた形を考える。そういう接続の仕方をα接続という。

その要素に、e接続やm接続がある。

 

双対性とKL divergenceがある。