情報幾何学に(またもや)入門する

情報幾何にこのブログでなんども入門しているが、今回は完結させる。

役に立ったサイトは、これそれあれの3つである。

今から書くことは、厳密さよりも考え方を重視したものだ。表現は筆者用のものである。

  • 多様体という、高次元の曲がった空間で局所座標系を持つものがある。
  • 接ベクトル空間といって、多様体のある点での接超平面がある。接ベクトルは微分作用素からなり、(接線は微分と繋がるイメージ)、接ベクトルが接ベクトル空間の基底。
  • 多様体の各点ごとに、接ベクトルを選んだものを接ベクトル場という。(多様体にベクトルがびっしりと張り付いている)
  • リーマン計量といって、各点ごとに内積が張り付いている。一般の内積は、正値2次形式で、正値対象行列である。
  • 多様体上の微分規則をアファイン接続、共変微分という。アファイン接続と相対論は絡んでくる(重力は空間の曲がり方だとして、曲がった空間の話で出てくる。こちらの記事は関連する) Christoffel記号が出てくる。曲線cが測地線であるとは、 \nabla_{\dot{c}}\dot{c} = 0 が成立することである。速度が曲線に沿って変化しない、という意味みたいだ(最初の \dot{c}が接ベクトルで、後の \dot{c}微分したもの、つまり速度に値するので、速度は一定です、という意味合い)
  • ここまで微分幾何学。ここから、それを統計モデルと組み合わせる。
  • 統計モデルとは、パラメータが各点に張り付いていて、確率密度関数が各点に対応する、多様体と見なせる。
  • 統計モデルが多様体となるためには、1)パラメータに関して確率分布のSupportが変化せず、2)パラメータ空間が実数^nの開集合で、3)統計モデルが識別可能で、4)ξ→p(x;ξ)はC^4級で、5)微分積分の順序交換可能、がある。
  • リーマン計量の仲間として、Fisher計量がある。 g_{ij}^F(\xi) = \mathbb{E}_p[\partial_i l_\xi \partial_j l_\xi]  l(エル)は \log{p(x; \xi)}。統計モデルの各点にFisher計量が張り付いている。Fisher計量に注目するのは、クラメール・ラオの不等式で、N個のサンプルからのξの推定量の分散の下限について、 Var[ \bar{\xi}] \geq \frac{1}{N} G^{-1}(\xi)が成り立ち、散らばり方を表しているから。
  • Fisher計量は有界で、C^4級、正定値である。
  • 統計モデルのアファイン接続として、α-接続(曲がった空間の微分)がある。 \Gamma_{ij,k}^{(\alpha)}(\xi) = \mathbb{E}[(\partial_i \partial_j l_\xi + \frac{1-\alpha}{2} \partial_i l_\xi \partial_j l_\xi )(\partial_k l_\xi\ ここで、αの値によって、性質が変わる。0なら、Levi-Civita接続といい、通常のアファイン接続となり、一般相対論にも絡む。しかし、±1のときは、それぞれ指数型接続、混合型接続となる。
  • 双対接続や、不変統計多様体
  • 統計モデルが指数型分布族であるとは S_e = \{ p(x;\theta) | p(x;\theta) = exp[C(x) + \Sigma_{i=1}^n \theta^i F_i(x) - \psi(\theta)]\} 正規分布や離散標本空間、ベルヌーイ分布も扱える。
  • 曲率テンソル場と捩率テンソル場。 R(X, Y)Z = \nabla_X \nabla_Y Z - \nabla_Y \nabla_X Z - \nabla_{[X,Y]} Z \nabla_X Y - \nabla_Y X - [X, Y]  とする。平坦であるとは、曲率もなく、捩れもない、ということ R = T = 0が成立する。
  •  \nabla^{*} \nablaのgに対する双対接続であるとは、 X_g(Y, Z) = g(\nabla_X Y , Z) + g(Y, \nabla_X^{*} Z)である。∇が平坦なら、双対接続の他方も平坦となる。 (M, g, \nabla, \nabla^{*})が双対平坦空間であるとは、∇が平坦なアファイン接続であることだ。
  • ∇が平坦なアファイン接続であるなら、M上の局所座標系で、接続係数 \Gamma_{ij}^{\nabla k} = 0を満たす \{\theta^i\}が存在する。この座標系をアファイン座標系という。
  • 双対座標系 \{ \eta_i \}で、 g(\frac{\partial}{\partial \theta^i}, \frac{\partial}{\partial \eta_j}) = \delta_i^jを見たす双対なアファイン座標系が存在。(∇アファイン座標系と、∇*アファイン座標系で、一対一で対応している感じ!)
  • 双対アファイン座標系を導入すると、Legendre変換が登場する。 \frac{\partial \psi}{\partial \theta^i} = \eta_i, \quad \frac{\partial \phi}{\partial \eta_i} = \theta^i, \quad \psi(p)+\phi(p) - \Sigma_{i=1}^m \theta^i(p)\eta_i(p) =0
  • また、リーマン計量についても、 g_{ij} = \frac{\partial^2 \psi}{\partial \theta^i \theta^j}, \quad g^{ij} = \frac{\partial^2 \phi}{\partial \eta_i \eta_j} これから、Hesse多様体(双対な多様体を合わせていう)や、統計多様体(それの発展版?今はイメージわかない)がある。
  • 双対平坦空間において、 D(p,q) = \psi(p)+\phi(q) - \Sigma_{i=1}^n \theta^i(p)\eta_i(q)を正準ダイバージェンスという。これはアファイン座標系の取り方に依存しない。pとqを入れ替えると、∇*ダイバージェンスとなる。ここで、拡張Pythagorasの定理、双対平坦空間で、∇測地線と∇*測地線がqにおいて計量gに関し直交するなら、 D(p,r ) = D(p,q) + D(q,r) これから、 射影定理なるものが出来る(イメージは垂線の長さ(に対応する関数)が停留点となる場所で、計量gに関して直交する、というもの。
  • α=1のとき、ダイバージェンスは、Kullback-Leiblerダイバージェンス D_{KL} (p(x;\theta) , r(x;\theta^{'})) = \int_\Omega p(x;\theta) log\frac{p(x;\theta)}{r(x;\theta^{'})}dxとなる、KLダイバージェンスは不変統計多様体 S, \nabla^{(m)}, g^F)を誘導する。
  • 最尤推定量の幾何学として、尤度最大=KLダイバージェンスが最小である、ということ。それと指数型分布族が扱いやすい(なぜならe平坦な部分空間とm射影、m平坦な部分空間にはe射影を組み合わせて(これらは一意的)推定が出来るから、 \eta_i = \mathbb{E}_\theta [F_i(x)]を利用できる)
  • 後は、機械学習などでの事例なので、わかったつもりになっておく。

バイバイ!