情報幾何にこのブログでなんども入門しているが、今回は完結させる。
今から書くことは、厳密さよりも考え方を重視したものだ。表現は筆者用のものである。
- 多様体という、高次元の曲がった空間で局所座標系を持つものがある。
- 接ベクトル空間といって、多様体のある点での接超平面がある。接ベクトルは微分作用素からなり、(接線は微分と繋がるイメージ)、接ベクトルが接ベクトル空間の基底。
- 多様体の各点ごとに、接ベクトルを選んだものを接ベクトル場という。(多様体にベクトルがびっしりと張り付いている)
- リーマン計量といって、各点ごとに内積が張り付いている。一般の内積は、正値2次形式で、正値対象行列である。
- 多様体上の微分規則をアファイン接続、共変微分という。アファイン接続と相対論は絡んでくる(重力は空間の曲がり方だとして、曲がった空間の話で出てくる。こちらの記事は関連する) Christoffel記号が出てくる。曲線cが測地線であるとは、が成立することである。速度が曲線に沿って変化しない、という意味みたいだ(最初のが接ベクトルで、後のが微分したもの、つまり速度に値するので、速度は一定です、という意味合い)
- ここまで微分幾何学。ここから、それを統計モデルと組み合わせる。
- 統計モデルとは、パラメータが各点に張り付いていて、確率密度関数が各点に対応する、多様体と見なせる。
- 統計モデルが多様体となるためには、1)パラメータに関して確率分布のSupportが変化せず、2)パラメータ空間が実数^nの開集合で、3)統計モデルが識別可能で、4)ξ→p(x;ξ)はC^4級で、5)微分の積分の順序交換可能、がある。
- リーマン計量の仲間として、Fisher計量がある。 l(エル)は。統計モデルの各点にFisher計量が張り付いている。Fisher計量に注目するのは、クラメール・ラオの不等式で、N個のサンプルからのξの推定量の分散の下限について、が成り立ち、散らばり方を表しているから。
- Fisher計量は有界で、C^4級、正定値である。
- 統計モデルのアファイン接続として、α-接続(曲がった空間の微分)がある。 ここで、αの値によって、性質が変わる。0なら、Levi-Civita接続といい、通常のアファイン接続となり、一般相対論にも絡む。しかし、±1のときは、それぞれ指数型接続、混合型接続となる。
- 双対接続や、不変統計多様体。
- 統計モデルが指数型分布族であるとは 正規分布や離散標本空間、ベルヌーイ分布も扱える。
- 曲率テンソル場と捩率テンソル場。、 とする。平坦であるとは、曲率もなく、捩れもない、ということが成立する。
- がのgに対する双対接続であるとは、である。∇が平坦なら、双対接続の他方も平坦となる。が双対平坦空間であるとは、∇が平坦なアファイン接続であることだ。
- ∇が平坦なアファイン接続であるなら、M上の局所座標系で、接続係数を満たすが存在する。この座標系をアファイン座標系という。
- 双対座標系で、を見たす双対なアファイン座標系が存在。(∇アファイン座標系と、∇*アファイン座標系で、一対一で対応している感じ!)
- 双対アファイン座標系を導入すると、Legendre変換が登場する。
- また、リーマン計量についても、 これから、Hesse多様体(双対な多様体を合わせていう)や、統計多様体(それの発展版?今はイメージわかない)がある。
- 双対平坦空間において、を正準ダイバージェンスという。これはアファイン座標系の取り方に依存しない。pとqを入れ替えると、∇*ダイバージェンスとなる。ここで、拡張Pythagorasの定理、双対平坦空間で、∇測地線と∇*測地線がqにおいて計量gに関し直交するなら、 これから、 射影定理なるものが出来る(イメージは垂線の長さ(に対応する関数)が停留点となる場所で、計量gに関して直交する、というもの。
- α=1のとき、ダイバージェンスは、Kullback-Leiblerダイバージェンスとなる、KLダイバージェンスは不変統計多様体を誘導する。
- 最尤推定量の幾何学として、尤度最大=KLダイバージェンスが最小である、ということ。それと指数型分布族が扱いやすい(なぜならe平坦な部分空間とm射影、m平坦な部分空間にはe射影を組み合わせて(これらは一意的)推定が出来るから、を利用できる)
- 後は、機械学習などでの事例なので、わかったつもりになっておく。
バイバイ!