free energy principle : perception, action and inference of another's mind

こちらの文献をパラパラとめくる。

  • 生物の目的は感覚入力の予測能力を最大化すること。
  • 言い換え、感覚入力のサプライズを最小化すること
    • サプライズとは、予測の難しさ
  • 不完全な感覚と、それを補うための推論を繰り返す。
  • 推論の際に、生成過程を内部に実装して、それを使って推論している。
    • 推論の際に、参考にする分布
  • 無意識におこなっている推論を、情報理論ベイズ推論の枠組みで定式化する。

じゃあ、自由エネルギーとは?

  • 感覚入力の予測の困難さを表すサプライズの上限が、変分自由エネルギーとなること
  • サプライズの最小化

数理の人にとって、自由エネルギー原理とは?

  • 脳の中あるいは境界で起きる事柄は、感覚入力のサプライズを少なくする。
  • 感覚入力のベクトルをsとする
  •  S(\tilde{s}) = - \text{log}p(\tilde{s} | m)
  • 感覚入力を受け取る側が持っているモデルに条件づけされた、感覚入力の生成分布
  • どれくらい起こりにくいかを表す。

外界の生成過程を数理的に説明すると?

  • 知覚=内部モデルの最適化
  • サプライズの期待値
    • Jensen's inequality
      •  \phi(\text{E} [ X ] ) \leq \text{E} [ \phi(X) ]  
    • サプライズについて、m(モデル構造)によって周辺化(期待値をとる)と、シャノンエントロピーとなる。
    •  \mathbb{E}_{p(\tilde{s})} [ - \text{log}p(\tilde{s}) ]
    • Jensen's inequalityより、サプライズの期待値が、シャノンエントロピーより小さくならない。
  • 知覚の目的は、
  •  \mathbb{E}_{p(\tilde{s})} [ - \text{log}p(\tilde{s} | m) + \text{log}p(\tilde{s} ) ] の最小化
  • 生成過程について
    • 隠れ状態xの時間発展の確率微分方程式
      •  D \tilde{x} = f (\tilde{x}, \tilde{v}, \theta, a) + \tilde{z}
    • 感覚入力
      •  g(\tilde{x}, \tilde{v}, \theta, a) + \tilde{\omega}
    • generative model
      •  p(\tilde{s}, u, \theta | m) = p(\tilde{s} |\tilde{x}, \tilde{v} , \theta, m)p(\tilde{x}|\tilde{v} , \theta, m)p(\tilde{v}|m) p(\theta|m) 
  • 神経学とのアナロジーがある。
    • 鳥の歌の学習では、神経活動が、隠れ変数uを表し、シナプス結合強度がパラメータθを表す。
    • 神経活動の変化を、推論
    • シナプス結合の変化を、学習と言う。

もう少ししっかりと数理的な背景を見ていこう。特に、推論及び学習の部分がまだ、数理的な説明がないので、そこが欲しい。

サプライズの上限値、変分自由エネルギーについて、次から入る

  • サプライズ S = - \text{log} (\int p(\tilde{s}, u, \theta | m) du d \theta )
  • この計算が面倒なので、代理的に、Variational free energyを使う。
  • variational free energy
    •  F (\tilde{s}, q(u, \theta)) = S + D_{\text{KL}} [ q(u, \theta) || p(u, \theta | \tilde{s} , m) ]
    • Fの最小値を与える q(u, \theta ) は、Sの最小値を与えるので、良いコスト関数となっている。

どうして、変分自由エネルギーを使っているかと、サプライズとの関係性、サプライズの重要性がわかった。

ここからは、知覚とは何かと言うことについて、推論・学習、最適化という観点から入っていくことにする。

 

  • blind source separation
    • ブラインド信号源分離、複数の入力を受けたときに、信号を分離して、興味ある情報を抽出する方法
    • カクテルパーティ効果と同様

推論と学習をどうやって更新しているか。

  • 変分ベイズ
    • 変分自由エネルギーの最適化問題
    •  q(u, \theta ) = q(u) q(\theta ) という互いに独立であるという仮定を置く
    • ある種の平均場近似
    • 変分法的な考えで
    • inference
      •  \dot{u} - D u \propto - \frac{\partial F(\tilde{s}, u, \theta)}{\partial u}
    • variational free action
      • これで、パラメータを定める。
    • Learning
      •  \dot{\theta}  \propto \frac{\partial \overline{F}( \theta)}{\partial \theta}

ここでの更新則を具体的なモデルとして扱い、neural networkに落とし込むためのお作法をこの後に書いてある。

そこの、generalized Gaussian filteringと、Markov decision processが書いてある。

  • ガウス分布は、形として、二次関数的な意味合いが強い。
    • つまり、平均という名の軸と、分散という名の、2次の項の係数をちょっといじったもの
  • 今回求めたい対象の、期待値の類を、最頻値の周りで2次のTaylor expansionをして、近似する。
  • つまり、
    •  q(u) = \textit{N} [ u, C_u ]
    •  q(\theta ) = \textit{N} [ \theta, C_{\theta} ]
  • 同様に、ガウス分布で近似していくと、いい感じの更新則が出来る。

離散系モデルとしての実装について、

マルコフ決定過程で、確率微分方程式を離散的な形で近似して、隠れ状態などのダイナミクスを表現する。

  • 具体的な形の、Generative model

ここまで、知覚と推論・学習について扱ってきたが、行動方策の最適化についてここから扱う。

 

一旦ここまでをまとめておこう。

我々の知覚において、得られる情報量みたいなものを定義した、これがサプライズ

それを最小化する方向に推論・学習なる、アルゴリズムを組むことで、外界を認識している。

変分自由エネルギーが、このサプライズの計算において使える。

 

行動については、次の記事で見ていくことにする。