free energy principle, action, policy selection

 

medical-science.hatenablog.com

こちらの記事の続きを書いていく。

 

前回の記事では、

自由エネルギー原理の序論を扱った。

具体的には、

サプライズなる、感覚入力の予測の難しさ、を定義する。

そして、外界と、それの内部モデル、感覚からなる、系のダイナミクスを考えた。

それで、変分自由エネルギーなる、サプライズと関連したコスト関数を定義した。

このコスト関数と、ダイナミクスの状態変数、パラメータに関する勾配を考えて、それに従って、それらの量を更新していく。

これが推論及び学習の仕方である。

 

 

ここからは、行動と、行動方策の最適化について調べていく。

前回の記事同様、こちらの文献を扱う。

 

  • そもそも行動は、今の自由エネルギーの最小化を目指す方向に、決められる。
  • 鳥の歌の例
  • 脳を外界に近づけるか、脳に外界を近づけるか。
  • つまり、外界に適応していくのか、外界を変容していくのか(こっちが能動的推論)

行動とは何ぞや、という点はここで理解した。

では、その行動の決め方、最適化手法について続いていく。

  • 行動方策の最適化
  • 知覚の時と、行動決定の時では意味合いが違う。
  • 知覚の時は、 - \text{log} p(\tilde{s} |m) - \text{log} p(\tilde{s} )に近づけたい
  • 行動は、 - \text{log} p(\tilde{s})自体を小さくしたい。
  • 行動方策は、期待されるサプライズを最小化するように決定される
  • それで、期待自由エネルギーを定義する
  • expected free energy
    •  G(\pi, \tau) = \text{E}_{Q(s_\tau, x_\tau | \pi ) [ - \text{log} P (s_\tau, x_\tau | \tilde{s}, \pi, m ) + \text{log} Q(x_\tau | \pi ) \
  • policy selection
  • このあたりのことは、強化学習と関連してくる。

 

後のセクションでは、他者の思考について扱っている。これも面白そうなので、近々戻っていく。