medical-science.hatenablog.com
こちらの記事の続きを書いていく。
前回の記事では、
自由エネルギー原理の序論を扱った。
具体的には、
サプライズなる、感覚入力の予測の難しさ、を定義する。
そして、外界と、それの内部モデル、感覚からなる、系のダイナミクスを考えた。
それで、変分自由エネルギーなる、サプライズと関連したコスト関数を定義した。
このコスト関数と、ダイナミクスの状態変数、パラメータに関する勾配を考えて、それに従って、それらの量を更新していく。
これが推論及び学習の仕方である。
ここからは、行動と、行動方策の最適化について調べていく。
前回の記事同様、こちらの文献を扱う。
- そもそも行動は、今の自由エネルギーの最小化を目指す方向に、決められる。
- 鳥の歌の例
- 脳を外界に近づけるか、脳に外界を近づけるか。
- つまり、外界に適応していくのか、外界を変容していくのか(こっちが能動的推論)
行動とは何ぞや、という点はここで理解した。
では、その行動の決め方、最適化手法について続いていく。
- 行動方策の最適化
- 知覚の時と、行動決定の時では意味合いが違う。
- 知覚の時は、
を
に近づけたい
- 行動は、
自体を小さくしたい。
- 行動方策は、期待されるサプライズを最小化するように決定される
- それで、期待自由エネルギーを定義する
- expected free energy
- policy selection
- 変分法的に考える
- このあたりのことは、強化学習と関連してくる。
後のセクションでは、他者の思考について扱っている。これも面白そうなので、近々戻っていく。