自由エネルギー原理入門(2/7): Sec.2 自由エネルギー原理の前提、世界設定

pooneilの脳科学論文コメント » 生理研研究会2019「脳の理論から身体・世界へ」FEP特集 » 自由エネルギー原理入門(2/7): Sec.2 自由エネルギー原理の前提、世界設定

最新版のPDFファイルが最後のエントリ：「自由エネルギー原理入門(7/7): 「Sec.0 自由エネルギー原理を数式無しで説明する」を追加」にあります。このPDFファイルを最新版としますので、これから読む方にはPDFファイルでの閲覧をオススメします。

Sec.2 自由エネルギー原理の前提、世界設定

[2-1. 前置き]

さてこれからがいよいよ本番、自由エネルギー原理(Free energy principle, FEP)についての説明を行ってゆく。FEPはUCLのKarl Fristonが提案している、知覚と行動と学習の統一原理だ。2005年のPhilos Trans R Soc Lond B Biol Sci.論文から始まって、現在まで理論的にも進歩を続けている。このうちの最新バージョンがFriston et. al. Cogn Neurosci. 2015で提案されるようになったものだ。

この最新バージョンでは、自由エネルギー原理FEPはこれまでに用いられてきた連続的な時間での表現とは別に、部分観測マルコフ決定過程POMDPにもとづいた離散的な時間で表現されるようになった。これによってFEPによれば、われわれagentは「現在の外界の状態を推測する際の(情報理論的)変分自由エネルギー $F$ (variational free energy VFE)を最小化するように知覚する」だけでなく「未来の外界の状態を推測する際の(情報理論的)期待自由エネルギー $G$ (expected free energy EFE)を最小化する行動を選択する」というように、我々の知覚と行動が定式化されるようになった。

この文書の以下のパートでは、この期待自由エネルギー $G$ をどのように導いているかについて、以下の論文を参考にまとめてみた。Fristonの論文では省略されているような、式の導出における前提について、なるたけ詳しくまとめてある。これだけ詳しいものはないのではないかという自負はあるが、それゆえに独自解釈になっている可能性もある。いったんこの文書を理解したならば次は原著論文の方に当たっていただきたい。

References

Friston et. al. Cogn Neurosci. 2015 EFEの初出。
Friston et. al. Neural Comput. 2017 EFEについてのスタンダードな記述。
Schwöbel et. al. Neural Comput. 2018 Predicted free energyの概念の提案。
Parr and Friston bioRxiv 2018 Generalized free energyの概念の提案。
Gershman arXiv 2019 VFEとEFEについての的確な整理。
Katahira et. al. PsyArXiv 2019 単純な例によるEFEの計算とretrospective surpriseの概念の提案。

[2-2. 自由エネルギー原理における世界設定]

この説明では、単純化した世界設定を用いるが、式変形においてはなるたけ近似は使わない(近似の導入をなるたけ遅らせる)という方針で行く。記号は私の以前のスライドにあるものを踏襲する。(マルコフ意思決定プロセスで使われるobservation $o$ とstate $s$ や機械学習で使われるobserved variable $x$ とhidden variable $z$ ではないので、置き換えて読んでほしい。)

本説明ではどのように $F$ および $G$ を計算するかだけを取り扱う。じっさいに生物が $F$ および $G$ を下げてゆく過程(微分方程式が必要な部分)についてはsec.1の最後で少々言及したが、以降は扱わない。

まず基本的な設定から説明しよう。

図2-1: 基本的な設定

われわれagentは外界の中に存在していて、感覚入力 $s$ と行動 $a$ を通して外界とつながっている(図2-1A)。現在観察している感覚入力 $s$ は世界の状態 $x$ から因果的に引き起こされる。Agentは世界の状態 $x$ には直接アクセスすることができない。Agentは行動 $a$ によってこの $s$ を変えることができるし、 $x$ を変えて、その変化を $s$ への変化として観測することもできる。このようにして、外界のうち、agentとの相互作用に関わっている部分が「生成プロセス」だ。

[2-3. 生成モデル $p$ と推測 $q$ ]

Agentはこの生成プロセスを持っているのではなくて、それを経験から学習した「生成モデル」 $p(x,s,a)$ を持っている。生成モデルは外界にある生成プロセスと同様に $x,s,a$ の間での因果関係のグラフ構造として表現される。このグラフ構造は

$p(x,s,a) = p(s|x,a)p(x|a)p(a)\tag{1}$

と条件付き確率の掛け算として書くことができる。図2-1Aにある矢印の関係ををより明確にするために、図2-1Bでは因子グラフ(factor graph)を使って黒四角で表示している。つまり生成モデルの本体とはこのような変換器 $B, C, D$ であり、中に入っている変数 $x,s,a$ はまだ特定されていない。

(このことを明示するためには $p(X,S,A) = p(S|X,A)p(X|A)p(A)$ と大文字 $X=\{x_1, x_2,...\}$ で表記して、特定された値と区別することもできる。ここでは式(1)の表記を使う。)

( $p()$ は生成モデルのことを指し、一般的な確率 $Prob()$ はべつものとして表記する。)

さらにagentは、時々刻々変化する $x,s,a$ についてその時その時の推測 $q(x,s,a)$ を同時確率として持っている。つまり点推定ではなく、不確定性込みで確率的な表現をしている。推測 $q$ はただの同時確率であり、生成モデル $p$ のような因果的グラフ構造は持ってない。

$q(x,s,a)\tag{2}$

Sec.1でも書いたように、推測 $q$ とはtrue posteriorを推定するapproximate posteriorであるので、 $q$ の中身は潜在変数が入る。よってじっさいの $q$ の変数は、生成モデルのうちなにが潜在変数であり、なにが観測データであるかによって決まる。

(POMDPなどの強化学習の文脈では、 $q$ を信念beliefと呼ぶけれど、ここでは知覚も含めるので「推定」と呼ぶことにする。)

Agentはイマココの潜在変数( $x,s,a$ のどれか)を推測するようにその同時分布(=推測 $q$ )を時々刻々アップデートさせてゆく。

このようにして、脳の中で行っていること(図2-1A)を生成モデル $p$ と推測 $q$ とに分けたうえで(図2-1B)、その間で定義される変分自由エネルギー $F$ と期待自由エネルギー $G$ を最小化するように $q(x,s,a)$ の分布の形をアップデートさせることが知覚( $x$ の推定)であり、行動選択( $a$ の推定)である、というのが自由エネルギー原理だ。ではどうやって $F$ , $G$ を定義するか。これがこの文書のメイントピックなので、これから順を追って説明してゆく。

なお、推測 $q$ だけでなく生成モデル $p$ を変えることによって自由エネルギーを下げることはできるが、ここでは考慮しない。つまり生成モデル $p$ は時間によっては変化しないものとする。本当は学習などによって変化しうるけど、話を簡単にしておきたいので。

[2-4. このモデルの含意]

脱線、というかある意味こちらが本題として、このモデルの含意、というか世界観についてコメントしておきたい。

正確を期すならば、ほんとうは外界がこのような因果グラフであるわけではない。あくまでagentが認識によって外界を切り分けて、因果で繋いだものを生成モデルとして持っているだけだ。外界はもっと多様で、その中で生成モデルとして切り分けることができたものを外界に投射し直したものが生成プロセスである、というほうが正しいだろう。人間には人間の、カエルにはカエルの生成モデルがある。

そういう目で見ると、推測 $q$ と生成モデル $p$ というのは、外界を $x,s,a$ という「対象」を切り分けてきたのが推測 $q$ であり、 $x,s,a$ を繋ぐ「プロセス」を切り分けてきたのが生成モデル $p$ である、という整理ができる(図2-1B)。つまり、推測 $q$ には因果グラフの矢印はないし、生成モデル $p$ は逆に矢印だけであって、中身の $x,s,a$ は推測 $q$ が決まるまでは空っぽだ。これは以前私が書いたブログ記事での、ベイトソン(さらにデビッド・マー)がいう「表象」と「プロセス」そのものであることがわかる。

生成モデル $p$ を関数と捉えるならば、推測 $q$ がそこに代入される変数だと言える。たとえば生成モデルが1次関数 $y=ax+b$ として記述される場合には、推測 $q$ とは $x$ や $y$ のことだ。では関数のパラメーター(ここでは $a$ と $b$ )は何になるだろうか？それが生成モデルのそれぞれのパーツを特定する行列のことだ。(たとえば図1-1Cでの事前分布をきめる $C$ および観察モデルをきめる $A$ ) これらは学習によってゆっくりと調整されうるstateだから、生成モデルである黒四角に入力するstateとして、生成モデルから追い出すことができる。同様に、生成モデルがなんらかの確率モデルとして記述される場合であればその形を決めるハイパーパラメータがある(たとえば正規分布なら平均 $\mu$ と分散 $\sigma^2$ についての事前分布 $p(\mu), p(\sigma^2)$ 、そしてどの確率モデルを採用するか、たとえばガウス分布なのかそれとも別のものか、の情報)。これらも生成モデルへ入力するstateと捉えることができる。このようにして生成モデルの中からstateを呼ばれうるものをどんどん外に出してゆけば、生成モデルの実体とは、どのstateを入力して、どのようにその入力を組み合わせた演算をして、どのstateを出力するか、という矢印の結節点という「関係」だけが残る。

(この説明には図が必要。)

以上のことからも、agentが内部に外界を構成する(弱い意味での表象)をする際には、推測 $q$ と生成モデル $p$ の両方が、リアルタイムで必要であるということがわかる。つまり、推測 $q$ とはイマココのstateについての推測であり、生成モデル $p$ とはイマココのprocessについての推測であるのだ。これは神経回路学会誌の「自由エネルギー原理と視覚的意識」で書いた議論を補強するだろう。

以上。それでは話を本題に戻す。

[2-5. この文章の最終目標: 現在、過去、未来を統一的に捉えた説明]

図2-1に示した生成モデルには時間が入っていなかった。生物の知覚と行動をモデル化するためには時間を考慮した生成モデルが必要だろう。そこで図2-2には現在、過去、未来を入れた最小限の生成モデルを考えてみる。(それでも複雑なので、ここでは因子グラフではなくて、因果グラフで表示してある。)

図2-2: 時間を考慮した生成モデル

話を簡単にするために、現在 $t$ 、過去 $t-1$ 、未来 $t+1$ の3つの時点だけを考える。部分観測マルコフ決定過程POMDPを仮定しているので、離散的な時間で、直前の状態のみから現在の状態が決まる。そして現在及び過去の感覚入力 $s_{t}, s_{t-1}$ だけが観察データで(灰色丸で表示)、あとはみな潜在変数(白丸で表示)として推定する必要がある。

現在観察している感覚入力 $s_{t}$ に基づいてその原因となる外界の状態 $x_{t}$ は直前の状態 $x_{t-1}$ と以前の行動 $a_{t-1}$ から決まる。つまり自分のstateというものを持っている。それに対して感覚入力 $s_{t}$ はそのときの外界の状態 $x_{t}$ と直前の行動 $a_{t-1}$ によってそのつど因果的に決まる。つまり感覚入力 $s$ は自分のstateを持っていない。(なんだか仏教の知覚感を模しているかのようだ。)

この文書の最終目的は、このような現在、過去、未来を統一的に扱う自由エネルギー原理の式を導出することだ。たとえばそれはSchwöbel et. al.のNeural Comput. 2018で扱われている。でもいきなりでは難しいので、次のセクション3では、この生成モデルのうち、部分部分を切り取ったうえで、それぞれどのようにモデル化してゆくかを順番に見ていくことにする。

« 前の記事へ

次の記事へ »