pooneilの脳科学論文コメント: 2019年05月アーカイブ

[月別過去ログ] 2019年05月

« 2019年04月 | 最新のページに戻る | 2019年06月 »

2019年05月27日

■ Fmaj7add9、ハートの形のサングラス(さうして、このごろ2016年9-10月版)

「「諸般の事情で」ってフレーズは使ったこと無いな。」とか豪語しておいて心配になったので「諸般の事情で pooneil」でググってみたがなにも見つからなかったので大丈夫だったっぽい。(<-人間がちっちぇえ)

好きなギターのコードはFmaj7add9かな(XX3213だから正確にはmaj7の音はオミットされてる)、とかカッコつけてみたりするけれども、じつのところギターを覚えたての頃にアリスの「チャンピオン」でかき鳴らしたEmこそが私の心の一番深いところにあることは認めざるをえない。

車で陽水とかエレカシとか流しながら、ボーカルにどのようにビブラートをかけているか注意しながら聴いていた。こう、どこか気持ちが高ぶったところで意図せず震えが出るような場面に遭遇すると、聴いているこちらも激しく心が震える。

NUVO社のプラスチック製フルート Student Fluteっての見つけた。14,500円とか安くて俄然物欲が高まった。やってる人に言わせればちゃんと教室に行って教わりましょうということになるだろうけど、遊びたいだけなんだ。

でもって遊びたいだけだったらこっちのほうがよさそう。NUVOのTooT。これなら衝動買いしても後悔しないかんじ。

例のUKギターロックがBGMとして流れる西友に行ったら、こんどはPrimal Screamのファースト・アルバムのGentle Tuesdayだった。12弦ギターキラキラのあれ。たまげたなあ。

その昔、ジッタリン・ジンの「プレゼント」の替え歌であなたがわたしにくれたものに「七福神の置き物セット」とか「ハートの形のサングラス」とか珍妙なものを入れるのが流行った。(<-ありもしない過去を捏造)

奥田民生の「息子」って父親の眼で息子を見ている歌詞だと思っていたのだけど、それにしては「別嬪さんにきっと惚れられる」とか古風な言い回しが出てくるのに言語化できない違和感を持っていた。それで、もしかして息子だった自分が父親からかけられた言葉だったのではないかということに思い至った。

そうすると、歌詞の最後に"…Farther told me"って付けられる。Aviciiのthe nightsみたいに。もしくは、息子としての視点と、(これから自分がなる)父親としての視点が交錯する歌詞として読めるかもしれないと考えた。考えただけー

車で「サイレン」かけて声のかぎり歌ってたら「存在証明を鳴らせ」のところで感極まってしまった。この曲は小さい頃の長男が好きで車中で何度も聴いた思い出の曲だが、この部分は典型的ロキノンフレーズで心に染み入らなかった。でもやっとわかった。作者は本当に存在証明を鳴らそうとしていたのだ。

「俺には世界が無自性で空である縁起のネットワークとして見えるぜ」と言えたら素晴らしいけど、頭ではわかるけど、そのように実感持って世界を見ることができるようには会得できていないと言わざるをえないのがおおいに不本意だ。

「俺には世界が、意味付与された『知覚』の手前の、純粋な『感覚』の集合に見えるぜ」と言えたらスゴイのかもしれないけれど、それを「世界」と呼んでしまった時点で、意味付与された「知覚」以降の存在に思える。脳から見ると、知覚から世界を構成するような言い方をするけど、たぶんそれは誤謬。

「俺には世界が、解釈されるのを待ちつつも、いまだ意味をなさず俺との関係を取り結ぶに至っていない、意味の可能性のかたまりに見えるぜ」と書いてみたら、あまりに当たり前のことだった。

ではそのようなつながりというのはいったい何なのか、「連合」なのか、「因果」なのか、「情報」なのか、「意味」なのか、「縁起」なのか、ともあれそういうつながりと、未だ関係を結んでいない潜在的つながりとで世界が成り立っている。

Tony ViscontiはT RexのプロデューサーをTyrannosaurus Rexのファーストからやっていたわけだけど、バッキングヴォーカルもやっているとは知らなかった。テレグラム・サムの項目を見るかぎりイントロの「ウー」とかはTony Viscontiか。

ボブ・ディランは二分冊の全詩集 https://www.amazon.co.jp/dp/4794951302 を買ってコードを書き込んで、毎日のようにそれ見ながらギター弾いて歌っていたことがあるくらいには好きだった。とはいえ60年代のロック時代のディランしか追えてないくらいにはヌルいファンであるのだけど。

ディランを通してT.S.エリオットとか、アンドレ・ブルトンのシューレルアリズム詩(溶ける魚)とかをわかりもしないくせに読んだりするくらいには世界を広げてもらった。今となってはほとんど聴き返すこともないのだが(ブロンド・オン・ブロンドを通しで聞いたのはいったい何年前のことだろう)、中学の卒業文集の自分の欄を「Sad Eyed Lady of the Lowlands」の歌詞で埋めてたりとか、なんだかそういうことを思い出したので、ネットに書き込んで、永遠の記録となることを願う。

ディランがニューポート・フォーク・フェスティバルでエレキ持ってブーイング受けて退場って逸話があるけど、これが1965年7月25日。そこからハイウェイ61とブロンド・オン・ブロンド出して(以降隠遁することになる)バイク事故に遭うのが1966年7月29日。たった一年のことなのだな。

ニューポート・フォーク・フェスティバルの逸話は以前散々読んだけど、これはかなり盛った逸話だったようで、真偽についてはウィキペディアに項目があるということを知った。

急な大雨の中を家まで帰ってきた。しかもなんだか生暖かい空気で、まるで夕立のようだった。

ゼネラル・エレクトリックのロゴを見るたびに、持田製薬を想起するんだけど、そもそもどういうロゴだっけと調べてみたら、案外似ていた。持田製薬のロゴ

戦車に嵌ったアライグマの動画を興味深く視聴する。(<-仕事しろ!)

いろんな締切りがある中を水をかき分け抵抗に耐え進む感じ。締切り追い越したかと思ったら、締切りが先に飛んだりして。締切りに翻弄されながら、締切りとともに生きる。(<-生きるな！)

/ ツイートする
/ 投稿日: 2019年05月27日
/ カテゴリー: [雑記]
/ Edit(管理者用)

2019年05月10日

■ 2016年3月UK出張メモ

“The Visual Brain: Order and Disorder” at. 8th Annual meeting of The UK. Neuro-Ophthalmology Special Interest Groupに参加したときのメモ。

そしてそのあといろいろあって5時40分発の空港バスでもうすぐ出発。今から寝たらぜったい寝飛ばすので、スライドの仕上げとしゃべり原稿作りをしながら、まんじりともせずに夜を過ごす(<-誤用)ことを決意した。

しゃべり原稿完成した。いつもどおり say -f talk1.txt -v Alex -o talk1.aiff で音声ファイル作ってみると14分。実際に喋ると20分くらいになるだろう。30分の割り当てだから、もうすこしサリエンシーについて詳しく喋ってもよいか。まだ元気。

ホテルの部屋に入ってネットに繋けて、やっと「心理的安全性」を確保したところ。予定通り15時くらいに着陸して、入国審査の行列を通過するのに45分かかって、そこからピカデリー線で50分かけてラッセルスクエアへ、コンビニで買い物して、チェックインして17時。けっきょく2時間かかった。

地下鉄で行くと6ポンドで、ヒースロー・エクスプレス使うと17ポンド+乗り換えなので、ケチるとこうなる。毎度ながら思うけど地下鉄は若者とか学生ばかりだ。

昨日は19時に仮眠し始めて、でも目覚めたのは2時で、こりゃもう眠れないかと思いつつもむりやり寝たら3時から9時まで眠ることができて、そりゃ寝過ぎじゃあねえのかと思いつつもまあよかった。出発前から頭が痛くてこりゃ熱上がるかと思っていたが、なんとかギリギリ凌いだっぽい。

トーク終了した！午前中押してるところでのラストのトークで、30分のところを23分代で終わらせて、質問込みで26分で終了。そのあと合う人ごとに良いトークだったとお褒めの言葉をもらって、これまででいちばんよい反応を貰ったように思う。

前半のヒトでの「なにかあるかんじ」の話から、それをnhpで調べてSDTとサリエンシーで一貫性のある話をするよって方向で。神経活動の話は無しだったが、SDTと色(DKL)の話を詳しめにきっちりやったのは今回の聴衆(視覚科学および眼科臨床)に対しては正解だったようだ。

シンポジウム後の立食パーティーでColin Blakemoreとサシで語る機会があったので意識談義へ。Surのrewiringの話題が出たので、いつもの知覚運動連関が大事って話をしたら、それだけで足りると思う？と問われたので、期待とか予想とかは必要かもしれない、でも、といつものカエルの意識談義へ展開させてみた。Morlandとも話をする機会があったのであなたの1996論文で方位サリエンシーについての着想(moving barはmotionを見ているのではなくてpositionの変化を見ている)を得たのですとお礼を言っておいた。

Holly Bridgeとも話をしたかったのだが、ぜんぜんそのチャンスがなかった。というわけで今回の訪問の目的はだいたい達成した。Colin Blakemoreにワインを注がれてしまったので、ひさびさにアルコールを摂取した。さっさと寝るか。(ただいま19:54)

今回も3時間前に到着、チェックインはすでに開始してた。JALのカウンターは小さいので並ばなくて済むのでありがたい。隣のBAとか大行列になってる。安全保安区域も混んでなかったが再検査に引っかかって15分で通過。トータルで離陸の2時間半前、搭乗開始の2時間前に中に入れたのでまあ充分。

羽田に到着！メールがどっさりと貯まっている。気温18度とか言ってて驚く。でもロンドンもこの時期にしては暖かったし、なにより晴れ空が出てて快適だった。

行き帰りの待ち時間用に「光車よ、まわれ!」天沢退二郎を持って行ってたけど、帰りの飛行機で読了。これは良かった。わかりにくい所も多いけど、昭和の東京郊外を舞台にしたファンタジーで、なんかすげーさまざまな水のイメージに晒された。

なんか時代背景的に、あさま山荘事件とかあのあたりの立て籠もりとかを想起したので調べてみたら、この本の執筆は1972年の8月から12月にかけてとあとがきに書いてあった。あさま山荘事件は1972年の2月。

Holborn駅のエスカレーターでテストしたら二列で立って乗るほうが効率よいってニュース。Leicester squareとかLondon bridgeとかで長いエスカレーター乗ったけど、東京と同じく片側はだいたい歩いてた。

ロンドンで連れて行ってもらったデンマーク・中近東料理店でローストビーフを頼んだら、付いてきたソースが緑色で謎な青臭い味でいったいこれはなんですかと聞いてみたら「コリアンダー」という返事がきた。その謎なクオリアが一挙にコリアンダーのフレーバーとして再解釈されるという経験をした。

/ ツイートする
/ 投稿日: 2019年05月10日
/ カテゴリー: [雑記]
/ Edit(管理者用)

2019年05月08日

■ ブラディー疲れた、訳ありさくらんぼ(さうして、このごろ2016年5-6月版)

帰り道に守衛所の前を車で通ったら、丸っこいフォルムの動物が草むらに隠れた。たぶんあれはタヌキだ。昔はよく見たけど、今回は久々だ。まあ3時に帰ること自体が久々なのだが。

そして車で下り坂に差し掛かると、夜景が開けて、90%くらいの満月が西に傾き、びっくりするくらい空を明るく照らしていた。その左には惑星とおぼしくものが赤っぽく光っていて、まるで世界が終わる前触れのやうだった

本日の仕事はこれで全部終了！もう寝る！ブラディー疲れた！(<-インチキ・ブリティッシュ・イングリッシュ = IBE)

今日は次男とこどもの日企画に参加。バドミントン15分*2 + 卓球20分*4って書くとたいしたことがないように見えるが全力出して戦ったので疲れた。バドミントンは2勝1敗、卓球は4勝2敗くらい。これで家でビール飲んでだらっとしていられれば最高の一日なのだが、仮眠後ふたたび解析へ。

以前次男といっしょにバドミントンをやりまくったのはいつだったかかなと思って調べてみたらついったに書いてあった。私生活つつぬけじゃん！

これで今日は終了かと思ったら、次男がシャトルバッティングをしたいというので100球くらい付き合った。なるほどただ素振りをするよりも有効。シャトルを追って姿勢が崩れないように、ちゃんと呼びこんで振りぬくことを意識するように指導した。

ヌゥ…すでに前腕に筋肉痛が出てきている。これは今日バドミントンのラケットを握って振った影響だな。(<-なぜか嬉しそう)

次男がテレビの動物番組を見ながら「鮫って居ていいことある？」って喋ってたので、「パパって居ていいことある？」って聞いてみたくなったが、あまりに卑屈かと思い直して、代わりにツイッタに書き込んでみた。(<-代わりにすんな)

今日は次男のソフトボールクラブチームでナイター練習のお手伝い。コーチがバッティングのときの腰の回し方について説明してて、すごく勉強になった。こんど試したい。

つまり、上半身を回す前に左右の下肢の内転筋を締めるように腰を回す。上半身が回るのはその後。これによって上半身が開かずに球を呼び込んでどのコースでもバットが出すことができるようになる。

って自分のことは別として、帰りの車では次男とともにキャッチングの時の右手の場所について議論したりしてた。我が家はなぜか父も長男も次男もキャッチャーなのだった。(体がでかくて声がでかくて視野が広くて肩が強い系)

家に帰って、全力バタンキューして、目覚めたら22時。コンビニまで歩いてみたら、とても気持ちの良い温度で、先日空に見た禍々しい惑星も今日はただの明るい星で、なんだか多幸感あふれる散歩だった。つか今からひと仕事するにも遅すぎるし、どうやって眠ればいいのだろう？

高校生ぐらいに考えたネタで、「指切りげんまん嘘ついたら針千本飲ます、ってのがあるけど、針一本飲ます、にするとマジで飲ませる気が伝わってきて怖いよね」ってのがあるんだけど、念のためネットで調べてみたら同じ話が見つからなかったので、著作権を主張しておきたい。

なるほど「誤解を恐れずに言うと」「失礼を承知で言うと」「自戒を込めて」って使ったこと無いな。そういう言い訳入れたくなるときはすでに論法が間違っているのでだいたい書きなおしてる。「不躾ですが」は使う。というかメールでの頼みごとはすべて「不躾」。誤解を恐れずに言うならばね。

今日は宿題を早く終わらせた次男の相手をして、日が沈む前にトスシャトルを使ったバッティング練習に付き合う。シャトル6個で30回=180球。投げたこっちも疲れた。素振り180回よりはずっと良いが、フォームを見ておかないと悪い癖がつくのが注意点。

今日も今日とてソフトボールチームのお手伝い(球ひろい)。コーチの指導を聞いててわかったけど、選手たちはボールを呼び込んで打つように徹底されてる。それはいいのだけど、後ろ側の足に体重乗ったままで腰回さないで手打ちするので、速球をきっちり打ち返せてない。だから「ボールを呼び込んで打つ」ことと「軸足(後ろ側)のお尻を前に出すように腰を回す」こととを両立させないといけないということのようなのだ。

帰りに寄ったコンビニに「訳ありさくらんぼ」ってのが売ってたので、「聞かないよ〽その理由(わけ)は〽」みたいな演歌だかムード歌謡だかのフレーズが頭に浮かんだ。

コンビニ帰りの駐車場で西の空に火星が赤く光っているのを見て、ぼんやりと「そういえば高校のときの同期に赤星くんっていたなあ」とか考えてた(<-マインドワンダリング)

Google Chromeの検索欄に「ここが」と打ち込んだら「ここがあの女のハウスね」と補完されたのでまったくどうかしていると思った。…まあ、それを探そうとしていたんだけど。

いやまじで、ホワイトボードのペンのかすれを解消する方法を見つけたら、革命的イノベーションと呼びたい。マヂ困ってる。

スマホに付けていたキュゥべえストラップが色が剥げて謎生物となっていたので、なんか新しい物をと思って秋葉原に寄った際に探してみた。アウトでないものを探していて、けっきょく羊のショーンを選択した。牧場主のオッサンのがあればそれ買いたかったのだけど、そんなものは無いらしい。有れよ。

アウトでない選択として考えていたのは、十四松がユニフォーム姿で「ハッスルハッスル！マッスルマッスル！」って言ってそうなのがあったとすれば即買いだったのだけど、そういうものも無かった。有れよ。

昼にうたた寝していたらなんかの夢を見て、しかもそれは朝見たものの続きだな！と思ったことは憶えているが、内容はまったく思い出せない。たぶんそれはimageryというよりはthoughtだったように思うのだけど。

今回は「さっきの続きだ！」という特別な思考が働いたから夢を見た、というメタ認知が働いたのだけど、ふだんもたぶんこういう意味での夢は見ているということなのだろう。

ブルースギターといえば、高校生のころ小川町のカワセ楽器に出入りしていて、そこでカントリーブルースギターの教則本を買ってオープンDチューニングでボトルネック奏法とか練習したものだった。それはクリームとかから遡りたかったからなのだけど、けっきょくブルースを理解することは出来なかった。

ネットで探してみたけどこれとかだな：「ステファン・グロスマンのカウントリー・ブルース・ギター」昔だからCDとか付いてない。仕方なく楽譜だけ見て演奏してた。それだとブルースギターのタイム感とか音程感とかさっぱりわからないのだった。

/ ツイートする
/ 投稿日: 2019年05月08日
/ カテゴリー: [雑記]
/ Edit(管理者用)

2019年05月07日

■ 宮廷薬剤師、ポンチ絵、バルーン投光機(さうして、このごろ2016年3-4月版)

俺も宮廷薬剤師になるか！(<-なんかテレビ見てるところ)

イヤホンをストーブ前に放置したら熱くなってしまった。やむを得ずそのまま耳に入れてみたら温くて気持ちいい。これはビジネスチャンスか？(<-チガウ)

帰り道のコンビニの前で、電線がたくさん走っているのってなんか風情があるなあと思って写真に撮ってみたら、ひこうき雲が写ってた。

@ksk_S さん経由で知った「夢の中に出てきた奇妙な単語達」「ヘビとショウガを抜いたケーキ」とか「リドプチチャン穿孔」とか「この新しい原子は左に回すと緑色に変化します」とかサイケデリックで痺れる。

以前書いたブログ記事の「ボン・ボリーニ！」「幸せはスペードの43」「暖かいところに集まる習性を持っている「つるにはまるまるむし」」とかと近いけど、「夢の単語」の方がホンモノ。俺のは狙いすぎのニセモノ。

年度末になると夜間の道路工事が増えて、車を運転しているとあの明るいボンボリみたいな照明がいきなり現れてギョッとするのだけれど、あれの名称は「バルーン投光機」というということを知った。つか知ってどうする。

新学術の班会議の予定をカレンダーに書き込んだら、2017年にも私が存在していることが確かになったような気がして、不思議な心持ちになった。

ハーゲンダッツの華もちシリーズが出て一瞬で手に入らなくなって、非主題的に(<-現象学ジョーク)欠乏感を感じていたのだけど、井村屋のやわもちアイスを見つけた。ラクトアイスなので満足感は低いけど、それでも私のQOLが256倍になった。

今ケーキ屋さんの前を通ったら、ケーキの名前のひとつが「シフォン主義」って書いてあって、通り過ぎた2秒後くらいになってから意味を理解して軽く吹いた。

ためしに「シフォン主義」でググってみたら、「相対性理論」のファーストアルバムのタイトルであることが判明した。己の不明を恥じた。

人生の中で厳しい時期をなんとかやり過ごすためには「弱くあり続けられる強さを持ち続けたい」と頭のなかで唱えたりすることもあるものなのである。(<-である、じゃねえ)

なんというか「人生は続く」ということをひしひしと実感させられる。それにはポジティブな意味合いもあるけど、絶望でもある。24時間寝ても寝足りない。ドアは鍵がかけられたままで錆びついてしまった。でも雨は降りつづけ、安物のビニール傘では雨を凌ぐことができない。(<-雨降ってません)

簡潔なチルウェイブの作り方。“Find an 80s sample. Slow it down. Put a beat behind it. Put a droning synth behind it. Turn on Ableton’s Beat Repeat effect.”

Kraftwerkの1970年ライブというのを聴いてみたら、すげークラウトロックというかカンタベリー・ロックしていてよかった。

Khun Narin’s Electric Phin Band タイの伝統音楽とアシッド・マザーズ・テンプルみたいなサイケなジャムの合体という感じでスゲーいい。

わたしがはじめて「ポンチ絵」という概念を知ったとき、「ポンチ」という言葉は太宰治の前期作品でしか見たことがなかった。おそらくは戦前生まれで軍人メタファーを駆使しちゃうような大先輩方が作った言葉なのだろうと戦慄したものだった。

別件だけど、数十年前の話で、戦前生まれの大先輩に｢敵前逃亡は銃殺刑だぞ｣と軍人メタファー使って説教されたことを今でも覚えている。というかその人のことはそのことしかもう覚えていない。

甲子園と戦争メタファーって話はどこかで書かれてなかったろうか？私は試合開始のサイレンにそれを感じる。夏の甲子園で終戦の日の正午に黙祷するのとか。

/ ツイートする
/ 投稿日: 2019年05月07日
/ カテゴリー: [雑記]
/ Edit(管理者用)

2019年05月06日

■ FEP入門 afterthoughts

FEP入門を書いたあとにいろいろ考えたことメモ。

FEP入門は「知覚と行動の統一」に絞ったけど、本当は「学習」の話を入れないと、まだ桶の中の脳から脱出できてない。知覚と行動は外界を推定しているだけなので、外界不要の間接知覚に見えてしまう。でもそんなことはなくて、生成モデルを作る段階(学習)で、外界の生成過程の結果が必須になってる。

学習を入れると、推測されるstateと学習されるパラメーターが厳密に分かれたものではなくて、速く変わるかゆっくり変わるかの違いであることもわかる。以前入れてもらっていた新学術での「スローダイナミクスがベイズ推定の事前分布になっている」はこの意味で重要。

ハーケンの秩序パラメーターも事前分布として捉えている記述があるだろうと思って調べてみた。Entropy 2016 "Information and Selforganization"が関係ありそうだがそうは書いてなかった。ハーケンらのアプローチが(フリストンのFEPを含む)ベイズ的なアプローチのalternativeであるという言い方だった。(htmlページがLeTeXレンダリングが凶悪に遅いので、PDFのほうをリンク)

そうして考えてみると、Alva Noeの感覚運動随伴性SMCが得意とするテーマが可塑性(逆さ眼鏡や開眼手術)だったことの意味もよく分かる。つまり生成モデルが完成した状態での脳の働きを見ようとすると、間接知覚的なもので充分にみえてしまうからだ。これが来歴が必須であるということの実体だと思う。

これでJakov HohwyによるFEPの間接知覚的解釈に対しては、学習を議論するべしという方針が立った。でもこれではまだAndy Clark的な隠れ認知主義者(notエナクティビスト)なので、そもそもその確率的な扱いをする際にどのようにして世界を分節してきたかという観点が必要。

Comment By @hiraiyasushi1 これって間接知覚ではそもそも学習を説明できないってことではなくて、間接知覚だと説明できない学習があるってことです？上ツイートの遅速の話は、論文で強調されてた因果的介入の話とまた別の根拠のように見えるんで、ちょっと混乱してます

Reply to @hiraiyasushi1 まず一般的な意味での「学習」は「繰り返し刺激への順応」のように生成モデルのアップデートを必要としないものもあるから、逆転させて「生成モデルのアップデート」のあるものを学習と呼ぶとして、生成モデルの一部だけをアップデートするのに外界との照合は必ずしも必要ない、しかし生成モデルとはそのような生成モデルのパーツ全ての掛け算のことを指すので、履歴として外界との照合がまったくない生成モデルはない。個別の学習が必ず外界の生成過程の結果との照合をしているわけではない。あとこれは憶測なのですが、外界との照合自体は知覚を通して行われるので、agentはそれが生成過程の結果なのか生成モデルの結果なのかは区別できないはず。これくらいが想像できるのですが、正確なところはちゃんと式を作って確認する必要があるだろうというのが今すぐに返答できるところです。

Comment By @hiraiyasushi1 ありがとうございます、まだ全部理解できてないかもしれませんが、ともかく哲学的な間接知覚説は学習できないとは考えもしないと思うので、この辺もし見えてきたら面白いと思います。もちろん生成モデルを介するのではない間接知覚説（純粋に受動的な表象説？）は別としても。

/ ツイートする
/ 投稿日: 2019年05月06日
/ カテゴリー: [フリストンの自由エネルギー原理(FEP)] [生理研研究会2019「脳の理論から身体・世界へ」FEP特集]
/ Edit(管理者用)

2019年05月03日

■ 自由エネルギー原理入門(7/7): 「Sec.0 自由エネルギー原理を数式無しで説明する」を追加

今年の生理研研究会は「認知神経科学の先端脳の理論から身体・世界へ」と題して、自由エネルギー原理(Free-energy principle, FEP)をテーマに9/2に開催。これに先立つ8/31-9/1には「脳の自由エネルギー原理チュートリアル・ワークショップ」というタイトルでFEP入門のためのレクチャーとハンズオン。参加募集開始は連休明けの予定。もう少々お待ちください。

これらに向けてFEP入門の資料を作りました。今回が最終回です。「Sec. 0. 自由エネルギー原理を数式無しで説明する」を追加しました。

これまでの内容を全部PDFファイルにまとめたものを作ってリンクしておきました。全68ページ：EFE_secALL0517.pdf あとmatlabコードは別に分けておきました。matlabコード

今後も随時アップデートはするかと思いますが、このPDFファイルを最新版としますので、これから読む方にはPDFファイルでの閲覧をオススメします。(5/17最新版にアップデート)

追記20190823: htmlからLaTeX版で作り直しているところです。とりあえず1-4章までのもの：root0823.pdf

Sec.0 自由エネルギー原理を数式無しで説明する

[0-1. 自由エネルギー原理の定義]

この文書では自由エネルギー原理とはなにか、について概念的な説明からスタートして、最終的には数式を用いた詳細な理解と批判が可能になるところまでたどり着くことを目的としている。

まず自由エネルギー原理(Free energy principle,以下FEPと呼ぶ)とはなにか。脳イメージングの解析ソフトSPMの作者として著名な、University College Londonの研究者Karl Fristonが提案している、知覚と行動と学習の統一原理だ。2005年のPhilos Trans R Soc Lond B Biol Sci.論文で最初に提案されてから、現在まで理論的にも進歩を続けている。

Friston自身の定義を見よう。自由エネルギー原理とは「いかなる自己組織化されたシステムでも、環境内で平衡状態でありつづけるためには、そのシステムの(情報的)自由エネルギーを最小化しなくてはならない」というものだ。また別の表現では「適応的なシステムが無秩序へ向かう自然的な傾向に抗して持続的に存在しつづけるために必要な条件」とある。Friston, K. (2010). The free-energy principle: a unified brain theory? Nature Reviews Neuroscience, 11(2), 127–138.

順番に言葉を追っていこう。まず「原理」というだけあって、「もしxxであるなら、yyでなければならない」という形式になっていることがわかる。ベイズ脳仮説のような「仮説」でもなければ、予測符号化理論のような「理論」とも区別した表現になっている。

「いかなる自己組織化されたシステム」とあるけれど、われわれ人間にかぎらず、様々な生物に当てはまることが想定されている。「システム」とあるので、生物でなくても成り立つけれども、たとえば氷の結晶には当てはまらないだろう。氷の結晶はシステムとして安定する境界を持っていないから。

そうすると「環境内で平衡状態でありつづける」というのは、氷の結晶が氷の結晶であり続ける話ではなくて、生命のあるものが生き続ける条件のことを言っているようだ。

そして「そのシステムの(情報的)自由エネルギー」というものが定義されるものでなければならない。(情報的)自由エネルギーというのがなんなのかはこれから順番に説明をしてゆくとして、いま知っておくべきは、そのシステムと外界との間での情報のやり取りに関わる概念なので、システムと外界との境界が必要なのだ。

ではシンプルな例でもっと具体的に表現してみよう。

[0-2. 知覚=現在の外界の状態の推定]

図0-1の例ではagentが外界に接している状態が表現されている。先程も書いたようにこの「自己組織化されたシステム」は人間や生物に限らない。そのことを示すために以降「agent」という呼び方で統一する。

図0-1: 知覚の例

いま使う説明では、世界自体はわれわれの現実世界とまったく同じものなのだけど、agentが世界を切り分ける能力が低いので「外界の状態」は2つしか区別できない。「照明オン」と「照明オフ」だ。Agentは照明オンかオフかについて直接アクセスすることはできない。つまり「外界の状態」はagentにとって隠れ値だ。

Agentは「外界の状態」を推測するために「感覚入力」を用いる。ここでは網膜のような光センサーがあって、照明の明るさに従って「明るい」「暗い」という2つのどちらかの値を時々刻々観測している(agentの識別能力が低いので2つの値しか区別できない)。Agentはこの観測データにだけアクセスできる。いま「感覚入力」と書いたが、「感覚sensation」と「知覚perception」を区別するためにこの言葉を使っている。たとえばわれわれが写真を見たとき、網膜の視細胞の活動のようなセンサー値が「感覚入力」だ。そしてその写真になにが写っているか知ることが「知覚」だ。

Agentは「感覚入力」を元にして、「外界の状態」がいまどうなっているかを推定する。これが「知覚」だ。たとえば「感覚入力」が「明るい」を観測したなら、「外界の状態」は「照明オン」である可能性が高いだろう。100%高いとは言えないことはわれわれは経験上知っている。「照明オン」でも「感覚入力」が「暗い」を示すこともありうるだろう(照明とセンサーの間になにか邪魔なものがあるかもしれない)。よってこの設定では、知覚とは、「外界の状態の推定」とは、あくまで確率的に表現される。「外界の状態が照明オンである確率は90%」というように。確率で表すことによって、推定がどのくらい確実かというuncertaintyも表現することができる。

でもそもそもなぜ「感覚入力」から「外界の状態」を推定できるかといえば、agentはこれまでの経験から、「外界の状態」がどのように「感覚入力」に影響を与えるか、その因果関係について学習しているからだ。外界におけるこの関係を「生成過程」と呼び、agentが学習したこの関係を「生成モデル」と呼んで区別する。「生成過程」は外界の物理法則そのものだが、「生成モデル」はそれを写し取ったモデルでしかない。ゆえにモデルは間違っている可能性がある。今の場合も3次元の世界で照明からセンサーに光が届く生成過程があるのだけど、それをひとつの光センサーしかもたないagentは生成過程を1点に投射されたものとして生成モデルを獲得している。

[0-3. 行動選択=未来の外界の状態の推定]

しかしこのような設定ではagentは「桶の中の脳」と同じで、外界の生成過程を正しく生成モデルとして維持する方法がない。ここで行動を考える必要が出てくる。行動を含めた世界設定の図を示す(図0-2)。

図0-2: 感覚運動ループ

ここでは「外界の状態」が「感覚入力」という観測データを生み出し、「外界の状態」を推定するagentの内部状態が「行動選択」という「外界の状態」への介入を行うというループが閉じている。これを感覚運動ループと呼ぶ。

このループを使うことで、agentの「生成モデル」は外界の「生成過程」と整合的であるように維持される。たとえばいまagentは「感覚入力」が「暗い」を観測していて、「外界の状態の推定」(=知覚)として「照明オフ」の確率90%としている。これを確かめるために、「行動選択」を「スイッチオン」にして、「感覚入力」が「明るい」になれば、現在の「外界の状態」が「照明オン」であるという推定(=知覚)の根拠となったagentの「生成モデル」は正しく機能していることが確認されるので、そのまま維持すればよいということがわかる。

この「行動選択」では、これからする行動(スイッチオン)が「未来の外界の状態」を「照明オン」にして、「未来の感覚入力」が「明るい」になるという推定をしたうえで、別の行動(スイッチオフ)ではなくスイッチオンが選ばれる。つまり「行動選択は未来の外界の状態の推定」に基づいている。

さきほどの知覚の話のときには「知覚とは現在の外界の状態の推定」であると書いた。両者を合わせると、知覚も行動選択も「外界の状態の推定」をいかにうまく行うかが知覚の正確さ、行動選択の正しさを決める。このようにして知覚と行動選択とをまとめて捉えることができる、これが「自由エネルギー原理が知覚と行動選択を統一的に説明できる」ということの内実だ。

ここまで(情報的)自由エネルギーがなにかの説明はしてこなかったが、(情報的)自由エネルギーとは「外界の状態の推定」をするときにagentが(非明示的に)使っている指標だ。Agentが(情報的)自由エネルギーを減らすように(脳や身体といった)内部状態を変化させるとき、知覚は現在の外界の状態を正確に推定できるようになり、行動選択は未来の外界の状態を正確に推定するように選ばれる。

いったんまとめる。

知覚: 現在の外界の状態の推定
行動選択: 未来の外界の状態の推定(の帰結)

[0-4. 学習=外界の状態を推定するモデルの更新]

冒頭にFEPとは「知覚と行動と学習の統一原理」だと書いた。では「学習」はどこに関わってくるか？

さきほどの例を用いれば、いまagentは「感覚入力」が「暗い」を観測していて、「外界の状態の推定」(=知覚)として「照明オフ」の確率90%としている。これを確かめるために、「行動選択」を「スイッチオン」にすれば、「感覚入力」が「明るい」になるだろうという予測を立てて行動選択をする。この予測が正しければ、推定の根拠となったagentの「生成モデル」は正しいのでそのまま維持すればよい。しかしこの予測が裏切られたとき、つまり「スイッチオン」にしたのに「感覚入力」が「暗い」を観測した。このときが「学習」の出番だ。

予想外のことが起きたときのまず最初の対処法は、繰り返しスイッチオン、オフを繰り返して行動選択から予測のサイクルを回す方法だろう。しかしもしこの予想外が続くのであれば、「生成モデル」が間違っている、現在の状況に合わなくなったということなので、生成モデルをアップデートしなければならない。これが学習だ。

発達や老化も同じように捉えることができる。Agentは発達により明るさセンサーの特性が変わると、どういう状況でも「明るい」を観測するようになるかもしれない。このようにして発達においても生成モデルの改変が必要になる。

同じことは進化にもあてはまるだろう。気球規模の変動で新たな環境に対応しなければならなくなったagentは、新たな環境(火山噴火によって照明は常に暗く観測されるかもしれない)に合わせた新しいセンサー特性へのアップデートが必要になるだろう。

このようにしてFEPは「知覚と行動と学習」について「生成モデルを元に外界の状態の推定する」という単一の枠組みで統一的に説明することができる(と主張している)。以上をまとめるとこうなる：

知覚: 現在の外界の状態の推定
行動選択: 未来の外界の状態の推定(の帰結)
学習: 生成モデルのアップデート

[0-6. まとめ、以降の方針]

これでFEPとはなにか、ということについて数式を用いない範囲で言えることをだいたいいうことができた。FEPのような原理が本当にあるのかはわからないけど、まずはこの理論について知ってみよう、そのうえで、知覚と行動選択と学習とを統一的に説明できる理論というものがありうるか考えてみたい、これが私のFEPに対する態度だ。

よって以下の説明でも、FEPのような原理はありうるのかという観点から、実際の神経科学的データを説明するためにFEPを使うテクニック的なところには入り込まないようにして、なるたけFEPの本質的なところだけ抜き出して理解することに注力するという方針を取る。

ところでこのFEPという考えはずいぶんキャラが立ってる。なんせ、知覚も行動も世界のことを知るためにあり、行動することで世界のことを理解できる、というのだから、これは学者的な世界観ではないだろうか？われわれは世界のこと全部わかってなくても不安ではないし、わからないなりにもなんとか生きてるし、わかったからってなんともならんことが多いよなと思うわけで。なんてことはどうでもいい。FEP人生論はここでストップ。

/ ツイートする
/ 投稿日: 2019年05月03日
/ カテゴリー: [フリストンの自由エネルギー原理(FEP)] [生理研研究会2019「脳の理論から身体・世界へ」FEP特集]
/ Edit(管理者用)

2019年05月02日

■ 自由エネルギー原理入門(6/7): 「Sec. 5. 現在、過去、未来を統一的に捉えるモデル」を追加

最新版のPDFファイルが最後のエントリ：「自由エネルギー原理入門(7/7): 「Sec.0 自由エネルギー原理を数式無しで説明する」を追加」にあります。このPDFファイルを最新版としますので、これから読む方にはPDFファイルでの閲覧をオススメします。

[5. 現在、過去、未来を統一的に捉えるモデル]

[5-1. Schwöbelらのアプローチ]

Friston et al 2017の期待自由エネルギー $G$ ってぜんぜん変分推定してないよね、ってのが前のサブセクションの総評だったわけだけど、じゃあちゃんと変分推定しようよってのが、Schwöbel et al 2018とParr and Friston 2018。ここではSchwöbel et al 2018の解説を行う。

[5-2. 生成モデル $p$ と推測 $q$ の設定]

Schwöbel et. al. Neural Comput. 2018では、現在、過去、未来を統一的に捉える生成モデルを考えている。現在、過去、未来を統一的に捉えるというのはどういうことかというと、時刻 $1-T$ というある時間幅(これはなんらかの行動課題の1試行のようなひとかたまりの行動を想定している)のなかでagentがいま時刻 $t$ にいるという状況を考える。このときの因果グラフが図5-1だ。

図5-1: 現在、過去、未来の生成モデル

これまでと同様に、POMDP過程を前提としているので、直前の行動のみが外界の状態に影響を及ぼしうる。なによりも最大の違いは、行動 $a$ がパラメーターではなく潜在変数になっているという点だ。変分自由エネルギー $VFE$ を定義するために観測データと潜在変数をリストにしてみよう：

観測データ
- 感覚入力(過去から現在まで) $\underline{s} = \{s_1,s_2,...,s_{t-1},s_{t}\}$
潜在変数
- 外界の状態(過去から現在まで) $\underline{x} = \{x_1,x_2,...,x_{t-1},x_{t}\}$
- 外界の状態(未来) $\tilde{x} = \{x_{t+1},...,x_{T-1},x_{T}\}$
- 感覚入力(未来) $\tilde{s} = \{s_{t+1},...,s_{T-1},s_{T}\}$
- 行動選択(過去) $\underline{a}=\{a_1,a_2,...,a_{t-1}\}$
- 行動選択(現在から未来まで) $\tilde{a} =\{a_{t},...,a_{T-1},a_{T}\}$

よってこのときの生成モデル $p$ はこれまで同様、機械的に当てはめれば以下のように書ける。

$\begin{eqnarray} &&p(\underline{x},\tilde{x},\underline{s},\tilde{s},\underline{a},\tilde{a}) \tag{5-1} \end{eqnarray}$

また、これを推定する $q$ のほうは潜在変数だけが入る。 $q$ の形を決めるパラメーター $\phi$ はこれまでの議論からわかるように $x$ についての推定だけを決めればあとは生成モデルを使って計算してゆくので、今回の場合、 $\phi_{\underline{x},\tilde{x}}$ となる。省略して $\tilde{\phi}$ と表示する。

$\begin{eqnarray} &&q(\underline{x},\tilde{x},\tilde{s},\underline{a},\tilde{a}|\phi_{\underline{x},\tilde{x}})\\ &=&q(\underline{x},\tilde{x},\tilde{s},\underline{a},\tilde{a}|\tilde{\phi}) \tag{5-2} \end{eqnarray}$

[5-3. 変分自由エネルギー $F$ の設定]

あとはこの二つから現在、過去、未来全ての期間をひとまとめにして推定をするための変分自由エネルギー $F$ が定義できる。 $q$ が長いので $\tilde{q}$ で表記する。

$\begin{eqnarray} F(\tilde{\phi}) &=& \mathbb{E}_{\tilde{q}} [\ln \tilde{q} - \ln p(\underline{x},\tilde{x},\underline{s},\tilde{s},\underline{a},\tilde{a})]\\ &=& \underbrace{D_{KL}(\tilde{q}\|p(\underline{x},\tilde{x},\tilde{s},\underline{a},\tilde{a}|\underline{s}))}_{\rm{KLD}(\tilde{\phi})} +\underbrace{-\ln p(\underline{s})}_{\rm{Surprisal}}\tag{5-3} \end{eqnarray}$

長いけど、たんに観測値と隠れ値を分けてVFEの式に代入しているだけだから、式の定義は明確だ。あとこうして改めて式を見てみると、surprisalの中身は常に観測データであり、surprisalは $F$ を変えようがない定数であるということがわかる。(だから、暗い部屋問題など無いわけ。)

じつは式(5-3)は正確でない。Schwöbel et. al. 2018では生成モデルの方に前述の、未来の感覚入力についての事前分布(=preference) $\bar{p}(\tilde{s})$ が掛け算されている。私はどうにも納得いかないけど。ともあれ論文の中での $F$ の式は以下の通りになる。

$\begin{eqnarray} F(\tilde{\phi}) &=& \mathbb{E}_{\tilde{q}} [\ln \tilde{q} - \ln p(\underline{x},\tilde{x},\underline{s},\tilde{s},\underline{a},\tilde{a})- \ln \bar{p}(\tilde{s})] \tag{5-4} \end{eqnarray}$

この方法がFriston et al 2017での期待自由エネルギーと比べてなにが素敵かというと、VFEに期待値を掛けるとかそういうややこしいことを言わずに、ストレートにすべての潜在変数を推定するための変分下限としての変分自由エネルギー $VFE$ を計算できている点。もし $KLD=0$ になるように $q$ のパラメーター $\tilde{\phi}$ をアップデートすることができれば、 $q$ はtrue posteriorを近似することができて、そのとき $F=Surprisal$ となる、これまでとまったく同じ。

このため、期待自由エネルギーのときにでてきたややこしい概念、counter-factualな観測データというものがここでは見えなくなっている。

[5-4. observed free energy $V$ とpredicted free energy $G$ への分解]

Schwöbel et. al. 2018ではさらにこの $F$ の式を[現在+過去]と[現在の行動計画および未来]とに分けている。彼らは前者をobserved free energy $V$ 、後者をpredicted free energy $G$ と呼んでいる(p.2539-2540)。

$\begin{eqnarray} V(\tilde{\phi}) &=& \mathbb{E}_{q(\underline{x},\underline{a}|\tilde{\phi})} [\ln q(\underline{x},\underline{a}|\tilde{\phi}) - \ln p(\underline{x},\underline{s},\underline{a}))]\tag{5-5}\\ G(\tilde{\phi}) &=& \mathbb{E}_{q(\underline{x},\tilde{x},\tilde{s},\underline{a},\tilde{a}|\tilde{\phi})} [\ln q(\tilde{x},\tilde{s}|\underline{x},\underline{a},\tilde{a},\tilde{\phi}) - \ln p(\tilde{x},\tilde{s}|\underline{x},\underline{a},\tilde{a})]\\ &&- \mathbb{E}_{q(\tilde{s})} \ln \bar{p}(\tilde{s})\tag{5-6} \end{eqnarray}$

式(5-4)からの変形でこれが導き出せるのだと思うのだけど、当の論文には何も説明がない。私もまだ確認できてない。ともあれこれによって、これまでの論文で出てきた変分自由エネルギーや期待自由エネルギーとの対応付けができるようになった。

Observed free energy $V$ はこの文書でも、4-2-1において「過去の行動を付加した生成モデル」に対応したVFEとして式(4-3)ですでに定式化している。

後者のpredicted free energy $G$ がこれまでの期待自由エネルギー $G$ に対応するこうになっている。だからこちらにはpreferenceの項を付け加えている。

[5-5. おまけ：このモデルの含意]

おまけです。FEP入門的にはおまけだけど、ここからがワタシ的には本筋。個人的にこのモデルが面白いなと思うのは、現在、過去、未来全ての期間をひとまとめにして取り扱うというのが、まさに変分原理的な視点であるという点だ。つまり、agentはいま時刻 $t$ に生死をかけあらゆる意思決定をなしているつもりなのだけれども、いったんそれを時間の外から(スピノザの言う「永遠の相」から)眺めてやれば、与えられた状況の中で $VFE$ を下げる方向に進むという変分原理に従って、agentの内部状態(推測 $q$ の本体)が変動しているだけなのだ。(agent「が」内部状態を変動「させている」ではないことに注意。) あたかも光が屈折することで最短時間で進むルートを選んでいるかのように。

いっぽうで、このVFEの式をいったん過去と未来に分けてやると、とたんにcounter-factual predictionを考えないといけない内部の視点が出てくる。ここでは未来と過去は観測データの有無の違いという点で非対称性がある。このことについてこれまで使ってきた図を改変してイメージを膨らませてみよう(図5-2)。

図5-2: 推測qの時間幅

図5-2Aでは時刻 $t$ における変分自由エネルギー $F$ の計算からすべての潜在変数が推定される。時刻 $t+1$ になると(図5-2B)、時刻 $t+1$ での感覚入力 $s(t+1)$ を獲得して観測データが一つ増えたことによって、変分自由エネルギー $F$ がアップデートされ、すべての潜在変数の推定もアップデートされる。これが外側から、「永遠の相」から見たときの描写だ。

いっぽうでagentから見れば、図5-2Aでは時刻 $t$ では未来の外界の状態 $x_{t+1}$ についてのcounter-factualな推定を持っている(counter-factualであることを $x_{t+1}'$ と表記しておく)。さらにagentは過去の外界の状態 $x_{t-1}$ についてのfactualな推定を持っている。この推定は現在の新しい感覚入力 $s_{t}$ によって時間を遡ってアップデートされること(post-diction)については3-3-3で言及した。

そして時刻 $t+1$ になると、未来の外界の状態 $x_{t+2}$ についてのcounter-factualな推定を持つようになり、かつてcounter-factualだった外界の状態についての推定 $q(x_{t+1}')$ はfactualな推定 $q(x_{t+1})$ となった。このようなcounter-factualな推定とfactualな推定の違いは時刻 $t$ にいるagentにとってはそのつど行動 $a$ を決める際に初めて重要になるが、変分原理的な視点からは見えなくなっている(ように思える)。

Friston 2018 (Frontiers in Psychology)における意識の議論でFristonは、agentが変分推定をしてゆく過程でのcounter-factualなpredictionおよび過去に向けてのpostdictionの時間幅が長く深い(temporal thickness or counterfactual depth)ものに意識が宿るのだという言い方をしている。

式(5-2)でも書いたように、現在の設定でagentが推測 $q$ をアップデートさせるために動かしているものの実体とは、 $\phi_{\underline{x},\tilde{x}}$ つまり、過去から未来までの外界の状態 $x$ の推定 $q(x)$ だけだ。よってFristonの言うtemporal thicknessというのはどのくらい未来と過去について推測 $q(x)$ を持っているかということに言い換えることができる。推測 $q$ の時間推移についてフッサールの内的時間意識のスキームに乗っけて表示してみよう(図5-3)。

図5-3: 推測qの時間幅の違うagent

図5-3Aがこれまでの説明で使っていたものだが、図5-3Bはtemporal thicknessがまったくない「今を生きる」生物だ。Fristonによれば後者は意識を持たないという話になる。しかし、大腸菌の遺伝子発現ですらも予測的な振る舞いをすることが知られていること(私のブログに言及あり)を考慮に入れると、図5-3Bのように極端な生物はいそうにない。しかし予測的な行動をすることと、counter-factual predictionをすることはイコールではない。そしてFEPがまだ充分に因果推論的な形式になっていないことを考えると、Counter-factual predictionを捉えるのにもっとうまい方法が必要になるんではないかと私は考えている。

以上でこの文書は終了です。ここまで読んでくれた方、ありがとうございます。

いちおう最後の項目までたどり着きましたが、まだあれこれ落ち穂拾いをする予定。ToDoとしては、Sec.0として「数式を使わない自由エネルギー原理の説明」を作って、Sec.2にじっさい予測誤差回路でどうやってFの最小化が可能かについての概要(Bogacz 2017の二項分布バージョン)を入れて、Sec.3の最後に行動の説明の簡略化バージョン(qの代わりにsを変えるとFが下がる)を入れて、それで終了の予定。

/ ツイートする
/ 投稿日: 2019年05月02日
/ カテゴリー: [フリストンの自由エネルギー原理(FEP)] [生理研研究会2019「脳の理論から身体・世界へ」FEP特集]
/ Edit(管理者用)

2019年05月01日

■ 自由エネルギー原理入門(5/7): 「Sec.4-4-3 照明の例を用いた期待自由エネルギーGの計算」以降をアップデート

[4-4-3. 照明の例を用いた期待自由エネルギー $G$ の計算]

では以上の結果を用いて、照明の例で期待自由エネルギーEFE $G$ を計算してみよう。

実際の計算方法についてだが、式(4-12)1行目のように、VFEを計算してからそれに期待値をかけて計算することはできない。なぜなら内側の $F$ を計算するときに、すべての $x_{t+1}$ で足し合わせて $x_{t+1}$ が消えているから、外側の期待値の $x_{t+1}$ と対応させることができない。あくまでも式(4-12)3行目のように $q(x_{t+1},s_{t+1})$ で期待値をとる必要がある。

まずこの期待値の部分について計算しておこう。式(4-11)に、 $q(x_{t+1}=1|\phi_{x_{t+1}})=\phi_{x_{t+1}}$ および $q(x_{t+1}=2|\phi_{x_{t+1}})=1- \phi_{x_{t+1}}$ 、それから観察モデルの値 $p(s_{t+1}|x_{t+1})=\begin{bmatrix}0.8 & 0.2\\0.05 & 0.95\end{bmatrix}$ を入れてやると、

$\begin{eqnarray} q(x_{t+1},s_{t+1}|\phi_{x_{t+1}}) &=&p(s_{t+1}|x_{t+1})q(x_{t+1}|\phi_{x_{t+1}})\\ q(x_{t+1}=1,s_{t+1}=1|\phi_{x_{t+1}}) &=&p(s_{t+1}=1|x_{t+1}=1)\phi_{x_{t+1}}\\ q(x_{t+1}=1,s_{t+1}=2|\phi_{x_{t+1}}) &=&p(s_{t+1}=2|x_{t+1}=1)\phi_{x_{t+1}}\\ q(x_{t+1}=2,s_{t+1}=1|\phi_{x_{t+1}}) &=&p(s_{t+1}=1|x_{t+1}=2)(1-\phi_{x_{t+1}})\\ q(x_{t+1}=2,s_{t+1}=2|\phi_{x_{t+1}}) &=&p(s_{t+1}=2|x_{t+1}=2)(1-\phi_{x_{t+1}}) \tag{4-13} \end{eqnarray}$

これをプロットしてやると図4-9の通りとなる。

図4-9: 照明の例におけるq(x,s)

$\phi_{x_{t+1}}$ を0-1の間で動かすと、どこでも $\sum_s\sum_x q(x,s) = 1$ になっていることが確認できる。あらためて、推測 $q(x,s)$ という同時確率が $\phi_{x_{t+1}}$ ひとつの関数であること、つまり、agentがここで変化させているのは外界の状態の推定 $q(x)$ だけで、感覚入力 $s$ についての推定はそれによって一意に決まる、というモデルになっていることがわかる。(これ自体は自明なことではなく、あくまでFriston論文ではそういうモデルになっているというだけのこと。)

それでは式(4-12)に基づいて、 $G$ を計算してみよう。式(4-13)を使って、 $x=1,2$ および $s=1,2$ のすべての変数の組み合わせでの和の形に変形してやる。あと、2行目から3行目の変換で、 $p_{a_{t}}(x_{t+1},s_{t+1}) = p(s_{t+1}|x_{t+1})p_{a_{t}}(x_{t+1})$ を使っている。生成モデルの設定より、観察モデル $p(s_{t+1}|x_{t+1})$ の部分は $a$ に依存しないので、こちらもこの段階で値を代入できる。

$\begin{eqnarray} &&G(\phi_{x_{t+1}},a_{t}) \\ &=& \mathbb{E}_{q(x_{t+1},s_{t+1}|\phi_{x_{t+1}})} [\ln q(x_{t+1}|\phi_{x_{t+1}}) - \ln p_{a_{t}}(x_{t+1},s_{t+1})]\\ &=& \mathbb{E}_{q(x_{t+1},s_{t+1}|\phi_{x_{t+1}})} [\ln q(x_{t+1}|\phi_{x_{t+1}}) - \ln p(s_{t+1}|x_{t+1}) - \ln p_{a_{t}}(x_{t+1})]\\ &=& q(x_{t+1}=1,s_{t+1}=1|\phi_{x_{t+1}})[\ln q(x_{t+1}=1|\phi_{x_{t+1}})\\ &&- \ln p(s_{t+1}=1|x_{t+1}=1) - \ln p_{a_{t}}(x_{t+1}=1)]\\ &&+ q(x_{t+1}=1,s_{t+1}=2|\phi_{x_{t+1}})[\ln q(x_{t+1}=1|\phi_{x_{t+1}})\\ &&- \ln p(s_{t+1}=2|x_{t+1}=1) - \ln p_{a_{t}}(x_{t+1}=1)]\\ &&+ q(x_{t+1}=2,s_{t+1}=1|\phi_{x_{t+1}})[\ln q(x_{t+1}=2|\phi_{x_{t+1}})\\ &&- \ln p(s_{t+1}=1|x_{t+1}=2) - \ln p_{a_{t}}(x_{t+1}=2)]\\ &&+ q(x_{t+1}=2,s_{t+1}=2|\phi_{x_{t+1}})[\ln q(x_{t+1}=2|\phi_{x_{t+1}})\\ &&- \ln p(s_{t+1}=2|x_{t+1}=2) - \ln p_{a_{t}}(x_{t+1}=2)]\\ &=& 0.8 \ast \phi_{x_{t+1}}[\ln \phi_{x_{t+1}}- \ln 0.8 - \ln p_{a_{t}}(x_{t+1}=1)]\\ &&+ 0.2 \ast \phi_{x_{t+1}}[\ln \phi_{x_{t+1}}- \ln 0.2 - \ln p_{a_{t}}(x_{t+1}=1)]\\ &&+ 0.05 \ast (1-\phi_{x_{t+1}})[\ln (1-\phi_{x_{t+1}}) - \ln 0.05 - \ln p_{a_{t}}(x_{t+1}=2)]\\ &&+ 0.95 \ast (1-\phi_{x_{t+1}})[\ln (1-\phi_{x_{t+1}}) - \ln 0.95 - \ln p_{a_{t}}(x_{t+1}=2)]\tag{4-14} \end{eqnarray}$

あとは生成モデルのうち $a$ に依存する事前分布 $p_{a_{t}}(x_{t+1})$ の値を入れれば、 $G$ は $a$ ごとに決まる $\phi_{x_{t+1}}$ の関数になる。

$\begin{eqnarray} G(\phi_{x_{t+1}},a_{t}=1) &=& 0.8 \ast \phi_{x_{t+1}}[\ln \phi_{x_{t+1}}- \ln 0.8 - \ln 0.8]\\ &&+ 0.2 \ast \phi_{x_{t+1}}[\ln \phi_{x_{t+1}}- \ln 0.2 - \ln 0.8]\\ &&+ 0.05 \ast (1-\phi_{x_{t+1}})[\ln (1-\phi_{x_{t+1}}) - \ln 0.05 - \ln 0.2]\\ &&+ 0.95 \ast (1-\phi_{x_{t+1}})[\ln (1-\phi_{x_{t+1}}) - \ln 0.95 - \ln 0.2]\\ G(\phi_{x_{t+1}},a_{t}=2) &=& 0.8 \ast \phi_{x_{t+1}}[\ln \phi_{x_{t+1}}- \ln 0.8 - \ln 0.2]\\ &&+ 0.2 \ast \phi_{x_{t+1}}[\ln \phi_{x_{t+1}}- \ln 0.2 - \ln 0.2]\\ &&+ 0.05 \ast (1-\phi_{x_{t+1}})[\ln (1-\phi_{x_{t+1}}) - \ln 0.05 - \ln 0.8]\\ &&+ 0.95 \ast (1-\phi_{x_{t+1}})[\ln (1-\phi_{x_{t+1}}) - \ln 0.95 - \ln 0.8]\tag{4-15} \end{eqnarray}$

こうして計算できた $G(a, \phi_{x_t})$ をプロットしたのが図4-10。

図4-10: 期待自由エネルギーGに基づく行動選択

図4-10では $G(a=1)$ および $G(a=2)$ を $\phi_{x_t}$ を0-1の間で計算している。図4-5のときは $s=1, s=2$ それぞれのときに $\phi_{x_t}$ を動かして $VFE$ を最小化することができたが、 $G$ の場合には $s=1, s=2$ の両者を考慮しているのでそういうわけにはいかない。

そこでサブセクション4-4-2でも言及したように、 $\phi_{x_t}$ には、初期値である事前分布の $p_{a_t=1}(x_{t+1}=1)=0.8$ および $p_{a_t=2}(x_{t+1})=0.2$ を採用する近似が使われている。よくみるとじつは $\phi_{x_t}$ を動かすと $G$ をさらに最小化することができるが、この件については省略。

こうしてできた $G(a)$ の最小値( $0.6348$ bits vs. $0.3735$ bits)を比較して、より低い $a=2$ の方を行動選択として使う(図4-10)。正確にはsoftmax関数を使うことで、決定論的ではなくて確率論的により大きい方を行動選択する確率が増えるようにしてある。

これはスイッチをオフ $a=2$ にするほうが、照明オフ $x=2$ のときの観測モデル $p(s_{t+1}|x_{t+1})$ の曖昧さによる不確定性を減らすことができるから、と説明することができるだろう。さらに詳しくは、後述のepistemic valueの計算が必要となってくる。

ところで現在使っている観測モデルは $p(s_{t+1}|x_{t+1})=\begin{bmatrix}0.8 & 0.2\\0.05 & 0.95\end{bmatrix}$ と非対称性があった。これが行動選択の原因となっていた。もしこの観測モデルが $\begin{bmatrix} 0.8 & 0.2\\ 0.2 & 0.8 \end{bmatrix}$ と対照的であった場合について $G(a)$ をプロットすると図4-11の通りとなる。

図4-11: Gに基づく行動選択

$G(a)$ の最小値は $a=1,2$ の間でまったく同じ $0.7219$ bitsになるので、どちらの行動を取りやすい、ということはなくなる。これも予想通りだ。

[4-4-4. 期待自由エネルギー $EFE = G$ と変分自由エネルギー $VFE = F$ の関係]

サブセクション4-4-3の頭にも書いたように、 $G$ は二つの $VFE$ の重み付き平均としては計算できない。このことを上記の照明の例において示しておく。

まず式(4-15)のように $F(s_{t+1})$ を $F'(x_{t+1},s_{t+1})=F_{xs}'$ という二つの項に分けておく。

$\begin{eqnarray} F(\phi_{x_{t+1}},s_{t+1}=1,a_{t}) &=& q(x_{t+1}=1|\phi_{x_{t+1}}) [\ln q(x_{t+1}=1|\phi_{x_{t+1}})\\ &&- \ln p_{a_{t}}(x_{t+1}=1,s_{t+1}=1)]\\ && + q(x_{t+1}=2|\phi_{x_{t+1}}) [\ln q(x_{t+1}=2|\phi_{x_{t+1}})\\ && - \ln p_{a_{t}}(x_{t+1}=2,s_{t+1}=1)]\\ &=& F_{11}' + F_{21}'\\ F(\phi_{x_{t+1}},s_{t+1}=2,a_{t}) &=& q(x_{t+1}=1|\phi_{x_{t+1}}) [\ln q(x_{t+1}=1|\phi_{x_{t+1}})\\ && - \ln p_{a_{t}}(x_{t+1}=2,s_{t+1}=1)]\\ && + q(x_{t+1}=2|\phi_{x_{t+1}}) [\ln q(x_{t+1}=2|\phi_{x_{t+1}})\\ && - \ln p_{a_{t}}(x_{t+1}=2,s_{t+1}=2)]\\ &=& F_{12}' + F_{22}' \tag{4-16} \end{eqnarray}$

と、 $G$ の式は以下のように表現できる。

$\begin{eqnarray} G(\phi_{x_{t+1}},a_{t}) &=& p(s_{t+1}=1|x_{t+1}=1)F_{11}'\\ &&+ p(s_{t+1}=2|x_{t+1}=1)F_{21}'\\ &&+ p(s_{t+1}=1|x_{t+1}=2)F_{12}'\\ &&+ p(s_{t+1}=2|x_{t+1}=2)F_{22}' \tag{4-17} \end{eqnarray}$

よって、 $G$ は $F$ の重み付き平均をしただけではないことがわかる。つかもしそうだったら $G$ には $F$ に付加される情報がないので、行動選択のためにわざわざ $G$ を定義する必要はなくなるだろうから、これは理にかなっている。

(検算しておくと、式(4-17)からわかるように、観察モデルが完全に無情報なとき、つまり $p(s_{t+1}|x_{t+1})=\begin{bmatrix}0.5 & 0.5\\0.5 & 0.5\end{bmatrix}$ このときだけ $G$ は $F(s=1)$ と $F(s=2)$ の平均になっている。)

[4-4-5. epistemic value + extrinsic valueへの分解、の前に]

Neural Comput. 2017では、このEFE $G$ の式を分解してepistemic valueと extrinsic valueの輪の形に変形している。式(4-12)から式変形してゆくが、ここで生成モデルの変形として $p(x_{t+1},s_{t+1}) = p(x_{t+1}|s_{t+1})p(s_{t+1})$ を使っている。これまで使っていた「観察モデル*事前分布」による変形をしている。つまり $F=DKL + Surprisal$ による変形だ。

(Epistemic valueが情報獲得を意味するならば、ここでの変形は $p(x_{t+1},s_{t+1}) = p(s_{t+1}|x_{t+1})p(x_{t+1})$ を用いた $F=Bayesian\ surprise + Uncertainty$ になるはずなのだが。この件については後ほど再訪する。)

$\begin{eqnarray} G(\phi_{x_{t+1}},a_{t}) &=& \mathbb{E}_{q(x_{t+1},s_{t+1}|\phi_{x_{t+1}})} [\ln q(x_{t+1}|\phi_{x_{t+1}}) - \ln p_{a_{t}}(x_{t+1},s_{t+1})]\\ &=& \mathbb{E}_{q(x_{t+1},s_{t+1}|\phi_{x_{t+1}})} [\ln q(x_{t+1}|\phi_{x_{t+1}}) - \ln p_{a_{t}}(x_{t+1}|s_{t+1}) - \ln p(s_{t+1})] \tag{4-18} \end{eqnarray}$

ここで私が疑問なのが、式(4-18)の2行目でSurprisal $\ln p(s_{t+1})$ は $a_t$ に依存しないように書かれていることだ。しかし、

$\begin{eqnarray} p(s_{t+1}) &=& \sum_{x_{t+1}}p_{a_{t}}(x_{t+1},s_{t+1}) \\ &=& \sum_{x_{t+1}}p(s_{t+1}|x_{t+1})p_{a_{t}}(x_{t+1}) \tag{4-19} \end{eqnarray}$

となっていることを考えると、 $p(s_{t+1})$ は $p_{a_{t}}(s_{t+1})$ と書くべきではないか。

論より証拠、いまの照明の例で計算してみよう。

$\begin{eqnarray} p_{a_{t}=1}(s_{t+1}=\begin{bmatrix}1 & 2\end{bmatrix}) &=& \sum_{x_{t+1}}p_{a_{t}=1}(x_{t+1},s_{t+1}) \\ &=& \sum_{x_{t+1}}p(s_{t+1}|x_{t+1})p_{a_{t}=1}(x_{t+1})\\ &=& p(s_{t+1}|x_{t+1}=1)p_{a_{t}=1}(x_{t+1}=1)\\ &&+ p(s_{t+1}|x_{t+1}=2)p_{a_{t}=1}(x_{t+1}=2)\\ &=& \begin{bmatrix}0.8 & 0.2\end{bmatrix}\ast 0.8 + \begin{bmatrix}0.05 & 0.95\end{bmatrix}\ast 0.2\\ &=& \begin{bmatrix}0.65 & 0.35\end{bmatrix}\\ p_{a_{t}=2}(s_{t+1}=\begin{bmatrix}1 & 2\end{bmatrix}) &=& \sum_{x_{t+1}}p_{a_{t}=2}(x_{t+1},s_{t+1}) \\ &=& \sum_{x_{t+1}}p(s_{t+1}|x_{t+1})p_{a_{t}=2}(x_{t+1})\\ &=& p(s_{t+1}|x_{t+1}=1)p_{a_{t}=2}(x_{t+1}=1)\\ &&+ p(s_{t+1}|x_{t+1}=2)p_{a_{t}=2}(x_{t+1}=2)\\ &=& \begin{bmatrix}0.8 & 0.2\end{bmatrix}\ast 0.2 + \begin{bmatrix}0.05 & 0.95\end{bmatrix}\ast 0.8\\ &=& \begin{bmatrix}0.20 & 0.80\end{bmatrix}\tag{4-20} \end{eqnarray}$

というわけで、実例による計算から「常に $a_{t}$ に依存してない」に対する反証は出せた。よってここは本来 $p_{a_{t}}(s_{t+1})$ として計算するべきであることが確認できた。

この点については、Gershman arXiv 2019およびKatahira et. al. PsyArXiv 2019は正しい計算をしている(Gershman論文では $G$ の期待値に使っているものが違うけど)。これは些末な話ではなくて、この項をFristonのようにextrinsic valueに捉えるのか、それともKatahira et. al. 2019のようにpredicted surpriseとして捉えるのかで解釈にも大きな違いが生まれる。この点については以下のextrinsic valueの説明のところで再訪する。

なお、これは生成モデルの違いによっては説明できない。のちほど再訪する予定だけど、Katahira et. al. 2019での生成モデルはこの文書での蝶と蛾の例と同じ形で以下のようになるので、 $p_{a_{t}}(s_{t+1})$ が $a_{t}$ に依存するという点については変わらない。

$\begin{eqnarray} p(s_{t+1}) &=& \sum_{x_{t+1}}p_{a_{t}}(x_{t+1},s_{t+1}) \\ &=& \sum_{x_{t+1}}p_{a_{t}}(s_{t+1}|x_{t+1})p(x_{t+1})\tag{4-21} \end{eqnarray}$

[4-4-6. Epistemic valueの導出]

ともあれ今はNeural Comput. 2017に準拠して、EFE $G$ からepistemic value, extrinsic valueの導出までたどり着くことを目標にしよう。式(4-18)の2行目を再掲する。

$\begin{eqnarray} &&G(\phi_{x_{t+1}},a_{t})\\ &=& \mathbb{E}_{q(x_{t+1},s_{t+1}|\phi_{x_{t+1}})} [\ln q(x_{t+1}|\phi_{x_{t+1}}) - \ln p_{a_{t}}(x_{t+1}|s_{t+1}) - \ln p(s_{t+1})] \tag{4-18} \end{eqnarray}$

まずは式(4-18)の第1項、第2項を式変形することでepistemic valueを導出する。 $\phi_{x_{t+1}}$ の表示は省略しておく。

$\begin{eqnarray} &&\mathbb{E}_{q(x_{t+1},s_{t+1})} [\ln q(x_{t+1}) - \ln p_{a_{t}}(x_{t+1}|s_{t+1})]\\ &\approx&\mathbb{E}_{q(x_{t+1},s_{t+1})} [\ln q(x_{t+1}) - \ln q(x_{t+1}|s_{t+1})]\\ &=&\mathbb{E}_{q(s_{t+1})q(x_{t+1}|s_{t+1})} [\ln q(x_{t+1}) - \ln q(x_{t+1}|s_{t+1})]\\ &=&\mathbb{E}_{q(s_{t+1})}[\mathbb{E}_{q(x_{t+1}|s_{t+1})} [\ln q(x_{t+1}) - \ln q(x_{t+1}|s_{t+1})]]\\ &=&-\mathbb{E}_{q(s_{t+1})}[\mathbb{E}_{q(x_{t+1}|s_{t+1})} [\ln q(x_{t+1}|s_{t+1}) - \ln q(x_{t+1})]]\\ &=&-\mathbb{E}_{q(s_{t+1})}D_{KL}[q(x_{t+1}|s_{t+1})\|q(x_{t+1})]\\ &=&-\rm{Epistemic\ value}(a_{t})\tag{4-22} \end{eqnarray}$

1行目から2行目のところで推測 $q(x_{t+1}|s_{t+1})$ がtrue posterior $p_{a_{t}}(x_{t+1}|s_{t+1})$ に充分近づけることができた、という近似を入れている。

このようにして、epistemic valueでは、 $q(x_{t+1}|s_{t+1})$ と $q(x_{t+1})$ の間の距離を計算している。これは未来の感覚入力 $s_{t+1}$ によってどのくらい推測 $q$ が変化するか、つまりBayesian surpriseを計算したうえで、それを全ての $s_{t+1}$ で重み付け平均した期待値を計算している。これによって、行動 $a_{t}$ が引き起こす未来の感覚入力 $s_{t+1}$ のばらつきを考慮した上でBayesian surpriseを計算していることになる。

ここで式(4-22)の一番最後の形を見てもらうと、これは $q(x_{t+1}|s_{t+1})$ と $q(x_{t+1})$ の間の相互情報量になっていることがわかる。

$\begin{eqnarray} &&\rm{Epistemic\ value}(a_{t})\\ &=&\mathbb{E}_{q(s_{t+1})}[D_{KL}[q(x_{t+1}|s_{t+1})\|q(x_{t+1})]\\ &=&D_{KL}[q(x_{t+1}|s_{t+1})\|q(x_{t+1})q(s_{t+1})]\\ &=&MI(q(x_{t+1}|s_{t+1}); q(x_{t+1})) \tag{4-23} \end{eqnarray}$

つまり、epistemic valueとは、未来の感覚入力 $s_{t+1}$ を観測することによって推測 $q(x_{t+1})$ をどのくらいアップデートできるか、という情報獲得の大きさを計算していることになる。だから「epistemic valueが高い行動を選択する」とは「将来的に情報獲得の大きいことが見込まれる行動を選択する」という意味になる。こう考えると、epistemic valueが高い行動を選択するというのは理にかなっている。

(ここで使われている、「推測 $q(x_{t+1}|s_{t+1})$ がtrue posterior $p_{a_{t}}(x_{t+1}|s_{t+1})$ に充分近づけることができた」という近似は、計算を可能にするための近似ではなくて、式(4-18)の第1,2項を情報獲得という解釈をするための読み替えに過ぎない。たとえばサブセクション4-4-2では、推測 $q(x_{t+1})$ を生成モデル(のうち事前分布) $p(x)$ で近似したが、これは不可能な計算を可能にするための近似。でも今やってるのは逆。生成モデル $p$ から作ったtrue posterior を推測 $q$ で近似するというのだから。これはcounter-factualなpredictionにおいては、脳が $q$ を変化させてtrue posteriorと完全に一致させることができる、という仮定である。現在の例のように観察モデルに不確定な要素がある状況では(たぶん)これは成り立たない。)

[4-4-7. Extrinsic valueの導出]

次に、式(4-18)の2行目の第3項を変形させることでextrinsic valueを導出する。

$\begin{eqnarray} &&\mathbb{E}_{q(x_{t+1},s_{t+1})} [- \ln p(s_{t+1})]\\ &=&\mathbb{E}_{q(s_{t+1})q(x_{t+1}|s_{t+1})} [- \ln p(s_{t+1})]\\ &=&\mathbb{E}_{q(s_{t+1})}[\mathbb{E}_{q(x_{t+1}|s_{t+1})} [- \ln p(s_{t+1})]]\\ &=&- \mathbb{E}_{q(s_{t+1})}[\ln p(s_{t+1})]\\ &=&- \mathbb{E}_{q(s_{t+1})}[\ln \bar{p}(s_{t+1})]\\ &=&- \rm{Extrinsic \ value}(a_{t})\tag{4-24} \end{eqnarray}$

ここで3行目から4行目のところで $p(s_{t+1})$ が $q(x_{t+1}|s_{t+1})$ には依存しない( $x_{t+1}$ ごとに足し合わせない)ということを使ってる。

4行目から5行目のところでは $p(s_{t+1})$ を $\bar{p}(s_{t+1})$ と違った書き方をしているが、これはSchwöbel et. al. 2018の表記を採用している。Schwöbel et. al. 2018のp.2537にあるように「将来得られるであろう感覚入力についての事前分布(=preference) $\bar{p}(s_{t+1})$ 」と「将来得られるであろう感覚入力について周辺化した期待値 $p(s_{t+1}) = \sum_{x_{t+1}} p(x_{t+1},s_{t+1})$ 」とはべつものである。Schwöbel et. al. 2018にしろ、Friston et. al. 2017にしろ、前者のpreferenceの方を採用している。

しかしこれは恣意的な読み替えのように思える。というのも、前者のpreferenceの意味であるなら、生成モデルの中に明示的にそのような事前分布を入れるべきだからだ。

ここでParr and Friston bioRxiv 2018の図1に因子グラフがあるのでそれで確認してみると、期待自由エネルギーでは、期待自由エネルギー $G$ の事前分布としてこの $\bar{p}(s_{t+1})$ を入れている(bioRxiv 2018 図1A)。いっぽうで、この論文で提案されているGeneralized free energyでは、各時点の感覚入力(論文内ではobservationだが) $s_{t-1},s_{t},s_{t+1},...$ の全てに共通の事前分布としてこの $\bar{p}(s_{t+1})$ が入っている(bioRxiv 2018 図1B)。つまり、Parr and Friston 2018では、期待自由エネルギーEFEを計算する際に $\bar{p}(s_{t+1})$ が生成モデルには入っていないこと、 $G$ を計算するためだけに使ったパラメーターであることをわかっている。

この文書で(そしてEFE関連の論文で)採用されている生成モデルでは、感覚入力 $s$ はそのつど $x$ から作られるので、生成モデルの式の中に感覚入力についてのprior $p(s)$ というものはそもそも入ってない。よって、 $p(s_{t+1})$ は生成モデルから周辺化して作ったと考えるほうが自然で、事前分布=preferenceであると主張するのには根拠が無いと思う。どうしてそこまでして $\bar{p}(s_{t+1})$ を入れているのかといえば、素の $G$ の式のままではextrinsic value的なものを埋め込むことができないということだろう。でもまあ正直なところ、rewardのようなextrinsic valueをこのような形で自由エネルギー原理の中に組み込むのは無理があるので、強化学習でやってるように明示的にrewardを入れるべきじゃないの？と思った。

[4-4-8. 期待自由エネルギー EFEの式の最終形]

ともあれこれで期待自由エネルギー EFEの式が完成した。式(4-18),(4-23),(4-24)を組み合わせると、最終的な期待自由エネルギーの式になる。

$\begin{eqnarray} G(a_{t}) &=& \mathbb{E}_{q(x_{t+1},s_{t+1}|\phi_{x_{t+1}})} [\ln q(x_{t+1}|\phi_{x_{t+1}}) - \ln p_{a_{t}}(x_{t+1},s_{t+1})]\\ &\approx&-\underbrace{\mathbb{E}_{q(s_{t+1}|\phi_{x_{t+1}})}[D_{KL}[q(x_{t+1}|s_{t+1})\|q(x_{t+1})]}_{\rm{Epistemic\ value}(a_{t})} - \underbrace{\mathbb{E}_{q(s_{t+1}|\phi_{x_{t+1}})}[\ln \bar{p}(s_{t+1})]}_{\rm{Extrinsic \ value}(a_{t})}\tag{4-25} \end{eqnarray}$

つまり、epistemic valueが高いこと、extrinsic valueが高いこと、の両方が期待自由エネルギー EFE $G$ を高くすることに貢献する。

[4-4-9. 照明の例を用いてepistemic valueとextrinsic valueを実感してみる]

図4-10、4-11で計算した $G(a=1)$ 、 $G(a=2)$ について、それぞれのepistemic valueとextrinsic valueを計算してみよう。

まずepistemic valueを計算してみる。前述したようにepistemic valueの近似は計算のための近似ではないので、近似前の式を使って計算する。なお、true posterior $p_{a_{t}}(x_{t+1}|s_{t+1})$ は行動選択 $a_{t}$ に依存する。 $q(x_{t+1}|\phi_{x_{t+1}})$ のほうは近似( $=p(x)$ )は使わずに $\phi_{x_{t+1}}$ の関数の形のまま計算する。

$\begin{eqnarray} &&\rm{Epistemic\ value}(a_{t})\\ &=&\mathbb{E}_{q(x_{t+1},s_{t+1}|\phi_{x_{t+1}})} [\ln p_{a_{t}}(x_{t+1}|s_{t+1}) - \ln q(x_{t+1}|\phi_{x_{t+1}})]\\ &=&q(x_{t+1}=1,s_{t+1}=1|\phi_{x_{t+1}})[\ln p_{a_{t}}(x_{t+1}=1|s_{t+1}=1) - \ln q(x_{t+1}=1|\phi_{x_{t+1}})]\\ &&+q(x_{t+1}=1,s_{t+1}=2|\phi_{x_{t+1}})[\ln p_{a_{t}}(x_{t+1}=1|s_{t+1}=2) - \ln q(x_{t+1}=1|\phi_{x_{t+1}})]\\ &&+q(x_{t+1}=2,s_{t+1}=1|\phi_{x_{t+1}})[\ln p_{a_{t}}(x_{t+1}=2|s_{t+1}=1) - \ln q(x_{t+1}=2|\phi_{x_{t+1}})]\\ &&+q(x_{t+1}=2,s_{t+1}=2|\phi_{x_{t+1}})[\ln p_{a_{t}}(x_{t+1}=2|s_{t+1}=2) - \ln q(x_{t+1}=2|\phi_{x_{t+1}})]\\ &=&p(s_{t+1}=1|x_{t+1}=1)\phi_{x_{t+1}}[\ln p_{a_{t}}(x_{t+1}=1|s_{t+1}=1) - \ln \phi_{x_{t+1}}]\\ &&+p(s_{t+1}=2|x_{t+1}=1)\phi_{x_{t+1}}[\ln p_{a_{t}}(x_{t+1}=1|s_{t+1}=2) - \ln \phi_{x_{t+1}}]\\ &&+p(s_{t+1}=1|x_{t+1}=2)(1-\phi_{x_{t+1}})[\ln p_{a_{t}}(x_{t+1}=2|s_{t+1}=1) - \ln (1-\phi_{x_{t+1}})]\\ &&+p(s_{t+1}=2|x_{t+1}=2)(1-\phi_{x_{t+1}})[\ln p_{a_{t}}(x_{t+1}=2|s_{t+1}=2) - \ln (1-\phi_{x_{t+1}})]\\ &=&0.8 \ast \phi_{x_{t+1}}[\ln p_{a_{t}}(x_{t+1}=1|s_{t+1}=1) - \ln \phi_{x_{t+1}}]\\ &&+0.2 \ast \phi_{x_{t+1}}[\ln p_{a_{t}}(x_{t+1}=1|s_{t+1}=2) - \ln \phi_{x_{t+1}}]\\ &&+0.05 \ast (1-\phi_{x_{t+1}})[\ln p_{a_{t}}(x_{t+1}=2|s_{t+1}=1) - \ln (1-\phi_{x_{t+1}})]\\ &&+0.95 \ast (1-\phi_{x_{t+1}})[\ln p_{a_{t}}(x_{t+1}=2|s_{t+1}=2) - \ln (1-\phi_{x_{t+1}})] \tag{4-26} \end{eqnarray}$

引き続き、個別の $a_{t}$ についてtrue posteriorの値を入れて、Epistemic valueを計算する。

$\begin{eqnarray} \rm{Epistemic\ value}(a_{t}=1) &=&0.8 \ast \phi_{x_{t+1}}[\ln 0.9846 - \ln \phi_{x_{t+1}}]\\ &&+0.2 \ast \phi_{x_{t+1}}[\ln 0.4571 - \ln \phi_{x_{t+1}}]\\ &&+0.05 \ast (1-\phi_{x_{t+1}})[\ln 0.0153 - \ln (1-\phi_{x_{t+1}})]\\ &&+0.95 \ast (1-\phi_{x_{t+1}})[\ln 0.5428 - \ln (1-\phi_{x_{t+1}})]\\ \rm{Epistemic\ value}(a_{t}=2) &=&0.8 \ast \phi_{x_{t+1}}[\ln 0.8 - \ln \phi_{x_{t+1}}]\\ &&+0.2 \ast \phi_{x_{t+1}}[\ln 0.05 - \ln \phi_{x_{t+1}}]\\ &&+0.05 \ast (1-\phi_{x_{t+1}})[\ln 0.2 - \ln (1-\phi_{x_{t+1}})]\\ &&+0.95 \ast (1-\phi_{x_{t+1}})[\ln 0.95 - \ln (1-\phi_{x_{t+1}})] \tag{4-27} \end{eqnarray}$

Extrinsic valueの計算には $\bar{p}(s_{t+1})$ による読み替えを使わず、式(4-18)の第３項のまま、行動選択 $a_{t}$ に依存するexactな計算をしてみよう。

$\begin{eqnarray} &=& \rm{Extrinsic \ value}(a_{t})\\ &=& \mathbb{E}_{q(s_{t+1}|\phi_{x_{t+1}})}[\ln p_{a_{t}}(s_{t+1})]\\ &=& \sum_{s_{t+1}}{q(s_{t+1}|\phi_{x_{t+1}})}\ln p_{a_{t}}(s_{t+1})\\ &=& q(s_{t+1}=1|\phi_{x_{t+1}})\ln p_{a_{t}}(s_{t+1}=1) + q(s_{t+1}=2|\phi_{x_{t+1}})\ln p_{a_{t}}(s_{t+1}=2)\\ &=& \phi_{x_{t+1}}\ln p_{a_{t}}(s_{t+1}=1) + (1-\phi_{x_{t+1}})\ln p_{a_{t}}(s_{t+1}=2) \tag{4-28} \end{eqnarray}$

引き続き、個別の $a_{t}$ について $p_{a_{t}}(s_{t+1})$ の値(式(4-20)で計算済み)を入れて、Extrinsic valueを計算する。

$\begin{eqnarray} &=& \rm{Extrinsic \ value}(a_{t}=1)\\ &=& \phi_{x_{t+1}}\ln p_{a_{t}=1}(s_{t+1}=1) + (1-\phi_{x_{t+1}})\ln p_{a_{t}=1}(s_{t+1}=2)\\ &=& \phi_{x_{t+1}}\ln 0.65 + (1-\phi_{x_{t+1}})\ln 0.35\\ &=& \rm{Extrinsic \ value}(a_{t}=2)\\ &=& \phi_{x_{t+1}}\ln p_{a_{t}=2}(s_{t+1}=1) + (1-\phi_{x_{t+1}})\ln p_{a_{t}=2}(s_{t+1}=2)\\ &=& \phi_{x_{t+1}}\ln 0.20 + (1-\phi_{x_{t+1}})\ln 0.80 \tag{4-29} \end{eqnarray}$

これでEpistemic valueとexactなExtrinsic valueをプロットできる(図4-12)。Exactな値なので、G = -Epistemic value -Extrinsic valueが成り立つ。図でも正負逆になっているので注意。つまり、それぞれ値が低いほうがvalueが高い。Epistemic valueについては前述のとおり、近似は計算結果を変えない。

図4-12: Exactな計算によるEpistemic valueとExtrinsic value

Epistemic valueおよびextrinsic valueそれぞれが行動選択 $a_{t}$ に依存していることがわかる。Epistemic value $(a_{t}=1)$ よりもEpistemic value $(a_{t}=2)$ のほうが僅かに最小値が小さいことから、Epistemic valueがたんなる左右反転でないことがわかる。

$q(x_{t+1})=p(x)$ の近似のもとでは、行動 $a_{t}=1$ を選択したときには $\phi_{x_{t+1}}=0.8$ 、行動 $a_{t}=2$ を選択したときには $\phi_{x_{t+1}}=0.2$ なので、以下のようにまとめることができる。

—	$a=1$	$a=2$
$\phi_{x_t}$	0.8	0.2
-Epistemic value	0.2992	0.3484
-Extrinsic value	0.9341	0.7219
G(a)	0.6348	0.3735

テーブル2: Exactな計算によるEpistemic valueとExtrinsic value

つまり、epistemic valueとextrinsic valueの効果は行動 $a_{t}$ によって逆転しているのだけど、両方の和の結果として、期待自由エネルギー $G$ は $a=2$ のときのほうが低くなるので、行動選択としては $a=2$ を選ぶことになる。

ではつぎに、Fristonの定義に基づいて preferenceとして読み替えたときのextrinsic valueを計算してみよう。ここでpreferenceを以下のように設定する。

$\begin{eqnarray} \bar{p}(s=\begin{bmatrix}1 & 2\end{bmatrix}) = \begin{bmatrix}0.75 & 0.25\end{bmatrix} \end{eqnarray}$

つまり、いま「部屋を75%の確率で明るくあってほしい(100%明るいのも良くない)」というpreferenceをこれまでの生成モデルに設定として付け加えたということになる。これは行動 $a$ には依存しない。

(こう書いて気づいたけど、行動 $a$ に依存するpreferenceがあってもいいよね？つまり、「スイッチを付けたら明るくなってほしいし、スイッチを消したら暗くなってほしい」というpreference。そしてこれが、行動の結果の予測可能性の最大化であり、FEPが前提としているものだ。つまり、明示的なpreference=ゴールがないときにもFEPはpreferenceを持っている。)

つぎに $q(s_{t+1})$ を計算してみよう。式(4-13)を $x_{t+1}$ で足し合わせてしまえばいい。こちらも行動 $a$ に依存しないことがわかる。あくまでも $q(s_{t+1})$ は $\phi_{x_{t+1}}$ の関数であって、行動 $a$ によって $\phi_{x_{t+1}}$ が決まる。(行動 $a=1$ のときは $\phi_{x_{t+1}}=0.8$ となるのだった。図4-10,4-11参照。)

$\begin{eqnarray} q(s_{t+1}|\phi_{x_{t+1}}) &=& \sum_{x_{t+1}} q(x_{t+1},s_{t+1}|\phi_{x_{t+1}})\\ &=& \sum_{x_{t+1}} p(s_{t+1}|x_{t+1})q(x_{t+1}|\phi_{x_{t+1}})\\ q(s_{t+1}=1|\phi_{x_{t+1}}) &=& p(s_{t+1}=1|x_{t+1}=1)\phi_{x_{t+1}}\\ &&+p(s_{t+1}=1|x_{t+1}=2)(1-\phi_{x_{t+1}})\\ &=& 0.8 \ast \phi_{x_{t+1}} + 0.05(1-\phi_{x_{t+1}})\\ &=& 0.75 \ast \phi_{x_{t+1}} + 0.05\\ q(s_{t+1}=2|\phi_{x_{t+1}}) &=&p(s_{t+1}=2|x_{t+1}=1)\phi_{x_{t+1}}\\ &&+p(s_{t+1}=2|x_{t+1}=2)(1-\phi_{x_{t+1}})\\ &=& 0.2 \ast \phi_{x_{t+1}} + 0.95(1-\phi_{x_{t+1}})\\ &=& -0.75 \ast \phi_{x_{t+1}} + 0.95 \tag{4-30} \end{eqnarray}$

これでextrinsic valueを $\phi_{x_{t+1}}$ の関数として書くことができる。

$\begin{eqnarray} Extrinsic \ value(\phi_{x_{t+1}}) &=& \sum_{s_{t+1}} q(s_{t+1}|\phi_{x_{t+1}})\ln \bar{p}(s_{t+1})\\ &=& q(s_{t+1}=1|\phi_{x_{t+1}})\ln \bar{p}(s_{t+1}=1)\\ &&+q(s_{t+1}=2|\phi_{x_{t+1}})\ln \bar{p}(s_{t+1}=2)\\ &=& q(s_{t+1}=1|\phi_{x_{t+1}})\ln 0.75 + q(s_{t+1}=2|\phi_{x_{t+1}})\ln 0.25\\ &=& (0.75 \ast \phi_{x_{t+1}} + 0.05)\ln 0.75 \\ &&+ (-0.75 \ast \phi_{x_{t+1}} + 0.95)\ln 0.25\tag{4-31} \end{eqnarray}$

これのようにしてできた-extrinsic value(preferenceバージョン)から、Friston et al 2017での定義に基づいた $G(a) = -\rm{epistemic\ value} -\rm{extrinsic\ value}$ をプロットしてみる(図4-13)。

図4-13: FristonのEpistemic valueとExtrinsic value

前述したように、preferenceに基づいたextrinsic valueは $a_{t}$ には依存していないので、図4-13A,Bともに同じ線になる("-Extrinsic value (preference)", 薄緑色)。そして $q(x_{t+1})=p(x)$ の近似のもとでは、行動 $a_{t}=1$ を選択したときには $\phi_{x_{t+1}}=0.8$ 、行動 $a_{t}=2$ を選択したときには $\phi_{x_{t+1}}=0.2$ なので、以下のようにまとめることができる。

—	$a=1$	$a=2$
$\phi_{x_t}$	0.8	0.2
-Epistemic value	0.2992	0.3484
-Extrinsic value	0.9698	1.6830
G(a)	0.6705	1.3346

テーブル3: FristonのEpistemic valueとExtrinsic value

つまり、行動 $a_{t}=1$ (スイッチを付ける) のほうが-extrinsic valueは低くなる。これはpreferenceに合致した未来の感覚入力 $s$ をサンプルするであろう行動 $a_1$ がよりextrinsic valueが高い、という理屈だ。

その結果として期待自由エネルギー $G$ は $a=1$ のときのほうが低くなるので、行動選択としては $a=1$ を選ぶことになる。図4-12のときは $a=2$ を選んでいたので、結果が逆になった。Extrinsic valueをどう定義するかが行動選択に重大な違いを生むということがわかる。

図4-13を見ていて気になるのがなんでextrinsic valueは直線であって、曲線でないかということだ。式(4-31)を見ればわかるようにextrinsic valueは $\phi_{x_{t+1}}$ の一次関数だ。この性質はpreferenceの値には依存してない。Extrinsic valueはその定義上、preference $\bar{p}$ と $q(s_{t+1})$ が一致するときに最大になっていてほしいのだけど、そうなってない。代わりにslopeの大きさがvalueの大きさ(utility)と比例すると解釈することになる。でもそうすると、このやり方だと複数のゴールを設定することはできない。

4-4-10. Expected free energyにかんする疑問、 $G$ の解釈と計算についての代案

Expected free energyの説明は以上だが、これで納得行っただろうか？私はepistemic valueの導出を見ていて気づいたことがある。式(4-22)では、 $q(x_{t+1})$ が観測データ $s_{t+1}$ 無しでの推測を意味することになっている。しかしこれまでの例、例えば図3-2の行動無しの設定においては、観測データ $s_{t+1}$ を得た上での推測=approximate posteriorは $q(x_{t+1})$ と書いてきた。 $q(x_{t+1}|s_{t+1})$ ではなくて。そしてそもそも式(4-18)での $G$ の式の第1項が $\ln q(x_{t+1})$ になっているのはこれがapproximate posteriorだったからだ。事前分布で近似できる $q(x_{t+1})=q(x_{t})=p(x)$ ではなくて。つまりFriston et al 2017では、知らず知らずのうちに $q(x_{t+1})$ の読み替え(誤読)を行っていないだろうか？

ここがEFEが錯綜している原因ではないかと私は思う。それならば、はじめからapproximate posterior のことを $q(x_{t+1}|s_{t+1})$ と書くことにして、式(4-18)も式(4-32)のように表示するのが筋だろう。

$\begin{eqnarray} &&G(\phi_{x_{t+1}},a_{t})\\ &=& \mathbb{E}_{q(x_{t+1},s_{t+1}|\phi_{x_{t+1}})} [\ln q(x_{t+1}|s_{t+1},\phi_{x_{t+1}}) - \ln p_{a_{t}}(x_{t+1},s_{t+1})] \tag{4-32} \end{eqnarray}$

そしてさらにこれの生成モデルの部分を「観察モデル*事前分布」とする変形 $p(x_{t+1},s_{t+1}) = p(x_{t+1}|s_{t+1})p(s_{t+1})$ を用いて変形してゆくと、

$\begin{eqnarray} &&G(\phi_{x_{t+1}(s_{t+1})},a_{t})\\ &=& \mathbb{E}_{q(x_{t+1},s_{t+1}|\phi_{x_{t+1}(s_{t+1})})} [\ln q(x_{t+1}|s_{t+1},\phi_{x_{t+1}(s_{t+1})}) \\ &&- \ln p_{a_{t}}(x_{t+1}|s_{t+1}) - \ln p_{a_{t}}(s_{t+1})]\\ &=& \mathbb{E}_{q(s_{t+1}|\phi_{x_{t+1}(s_{t+1})})}\mathbb{E}_{q(x_{t+1}|s_{t+1},\phi_{x_{t+1}(s_{t+1})})} [\ln q(x_{t+1}|s_{t+1},\phi_{x_{t+1}(s_{t+1})})\\ && - \ln p_{a_{t}}(x_{t+1}|s_{t+1}) - \ln p_{a_{t}}(s_{t+1})]\\ &=& \mathbb{E}_{q(s_{t+1}|\phi_{x_{t+1}(s_{t+1})})}[\mathbb{E}_{q(x_{t+1}|s_{t+1},\phi_{x_{t+1}(s_{t+1})})} [\ln q(x_{t+1}|s_{t+1},\phi_{x_{t+1}(s_{t+1})}) \\ &&- \ln p_{a_{t}}(x_{t+1}|s_{t+1})] - \mathbb{E}_{q(x_{t+1}|s_{t+1},\phi_{x_{t+1}(s_{t+1})})} [\ln p_{a_{t}}(s_{t+1})]]\\ &=& \mathbb{E}_{q(s_{t+1}|\phi_{x_{t+1}(s_{t+1})})}[D_{KL}[q(x_{t+1}|s_{t+1},\phi_{x_{t+1}(s_{t+1})})\|p_{a_{t}}(x_{t+1}|s_{t+1})] - \ln p_{a_{t}}(s_{t+1})]\\ &=& \mathbb{E}_{q(s_{t+1}|\phi_{x_{t+1}(s_{t+1})})}\underbrace{D_{KL}[q(x_{t+1}|s_{t+1},\phi_{x_{t+1}(s_{t+1})})\|p_{a_{t}}(x_{t+1}|s_{t+1})]}_{KLD}\\ && - \mathbb{E}_{q(s_{t+1}|\phi_{x_{t+1}(s_{t+1})})}\underbrace{\ln p_{a_{t}}(s_{t+1})}_{Surprisal} \tag{4-33} \end{eqnarray}$

元々のVFEの式でのKLDとsurprisalの足し算になっている。こちらのほうが変分自由エネルギーを最小化する過程と整合的になっていると思う。そもそも $G$ の式の第1,2項は、もともとのVFEの式ではKLDに対応していたのだから、ここを変形したら情報獲得になった、というのがおかしな話だった。

なお、ここで $\phi_{x_{t+1}}$ はそれぞれの $s_{t+1}$ に合わせて決めてやる必要があるので、 $\phi_{x_{t+1}(s_{t+1})}$ と表記している。つまり、counter-factualな推測 $q$ としては、すべての可能な $s_{t+1})$ についての $x_{t+1})$ の推測をしている。

それならば、生成モデルの部分を「true posterior*evidnece」とする変形 $p(x_{t+1},s_{t+1}) = p(s_{t+1}|x_{t+1})p(x_{t+1})$ を用いて変形していけば、 $F=Bayesian\ surprise + Uncertainty$ に対応したものになるはずだ。やってみよう。

$\begin{eqnarray} &&G(\phi_{x_{t+1}},a_{t})\\ &=& \mathbb{E}_{q(x_{t+1},s_{t+1}|\phi_{x_{t+1}})} [\ln q(x_{t+1}|s_{t+1},\phi_{x_{t+1}}) - \ln p_{a_{t}}(x_{t+1}) - \ln p_{a_{t}}(s_{t+1}|x_{t+1})]\\ &=& \mathbb{E}_{q(s_{t+1}|\phi_{x_{t+1}})}\mathbb{E}_{q(x_{t+1}|s_{t+1},\phi_{x_{t+1}})} [\ln q(x_{t+1}|s_{t+1},\phi_{x_{t+1}}) - \ln p_{a_{t}}(x_{t+1}) \\ &&- \ln p_{a_{t}}(s_{t+1}|x_{t+1})]\\ &=& \mathbb{E}_{q(s_{t+1}|\phi_{x_{t+1}})}[\mathbb{E}_{q(x_{t+1}|s_{t+1},\phi_{x_{t+1}})} [\ln q(x_{t+1}|s_{t+1},\phi_{x_{t+1}}) - \ln p_{a_{t}}(x_{t+1})] \\ &&- \mathbb{E}_{q(x_{t+1}|s_{t+1},\phi_{x_{t+1}})} [\ln p_{a_{t}}(s_{t+1}|x_{t+1})]]\\ &=& \mathbb{E}_{q(s_{t+1}|\phi_{x_{t+1}})}[D_{KL}[q(x_{t+1}|s_{t+1},\phi_{x_{t+1}})\|p_{a_{t}}(x_{t+1})] \\ &&- \mathbb{E}_{q(x_{t+1}|s_{t+1},\phi_{x_{t+1}})}\ln p_{a_{t}}(s_{t+1}|x_{t+1})]\\ &=& \mathbb{E}_{q(s_{t+1}|\phi_{x_{t+1}})}\underbrace{D_{KL}[q(x_{t+1}|s_{t+1},\phi_{x_{t+1}})\|p_{a_{t}}(x_{t+1})]}_{Bayesian\ Surprise(a_{t},s_{t+1},\phi_{x_{t+1}})} \\ &&+ \mathbb{E}_{q(s_{t+1}|\phi_{x_{t+1}})}\underbrace{[-\mathbb{E}_{q(x_{t+1}|s_{t+1},\phi_{x_{t+1}})}\ln p_{a_{t}}(s_{t+1}|x_{t+1})]}_{Uncertainty} \tag{4-34} \end{eqnarray}$

こちらのほうが、bayesian surpriseを元にして情報獲得を計算しているという意味で理にかなっている。そして、そもそも元のVFEの式では、agentはbayesian surpriseを最大化していない。あくまでもKLDを最小化するように推測 $q$ = approximate posteriorをアップデートするのが先で、その結果としてbayesian surpriseが $>0$ となるだけだ(サブセクション1-9を参照)。だから、 $G$ がepistemic value(とextrinsic valueの和)を最大化するように行動 $a$ を選択するというのは、agentが変分推定をするという元々の考え方からすればおかしな話なのだ。

あと、Bayesian surpriseはその定義より、事前分布 $p_{a_{t}}(x_{t+1})$ からの情報獲得となっているので、 $t=0$ からの総獲得情報量を表すことになる。その時点での情報獲得を計算するためには、 $t-1, t, t+1$ と時間ごとにBayesian surpriseを計算したうえで、その差分として計算されることになる。(いまは生成モデルは固定なので、 $p_{a_{t-2}}(x_{t-1})=p_{a_{t-1}}(x_{t})=p_{a_{t}}(x_{t+1})$ であり、ただの定数。)

さてそれでは、このように解釈した $G(a)$ をプロットしてみる(図4-14)。 $\phi_{x_{t+1}(s_{t+1})}$ は $s=1,2$ についてそれぞれあるので、二次元のデータをカラー表示することにする。

図4-14: 改良版期待自由エネルギー G

白丸が行動 $a=1$ および $a=2$ それぞれの期待自由エネルギー $G$ が最小になる場所を表している。行動 $a=1$ では $\phi_{x_{t+1}(s_{t+1}=1)} = q(x_{t+1}|s_{t+1}=1)=0.88$ かつ $\phi_{x_{t+1}(s_{t+1}=2)} = q(x_{t+1}|s_{t+1}=2)=0.33$ のときに最小となる。同様に行動 $a=2$ では $\phi_{x_{t+1}(s_{t+1}=1)} = q(x_{t+1}|s_{t+1}=1)=0.43$ かつ $\phi_{x_{t+1}(s_{t+1}=2)} = q(x_{t+1}|s_{t+1}=2)=0.08$ のときに最小となる。

これらの値は過去の行動選択の例(テーブル1)のときと似ているがやや違う。同じにならないのはサブセクション4-4-4にあるように、まったく同じ計算をしているわけではないから。

期待自由エネルギー $G$ は行動 $a=1$ (スイッチオン)のときよりも行動 $a=2$ (スイッチオフ)のときにより低くなる。よってagentは行動 $a=2$ (スイッチオフ)を選択する、ということになる。

—	$a=1$	$a=2$
$\phi_{x_{t+1}(s_{t+1}=1)}$	0.88	0.43
$\phi_{x_{t+1}(s_{t+1}=2)}$	0.33	0.08
G(a)	0.3082	0.2140

テーブル4: 改良版期待自由エネルギー G

同じデータについてKLD, surprisal, bayesian surprise, uncertaintyについて２次元表示をすることができる。

図4-15: 改良版期待自由エネルギー Gでの各要素

これを見てわかるのは、 $G$ が最小になるところでKLD成分が0になるわけではないこと、一方で、 $G$ が最小になるところではBayesian surprise成分がほぼ0になること、などがある。このあたりはもう少し調べて見る価値がありそう。

そういうわけで、改良版期待自由エネルギー Gは変分推定をするという元々の考え方と合致した上でちゃんと行動選択にも使えそうだ。

結論としては、Friston et al 2017の期待自由エネルギー $G$ ってぜんぜん変分推定してないよね、ってことになる。じゃあちゃんと変分推定しようよってのが、Schwöbel et al 2018とParr and Friston 2018が行っていることだと私は解釈している。そういうわけで、次はSchwöbel et al 2018の解説に行く。

/ ツイートする
/ 投稿日: 2019年05月01日
/ カテゴリー: [フリストンの自由エネルギー原理(FEP)] [生理研研究会2019「脳の理論から身体・世界へ」FEP特集]
/ Edit(管理者用)

お勧めエントリ

細胞外電極はなにを見ているか(1) 20080727 (2) リニューアル版 20081107
総説長期記憶の脳内メカニズム 20100909
駒場講義2013 「意識の科学的研究 - 盲視を起点に」20130626
駒場講義2012レジメ意識と注意の脳内メカニズム(1) 注意 20121010 (2) 意識 20121011
視覚、注意、言語で3*2の背側、腹側経路説 20140119
脳科学辞典の項目書いた「盲視」 20130407
脳科学辞典の項目書いた「気づき」 20130228
脳科学辞典の項目書いた「サリエンシー」 20121224
脳科学辞典の項目書いた「マイクロサッケード」 20121227
盲視でおこる「なにかあるかんじ」 20110126
DKL色空間についてまとめ 20090113
科学基礎論学会秋の研究例会ワークショップ「意識の神経科学と神経現象学」レジメ 20131102
ギャラガー＆ザハヴィ『現象学的な心』合評会レジメ 20130628
Marrのrepresentationとprocessをベイトソン流に解釈する (1) 20100317 (2) 20100317
半側空間無視と同名半盲とは区別できるか？(1) 20080220 (2) 半側空間無視の原因部位は？ 20080221
MarrのVisionの最初と最後だけを読む 20071213

月別過去ログ

[2025]: 6|; 5|; 4|; 3|; 2|; 1|
[2024]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2023]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2022]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2021]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2020]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2019]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2018]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2017]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2016]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2015]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2014]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2013]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2012]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2011]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2010]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2009]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2008]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2007]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2006]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2005]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2004]: 12|; 11|; 10|; 9|; 8|; 7|; 6|; 5|; 4|; 3|; 2|; 1|
[2003]: 12|; 11|; 8|; 7|
[2001]: 10|; 8|; 6|; 5|; 4|; 2|
[2000]: 12|; 9|; 8|; 7|; 6|; 3|; 2|; 1|
[1999]: 9|; 8|; 7|

pooneilの脳科学論文コメント