« ASCONE2010の準備してます(1)実習内容に関連して | 最新のページに戻る | ASCONE2010の準備してます(3)predictive codingと身体性と自由エネルギー »

■ ASCONE2010の準備してます(2)ベイジアン・サプライズについて

ASCONE2010 『意識の実体に迫る』 で「注意の計算理論で盲視を調べる」ってタイトルで講義をします。

それに関連していろいろツイッターでつぶやいてきました。それのまとめの第ニ弾は、bayesian surpriseに関連して。ここから:


モデルM、データDがあったときに、prior=P(M)で posterior=P(M|D)としてこのKL距離がベイジアンサプライズ。でもpriorとposteriorの相互情報量 I(M,D)=H(M)-H(M|D)を計算してもよさそうだ。いったいなにが本質的に違うというのだろう? 数学的に違うものを見ているのはわかる。

たぶんこれは、visual search中にinformation maximizationをしているのか、surpriseのminimizationをしているのか、の問いと関わっているんだろう。試しに簡単な例で計算してみればよいのか。

そうだ、このばあいの相互情報量をKL距離で表現すれば、MI=KL(P(M,D), P(M)*P(D))となるわけだから、やっぱ独立性の検定みたいなことしてるわけで、bayesian surpriseとはぜんぜんべつもんだよなあ。

とか書いてたら、おお!! 期待値とったらMIになるということはかなり近い概念ではあるわけですね。ちなみにこの値が注意の指標になるって話です。http://bit.ly/bAF9ni RT @statneuro: 文脈把握してませんが,この定義だと期待値とったら相互情報量ですよね

思い出した、期待値とったらって話はそういえば続報の論文にありました。http://bit.ly/d2wgkz

MI=E[KL(P(M|D),P(M)] これはなるほど! あとここはベイズ更新の文脈なので、時々刻々変わる入力Dに対してsurpriseを計算するのとその期待値であるMIを計算する(すべてのDでP(D)をかけて足してやる)のとは等価ではないはず。

元論文読んでみたら、エントロピーはDに関して積分していて、ベイジアンサプライズはMに関して積分している。だからそれぞれMまたはDに関して積分してやると同じMIになる。だから、ベイジアンサプライズ-MIの関係はエントロピー-MIの関係に相当するらしい。


ベイジアンサプライズの一つ曖昧な点は、KL(prior|posterior)とKL(posterior|prior)のどちらに意味があるか決まらない点。足して2で割るとか書いてあって、それはないだろと思う。

オッズ比の期待値をとったものとしての解釈からは、D,Mごとの surpriseとして対数オッズ比 log(P(M)/P(M|D))が選ばれて、これをすべてのMの期待値で足し合わせたものΣ(P(M)*log(P(M)/P(M|D)))がベイジアンサプライズとなる。

さらにこれをすべてのDの期待値で足し合わせるとDとMとのあいだのMIになる、ということでさっきの話に繋がる。

とりあえずシンメトリックにする技だと思うんですが、そもそもシンメトリックであるべきとする理由がない、みたいなことがNeural Network 2010の方に書いてあります。RT @_akisato: これ、KLを距離関数にするための方法としてよく使われますね。

そうすると、D,Mごとのsurpriseとして対数オッズ比 log(P(M)/P(M|D))をすべてのDの期待値P(D)(=周辺尤度)ごとに足し合わせたものというのも考えられるのか。

なるほど、そっちのほうが基本的には使われているようです。どちらかというとP(M)のほうが計算しやすいという理由だったりするようですけど。RT @_akisato: PとQの情報量の差をPで期待値を取るKL(P||Q)の意味から考えるとKL(事前||事後)が自然ですかねぇ。


以前書いたことだけど、時々刻々の変化を評価している surpriseはあるモデルm1とあるデータd1があるときのオッズ比を全モデル空間M={m1,...}で期待値を取ったものだった。これをさらに全データ空間D={d1,...}で期待値を取るとMとDとの相互情報量となるのだった。だから、サプライズがDの空間で期待値を取ると相互情報量になるというのは、サプライズが時々刻々のデータd1ごとに規定される値で、相互情報量はその検出器にいろんなデータを入れた上で評価される、検出器の性能みたいなもの、ということで別ものであるとは言える。


bayesian surpriseはtemporalなものとspatialなものとを別々に計算できる。temporalなほうは自明だと思うけど、spatialなほうは「detectorの周りは均一な灰色」みたいなpriorからどのくらいずれるかで評価する。だからほとんどsaliencyと等価なものになる。とかいったことをASCONEで説明することになる。ややこしい方へ行きすぎだろうか。

でこのへんからマッドになってくるんだけれど(<-いままでは違うと言いたいらしい)、さいきんやっとquantum families読み出したので、反実仮想と周辺尤度の計算を繋げるとかそんなことが頭を廻ってる。かなり厨房的アイデアなので同じこと昔考えた人は笑ってほしい。

つまり、量子脳とか考えなくても、ニューロンでMとDとを周辺化できれば、まさに実際あったこととなかったこととこれからあることと不可能なこととのアンサンブルを持っていることにならないか? ちなみにこの空間から外れるものがブラックスワン。

さらにもひとつ厨房的アイデアでは、「ガウス曲率は第1基本形式だけで定まる」ってのを読んだときに、localなニューロンの関係性から自分の空間の曲がり具合を知って、情報幾何的な位置関係(つまり KL divergence)とかがわかるんじゃないの?とか考えたけど。トンデモだって笑って。


あとちなみにサプライズとかサリエンシーは計算モデルでしかないから、認知的なサリエンシー検出器とかボトムアップ注意と同一視はできない。よって実験によるevaluationが必要。実際私が今蹴られまくってる論文はそのへんのモデルと実証の往復あたりがポイント。


以上です。ASCONE自体の募集はすでに終了していますが、ツイッタでの議論は誰に対してもオープンです。まだ現在進行で内容が増えてます。ぜひそちも見ていただければ。それでは仙台にて。


お勧めエントリ


月別過去ログ