« Nature 10/14 | 最新のページに戻る | キング・クリムゾン「太陽と戦慄」 »

■ Neuron 10/14 Glimcher論文つづき

"Activity in Posterior Parietal Cortex Is Correlated with the Relative Subjective Desirability of Action." Michael C. Dorris and Paul W. Glimcher

いろいろ復旧してませんが休み終了です。再開します。

今回はいちおうオチ、というか話に収拾がつけてあると思いますが、そこまでの道はかなりぐちゃぐちゃです。

前回の行動データについてさらに続けます。この論文で問題なのは、mmrlさんもコメントでご指摘の通り(11/15および以前の8/31)、expected utility=subjective desirabilityの定量化が明示的には(ぼやかした形でFig.9で扱われているが)まったくなされていないことです。Figure.3を見ながらもう一度考えてみましょう。 Expected valueの比(riskyとcertain間の比)はFigure 3bで明示的に現れています。Expected valueの比を明示的に計算してみましょう。ここではブロック内での平均値に関して。

10/1に書いたように、expected valueを計算するためには別々のoutcome(今回の場合だったらinspectされたときとされないとき)での割合で重み付けをしてvalue(今回の場合だったらジュースの量)を足し合わせます。これをrisky, certainそれぞれでやってみましょう。なお、ここではまだナッシュ均衡のことは考えてません。

riskyのexpected value
 = sum(reward probability(risky) * reward magnitude(risky))
 = reward probability(risky,inspect) * reward magnitude(risky,inspect)
 + reward probability(risky,not inspect) * reward magnitude(risky,not inspect)
 = p(inspect)*0 + (1-p(inspect))*1
 = 1-p(inspect)
certainのexpected value
 = sum(reward probability(certain) * reward magnitude(certain))
 = reward probability(certain,inspect) * reward magnitude(certain,inspect)
 + reward probability(certain,not inspect) * reward magnitude(certain,not inspect)
 = p(inspect)*0.5 + (1-p(inspect))*0.5
 = 0.5
よってExpected valueの比(riskyとcertain間の比)
 = expected value(risky) / (expected value(risky)+expected value(certain))
 = (1-p(inspect))/(1.5-p(inspect))
なお、Table 1についてさらっと書かれているけれども、
被験者のreward probability for risky choiceというのは
対戦相手がinspectするか否か、p(inspect)で決まっているわけです。
p(inspect)はIのブロック内では被験者がriskyとcertainと選ぶときとで共通です。
よって以下のように書けます。
reward probability(risky,inspect) = p(inspect)
reward magnitude(risky,inspect) = 0
reward probability(risky,not inspect) = 1-p(inspect)
reward magnitude(risky,not inspect) = 1
reward probability(certain,inspect) = p(inspect)
reward magnitude(certain,inspect) = 0.5
reward probability(certain,not inspect) = 1-p(inspect)
reward magnitude(certain,not inspect) = 0.5

この(1-p(inspect))/(1.5-p(inspect))がFigure.3Bの横軸で表されているものです。一方で同様な比をexpected utilityでも計算してやることができます。ただし、被験者のジュース量に対するutility functionはここでは未知ですからu()と表記します。フォンノイマン-モルゲンシュテルンのutility functionであるとするならば式変換も多少できます。あと、u(0)=0と見なしておいてよいでしょう。そうすると、

riskyのexpected utility
 = sum(reward probability(risky) * reward utility(risky))
 = reward probability(risky,inspect) * reward utility(risky,inspect)
 + reward probability(risky,not inspect) * reward utility(risky,not inspect)
 = p(inspect)*u(0) + (1-p(inspect))*u(1)
 = (1-p(inspect))*u(1)
certainのexpected utility
 = sum(reward probability(certain) * reward utility(certain))
 = reward probability(certain,inspect) * reward utility(certain,inspect)
 + reward probability(certain,not inspect) * reward utility(certain,not inspect)
 = p(inspect)*u(0.5) + (1-p(inspect))*u(0.5)
 = u(0.5)
よってExpected utilityの比(riskyとcertain間の比)
 = expected value(risky) / (expected value(risky)+expected value(certain))
 = (1-p(inspect))*u(1) /((1-p(inspect))*u(1) + u(0.5))
 = (1-p(inspect))/ ((1-p(inspect))+ u(0.5)/*u(1))
最後は分子と分母をu(1)で割ってます。

つまり、Expected valueの比とExpected utilityの比とはu(0.5)/*u(1)=0.5のときは等価で、それ以外のときにずれてくるという微妙な差でしかありません。Glimcherが差を出そうとしていたことはこんなにも微妙な差なのです。

とりあえずp(inspect)=0.5のときにu(0.5)/*u(1)を振ってシミュレーションしてみましょう。Expected valueの比は1/2で固定です。Glimcherは今回のSFNでhaman fMRIでutility functionとしてutility = (value^(1-r))/(1-r)を使ってました。r>0でrisk aversive、r<0でrisk seekingです。Indifference curveを作ってrを計算するとrは-0.2-0.4あたりのレンジです。このレンジでu(x)/u(2*x)をだいたいで計算すると、0.40-0.65のレンジ、これを今回の論文のu(0.5)/u(1)に入れてやるとexpected utilityの比は0.43-0.55のレンジに散る、かなり適当な計算ですが、レンジはだいたいあってるでしょう。

さて、いままでの話はp(inspect)が固定している場合で、まだナッシュ均衡は出てきてませんでした。この状況ではexpected valueの方が一定になってしまうわけです、この意味で8/31にmmrlさんが書いてた、expected valueのほうが一定になるのでは?という疑問は正しいわけです。

しかし実際にナッシュ均衡が起こってもp(inspect)=0.5にはならなくてよいし(個体ごとのrisk averseの程度によってずれててよい)、もしtable 1のようにp(inspect)がブロック間で違っているときには(これがナッシュ均衡で起こりうるかどうかは疑問だけど)、expected valueとexpected utilityは今回の実験パラダイムで乖離しうる、しかしブロック間でp(inspect)が共通の時にはexpected valueとexpected utilityは今回の実験パラダイムでは乖離しえない、これがいまから私が書くことのまとめです。

Methodの式(4)-(6)に関しては、対戦相手がコンピュータであり、expected utility=expected valueであるため、ナッシュ均衡にあるときに対戦相手がinspectするときとnot inspectするときとでexpected utilityが等しいことから、p(risky)=Iとなる、これは正しいわけです。しかしいっぽうで、(1)-(3)の方は間違っているのではないでしょうか。もう一回上で使った式を使います。

ナッシュ均衡において、被験者がriskyを選ぶときとcertainを選ぶときとで
被験者のexpected utilityは等しい。よって、
riskyのexpected utility
 = sum(reward probability(risky) * reward utility(risky))
 = reward probability(risky,inspect) * reward utility(risky,inspect)
 + reward probability(risky,not inspect) * reward utility(risky,not inspect)
 = p(inspect)*u(0) + (1-p(inspect))*u(1)
 = (1-p(inspect))*u(1)
certainのexpected utility
 = sum(reward probability(certain) * reward utility(certain))
 = reward probability(certain,inspect) * reward utility(certain,inspect)
 + reward probability(certain,not inspect) * reward utility(certain,not inspect)
 = p(inspect)*u(0.5) + (1-p(inspect))*u(0.5)
 = u(0.5)
両者が等しいとき、
(1-p(inspect))*u(1) = u(0.5)
 p(inspect) = 1- u(0.5)/u(1)

こうなるわけで、p(inspect)は0.5で一定になるというよりは、被験者のutility functionによって0.35-0.60あたりのレンジにあるのではないかと。問題はutility functionがI:inspection costのブロック間で変化しないかどうかです。もし変わってしまえはtable1にあるようにp(inspect)がinspection costによって変化してもおかしくはありません。

だんだんこんがらがってきました。もう少しこのへんの話に材料を与えるために、いままで言ってこなかった話を出しましょう。

この論文のメインの結果はGlimcherの近著のFigure 12.5にもあるように、ナッシュ均衡では別々のinspection costのときのrisky choiceのexpected utilityは等しい、LIPニューロンの活動も一定だった、というものです。しかしこれはそんなにまっすぐな論理ではありません。だって、これまでも書いてきたように、あくまでナッシュ均衡にあるときはそのブロックでのriskyとcertainの選択のexpected utilityが等しいということだけなのですから。もう一つ以上のロジックのステップが必要です。

たとえばI=0.2のときのrisky, certainそれぞれのexpected utilityを
EU(risky,0.2)、EU(certain,0.2)などと書くとしますと、
ナッシュ均衡において、
EU(risky,0.2)=EU(certain,0.2)
EU(risky,0.5)=EU(certain,0.5)
EU(risky,0.8)=EU(certain,0.8)
などが成り立ちます。ここで
EU(certain,0.2)=u(0.5,0.2)
EU(certain,0.5)=u(0.5,0.5)
EU(certain,0.8)=u(0.5,0.8)
でこれはp(inspect)に依存しません。
あとはutility function uがI:inspection costに依存しないこと
が保証されていれば(***)、
EU(certain,0.2)=EU(certain,0.5)=EU(certain,0.8)
が成り立ち、
EU(risky,0.2)=EU(risky,0.5)=EU(risky,0.8)
が成り立つ。

こういうことのはずです。

いっぽうでexpected valueに関してはFig.3BにあるようにI=inspection costに依存します。

たとえばI=0.2のときのrisky, certainそれぞれのexpected valueを
EV(risky,0.2)、EV(certain,0.2)などと書くとしますと、
ナッシュ均衡において、
EV(certain,0.2)=EV(risky,0.2)
となるのはutility function u(x)=xのときだけで、
それ以外では必ずしも成り立っていません。
しかし、
EV(risky,0.2)=1-p(inspect,0.2)
EV(risky,0.5)=1-p(inspect,0.5)
EV(risky,0.8)=1-p(inspect,0.8)
です。もしナッシュ均衡において
p(inspect,0.2) = 1- u(0.5,0.2)/u(1,0.2)
p(inspect,0.5) = 1- u(0.5,0.5)/u(1,0.5)
p(inspect,0.8) = 1- u(0.5,0.8)/u(1,0.8)
が一定ならば(****)、expected valueにおいても
EV(risky,0.2)=EV(risky,0.5)=EV(risky,0.8)
が成り立ってしまいます。実際には
Table 1にあるように、p(inspect)がinspection costに依存するため、
EV(risky,0.2)=EV(risky,0.5)=EV(risky,0.8)
は成り立ちません。

しかし、(***)と(****)とはほとんど等価ではないでしょうか。余計にこんがらがってきた。収拾不可能です。

しかしこれだけは言えます、Glimcherが差を出そうとしていたことはこんなにも微妙な差なのです、ともういちど。

ちょっと絡みすぎました。仮定に仮定を重ねているし(フォンノイマン-モルゲンシュテルンのutility functionが実際の行動から乖離していることについては10/2にやりましたし)。こんなふうに書かなくても、mmrlさんが11/15に書くように、ナッシュ均衡に充分達していない状態で実験しているからtable 1のようにp(inspect)がinspection costに依存してしまっている、これで充分なのでしょう。

ただ、このぐらい書いてみてだんだんわかってきたのは、ナッシュ均衡に充分近づいたとしても、 p(inspect)=0.5にはならずに p(inspect)=u(0.5)/u(1)であると考えた方がよさそうだし、もしp(inspect)がinspection costに依存しないのであったら、riskyのexpected utilityだけではなくて、riskyのexpected valueもブロック間で一定になってしまうのではないか、ということです。つまりこうなると、現在扱ったようなかなり細かいところ(ナッシュ均衡における理論と実際のデータの乖離の理由)まで詰めたうえで考えないとGlimcherのやっていることはexpected utilityとexpected valueとを分けるにあたってまったく検証能力のないテストをやっているのではないか、という疑いがあります。(じつはセミナーでプレゼンしたときにも同様な質問があって、それへの答えをずっと考えていたのです。たぶんこれが答えです。)

もしかしたらGlimcherもすでに論文を作ってゆく過程でこのへんに気付いてしまったのかもしれません。そして、expected valueとexpected utilityを直接比較検証する形を力ずくで避け、expected valueとexpected utilityとが充分分けられていない状況でLIPニューロンがただのchoice probabilityやreward probabilityやreward magnitudeではなくて、expected valueとexpected utilityとが共有しているものをコードしている、という形に落とした、そんなところなのかもしれません。そうなればexpected utilityでなくてsubjective desirabilityにしたところで間違った結論を主張していることになると思いますが。

次回こそ電気生理データを片付けて終わりにします。もうほとんど決着はついた気もするのですが。


お勧めエントリ


月別過去ログ