« Neuron 10/14 Glimcher論文つづき | 最新のページに戻る | こちらのテストの進行状況 »

■ Neuron 10/14 Glimcher論文つづき

"Activity in Posterior Parietal Cortex Is Correlated with the Relative Subjective Desirability of Action." Michael C. Dorris and Paul W. Glimcher
Expected utilityとexpected valueの関係、およびなんでナッシュ均衡がそこに出てくるか、というあたりを説明しましょう。Glimcher"Decisions, Uncertainty, and the Brain: The Science of Neuroeconomics."のp.282-288あたりにちょうどいい説明があるからこれを元にしましょう。(Glimcher本ではチキンランの例を使ってますが、それを今回のinspection gameに読み替えて以下の説明をしています。)
もういちど、どうやってexpected utility(=subjective desirability)の均衡状態を計算しているか繰り返しましょう。

  • もし被験者がriskyを選ぶとき、対戦相手がinspectする利得=P(risky)*(1-I)
  • もし被験者がcertainを選ぶとき、対戦相手がinspectする利得=(1-P(risky))*(2-I)
  • よって対戦相手がinspectするときの全体としての利得=P(risky)*(1-I)+(1-P(risky))*(2-I)
  • 同様にして、対戦相手がnot inspectするときの全体としての利得=P(risky)*0+(1-P(risky))*2
対戦相手にとって、inspectするのもnot inspectするのも同じutilityを持っているとき、つまりindifferentであるとき(10/1あたり参照)、対戦相手は均衡点(equilibrium point)にある、と言えます。前回の通り、inspectのときの利得とnot sinspectのときの利得とを等式で結んで、
  • p(risly)*(1-I)+(1-p(risky))*(2-I)=p(risly)*0+(1-p(risky))*2
これを解くと
  • p(risky)=I
となります(追記:mmrlさんの指摘に基づいて式の誤りを直しました。 mmrlさんありがとうございます)。このことは、被験者のp(risky)がIに等しいとき、対戦相手にとってinspectするのもnot inspectするのも等しいexpected utilityを持っている(indifferentである)ということです。言い換えれば、被験者のp(risk)がIに等しいかぎり、対戦相手はinspectするかnot inspectするか気にする動機がないし、inspectするかnot inspectするかは同じくらいよい(もしくは悪い)といえます。逆に言えば、仮にもし被験者があらかじめp(risky)>Iで行動する、と宣言したなら対戦相手はinspectするかnot inspectするかにはindifferentではいられなくて、積極的にinspectするように行動を変化させるべきなわけです。
ここで重要なのは被験者も同様なやり方で均衡点を持つということです*1。被験者と対戦相手のどちらかが最適でないような行動を取ったときには相方は標準的な経済学的最適化問題を解くことになるわけですが、両者が最適解を得ようとするかぎり、両者それぞれは均衡点にたどり着きます。このようにして計算された均衡点は(被験者にとって)riskyかcertainか、(対戦相手にとって)inspectかnot inspectか、がそれぞれにとってindifferentである(等しいexpected utilityを持つ)行動選択パターンを決定します。このようなindifferent pointこそが被験者と対戦相手とがたどり着く均衡状態(ナッシュ均衡)のことなわけです。("Decisions, Uncertainty, and the Brain: The Science of Neuroeconomics." p.285-286をinspection game用に置き換えて超訳、ですのでこれは引用ではなくて改変しているので<blockquote>に入れてません。)
んで、とくに明示されていないので注意すべきだと思うのですが、問題なのはここでの利得と言っているやつはただのジュースの量なので、utilityそのものではないのです(たんなるexpected valueですよね)。じっさい、0.30mlのジュースをもらうのが0.15mlのジュースをもらうのの2倍うれしいのかどうかはそういうutility functionを作って検証しなければならないわけです*2。だから、ここでの話をきっちりutilityに変換するためにはinspection gameでのpayoffマトリックスの被験者の利得の0、0.5、1というやつをu(0)、u(0.5)、u(1)というutility function uを通したものに変換してやらないといけないわけです。また、そういうわけですから、じっさいのデータでもp(riskt)=Iにまったく等しくならなくてもよいわけです。ただし、それでもこのinspection gameで均衡状態にあるときにriskyを選ぶexpected utilityとcertainを選ぶexpected utilityが等しい、というのは妥当です(どこまでいったら均衡状態なのかの基準はさておき)。もっとも、そのときのexpected utilityを上記の利得(たとえばP(risky)*(2-I)とか)そのものとして計算するのはやはり間違っているといえます。このように、実際のutility functionを計算していない今回の実験では、expected utilityそのものを計算することはできません。ナッシュ均衡では等しい、ということしか言えません。これがたぶん11/12のコメント欄でmmmmさんがお書きになったことでないでしょうか(「utility functionが既知であると言えない場合、economistsは"expected utility"という用語を使うことを認めない」、これなら意味は通る気がします)。
よって、expected valueとexpected utilityとの差はじつはかなり微妙なものであるはずだし、明示的にこの問題を解こうとしたら被験者ごとのutility functionを作成する方向へ行くのが筋だと思うのです(今年のSFNではhuman fMRIでそういう結果を出していましたが、もちろんこれはヒトでのstudyだからできることであるわけです)。また、Glimcher本では数学的に言うときにはexpected utilityという言葉を使っているけれども、場所によっては"value"という言葉を安易に使っているところもあり、おそらくexpected valueとexpected utilityとの違いにそんなに敏感ではなかった節がありますし、もともとPlatt and Glimcherで扱ったようなdecision variable(reward magnitude, reward probability, choice probability)を包括して説明できるものを探してナッシュ均衡に行ったはずです。Sugrue and Newsome論文が通っていなければそれでも話は通っていたのかもしれませんが。
ああ終わらない。


*1:もし対戦相手がinspectするとき、被験者がriskyを選ぶ利得=P(inspect)*0
もし対戦相手がnot inspectするとき、被験者がriskyを選ぶ利得=(1-P(inspect))*1
よって被験者がriskyを選ぶときの全体としての利得=P(inspect)*0+(1-P(inspect))*1
同様にして、被験者がcertainを選ぶときの全体としての利得=P(inspect)*0.5+(1-P(inspect))*0.5
んで、被験者がriskyを選ぶのもcertainを選ぶのもindifferentなときは
P(inspect)*0+(1-P(inspect))*1=P(inspect)*0.5+(1-P(inspect))*0.5
これを解くとP(inspect)=0.5となり、じつは定数になります。じっさいのデータはそうなっていないので、被験者の選択はナッシュ均衡の周りでふらふらと揺れていると考えた方がたぶんよいのでしょう。これは私の意見。

*2:確認のため、risk averseな例について書いておきましょう。(A)ジュース量0.5で100%出るときと、(B)ジュース量1で50%、ジュース量0で50%のときとどっちがいいですか? (A)のexpected utilityはu(0.5)で、(B)のexpected utilityはu(0)*0.5+u(1)*0.5です。Utility function uがu(x)=log(x+1)で定義されるとします(この関数は上に凸だからrisk averseな例のモデルによく使われます)。すると両者のexpected utilityは(A)>(B)となります(log(3/2)>log(2)*0.5)。もし、(B)でジュース量1の比率がlog(3/2)/log(2)だと(A)と(B)とはindifferentなわけです。

コメントする (3)
# mmrl

おひさしぶりmmrlです。いつもすばらしい解説をありがとうございます。細かいことですが、間違いを発見しましたのでお知らせ。 * もし被験者がriskyを選ぶとき、対戦相手がinspectする利得=P(risky)*(1-I) * もし被験者がcertainを選ぶとき、対戦相手がinspectする利得=(1-P(risky))*(2-I) * よって対戦相手がinspectするときの全体としての利得=P(risky)*(1-I)+(1-P(risky))*(2-I) * 同様にして、対戦相手がnot inspectするときの全体としての利得=P(risky)*0+(1-P(risky))*2よってナッシュ均衡はp(risky)*(1-I)+(1-p(risky))*(2-I)=p(risly)*0+(1-p(risky))*2を解いてp(risky) = I です。また、上の議論で被験者のutility function はわからないのでp(risky)=Iにはかならずしもならなくてよいということを言われていますが、被験者のutility functionは相手のナッシュ均衡解にのみ影響を与え、被験者の混合戦略は相手のutility functionにのみ影響されることになります。ここでは対戦相手は単純な強化学習アルゴリズムですからutility functionは単なる線形関数となるのでやはり均衡解はp(risky) = I が正解ということになります。ただ、相手が人間の場合にはこの限りでないことはご指摘の通りであると思います。

# pooneil

mmrlさん、式の誤りなおしました。ありがとうございます。後半部分のご指摘に関してですが、これもまったくそのとおりですね>>対戦相手はコンピュータだからexpected value=expected utility、だから被験者のp(risky)=I。ということで重要なパズルのピースが埋まった感じがします。これはもう、expected utilityとexpected valueを分けようとしている、という私の読み込みがほぼ瓦解したということでもあります。つまり、この時点でGlimcherがやっていることはもはやexpected utilityとexpected valueとを分けて扱えるようなものではなくて、subjective desirability = expected valuieとほぼならざるを得ません。残った作業はFig.6DEおよびFig.9の読み込み、ということになりそうです。とくに、Fig.6DEではIのブロック間で固定されているはずのrelative subjective desirability(=SD(risky)/(SD(risky)+SD(certain)))とFig.3Bでrelative expected value of risky choiceがIによって0.4-0.6あたりの範囲でばらついていることとの関係について。このへんは明日ぐらいに書きます。

# mmrl

そうなんですよ、私もここが引っかかってて、本当にsubjecte desirability=expected utility とobjective desirablity = expected valueを分けれているのかどうか。 ナッシュ均衡ってのは相手も均衡に達したときに始めて均衡であって、自分の混合戦略が落ち着いたからといって均衡に達しているわけではないはずです。そこで、Figure 2に示しているように、人間同士だってこの程度の試行数だと相手は均衡に達しない(相手の均衡解はp(inspect)=0.5でした)。これを見ると、相手が一時的にinpection ratio を減らしているんで、えーい見てないうちにrisky えらんどけ、ってわけでこの間はexpected valueもexpected utilityもあがっている。相手が0.5の均衡解に到達した時点で始めてどんなinspection costを採ってもexpected utility がconstantになるはずなんですね。さらにtable 1でexpected valueを計算するとブロック間で違うって言っているじゃないですか!、これって完全に均衡に達していないときの話をしている証拠を出しているようなもんでしょ。まあ、それにも関わらずLIPの反応がconstantってところは面白いのかもしれないけれど、こんな均衡にも達していないのにexpected utilityって言うのもどうかと思うし、expected utilityがコストをダイナミックに変化させたときにどう動くべきなのかに関してなんにも言っていないにも関わらず、単に均衡がconstantだからconstantだとするのは合点がいかない。p368の最後から369のパラグラフに書いてある論理は崩壊していると私は感じています。reviewerには本当に経済学者はいってたんだろうか?。Scienceに出したときの経済学者のコメントを参考になんとか逃げたつもりでNeuronにだしたら、経済学者がわかるreviewerにまわらなくてこんなことになったなんて落ちじゃないだろうが...といっても私もプロではないので、間違ってたら指摘してください..(経済学者でこの論文読んでいるひとはどれだけいるだろう..)明日の続きを楽しみにしております。


お勧めエントリ


月別過去ログ