« Neuron 10/14 Glimcher論文 | 最新のページに戻る | Neuron 10/14 Glimcher論文つづき »

■ Neuron 10/14 Glimcher論文つづき

"Activity in Posterior Parietal Cortex Is Correlated with the Relative Subjective Desirability of Action." Michael C. Dorris and Paul W. Glimcher
今回の論文紹介は長いですが、それはこのあいだ私が行ったジャーナルクラブでの説明をほとんどそのまま転載しているからです。論文読んだほうが早いかもしれません。
まず、最小限必要なゲーム理論の初歩について書きましょう。ナッシュ均衡、純粋戦略、混合戦略、のキーワードの内容を知っていれば読む必要はありません。
「囚人のジレンマ」という言葉を聞いたことがあるでしょうか。泥棒の共犯AとBが捕まって別々の部屋で尋問を受けてます。AとBとは通信の手段がありません。AとBとはそれぞれ黙秘するか自白するかの選択を迫られています。もしAが黙秘してBも黙秘したら二人とも懲役2年、もしAが自白してBも自白したら二人とも懲役10年、もしAが自白してBが黙秘したらAは釈放、Bは懲役15年、もしAが黙秘してBが自白したらAは懲役15年、Bは釈放です。(追記:説明文がpayoffマトリックスと合致していませんでしたので直しました。Tさんご指摘ありがとうございます。)
以上をpayoffマトリックスにまとめるとこんなテーブルになります。行はAが黙秘するか自白するかの選択、列はBが黙秘するか自白するかの選択で、各マスにはそれぞれの選択での損得勘定(各マス内の左下がAの損得、右上がBの損得)が入ってます。釈放が0で懲役15年は-15、という調子です。

   
泥棒B
   
黙秘
自白
泥棒A
黙秘

     -2

-2

       0

-15

自白

    -15

0

    -10

-10


では、AとBがお互いに連絡を取れないとして、それぞれが合理的に考えるとしたらどういう選択をするでしょうか。泥棒Bが黙秘したときには、泥棒Aとしては黙秘(-2)よりも自白(0)の方がよい選択ですし、泥棒Bが自白したときには、泥棒Aとしては黙秘(-15)よりも自白(-10)の方がよい選択です(泥棒Aにとってよい選択を赤で表記)。どちらにしろ泥棒Aが合理的に考えると自白する方が得策であるという結論になるでしょう。同様にして、泥棒Bも自白した方が得策という結論になります(泥棒Bにとってよい選択を青で表記)。すると、この赤文字と青文字の重なったマスの部分、つまり互いに自白した場合(-10,-10)が「お互いが合理的な策を取った(ので悔いがないはずの)とする安定状態」で、こういうのをナッシュ均衡の状態にある、といいます。
じゃあなんで囚人の「ジレンマ」と言うかといったら、それはAとBとが通信可能ならお互いに黙秘する(二人とも懲役2年)という戦略がとれたはずだからです(こういうのはパレート平衡という別の概念です)。ま、それはそれとして、お互いに手の内を明かさない対戦型のゲームではお互いが合理的に選択した、と言い得る状態がナッシュ均衡なわけです。
今のたとえ話はたった一回きりの選択(黙秘するか自白するか)なわけですが、普通ゲームだったら繰り返し選択をします。わかりやすいのがジャンケンで、こんどは二人の対戦相手AとBとは三種類の行動の選択肢があります。Payoffマトリックスはこんな感じです。勝ったら+1、引き分けが0、負けたら-1です。
  
B
  
グー
チョキ
パー
Aグー

        0

0

        -1

        1

        1

-1

チョキ

        1

-1

        0

0

        -1

1

パー

        -1

1

        1

-1

        0

0


んで、こんどはたった一回の勝負に関してはナッシュ均衡はありません。ジャンケンに必勝の手などありませんから。しかし、何度もこのゲームを繰り返すのであれば、いちばん良い手はグーとチョキとパーそれぞれを確率1/3ずつで出すのが一番よい手であることは予想がつくと思います。これは対戦相手AとBそれぞれで成り立ちます。よってある一回の勝負でその選択が一番良いか(純粋戦略)、ではなくて繰り返しの勝負でどういう比率で選択をするのが一番よいか(混合戦略)という形に拡張したときのナッシュ均衡はジャンケンの場合お互いがグーとチョキとパーそれぞれを確率1/3ずつで出す、というものです。このような混合戦略ではナッシュ均衡となるような解が必ずあることが知られています(これが以前言及した、NashがPNASに書いたたった1ページの論文の内容です)*1。今回の論文で使っているinspection gameもこういう混合戦略でのナッシュ均衡を扱っています。
んでやっと今回使っているinspection gameについての説明ですが、ま、「ダウト」みたいなもんです。被験者はcertainとriskyの二つの選択肢を選ぶことができて、certainは100%確実に0.15mlジュースがもらえるのにたいして、riskyではその二倍(0.30ml)かもしくはまったくなし(0ml)です。riskyの結果は対戦相手の行動が握っていて、対戦相手がinspectしたときに被験者がriskyを選んだときはまったくジュースがもらえなくて、対戦相手がinspectしなかったときに被験者がriskyを選んだときは二倍のジュース(0.30ml)がもらえるわけです。いってみればinspectを選択するのが「ダウト」を発することです。もちろん「ダウト」するにはそれだけのコストがかかります(そうでなければいつでもダウトしてればいいわけだから)。Payoffマトリックスにすると以下の通り。
 
対戦相手
inspect not inspect
被験者certain

        2-I

0.5

        2

0.5

risky

        1-I

0

        0

1


Iは150trialくらいのブロックごとに実験者によって0.1-0.9の範囲で変えられます。たとえばI=0.1だと対戦相手はinspectするコストが低いのでどんどんinspectします。すると、riskyの選択をしてもたいがいダウトされてしまって損なので被験者がriskyを選択する確率は減ります。一方でI=0.9だと対戦相手はinspectするコストが高いのでほとんどinspectしません。このときはriskyの選択をしたらもらい放題ですから、被験者がriskyを選択する確率は上がります*2
ナッシュ均衡では対戦相手がinspectするときとnot inspectするときとでexpected utilityが等しくなります。これは被験者がriskyを選ぶ確率をp(risky)として、p(risly)*(2-I)+(1-p(risky))*(1-I)=p(risly)*2+(1-p(risky))*0と書けて、これを整理すると
p(risky)=I
となります。つまり、被験者と対戦相手が非協力的に自分の利益を最大化するように行動するとナッシュ均衡になって、そのとき被験者がriskyを選択する比率はIのみによって決まる(対戦相手の行動によらない)わけです。


それで行動データ(figure 2、3A)を見ると、たしかにだいたいそうなっています。
ここらで続きは次回。
(追記:Nash equilibriumの訳を「ナッシュ平衡」ではなくて「ナッシュ均衡」に直しました。)


*1:なお、このNash論文での角谷の不動点定理を用いた証明に関する詳しい解説がhttp://www16.ocn.ne.jp/~hsasaki/genkou.htmlの「初歩からのゲーム理論」のところにあります。
*2:なお、このpayoffマトリックスのIに0.1から0.9までを代入してみれば、純粋戦略でナッシュ均衡となるような解はないことがわかります。つまり、対戦相手がinspectするときには被験者はcertainのほうがよいし、対戦相手がnot inspectのときには被験者はriskyのほうがよい。一方で、被験者がcentainのときには対戦相手はnot inspectのほうがよいし、被験者がriskyのときには対戦相手はinspectのほうがよい。お互いが得する手はないわけです。

コメントする (3)
# T

通りがかりの者です。冒頭の囚人のジレンマの説明内容が逆になっています。AもBも黙秘してしまいます。

# pooneil

ご指摘どうもありがとうございます。たしかに間違ってましたので直しました(取り消し線で直すとごちゃごちゃするので、訂正してから追記をつけました)。読んでくださってどうもありがとうございます。よければこれからも読みにきてなにか書き込んでいただけると幸いです。

# T

揚足取りで失礼いたしました。ときどき拝見しておりますが、とても充実したサイトだといつも思っております。Molecular系をやっているので内容を理解するだけで精一杯ですが、何かありましたら書き込みいたします。


お勧めエントリ


月別過去ログ