« キング・クリムゾン「太陽と戦慄」 | 最新のページに戻る | 以上 »

■ Neuron 10/14 Glimcher論文つづき

"Activity in Posterior Parietal Cortex Is Correlated with the Relative Subjective Desirability of Action." Michael C. Dorris and Paul W. Glimcher

最終回です。電気生理データに関してまとめます。落穂拾いというか、すでに先取りして議論してしまったわけですが。

この論文は基本的にはred(=risky)のchoiceがreceptive fieldに入っていて、そこへsaccadeしたときのデータだけを解析しています(Figure.5とFigure.8を除く)。そうすることによって、現れる視覚刺激と行っている運動とがまったく同じ条件のあいだでinspectionのcost=Iを変えたブロック間でのニューロンの発火パターンの違いを見ようとしているわけです。

この論文のメインのデータはFigure.6です。いま書いたように、視覚刺激も運動もまったく変わらない条件でIをブロックごとに変えると、ナッシュ均衡にあるのでブロック間でのexpected utilityは変わらないけれど、expected value(=reward probability * reward magnitude)やchoice probability(=p(risky))はブロック間で変化している(Figure.3Bのプロットを見ていただければわかる通り)、これが彼らの主張です。それで、LIPニューロンの活動はどうだったか:ブロック間で変化しなかった(Figure.6A,D,E)、だからexpected valueやchoice probabilityをコードしているのではなくてかexpected utilityをコードしているのだ、これがこの論文の最大の知見です。

さて、この論理は正しいかどうか。まず、前回あたりで書いたようにややこしい話なわけです。certainとrislyを比べるのではなくて別々のIでriskyを比べるのは妥当かどうかについてもすでに書きました。そして、expected utilityはブロック間で一定だというけれど、expected valueに関してもブロック間でそんなに違っているわけではないことについても前回示唆しました(だいたい、それならFig.6Aとかにはp(risky)をスーパーインポーズするのではなくて、relative expected value=(1-p(inspect))/(1.5-p(inspect))をスーパーインポーズすべきなのですし、それはFig.3Bにもあるように全データを足し合わせると0.35-0.60あたりの比較的小さいレンジに散らばるけど、個々のニューロンでのtrial中のinstantaneousなものとしてはそんなにきれいなものではないでしょう)。

また、この時点ではまだもしかしたらこのニューロンはじつは単なるサッケードニューロンで、運動以外の情報はまったく持っていない可能性もあります。この可能性を排除するために彼らはコントロールの課題としてinstructed trialというのをやっていて、Platt and Glimcher論文のデータの再現をしていて、red targetがgreen targetよりもジュースが多いと固定されているときにはジュースが多い方のtargetで発火頻度が高いことをpopulationデータで示していますが、figure.6Eの全てのニューロンがそういうものなわけではありません(figure.7Bのinstructed trialのデータにあるように、有意な細胞はせいぜい半分くらい。そういうニューロンだけ集めてきて解析する、というのが本当はもっとフェアでしょう)。

彼らが自分の主張を通すためには、expected utilityを変えて、expected valueが一定な条件を設定してやって、そのときはLIPニューロンがexpected utilityに相関していることを示さなければならないのです。なんといっても、タイトルは「PPCはsubjective desirabilityと相関している」なのですから。

それをしようとしたのがFigure.9です。しかしこの論文が明確に避けていることの一つとして、著者はrelative expected valueとニューロンの発火とを関連付けていないのです。彼らがするべきは、ここで算出したようなtrial-baseでのestimate of subjetive desirabilityとLIPニューロンとの相関がtrial-baseでのestimate of expected valueとLIPニューロンとの相関を差っ引いてもあるかどうかなのです。それをしないかぎりFig.9にはなんの意味もありません。

なんにしろ、彼らがここでなにをやっているか:かれらは"subjective desirability"のtrial-by-trialでのばらつきの指標として対戦相手がそのつど強化学習アルゴリズムを使って計算しているものを利用します。

対戦相手(コンピュータ)が次inspectするかnot inspectかのdecisionルールは

対戦相手はtrialごとにp(risky)を強化学習で推定して、これを使って
EU(inspect)=EV(inspect)=p(risky)*(1-I)+(1-p(inspect))*(2-I)
EU(not inspect)=EV(not inspect)=p(risky)*0+(1-p(inspect))*2
を計算して
EU(inspect)とEU(not inspect)のどっちが大きいか計算することで
p(inspect)を変化させています。

こんなものでした。mmrlさんご指摘の通り、対戦相手はコンピュータなのでEU=EVです。 そこでFig,9では、この計算で出てきたtrial-baseでのp(inspect)を使って、

EV(risky) = 1-p(inspect)
EV(certain) = 0.5
を計算してrelative subjective desirability
= EV(risky)/(EV(risky)+EV(certain))
= (1-p(inspect))/(1.5-p(inspect))

をtrial-baseで計算させたのです。(ここのアルゴリズムに関する私の理解が間違っていないかぎり。上記のステップの次に強化学習ルールでαを再最適化したというステップがあるのがナゾなのではあるけれど、この過程でpayoffとしてutility functionを推定している、とは考えにくいし)。この時点でsubjective desirabilityと彼らが書いているものはじつはobjective desirabilityになってしまっています。というのもmethodの式(1)-(3)はutility functionが入ってないかぎりexpected valueの式であって、expected utilityの式ではないのですから(いままで書いてきたように、0.5や1ではなくてu(0.5)やu(1)を使う必要がある)。よって、いま私が言った文句は違ったふうに書けます。ここで算出したsubjective desirabilityとは独立なexpected value=objective desirabilityも同様にtrial-baseで計算できますか、と。できっこないわけです。ここで彼らが計算しているのはobjective desirabilityなのですから。

この論文"Activity in Posterior Parietal Cortex Is Correlated with the Relative Subjective Desirability of Action"はどこにもsubjective desirabilityとLIPニューロンの活動の相関(correlation)を見ているところはないので題名は間違っていると私は考えます。最小限の修正でタイトルを直しましょう:タイトルはこうすべきです:"Activity in Posterior Parietal Cortex Is Correlated with the Relative Objective Desirability of Action"。なあんだ、Sugrue and Newsome論文と結論は同じではないですか。

まとめましょう。この論文はゲーム理論でのナッシュ均衡になるような興味深い状況においてその行動がゲーム理論から予想されるものであることを示し(しかしより静的な選択理論でも充分説明できる)、LIPニューロンが選択する行動の価値をコードしていることを確認したという点でほぼSugrue and Newsome論文の後追い論文であり、ゲーム理論を応用した本当におもしろい部分の探求には成功しなかった、そういう論文であると考えます。本当におもしろい部分に向かう価値はあると思いますが、おそらくGlimcherはもう懲りたことでしょう。Human fMRIでのデータを蓄積して再びチャレンジする日が来たらすばらしいと思いますが、おそらくそれはLIPの機能を明らかにする、という文脈には置かれないことでしょう。


お勧めエントリ


月別過去ログ