« 「行動の価値」を表す線条体ニューロン | 最新のページに戻る | 「行動の価値」を表す線条体ニューロン »
■ 「行動の価値」を表す線条体ニューロン
Science 11/25 "Representation of Action-Specific Reward Values in the Striatum"
今回は予告編に基づき、この論文の意義に関して。とくに「価値」のニューロン表現に関するさいきんの研究をふまえて。また、「強化学習則」を大脳基底核にどう埋め込むか、という議論に関して。
まずこの論文の意義ですが、題名の通りで、striatumにおいて、rewardそのものでもなければ、actionそのものでもなくて、valueをコードしているところを見つけた、ということになります。かといって、NewsomeやGlimcherがLIPで見出した「いくつかの選択肢のrelative valueをコードするニューロン」というのとも違います(注1)。というのも、LIPのニューロンの場合、それは「相対的な」価値をコードしていて、左右の選択のどちらが価値が高いか、を実際の行動選択率とは独立した形でコードしている、と主張するものでした。いっぽうでstriatumのニューロンは、いわば「絶対的な」価値です。左の選択の価値が高いかどうかを右の選択の価値とは独立してコードしているのですから。
最終パラグラフにあるように、striatumはSNc/VTAのdopamineニューロンから直接入力を受ける領域であり、脳の中でreward valueをコードする最初の場所かもしれないわけです。著者らは明確な形では主張しておりませんが、このことはsriatumのabsolute valueをコードするニューロンがLIPなどでみられるrelative valueをコードするニューロンのより上流に位置することを示唆します。とはいえこれはわたしの勇み足で、著者らはこのあいだのEK MillerのNatureを引いておくだけにして、LIPに関しては全く言及しておりません。(上記の論文自体がreferされておりません。)
これまでの大脳基底核からの記録の論文との突き合わせ、という点からは彦坂先生の1DR-4DR taskでcaudateのニューロンからの記録した、という論文(Kawagoe et al '98とか)との関連が重要です。Kawagoe et al '98はreward x actionのinteractionをコードしていると言えると思いますが、free choice課題ではないため、行動のvalue、とは言えない、というところでしょうか。このへん要補足です。
もう一つの意義は、というかこちらが本当はメインなわけですが、大脳基底核で「強化学習則」がどのように埋め込まれているか、を解明した点にあります。端的に説明しましょう。
Shultzの仕事から、SNcなどのdopamineニューロンがTD error(報酬の予測のエラー。予想外に報酬が出たらプラス、予想外に報酬が出なかったらマイナス、予想通り報酬が出ればゼロ、予想通り報酬が出なければゼロ)をコードしていることはほぼ確立した、というかここ最近10年間のニューロサイエンスの大きな収穫の一つです。そのようなTD errorを使うことで「強化学習」を行うことが出来ます。「強化学習」とはなにか。いってみれば「ダメ出し学習法」です。見本は見せないで結果だけ判断。いいときは報酬、ダメなときはダメ。それだけ(注2)。環境と関わり合いながら行動して、そのつど与えられる報酬から適切な行動を選択してゆく、というのが強化学習で、そのときにどのような学習則を用いるのが最適であるか、というのがこの分野の問題です。
そのような学習則にはActor-critic仮説とQ-learning仮説があります。大脳基底核でこの強化学習がどのように埋め込まれているか、という問題に関しては、Sutton and Barto(「強化学習」の教科書の著者)はActor-critic仮説に基づいて、SNc/VTAからのTD errorのシグナルが直接、選択されるべき行動をmodulateします。いっぽうで、Doya説ではQ-learning仮説に基づいて、SNc/VTAからのTD errorのシグナルはいくつかの行動選択肢が持っているvalue(action value)をmodulateし、それが下流での選択されるべき行動のcompetitionに影響を与える、というモデルになっています。
よって今回の論文のロジックはこういうことになります:もし、大脳基底核にaction valueをコードしている部分があれば、action valueをコードするモジュールを想定していないSutton and Barto説は否定される。つまり、「action valueをコードしている領域がどこかにある」ということさえ言えれば十分であるというわけで、それを示したのが今回の論文の意義だ、というわけです。だから、Sutton and Barto説でもaction valueがコードされるモジュールを取り込めばrejectされた、とまで言われる筋合いはないとも言えます、もっとも、それがactor-criticなのかどうかはよくわからないのですが。
ああ、また知らんことをわかったように言ってしまいました。ツッコんでください。ではまた次回。
(注1: なお、LIPでのニューロンに関しては、これまでうちのサイトで言及してきたNewsomeグループの選択行動に関するScience '04(議論スレッドへのリンク)やGlimcherグループによるナッシュ均衡に関するNeuron '04(議論スレッドへのリンク)などで詳しく議論されております。)
(注2: 著者の一人であるATRの銅谷さんはCurrent opinion in Neurobiology '00などで、大脳基底核は強化学習、小脳には教師ありの誤差学習、大脳には教師なし学習(刺激の統計的性質などの学習)、を行うメカニズムがを埋め込まれていることを主張しています。これは現在「数理科学」での連載でさらに展開されています。)
- / ツイートする
- / 投稿日: 2005年12月05日
- / カテゴリー: [行動の価値 (action value)]
- / Edit(管理者用)