« 忘年会 | 最新のページに戻る | A Slight Return »
■ 「行動の価値」を表す線条体ニューロン
Science 11/25 "Representation of Action-Specific Reward Values in the Striatum"
最終回。まとめ、というか落ち穂拾いというか。
いろいろ文句を付けてきましたが、striatumにaction valueをコードしているニューロンのpopulationがある、ということに関してはじゅうぶん証拠があると思います。その根拠としては、本文でのQ_RやQ_Lのコーディングよりはsupporting materialでのinstantaneousなQ_R(i)やQ_L(i)でのregressionのほうが説得的だと私は思うのですが。
また、このストーリーの正しさは、つづいで出てくるであろう論文によって確認されることでしょう。今回のScience論文はdelay期間(レバーをホールドしてからgoシグナルが出るまで)のactivityだけに注目していましたが、今年のSFNで著者らは同じニューロン記録でmovement期間(レバーを倒している時間)やreinforcer期間(rewardをもらっている時間)の活動を解析して報告しています。それによると、delay期間でaction valueをコードしているニューロンがmovement期間にactionをコードしてたりすることはないようで、striatumのニューロンはaction value, action, reinforcerをコードするニューロンは別々の集団らしいと。(まだジャーナルには出てきていない結果なのでこのくらいあっさりめにて。)
また、Doyaモデルの検証という意味では、striatumでのaction valueの情報が、その下流のGP/SNrでselected actionに変換される、という図式を証明するために、GP/SNrからの記録データが出てくることを期待します。action valueに関してはstriatum > GP/SNr、selected actionに関してはstriatum < GP/SNrとなれば説得力があります。Science論文でもHagai BergmanのJNS '04 "Independent Coding of Movement Direction and Reward Prediction by Single Pallidal Neurons"をreferしてますが、この論文ではGPeニューロンは主にselected actionをコードしています。ただ、free-choice taskではないので(cueによってtargetの出る位置が決まっていて、reward probabilityが確率変動する)、やはりここは直接的な検証が必要です。
なお、Science論文のdiscussion部分を読んでいると、selected actionが下流のGPe/SNrでコードされるのか、それともlateral inhibitionによってstriatum内の別のニューロンによってコードされるのか、は検証の必要あり、としていて、含みを残していることがわかります。
あとついでに、discussion部分の最後の一文になっていきなりParkinson's diseaseが出てくるあたりには、とってつけた感をおぼえたり。というか前の文とつながってないし。
以上です。
Postscript: これまでのSugrue論文とかGlimcher論文とかのときにはそれなりにメイザーの教科書読んだり、ゲーム理論について勉強したり、周辺領域の勉強をして臨んだのですが、今回は強化学習まわりまで踏み込めませんでした。すくなくともactor criticモデルとQ-learningモデルとの本質的な違い(on-policy TDとoff-policy TDの違いあたり)は押さえとかないと、と思ってSutton and Bartoの教科書のhtml版とか、NISS2000のテキスト(pdf)および講義録(pdf)とか、いくつかダウンロードしておいたのですが、そのまま放置してしまいました。んで、手癖で、統計解析まわりに文句付けて流してしまった、という次第です。読んでくださった方、どうもありがとうございました。(いや、まだこのブログは続きますけど、なんかそう言って締めたいかんじ。)
- / ツイートする
- / 投稿日: 2005年12月29日
- / カテゴリー: [行動の価値 (action value)]
- / Edit(管理者用)