« 忘年会 | 最新のページに戻る | A Slight Return »

■ 「行動の価値」を表す線条体ニューロン

Science 11/25 "Representation of Action-Specific Reward Values in the Striatum"

最終回。まとめ、というか落ち穂拾いというか。

いろいろ文句を付けてきましたが、striatumにaction valueをコードしているニューロンのpopulationがある、ということに関してはじゅうぶん証拠があると思います。その根拠としては、本文でのQ_RやQ_Lのコーディングよりはsupporting materialでのinstantaneousなQ_R(i)やQ_L(i)でのregressionのほうが説得的だと私は思うのですが。

また、このストーリーの正しさは、つづいで出てくるであろう論文によって確認されることでしょう。今回のScience論文はdelay期間(レバーをホールドしてからgoシグナルが出るまで)のactivityだけに注目していましたが、今年のSFNで著者らは同じニューロン記録でmovement期間(レバーを倒している時間)やreinforcer期間(rewardをもらっている時間)の活動を解析して報告しています。それによると、delay期間でaction valueをコードしているニューロンがmovement期間にactionをコードしてたりすることはないようで、striatumのニューロンはaction value, action, reinforcerをコードするニューロンは別々の集団らしいと。(まだジャーナルには出てきていない結果なのでこのくらいあっさりめにて。)

また、Doyaモデルの検証という意味では、striatumでのaction valueの情報が、その下流のGP/SNrでselected actionに変換される、という図式を証明するために、GP/SNrからの記録データが出てくることを期待します。action valueに関してはstriatum > GP/SNr、selected actionに関してはstriatum < GP/SNrとなれば説得力があります。Science論文でもHagai BergmanのJNS '04 "Independent Coding of Movement Direction and Reward Prediction by Single Pallidal Neurons"をreferしてますが、この論文ではGPeニューロンは主にselected actionをコードしています。ただ、free-choice taskではないので(cueによってtargetの出る位置が決まっていて、reward probabilityが確率変動する)、やはりここは直接的な検証が必要です。

なお、Science論文のdiscussion部分を読んでいると、selected actionが下流のGPe/SNrでコードされるのか、それともlateral inhibitionによってstriatum内の別のニューロンによってコードされるのか、は検証の必要あり、としていて、含みを残していることがわかります。

あとついでに、discussion部分の最後の一文になっていきなりParkinson's diseaseが出てくるあたりには、とってつけた感をおぼえたり。というか前の文とつながってないし。

以上です。

Postscript: これまでのSugrue論文とかGlimcher論文とかのときにはそれなりにメイザーの教科書読んだり、ゲーム理論について勉強したり、周辺領域の勉強をして臨んだのですが、今回は強化学習まわりまで踏み込めませんでした。すくなくともactor criticモデルとQ-learningモデルとの本質的な違い(on-policy TDとoff-policy TDの違いあたり)は押さえとかないと、と思ってSutton and Bartoの教科書のhtml版とか、NISS2000のテキスト(pdf)および講義録(pdf)とか、いくつかダウンロードしておいたのですが、そのまま放置してしまいました。んで、手癖で、統計解析まわりに文句付けて流してしまった、という次第です。読んでくださった方、どうもありがとうございました。(いや、まだこのブログは続きますけど、なんかそう言って締めたいかんじ。)


お勧めエントリ


月別過去ログ