« コメントのスタイルシート。長文書き込み歓迎。 | 最新のページに戻る | はてなのコメント欄、長文書き込み歓迎。 »

■ Science 6/18 つづき。

"Matching Behavior and the Representation of Value in the Parietal Cortex." Leo P. Sugrue, Greg S. Corrado, William T. Newsome
でもって、まず"the matching law"というものについて説明しましょう(言わずもがなですが、以下の説明は素人である私がまとめたものです。正確なことを知りたい方は「選択行動」でググったり、「メイザーの学習と行動」あたりを読んでみてください)。人間を含む生物がなにかを選択するとき、その選択肢の「価値」に基づいて選択をします。この選択がどういうルールで決まるか明らかにしたのがHernsteinの"the matching law"です。これは、ある二択があったときに(三択でもかまわないけど)、その片方Aを選ぶ比率はそれまでのAを選択したことによるincomeの比率と等しくなる、というものです。
例を挙げてみましょう。

状況:舌切り雀
二択:大きいつづらと小さいつづら
income: 大きいつづらに今まで入っていた米10合 小さいつづらに2合
選択:大きいつづらの方を10/12の比率で選ぶ
なお、この選択の比率はあくまで何度も選択を繰り返したときのものであって、今度来るかけがえのないたった一回の選択のどっちが当たりであるかを決めてくれません。お婆さんがそうであったように。確率が人生の選択に及ぼす全てのことと同じで。
状況:バスケットボール
二択:3点シュートと2点シュート
income: 今までの3点シュート*10=30点 今までの2点シュート*50=100点
選択:3点シュートの方を30/130の比率で選ぶ
どのくらいまでの過去のincomeを考慮するか、ということも重要な変数です。今までの全ての試合の結果を蓄積して考えているか、それともここ最近の試合の結果だけで決めているか(急に3点シュートがスランプになったとしたら、ここ最近のスランプ時の3点シュートのincomeだけで行動を選択する方が賢明でしょう)、というわけです。
なお、本当にバスケットボールで3点シュートと2点シュートとのどっちを選ぶかを研究した論文があります。"an application of the matching law to evaluate the allocation of two- and three-point shots by college basketball players."
"The matching law"についてはこんな感じで。
んで、Newsomeはこれを左右のどちらかのターゲットにサッケードする、というタスクにしました。右にサッケードしたときにジュースが出る確率が60%、左にサッケードしたときにジュースが出る確率が20%だとしたら(incomeの比率が3:1ということ)、実際に右にサッケードする比率は右対左で3:1になることでしょう。実際にそうなりました。しかもincomeの比率を変えてやると選択もそれによって変化しました(たとえば、incomeの比率を1:6に変えてやると選択の比率も1:6に変わったのです)。
そしてsingle-unit recordingからLIPのニューロンはどちらを選択したかという情報をコードしているだけではなくて、どっちの方がincomeが大きいかという情報(つまりこれが「価値」ということですな)をもコードしているということがわかったというのです。
さて、ではこれがどのくらい新しいか。とくにPlatt and Glimcherと比べて。これを明らかにするためにはPeter Dayanが書いたように、このmaching lawとreinforcement learningとゲーム理論とでどれがLIPニューロンの動態を一番うまく説明できているか、という検証が必要になるでしょう。このへんについてはまた明日以降書きましょう。
なお、DayanもDawもreinforcement learningを研究している人ですので、そこに重点が行くのはよくわかります。(Neuron '04 "Temporal Difference Models and Reward-Related Learning in the Human Brain."およびScience '04 "Dissociable Roles of Ventral and Dorsal Striatum in Instrumental Conditioning."、そしてNathaniel Dawのthesis "Reinforcement learning models of the dopamine system andtheir behavioral implications.")
また、maching lawは必ずしも最適解ではありません。たとえば、incomeの比率が1:8(右:左)だったら、選択の比率を1:8にする(1/9*1/9+8/9*8/9=65/81)よりは、100%左だけ選びつづけた方(8/9*1=8/9)が得なわけです。ですので最適解を求めるようなアルゴリズムとの関係も問題になることでしょう(参考文献:"Matching and maximizing are two ends of a spectrum of policy search algorithms.")。これはたぶんreinforcement learningとmaching lawとの関係自体の問題となることでしょう。このへんについてもまた明日以降書きましょう。

コメントする (10)
# mmmm

まだ途中までしか読んでいませんが、matching lowを分かりやすく解説してくれてありがとうございます。確かこの仕事ではVI (variable interbal) scheduleを採用していたと思うんですが(要確認)、この効果が最適解を採らない戦略を可能にしていると思われます。つまり、そろそろ別のターゲットを選んだ方が報酬を貰える確率が高いはずだということをサルが予想している可能性があります。サルの行動制御をうまく工夫したところだと思いますが、この可能性をどう著者らが考慮しているかは検討に値するように思います。
いや、もしかしたらmatching lawが最適解と一致するデザインになっているかもしれない。

# pooneil

コメントどうもありがとうございます。”Variable interval schedule”がキーワードですか。そのへん調べてみます。どうもありがとうございます。mmmmさんのおっしゃるように、一日のセッションの中で左右のincomeが逆転するところがあることが必須なのでしょう。もし一日中ずっと一定のincomeの比率をキープしたとしたら選択は最適解を選ぶか、という問題でしょうね。これはかなり基本的な事項のようなので、探せば関連する記述を見つけられそうです。
また、Fig.1Cの星印にあるように、実際にはかなりlocalな変動によって選択のbiasが引きずられる(Fig.2Cにあるように最近10trial分ぐらいしかincomeとして考慮していない)、ということからしても、あんまりblock単位でのincomeのbiasを確信もって把握している感じではなさそうです。だからincomeの比率が左右で1:6のblock中にたまたま左でジュースがもらえることが連荘で続いたら、左への選択biasが一時的に上がる、ということが起こっているのでしょう。mmmmさんが言ってることと本質的には同じことですが。

# U.T.

お久しぶりです。ゲーム理論と聞いて、ムムッと感じたのですが、話は至ってオーソドックスそう(って当たり前か)。本文読んでいないのですが、前後関係の要素はどう処理、解析してるのでしょうかね。

# pooneil

どうもご無沙汰しております。ゲーム理論、と書いたのは私の早とちりでして、matching lawはどちらかというと行動分析学の分野のものであるようです。ゲーム理論的なアプローチは昨日挙げたNature Nueorscience ’04のほうでした。Nash equilibriumなんて言葉が出たりしてます。あと、今回の論文はオーソドックスすぎて、Platt and Glimcherがやったこととほとんど等価なようにも思えます。つまり、Platt and Glimcherが見つけたreward probilityやらtarget probabilityをコードするLIPニューロンがNewsomeのやったようなincome (= reward probility * target probability)をコードしているのはほとんどあたりまえのようにも思えるわけです。あとはどっちがニューロンの活動のbetter predictorであるかという問題だ、というDayanの言い方に私は賛成です。それから、「前後関係の要素」っていうのはよくわからなかったんですが、incomeの比率を変えたブロック間の順序効果のことでしょうか?

# mmmm

今朝、駆け足で通読しましたが、強化スケジュールについての正確な記述(VI, FI, VR, or FR?)は見つけられませんでした。昨年だったか、理研でやったNewsomeのトークでは確かVIだと言ってたんですが。)
この論文の肝は、コントロールタスクではLocal incomeの影響がまったく現れないけれども、matching taskでははっきり現れる、ということのように思います。matching lawとの対応付けに焦点を持ってきたために、この重要な点が薄れてしまった印象を受けます。Matching lawと行動とLIP activityとの対応をきちんとつけるためには、タウの値を変えてneuronal activityを見ると、local fraction incomeとの相関が落ちる、つまり行動でも神経細胞活動でも、最適なタウは一致する、ということを言う必要があるように思います。ただ、ブロックによって、日によって、タウが変わる可能性が高いだろうから、これもできれば押さえたいところ。まあ、これに関連したことがdiscussionで簡単に触れられてはいますが。

# pooneil

なるほど、すばらしいコメント、ありがとうございます。こういう書き込みがあるので日記やっててよかったと思います。大感謝。んでもって、レイノルズのオペラント心理学入門をざっと見てみましたが、今回の論文のはたしかにVIに対応するもののように思えました。いまだポイントがよくわかってはいないのですが、もう少し勉強してみます。
それから、コントロールタスクとマッチングタスクとでのincomeのLIP activityへの影響の違い(Fig.3C vs. Fig,4B)、なるほど納得しました。Platt and Glimcherとの違いもこのへんから議論できそうですね。というわけでもう少しそのへん読んでからコメントします。もうしばらくお待ちください。
あ、もちろん、「私が返事するまで書きこむな」という意味ではありません。何かありましたらまたどうぞ。

# mmrl

横から失礼,まちがえてかきこんでしまいました、scheduleに関してはVIでよさそうです。昨年のneuroscience meetingでのポスターでも本人がそういっていたのを記憶しています。また、すでに気づいているかもしれませんが、:”Matching and maximizing are two ends of a spectrum of policy search algorithms.”が自分のlectureをrmで公開していて、その中でも「最近査読したのだが」とことわってこの論文について説明しています。一見してみてはいかがでしょう?

# pooneil

mmrlさん、ありがとうございます。すごい助かりました。H. S. Seungですね。rmってのがわからなかったのですが、http://hebb.mit.edu/courses/9.29/2004/lectures/index.html ここから探したどこか、ということでしょうか? 是非知りたいので教えてください。しかしここにはHerrnsteinの論文とかが載ってて劇的に助かります。

# mmrl

ええ、それですね、その中のlecture 6の中でLeoの論文について触れています。学部生向けの講義かもしれませんが、かなりやさしいところからふれてくれていて、問題のHerrensteinの論文も解説してくれてます。lecture 7と8の前半あたりでは、参考文献にあげられていたSeung自身の学習モデルの話を解説しています。そのあとは、どうやらゲーム理論の話をはじめていましたが、その後まで到達していません。Leeさんの話も出てくるのかな?それから、rmというのは realvideoというリンクをクリックするとreal playerで視聴できるということです。しかしこの人査読したからって、未発表論文の解説をwebで公開するってのはよいんだろうか...

# pooneil

mmrlさん、ありがとうございます。realvideoのことですね。失念しておりました(昔インストールしたreal playerは消してしまった)。聴いてみます。Newsome論文のacknowledgementにH. S. Seungって入っているんですよね。ということはあらかじめSeungに読ませておいてからrefereeとして廻ったということだろうか。それならうまくやった、という感じかもしれない。もう一人のrefereeは神経生理学者として、三人目に本当のmatching lawの専門家(HerrnsteinとかMazurとか)がrefereeに入ってたかどうか重要そうです。
この論文に関するコメントを再開しました(6/29)。あと2、3日続く予定です。


お勧めエントリ


月別過去ログ