« Science Newsome論文つづき | 最新のページに戻る | 速報 »
■ Science Newsome論文つづき
"Matching Behavior and the Representation of Value in the Parietal Cortex." Leo P. Sugrue, Greg S. Corrado, William T. Newsome
また、行動をいかにmatching lawに対応するように統制するかという点では"change over delay" (COD)を導入している点が重要であるようです。これはどういうことかというと、選択を続けていく過程でそれまで赤を選びつづけていたときから緑を選ぶようにスイッチしたとき(逆に緑から赤へのスイッチでも)にちょうど報酬を与えるタイミングであったときには報酬を与えるのを一試行分遅らせて、もう一回スイッチした色を選択してから報酬を与える、とするものです。つまり、あんまり頻繁に赤と緑どっちを選択するかを変えることにはコストがかかります。CODを導入することによって左右を交互に選ぶ"alternating strategy"(ずっと交互に赤と緑を選ぶ)や"win-stay-lose-switch strategy"(報酬が得られたら同じ色を選ぶけれど報酬が得られなかったら違う色の方にスイッチする)を断念させようとするわけです。このCOD戦略はオリジナル論文であるHerrnstein '61でも採用されているようです。
というわけで結局のところ、並列VIとCODを使うことでmatching lawに対応するように行動を統制しているということのようです。
このあいだ私はmatching lawが必ずしも最適解ではない例を挙げましたが、あれはVR-VR並列強化スケジュールでの例でした。VI-VI並列強化スケジュールではmatching lawはほぼ最適解と一致します。直感的にわかるように書きますと、強化率の比率が右:左で1:10だったとします。この場合左だけ100%選ぶのは最適解ではありません。VRではないので試行数が多ければよいわけではないのですから。右もたまーに選んでやればいいのです。CODがあるなら二回連続で。なぜならずっと右を放置しておいてから右を選べば一発で(CODがあるのなら二発で)ほぼ確実に報酬が得られるのですから。これだけで左を100%選びつづけるよりもより多く報酬が得られます。
これとは別に、「メイザーの学習と行動」にはmatching lawと最適化理論との間の関係および論争についての記載があります。つまり、その都度最適解を選ぼうとすることによって結果的にmatching lawを満たすような関係が生まれるのではないかといったような。そこでメイザー本人がScience '82論文でmatching lawと最適化理論との間でのpredictionが乖離するような実験パラダイムを組んで検証したところ、matchingのほうのpredictionの方が当たっていた、ということが記されています(実験パラダイムは複雑そうなのでスキップしときました)。しかし上記のようにVR-VR並列強化スケジュールの例とVI-VI並列強化スケジュールの例とを見てみると最適化理論の方がそれらしいようにも思えてきます。以前挙げたSeoungの"matching and optimization are two ends of ..."によるとこの二つはどのくらいの時間的スパンのヒストリーを選択のときに考慮するかの違いということで統合できるらしいのです。つまり長いスパンでは最適化、短いスパンではmatchingというように。読んでないけど。
と、それからまだNewsome論文の実験条件ををちゃんと書いていなかったのでここで書いておきましょう。Subjectはfixation pointを固視します。赤と緑のtargetが同時に左右のそれぞれどちらかに現れます。どちらかにサッケードするのですが、与えられる報酬は並列VI強化スケジュールになっています。"overall maximum reward rate is set at 0.15 reward per second"と書いているのがなにげによくわからん。MaxでVI6.6secなわけだけど、ではincome ratio 1:1のときが赤緑ともにVI6.6secで、1:8なら片方がVI6.6secでもう片方がVI52.8secで、ということだろうか。ちょっと今のところ自信ありません。ところでfixation breakしたらどうなるんだろ。Incomeのhistoryなんてかんたんにぶっ壊れそうな気がするのだけれど。
- / ツイートする
- / 投稿日: 2004年06月30日
- / カテゴリー: [価値による行動選択 (expected value)]
- / Edit(管理者用)
# mmmm
なるほど、随分スケジュールの全貌が明らかになってきました。”change over delay”というんですか。うちの学生さんから聞いたことのある手法ですが、正式な用語があるとは知りませんでした。「メイザーの学習と行動」未読で、図書館にも所蔵がなかった(涙)ので発注しました。”overall maximum reward rate”ですが、赤も緑もコミコミでってことじゃないでしょうか。
# pooneilありがとうございます。maximum reward rate = 0.15 reward/secと捉えれば(VIなので実際には必ずしも報酬が用意された直後にタスクをしているわけではない、という意味でのmaximumというのが正しそう)、overallはmmmmさんのご指摘の通り、redとgreenあわせたものと考えるほうが妥当なようです。Red:greenのincome比が1:2なら、redで0.05reward/sec、greenで0.10reward/sec、というように。