pooneilの脳科学論文コメント: Science Newsome論文つづき

« Newsome Science論文つづき | 最新のページに戻る | Science Newsome論文つづき »

■ Science Newsome論文つづき

"Matching Behavior and the Representation of Value in the Parietal Cortex." Leo P. Sugrue, Greg S. Corrado, William T. Newsome
強化スケジュールについてまとめましょう。これは強化(=報酬)がタスクの回数または経過時間とによってどう決まっているかを示すものです。タスクの回数の場合がR(ratio)、経過時間の場合がI(interval)で確率的揺らぎを加えてあるのがV(variable)、与えられていないのがF(fixed)で、FR,VR,FI,VIとなります。
まず、FR(fixed ratio)は一回のオペラント反応(私の分野ではほとんどタスクの一試行)に対して与えられる強化(私の分野ではほとんど報酬)が固定されているものです。我々のタスクではたいがい一試行で一回報酬が与えられていますからこれはFR1と表示されます。彦坂先生の1DR taskは四方向の試行ひとかたまりで一回だけ報酬が与えられることからFR4と書けます(報酬が与えられる試行は四試行ごとにあるわけではないので正確にはFR4ではないのでしょうが)。（追記：これは間違い。強化されるターゲットはある一方向で、その方向は毎回報酬が与えられるため、その方向だけFR1であって、他の方向は強化されない、と考える方が正しいようです。また、四方向の刺激はブロックになっており、報酬の出る方向だけに反応すればよいわけではないので、四方向のターゲットは独立ではありません。よって独立した並行強化スケジュールというわけではありません。）
つぎにVR(variable ratio)は試行と報酬との関連が確率的になっているものです。たとえば平均二試行に一回報酬が与えられるけれど三試行で一回の場合もあれば一試行で一回の場合もあるものをVR2と書きます。つまり松元健二さんと田中啓治先生のScience '03では1/2の確率でしか報酬が与えられないことからVR2と言えるでしょう。（追記：同じくこちらも間違い。またこちらも報酬ありの刺激にだけ反応すればよいわけではないので、reward+刺激とreward-刺激の強化スケジュールは独立ではありませんので、普通の並行強化スケジュールとは違っています。）
FI(fixed interval)は試行の回数によらずに経過時間によって報酬が与えられるものです。たとえばFI10secでは10秒のintervalで報酬が与えられますが、実際にもらえるのは10秒経った後に試行をした直後です。そして報酬が与えられるとまたその10秒後以降に試行をすれば報酬が与えられます。つまり、一番楽をする方法は10秒ごとに一回だけ試行をして毎回報酬を得るというものですが、実際にはそんなに正確に時間を計測することもできないので、そろそろ十秒かなというあたりで何回か試行をして報酬を得ることになります。このため、時間あたりの試行の回数はVRなどと比べてずっと低くなります。さっさと試行数を稼ぎたいならFRかVRです。
VI(variable interval)は上のFIでintervalに確率的ばらつきを与えたものです。たとえばVI10secなら平均10secでまた報酬がもらえるようになりますが、あるときはそれが2秒で、あるときはそれが20秒かもしれません。このため、VIはFIと違って報酬を得た直後に試行の速度がダレません（なぜならばまたすぐに報酬がもらえるかもしれないから）。このため、安定した試行のペースを保てるとともに(FIと比べてのadvantage)、報酬が与えられなくなったときの消去もすばやく行われます(FRやVRと比べてのadvantage)。
このVIを二つ使って平行して二つの刺激を強化する(緑のtargetと赤のtargetそれぞれを独立に強化する)、という並列強化スケジュールVI-VIで選択をさせる、というのがmatching lawが一番うまく当てはまる条件であるらしくて、matching lawの実験では一番よくこれが使われています。というわけでmmmmさんの指摘の通り、今回のNewsome論文では並列のVI強化スケジュールが使われています。
以上を踏まえてmatching lawについてもっと正確に定義してやると、強化率の比率が選択の比率に一致する、ということなのです。つまり、Herrnstein '61のハトをsubjectとしたオリジナル論文にあるように、片方のキーがVI3minでもう片方のキーがVI1minのときに(強化の比率が1:3)キーへの反応の比率が1:3になる、というのがオリジナルのmatching lawです。Newsome論文でのincomeという使い方にどのくらいの普遍性があるかはよくわかりません。
また続きます。

/ ツイートする
/ 投稿日: 2004年06月29日
/ カテゴリー: [価値による行動選択 (expected value)]
/ Edit(管理者用)

コメントする (8)
# mmmm

Matsumoto et al. 2003で用いられたスケジュールは、VR2ではなくて、FR1-FR0 concurrent scheduleではないかと考えます。それはともかく、VI-VI concurrent scheduleでmatching lawが一番よくあてはまり、それ以外の強化スケジュールではそれほどではないのだとしたら、それが一体何故なのか、やっぱり気になります。そろそろ別のターゲットで報酬が貰えるというタイミングの予測に基づいた行動に特徴的だったりしないでしょうか？愚問かもしれませんが、FR-FRの場合だったらどうなんでしょう？ああ、PsychINFOが使えたら・・・。

# mmmm

FR0 => FR∞???

# pooneil

ありがとうございます。そうか、go刺激とnogo刺激は別物だから片方を毎回強化して(FR1)、もう片方はまったく強化されない(FR∞)、と考えるのが妥当ですね。こうやって書いてみると明白だ。ためしに書いてみて理解が深まりました。くわしくは明日書きますが、もうひとつ”change over delay”(別のターゲットを交互に選ぶようなストラテジーをdiscurrageするような方策)も重要なようで、オリジナルのHerrnsteinの’61論文でも使われているそうです。ここらを見ておくと本当にsubjectはmatchingしているのか、という疑問も出ます。また、Matchingが最適化理論などによる帰結なのか、それとも実際の行動の法則なのかという議論も「メイザーの学習と行動」にありました。VR-VRではおそらく過剰な適応(overmatching: 強化率の高い方ばかり選ぶ)が起こるはずです。そのようなばらつきに対処するためgeneralized matching law（過剰な適応、過小な適応、片方の反応へのバイアスを取り込んでmodifyしたmatching law）というのができた、ということと理解しております。うちもPsychINFOないんですよ。こういうとき総合大学はいいなと思います。以前は文学部に行ってBBSコピったり経済学部にってbootstrap法の本コピったりとかメリットを生かせていたのですが…

# pooneil

そうやって考えてみると彦坂先生の1DR taskも四方向の一方向だけが毎回強化されて(FR1)、他の方向はまったく強化されない、というふうに考えるべきですね。本文に追記しておきます。

# mmrl

あれ、また書き損じ、すみませんpooneilさん、すばらしい解説大変参考になります。mmmmさんご指摘の件について、たしかにVI-VIのときには、一回出た報酬は取るまでそのままですから、そろそろ逆側に報酬がありそうということを考慮している可能性はあるとおもいます。彼ら(Newsomeのグループ）もこのあたりは気づいていて、昨年のneuroscience meeting で、Sugrue氏の横でポスターを出していたCorrado氏このあたりを議論していました。もし取らなければ逆側に報酬が存在する確率が上がるような記憶を持たせ、報酬の存在確率が大きいほうを選択するような最適bayesian harvesting をさせた場合とmatching law との関係を議論していました。結果はreward fraction が0.5付近ではほぼ一定となる階段関数になるのですが, 0.6以上0.4以下ではその階段関数は細かくなり、1や0に漸近してmatching に近くなります(この掲示版絵が載せれるともう少しわかりやすくなるのですが...).答えになっているかどうかわからないですけどどうでしょう。　じゃあ、他の場合はどうなるんだろう？FR1-FR0とかの例はmatsumoto etal 2003や、1DRの場合と比較すればよいのでしょうけど、FR-FRだけでなくVR-VRをやった場合の研究ってないのでしょうか？ってmmmmさんと同じ締めになってしまいました。他人任せにせず自分でもう少し調べてみます。

# pooneil

どうもありがとうございます。VR-VRはたぶん昔の論文を見ればあるんだと思います。教科書を読むと、並列VI-VI以外のいろんな条件でmatching lawが満たされることがわかっている、みたいな事が書いてありますから。ただ、それがclassical matching lawなのかgeneralized matching lawなのかで話はずいぶん違ってきますが。あと図に関してですが、もしよければメールで私のところまで画像ファイルを送ってくだされば本文の方に載せますのでお気軽にどうぞ。長辺が300pixelまでの制限があってそれ以上の大きさのものは自動的に縮小されるようになってます。

# mmmm

mmrlさん、貴重な情報ありがとうございます。まだ理解不十分ですので、図を期待しています。論文に書かれていることを超えた情報がこれだけ集まってくると、このサイトの意義が見えてきますね。更なる発展を期待しております。

# pooneil

mmmmさん、その通りですね>>このサイトの意義。こういう論文を交えた話は事実関係のところであれこれやったほうが面白いわけで、いかに深く、核心までたどり着くか、という方向へ行きたいと思っております。また同時に、このことは各方面の研究の将来性と限界とを検討することになるわけで、今後の脳研究がどういう方向へ行ったらいいかを議論するための重要な材料にもなるであろうことを期待しております。ほんと、ここまで行けたらよいと思ってます。

pooneilの脳科学論文コメント

■ Science Newsome論文つづき

お勧めエントリ

月別過去ログ