« なんかすげー好き。 | 最新のページに戻る | Nature 4/20 »

■ Newsome論文のcomputational model

選択行動に関するNewsome論文Science 2004のcomputational modelがXiao-Jing Wangによって提案されています。
JNS "A Biophysically Based Neural Model of Matching Law Behavior: Melioration by Stochastic Synapses" Alireza Soltani and Xiao-Jing Wang
しげさんのところで詳しく解説されています。つづき期待中。
Xiao-Jing Wangはhosrt-term memoryのときのdelay activityのモデルとかそういうのやってるひとですが、新しいデータに即していろいろやっているようですね。以前もRomoのgradedなdelay activityのモデルやってたよな、と思って探してみたら、Science 2005 ("Flexible Control of Mutual Inhibition: A Neural Model of Two-Interval Discrimination")はRomo and Brodyであって、そのまえのCerebral cortex 2003 ("A Recurrent Network Model of Somatosensory Parametric Working Memory in the Prefrontal Cortex")のほうに入っているらしい。

コメントする (2)
# sky

調べ物をしていたら、このサイトにヒットしました。近年、私が行っていた話題を、こんなところで議論されていたのか、と思って驚いています。あの頃、気付いていれば、議論に参加できたのに、と思っています。

ずいぶん時が経ってしまって申し訳ありませんが、Sugrue(2004)論文に関してここで行われた一連の議論に抜け落ちている点、Soltani & Wang (2006) に対する評価をここで、追加しておこうと思います。


Soltani & Wang (2006) について

彼らのモデルは、状態変数がないQ-leaningをシナプス学習則で実現するモデルとなっており、選択比と強化比の関係は課題と学習パラメータに依存します。したがって、Matching law を実現するモデルでもMeliorationでもありません。逆にその性質を利用してMatching からのずれである undermatching を再現しているかのように見せています。

私は彼らのモデルをQ-leaning及びその亜種をシナプス学習則で実現するモデルとして評価しています。しかし、Matching law とは何の関係もありません。

Matching law を実現するシナプス学習則は、Loewenstein & Seung (2006) が、報酬と行動関連神経活動の間の共分散に比例する "covariance rule" として、一般則を提案しています。


Matching Task について

報酬量を同じにした並列VI-VIスケジュールが、Matching と Maxmizing を区別できる課題ではないことはmmrlさんに指摘されている通りです。また、報酬量を選択肢によって変えた並列VI-VI(Baum & Rachlin 1969)でも、並列VI-VR(Herrnstein & Heyman 1979)でも、DeCarlo(1981)課題でも、Mazur(1985)課題でも、Matching と Maximizing の区別はできますが、区別しやすい課題パラメータを選ぶと、構造的に交互選択がランダム選択より得になりがちで、交互選択をさせないために Change Over Delay もしくはそれに類した、交互選択に対するコストを導入しており、問題を難しくしているばかりか、無理やりMatching Behaviorを出させている印象を与えています。

並列VI-VI,VI-VR,VR-VRの間を連続的につないで包括する競合的採餌課題(Sakai & Fukai 2008)では、交互選択が得にはならないで、Matching と Maximizing が区別できるパラメータはありますが、最適行動がランダム選択でない点は上記課題と共通です。

しかし、Meliorationを提案したVaughan & Herrnstein (1981) は、もっと強力な課題を考案しており、実際、Matching law 及び Melioration を支持する結果を出しています。Vaughan課題は、各選択肢の報酬確率 P(r|a) を、過去の一定期間に被験者がその選択肢 a を取った頻度 N_a に依存して、

P(r|a)=f_a(N_a)

と決める課題です。つまり報酬確率は直前一定期間の選択頻度に応じて変化します。平均獲得報酬は選択頻度のみに依存し、Localな選択順序に依りません。関数 f_a をデザインすることで、最適な選択頻度、Matching law が成り立つ選択頻度を自由に設定できます。Matching を議論するのに適した素晴らしい課題だと思います。しかし、あまりこの課題を使っているのを目にしません。

最近でもMatchingを議論するのに皆、なぜか並列VI-VIを使いがちですが、上述のようにあまり適した課題ではありません。皆さん、Vaughan課題を使いましょう。


強化学習アルゴリズムとの関係について

強化学習アルゴリズムにも、Matching law を示すものがあります(Sakai & Fukai 2008)。Actor-Critic は、課題や学習パラメータに依らず、定常状態でMatching law を示します。ところが、Q-learning は、課題や学習パラメータに依存し、一般にはMatching law を示しません。

# pooneil

コメントどうもありがとうございます。別エントリ(20080624)に転載させていただきましたので。


お勧めエントリ


月別過去ログ