« Twitterに脳内がだだ漏れる20080809 | 最新のページに戻る | A sort of homecoming »
■ James DiCarloのuntangled representation space
こないだの神経科学大会のときに招かれたJames DiCarloが生理研にやってきてトークをしました。私もラボツアーに入れてもらって、宮下研時代の仕事についての話をしたり、いまの自分の仕事を説明したり。(hit-missでeye positionに差がないかチェックしたほうがよいと言われた。)
James DiCarloは以前はJohn MaunsellのところにいてIT neuronの反応選択性とeye movementの関係についての一連の仕事をしてきました。
- DiCarlo JJ, Maunsell JH. "Anterior inferotemporal neurons of monkeys engaged in object recognition can be highly sensitive to object retinal position." J Neurophysiol. 2003 Jun;89(6):3264-78.
- DiCarlo JJ, Maunsell JH. "Form representation in monkey inferotemporal cortex is virtually unaltered by free viewing." Nat Neurosci. 2000 Aug;3(8):814-21.
要はIT neuronの反応のinvarianceの形成(ニューロンの反応が、たとえば顔の向きや網膜上の位置やなどに依らずに一定の関係を持っている)に興味があったのだと思いますが、いまいち地味な仕事だと思ってました。
そのあとMITで独立してからは
- Hung CP, Kreiman G, Poggio T, DiCarlo JJ. "Fast readout of object identity from macaque inferior temporal cortex." Science. 2005 Nov 4;310(5749):863-6.
- Cox DD, Meier P, Oertelt N, DiCarlo JJ. "Breaking' position-invariant object recognition." Nat Neurosci. 2005 Sep;8(9):1145-7.
- DiCarlo JJ, Cox DD. "Untangling invariant object recognition." Trends Cogn Sci. 2007 Aug;11(8):333-41.
といったinvariant representationとdecodingに特化した仕事を進めていて、今回はそのへんの話をしてました。
いつもどおり論文を印刷して、それを広げながらセミナーを聞いて、あれこれ質問してみたり。
まず、Science 2005では、ITからMUAを記録して、複数のサイトからの活動を使ってobject刺激のclassifierを作ってやる。SVMを使ってるらしい。原理的には判別分析だから、ある刺激Aが出てるのか、それ以外なのかを判別するということをしているはず。(n個の刺激からひとつの刺激を選ぶidentificationのときにはどうしているのか、n個のclassifierを使っているのか、論文を読めばいいんだけど不明。)
いったんclassifilerを作ったあとで、刺激の位置を変えたり、大きさを変えたりして、同じclassifierの性能を調べてみるとそんなに悪くならない。という話。
ここで判別分析を使っているということから、IT neuronのrepresentationが刺激空間において線形的な構造をしていて、position invarianceなどを達成している、という作業仮説が入っているわけです。
つまり、ITとかでは発火パターンは図の1)のようになっていて、positionの違いによってface Aとface Bのfiring rateが交差したりしない(図の2)のように)、というわけです。Invarianceといってもfiring rateがまったく変わらないという意味ではなくて交差しなければよいというわけですね。(ここでは1個のニューロンからの記録を使った説明になっていますが、原理的には多点記録して次元が増えても同じです。)
いっぽうで、V1とかでのrepresentationの空間はlocalなedgeによるからstimulus positionとかにものすごい影響を受けて、face Aでの発火とface Bでの発火とは交差しまくってるわけです。
だから、V1からITまで顔表象の処理が進んでいくあいだに起こっていることはそのようなfiring rateによる空間をdisentangleすることだ、というわけです。このへんがTICSに書いてあることだと思われ。印刷して図を見ただけなんで詳しいこと知ってる方は助けてください。
それではほんとうにそのようなinvarianceを積極的に作るようなメカニズムがあるのかどうかを検証するために、経験の影響を見る実験を作ったのがNature Neuroscience 2005。Position invarianceを短期的にひっくり返してやるために、図形Aと図形Bのどちらかが右か左に提示されて、それに向けてサッカードする。左に提示したときだけ、サッカード中に図形をswapする。つまり、図形Aを提示してたのにサッカードが終了すると図形Bになってる。Saccadic suppressionが効くから、このswapに被験者(ヒト)は気づかない。
それでここからがunpublished dataだけれども、nhpでニューロンを記録して同じことをやってやる。図を再利用すると、ITニューロンの応答は左視野(横軸の左側)に提示しようが右視野に提示しようが、face Aのときに強い(図の1)。そこで左サッカードの時だけ図形のswapをする。すると直後は図の2)のようにfiring rateは交差する。しかし、しばらくトレーニングを続けていると、また図の1)のように新しい関係の上で交差しないような発火になる、という話。これは強烈。Nature行ったっしょ(こればっかり)。
ポイントとしてはrewardには依らないこと。だからunsupervisedで経験に従ってlearningが起こるわけです。銅谷先生の大脳皮質の学習則の話ともconsistent。わたしはawarenessの有無は寄与しないのかを質問したんですが、上記のNature neuroscience 2005をreferして、すくなくともヒトではawarenessは無かった、って答えてました。
だいたい以上がセミナーでの話です。私が興味あるのは、このuntanglingということとKochのいうようなexplicitなrepresentationとsparse codingとの関係です。KochがNCCはexplicitなcodingをしている、つまりおばあさん細胞的なcodingをしているであろうと書くときにわたしはどうにも素朴なアイデアだなあと思ってました。もっとfiring rate以外も入れた複雑なcodingがありうるし、そういうものを積極的に排除する必然性に欠けていると思っていたからです。
しかし、今回のdisentanglingの話のように、ITのような複雑な視覚刺激を表象するところで、そのclassificationの性能(=decodingの性能)を上げるために、そのようなexplicitな(線形分離可能な)表現が使われているのだとしたら、そこには合目的性があります。(あくまでも意識そのものと直結する話ではないのだけれど。)
また、ここでのdisentanglingというのはけっきょくのところ表象空間での重なりを低減するということですから、個々のobjectの表象の独立性を上げる、つまりsparse codingをするように処理が進む、ということです。大脳皮質のニューロンでの情報処理がそのような独立性を上げることに寄与しているんだという話はHorace BarlowからBruno Olshausen (Nature 1996: 自然視覚情報のICAでできたbasis functionがgabor-patch, simple-cell-likeになる)の流れで言われてきたことでして、これがITでの複雑な視覚objectについても当てはまるということになると、そのようなexplicitなcodingというのにはやはり意味があるのかもしれません。
また、この話はまえにLogothetisのbinocular rivalryの話題をしたときに私が言ったこと(20071213などawareness関連のスレッド)と関連しそうです。つまり、ITニューロンでは90%がawarenessがあるときに反応が大きくなる。一方でV4などでは反応が大きくなるものと小さくなるものとが半々だった。だから、ITニューロンは処理の結果としてのrepresentされているまさにcontentを、V4ニューロンは処理の途中、いわばprocessを反映していると言えるのではないか、と書いたわけですが、今回の話と繋げてみれば、awarenessに上っていくようなかたちでdecode=read-outされる対象となるようなニューロン活動はsparseかつexplicitな表象をしている、というふうに言えるんではないだろうか、と思ったのです。ITニューロンのrepresentationとdecodingの問題をどうawarenessと結びつけることができるか、という問題意識です。
また論文を精読せずに書いてしまった。手癖だけでギター弾くみたいな、これはあまりよろしくない状況なのだけれど。
ではまた(唐突に)。
- / ツイートする
- / 投稿日: 2008年09月20日
- / カテゴリー: [視覚的意識 (visual awareness)]
- / Edit(管理者用)
# コラムが好き
どうも初めまして。いつも勉強させて頂いてます。という話はどうでもいいのですが、DiCarloのunpublishの話というのは最近Scienceに出たUnsupervised natural experience rapidly alters invariant object representation in visual cortex.とは違うのでしょうか?この論文もnhpの話で、ひとの心理物理と違うのは上下に刺激を出している点だったと思います。で、それも刺激選択性が完全に変化するのを示したのはマルチユニットデータのみという話。まぁ、マルチでもいいのかもしれませんが・・・・
# pooneilそれから、この話と直結しているのは、Dicarloが2007年のJNSにTrade-off between object selectivity and tolerance in monkey inferotemporal cortex.という論文を出しています。そこで、刺激選択性がsparseなneuronはinvarianceな性質(position,size,contrastなど)が低いということを示しています。
でexplicitな表象という話ではsheinbergの所から2007年のJNSにActivity of inferior temporal cortical neurons・・・・という論文と関連していると思うのですが、人のコメント欄で延々書き続けても申し訳ないので、これくらいで。
どうもありがとうございます。そうです、そのScience論文です。
このエントリ、じつは7月にDiCarloが来たときに書いておいたものだったのですが、公開するのを後回しにしているうちに出版されてしまったようです。しかも出版されたのを見逃しているし。
>>人のコメント欄で延々書き続けても申し訳ないので
ということはけっしてないので、ぜひもっと書いてください。いろいろ読んでおかないといけない論文があるのですが、ぜんぜん手が回っていないので、この話題を続けてくださるとたいへんありがたいです。
もし長文になるようでしたら私宛てでメールで送っていただければ、それを掲載しますので。たとえばこれまでの例として、ハーバードの内田さんが寄稿してくださった
# 通りすがりhttp://pooneil.sakura.ne.jp/archives/permalink/000688.php
とか東大の池谷君が寄稿してくださった
http://pooneil.sakura.ne.jp/archives/permalink/000487.php
などがあります。ぜひぜひ。
あと、コメントの重複分は削除しておきましたので。
SVMは非線形のデータの識別もできますよ。特徴ベクトルを非線形関数で変換した後、線形の識別を行います(カーネルトリック)。そしてその性能が高いことがSVMが広く用いられているゆえんです。DiCarloの論文は読んでませんが。
# コラムが好き確かに中途半端なところで止めてしまってすいません。Pooneilさん、ありがとうございます。それではお言葉に甘えて続けさせていただきます。
稚拙な文章で、良く分からないと思うのでガツンガツン指摘して下さい。
先ほど挙げたSheinbergの論文はLogothetisとPNASに出したbinocular rivalryと関連しています。あの論文は、見たという認識をした時には高い神経活動を示すことから、ITは視覚による物体認識の中心部位ということを見事に示しました(すいません、ここはわざと歯切れの悪い言い方をしています)。ただし、binocular rivalryという通常ならば経験し得ないような実験状況下の話だったので、もう少し自然状況下?に置くことで、どうなるかを問題にしています。
タスクは、刺激画面に3つの刺激が出てきます。そのうちの1つがターゲット刺激で、あと2つがdistractorです。そしてターゲット刺激にsaccadeしてレバー押しするタスクです。ターゲット刺激は右レバーを押すものと左レバーを押すものとをトレーニングをして覚えさせます。また、distractorもトレーニング時に呈示しています。
タスクは2つあります。分かりにくいので具体例を示します。タスク1は右レバーを押すターゲット刺激に対して選択性を示すITのニューロンがあるとします。そこで、画面には選択性を示した刺激が1つとdistractorが2つ呈示されます。そして、saccadeをして右レバーを押せば正解として報酬がもらえます。タスク2では、刺激呈示は同じですが、saccadeしている間にターゲット刺激は左レバーを押すと学習させた刺激にswapします(swap後に呈示される刺激には選択性を示さないことを事前に確認しています)。そして、レバーを押すのですが、この時には右でも左でもどちらでも正解になります。
そこでタスク2に関してですが、saccade onset前後200msのニューロンの活動を比較するとswap前の刺激と判断した時には、神経細胞は高い活動を示します。これをchoice probabilityで見てみると、非常に高いCPを示していました。
また、レバー押しのreaction timeを見ている限りでは、reaction timeが速いほどswap前の刺激と連合したレバーを押しています。一方、reaction timeが遅いとswap後の刺激と連合したレバーを押しています。このことから、筆者らはswap前の刺激を明確に認識しているからreaction timeが短く、認識していない時にはswap後の刺激を見ているからreaction timeが長いと解釈しています。まぁ、多分そうなのでしょう・・・。
長々と続けましたが、この論文のミソは、刺激を明確に認識している時にはITの神経細胞は高い活動を示すが、そうでなければ高い活動は見られないというものです。
ただし、解析しているのがsaccade onset 200ms 前後が妥当なのかとか問題は、いろいろあると思います。正直、saccade前に物体認識はしているはずで、むしろsaccade onset前の100msもしくは200msの解析をすべきではとも思います。その数字は、あまり考えた数字ではないのですが・・・。
いや、この論文苦労のあとが見られるし、個人的には好きなのですが、果たして、どこまで妥当性のある議論が出来るのか私では判別つきかねます。単なる論文紹介になってて申し訳ないです。
それで、もう少しだけ続けます。話がそれてしまっている気がしますが、気になっているのが、2006年のJNSに出ていたSuzuki, Matsumoto, TanakaのNeuronal responses to object images in the macaque inferotemporal cortex at different stimulus discrimination levelsという論文で、タスクの難しさが変化してもITの刺激選択性や応答が変化しないという論文です(もう少し詳しく書くと、基本的にはsample-to-match taskで2つタスクがあります。一つはfine & coarseのdiscrimination taskで2つめのタスクではsampl-to-matchの規則が変化します)。ただ、Koida , Komatsuの2007年のNature neuroscienceの論文では色刺激のdiscriminationとcategorization taskでITの神経細胞の活動が異なるという結果もあります。つまり、前者の論文では結局ITでrepresentされているものは単純に刺激の形ということになると思います。Task demandに変化するわけではないのだから、ITの神経活動を読みだして、taskに利用しているのは、その下流(Prefrontal cortex?)ということになるはずです。必ずしもITでは”awarenessに上っていくようなかたちでdecode=read-outされる対象となるようなニューロン活動はsparseかつexplicitな表象をしている”とは言えないと思います。しかし、後者の論文やbinocular rivalry、先に挙げたsheinberg論文の話を考えるとは矛盾しているように思えます。
自分で書いていて、pooneilさんの書かれていることや論文をちゃんと理解せずに書いているのでおかしなことを言っている部分もありますがご容赦の程をお願いします。