« 研究メモ: 中井久夫の統合失調症論、スパイキングニューロンネットワークのシミュレーターなど(20160710まで) | 最新のページに戻る | セミナー「アクティブビジョンと フリストン自由エネルギー原理」スライドをアップロードしました »

■ 総説「視覚サリエンスは脳のどこで、どのように計算されるか?」を出版しました

昨年書いていた総説論文が英国王立協会フィロソフィカル・トランザクションズ誌でオンラインアクセス可能になりました。オープンアクセスですので購読していなくても読むことができます。

Review article: "How is visual salience computed in the brain? Insights from behaviour, neurobiology and modelling." Richard Veale, Ziad M. Hafed, Masatoshi Yoshida Phil. Trans. R. Soc. B 2017 372 20160113; DOI: 10.1098/rstb.2016.0113. Published 2 January 2017

(本総説はテーマ特集号 'Auditory and visual scene analysis'の一部として査読を経て出版された。)


どういう内容かというと、視覚サリエンシー(サリエンス)が脳のどこで計算されるかを、大脳皮質での経路と皮質下(上丘)での経路とでの計算過程の違いに注目してまとめた。これが私にとって初めてのコレスポでの総説論文となった。

総説の骨格をざっくり書いてみる。注意の心理学やコンピュータービジョンの世界では「サリエンシーマップ」という概念が提唱されている。これを実際の画像を元にして視覚シーンのうちどこが「注意を惹く」つまりsalient(サリエント、セイリエント)であるかを定量化した二次元マップ(サリエンシーマップ)として脳内に表象している、というのがサリエンシー計算論モデル。それではじつのところ、視覚サリエンシーは脳の中でどうやって計算されているか?

Ittiのモデル(図1)では、視覚の低レベル特徴(輝度lum、色col、方位ori、方向mot)ごとに特徴検出を行う((1)feature analysis)。そのうえでどこが目立つかをcenter excitation-surround inhibitionのメカニズムによって計算したものを計算する((2)feature map, 特徴マップ)。そのあとでその特徴マップをすべて足し合わせたサリエンシーマップを計算する((3)saliency map)。つまりサリエンシーマップは特徴には依存しない単一のマップであることを想定している。これらのマップは視覚刺激そのものによって一意に決まる。これに対して報酬やゴールといった状況依存的なもの、トップダウン注意と呼ばれるようなものを加味したものが優先度マップ((4)priority map)。このpriority mapのなかで実際にどこに目を向けたり手を伸ばしたりするかということをwinner-take-allルールで決めてやる。

では脳の中でこのような計算は実際に行われているのか? 図2にまとめてみた。まずこれまでの論文を調べてみると分かるのが、V1はサリエンシーマップというよりは特徴マップと考えたほうがよいということ。V1では輝度サリエンシーよりも輝度そのものをコードしている(Betz et al 2013)。

ではV4やLIPはどうかというと、Mazer and Gallant 2002にあるように、V4ニューロンは輝度コントラストに強く反応するのだけど、サッカードする際に徐々にゴールの情報を反映するようになる。つまりこれは(特徴に依存しない)サリエンシーマップでもなければpriority mapでもなくて、特徴に依存しつつ、ゴールの情報を持つ、いわばfeature-specific priority mapとでも呼ぶべきものになる。

FEFや上丘の深層(dSC)がpriority mapとしての情報を持っているということはすでにいろいろエビデンスがある。つまり、大脳皮質でのサリエンシー計算は上記図2(b)の黒矢印のように、feature map -> feature-specific priority map -> priority mapの順番で行われている。つまり、Ittiのモデルでは正しく分類することはできない。おそらく、大脳皮質でのサリエンシー計算はボトムアップとトップダウンのリカレントな計算が必須で、Tsotsosのモデルとかのほうが妥当であるといえる。Ittiのは片方向の計算だけだから。

一方、以前の私の盲視の研究からわかるように、V1損傷後でもサリエンシーは計算できる(Yoshida et al 2012)。ではどこで計算しているかというと最大の候補は上丘の表層(sSC)だ。たとえば上丘には視覚刺激が止まっているときよりも動いているときに強く活動するのに、動きの向き(上下左右)への選択性はないニューロンが大半を占める(Moors and Vendrik 1979)。これはつまり方向の情報を計算せずに(図1でいうfeature amalysisの段階がない)、動きのサリエンシーだけをいっきょに計算しているという意味で、サリエンシーに特化したニューロンであるといえる。(大脳皮質では方位、傾きの情報をV1のニューロンが計算した上でそこからサリエンシーを抽出するという意味ではサリエンシー計算は方位計算の結果を用いた二次的なものといえる。) 哺乳類の上丘は他の脊椎動物での視蓋の相同脳部位であり、カエルのバグ検出器(Lettvin and Maturana 1959)が動きサリエンシー検出器であって虫の種類を弁別することができないということともよく合致している。

より決定的な証拠として、Yoshida et al 2012の共著者であるクイーンズ大学のBrian Whiteは上丘のニューロン活動がフリービューイング中に視覚サリエンシーを(輝度などの情報よりも)反映していることを示した。この論文はいまNature Communicationsにin pressとなっている(Brianのサイトの情報より)。じつのところこの仕事については以前からよく知っていて、図を引用したかったのでこの論文が出版されるのを待っていたのだけれど、査読過程でかなり苦労していたので、こっちの総説のほうが先に出てしまったという経緯がある。

そんなわけで、サリエンシー計算のルートには上記の図2(b)の黒矢印のルートとは別に、上丘を経由するルート(上記図2(b)の灰色矢印)があって、こっちのほうではfeature map -> (feature-agnostic) saliency map -> priority mapと、Ittiのサリエンシー計算論モデルによく合致した計算過程があることが推測できる。

では上丘の局所回路でどんなことやっているかってのが後半の話で、これが私が今やっている上丘ニューロンのシミュレーションの話に繋がる。ひとつはZiad Hafedさんとやっている、マイクロサッカードも考慮した上でのneural fieldベースのモデルになるし、もうひとつがRichard Vealeさんとやっているスパイキングニューロンネットワークを用いたモデルになる。ここに関しては省略。今後の発展を乞うご期待ということで。


以上で総説の説明が終了。この総説には盛り込むには時期尚早だったけど本当に興味があるのは、以上のサリエンシー計算についての図式を予想コーディングおよびフリストンの自由エネルギー原理の枠組みのなかにうまく位置づけてやるということ。

フリストンの論文 2012にもあるように、自由エネルギー原理の枠組みにおいては、サリエンシー計算(=外れ値検出)は階層的な予測誤差のカスケードの中での予測誤差として捉えることができる。これは自由エネルギーの式でいうと F = Complexity - Accuracy という式表現でのcomplexityがまさにサリエンシーそのものであり、Itti and Baldi 2009でのbayesian surpriseとして計算できる(すでにIttiのモデルの中でimplementされている)。そうすると、脳内のフィードフォワード方向の予測誤差はサリエンシー計算、フィードバック方向の予測信号は無意識的推論、と捉えることができる。つまり、(大脳皮質での)サリエンシー計算は無意識的推論としての視覚のモデルの一部として必然的に計算されるものであるというわけ。

まあ、今後はこんなことをやってゆく所存です。今年もよろしくお願いします。


お勧めエントリ


月別過去ログ