[カテゴリー別保管庫] Saliencyと眼球運動

視野の中にどれだけ注意を惹くものがあるか、という視野のボトムアップの特性であるsaliency(顕著性)が眼球運動による視野探索に関してどのくらい影響を及ぼすか、という計算論的な仕事があります。そのへんをフォローしてます。

2017年01月03日

総説「視覚サリエンスは脳のどこで、どのように計算されるか?」を出版しました

昨年書いていた総説論文が英国王立協会フィロソフィカル・トランザクションズ誌でオンラインアクセス可能になりました。オープンアクセスですので購読していなくても読むことができます。

Review article: "How is visual salience computed in the brain? Insights from behaviour, neurobiology and modelling." Richard Veale, Ziad M. Hafed, Masatoshi Yoshida Phil. Trans. R. Soc. B 2017 372 20160113; DOI: 10.1098/rstb.2016.0113. Published 2 January 2017

(本総説はテーマ特集号 'Auditory and visual scene analysis'の一部として査読を経て出版された。)


どういう内容かというと、視覚サリエンシー(サリエンス)が脳のどこで計算されるかを、大脳皮質での経路と皮質下(上丘)での経路とでの計算過程の違いに注目してまとめた。これが私にとって初めてのコレスポでの総説論文となった。

総説の骨格をざっくり書いてみる。注意の心理学やコンピュータービジョンの世界では「サリエンシーマップ」という概念が提唱されている。これを実際の画像を元にして視覚シーンのうちどこが「注意を惹く」つまりsalient(サリエント、セイリエント)であるかを定量化した二次元マップ(サリエンシーマップ)として脳内に表象している、というのがサリエンシー計算論モデル。それではじつのところ、視覚サリエンシーは脳の中でどうやって計算されているか?

Ittiのモデル(図1)では、視覚の低レベル特徴(輝度lum、色col、方位ori、方向mot)ごとに特徴検出を行う((1)feature analysis)。そのうえでどこが目立つかをcenter excitation-surround inhibitionのメカニズムによって計算したものを計算する((2)feature map, 特徴マップ)。そのあとでその特徴マップをすべて足し合わせたサリエンシーマップを計算する((3)saliency map)。つまりサリエンシーマップは特徴には依存しない単一のマップであることを想定している。これらのマップは視覚刺激そのものによって一意に決まる。これに対して報酬やゴールといった状況依存的なもの、トップダウン注意と呼ばれるようなものを加味したものが優先度マップ((4)priority map)。このpriority mapのなかで実際にどこに目を向けたり手を伸ばしたりするかということをwinner-take-allルールで決めてやる。

では脳の中でこのような計算は実際に行われているのか? 図2にまとめてみた。まずこれまでの論文を調べてみると分かるのが、V1はサリエンシーマップというよりは特徴マップと考えたほうがよいということ。V1では輝度サリエンシーよりも輝度そのものをコードしている(Betz et al 2013)。

ではV4やLIPはどうかというと、Mazer and Gallant 2002にあるように、V4ニューロンは輝度コントラストに強く反応するのだけど、サッカードする際に徐々にゴールの情報を反映するようになる。つまりこれは(特徴に依存しない)サリエンシーマップでもなければpriority mapでもなくて、特徴に依存しつつ、ゴールの情報を持つ、いわばfeature-specific priority mapとでも呼ぶべきものになる。

FEFや上丘の深層(dSC)がpriority mapとしての情報を持っているということはすでにいろいろエビデンスがある。つまり、大脳皮質でのサリエンシー計算は上記図2(b)の黒矢印のように、feature map -> feature-specific priority map -> priority mapの順番で行われている。つまり、Ittiのモデルでは正しく分類することはできない。おそらく、大脳皮質でのサリエンシー計算はボトムアップとトップダウンのリカレントな計算が必須で、Tsotsosのモデルとかのほうが妥当であるといえる。Ittiのは片方向の計算だけだから。

一方、以前の私の盲視の研究からわかるように、V1損傷後でもサリエンシーは計算できる(Yoshida et al 2012)。ではどこで計算しているかというと最大の候補は上丘の表層(sSC)だ。たとえば上丘には視覚刺激が止まっているときよりも動いているときに強く活動するのに、動きの向き(上下左右)への選択性はないニューロンが大半を占める(Moors and Vendrik 1979)。これはつまり方向の情報を計算せずに(図1でいうfeature amalysisの段階がない)、動きのサリエンシーだけをいっきょに計算しているという意味で、サリエンシーに特化したニューロンであるといえる。(大脳皮質では方位、傾きの情報をV1のニューロンが計算した上でそこからサリエンシーを抽出するという意味ではサリエンシー計算は方位計算の結果を用いた二次的なものといえる。) 哺乳類の上丘は他の脊椎動物での視蓋の相同脳部位であり、カエルのバグ検出器(Lettvin and Maturana 1959)が動きサリエンシー検出器であって虫の種類を弁別することができないということともよく合致している。

より決定的な証拠として、Yoshida et al 2012の共著者であるクイーンズ大学のBrian Whiteは上丘のニューロン活動がフリービューイング中に視覚サリエンシーを(輝度などの情報よりも)反映していることを示した。この論文はいまNature Communicationsにin pressとなっている(Brianのサイトの情報より)。じつのところこの仕事については以前からよく知っていて、図を引用したかったのでこの論文が出版されるのを待っていたのだけれど、査読過程でかなり苦労していたので、こっちの総説のほうが先に出てしまったという経緯がある。

そんなわけで、サリエンシー計算のルートには上記の図2(b)の黒矢印のルートとは別に、上丘を経由するルート(上記図2(b)の灰色矢印)があって、こっちのほうではfeature map -> (feature-agnostic) saliency map -> priority mapと、Ittiのサリエンシー計算論モデルによく合致した計算過程があることが推測できる。

では上丘の局所回路でどんなことやっているかってのが後半の話で、これが私が今やっている上丘ニューロンのシミュレーションの話に繋がる。ひとつはZiad Hafedさんとやっている、マイクロサッカードも考慮した上でのneural fieldベースのモデルになるし、もうひとつがRichard Vealeさんとやっているスパイキングニューロンネットワークを用いたモデルになる。ここに関しては省略。今後の発展を乞うご期待ということで。


以上で総説の説明が終了。この総説には盛り込むには時期尚早だったけど本当に興味があるのは、以上のサリエンシー計算についての図式を予想コーディングおよびフリストンの自由エネルギー原理の枠組みのなかにうまく位置づけてやるということ。

フリストンの論文 2012にもあるように、自由エネルギー原理の枠組みにおいては、サリエンシー計算(=外れ値検出)は階層的な予測誤差のカスケードの中での予測誤差として捉えることができる。これは自由エネルギーの式でいうと F = Complexity - Accuracy という式表現でのcomplexityがまさにサリエンシーそのものであり、Itti and Baldi 2009でのbayesian surpriseとして計算できる(すでにIttiのモデルの中でimplementされている)。そうすると、脳内のフィードフォワード方向の予測誤差はサリエンシー計算、フィードバック方向の予測信号は無意識的推論、と捉えることができる。つまり、(大脳皮質での)サリエンシー計算は無意識的推論としての視覚のモデルの一部として必然的に計算されるものであるというわけ。

まあ、今後はこんなことをやってゆく所存です。今年もよろしくお願いします。


2016年10月22日

サリエンシーマップの計算用コード(2015年6月版)

OpenCV version 3.0 リリースとのこと。OpenCVがversion 2になってからいろいろ弄ろうと思っていたけど後回しにしていたら、いつのまにか3.0が出てしまった。サリエンシーマップを作れるようにとか考えてたのだけれど。

そしたら、公式でSaliency APIってのができてた。"Static Saliency algorithms"のページを見るかぎり、Xiaodi and Zhangという人たちのimplementationみたい。

ほかにもOpenCVでの例はAmir H. BakhtiaryによるIEEE PAMI 1998 Itti et alのコード、それから「OpenCV2.4による顕著性マップの実装」がある。

akisatoさんのはてなのは消えちゃってる。freemlに一部残ってる。openCV以外のコードとしては、akisato-さんのpythonコード、それからopenFrameworksでのofxSaliencyMap、それから大変詳細な説明とC++コードがある。

ただ、だいたいのIttiコードのimplementationというのはベンチマークテスト用の比較対象としてIEEE PAMI 1998でのアルゴリズムがimplementされているのだがそれはstaticな刺激のためのものであって、動画に使うためのサリエンシーはVisual Cognition 2005 (pdf)に書かれているとおりにimplementされている。こちらはmotion energyとかflickerとかが入っていて、彼のC++コードはこちらに基づいて計算される。そういうわけでわたしはこちらのユーザーとしてコードを走らせてる。いくつか調べてみるとちょっと変な挙動がある。

たとえば標準的なCIOFM (color + intensity + orientation + flicker + motion)なモデルを動かすと、Iのみのマップとかと比べると時間的になまったものが出てくる。これはなぜかというとC+I+O+F+Mのfeatureを足し合わせるところで一回leaky integratorを通しているから。ある意味正しいんだろうけど、CIOFMとIの時間的挙動を比較したいこちらとしては困る。


2015年09月08日

生理研一般公開2014で視線計測の実演をしました

生理研一般公開2014で視線計測の実演をしました。ここまでの準備過程についてのブログ記事はこちら:「生理研一般公開で視線計測の実演をします」 今回はこれの続き。


一般公開でアイトラッカーで何作ったら楽しめるかだけど、「モグラ叩き」かなという考えに至った。広いスクリーンにターゲット出して、なるたけ速くサッケードしてターゲットを捕捉する。ついでに視野検査のデータも手に入るという(<-それダメ)

ただ、ゲーミフィケーション的な観点からすれば、そういうほうがデータ集めしやすいわけで、たとえば患者さんとか幼児さんとかからデータを収集する際には、もぐら叩きゲーム化するのは有効かもしれない。

Tobii EyeX いかにもEyeTribeに追従したなという印象だが、preorderしたらthis summerには送るって書いてあって、summerって9月までかなと思っていたが、今日発送したと連絡が来た。思ったより早かった。


一般公開の準備、いろいろあってけっきょくtobii X2-60でgaze contingency displayもやることにしたのだけれども、EyeLinkではGaze contingent displayのコードはじめっから入っているけど、Tobiiには入ってない。どうしたものかと思っていたが、いろいろ調べてみたら、tobiiの中の人がやってるブログでサンプルプログラムを見つけた。これとEyeLinkToolboxの中に入っているEyelinkGazeContingentDemo.mを元にしてアルファブレンド使って表示することが出来た。

未解決だったのは、いかにして眼の動きによって画面がちらつかないようにするかという点だったのだが、オンラインで入ってくるgazeのデータのノイズを除くところを工夫したらなんとかなった。ついでにヘッドフリーでfixation taskもできるようになった。これで自分が被検者になれる。

これでやっと以前作ったProccessing + SuperCollider + Tonnetzを眼で鳴らすことができるようになったが、そこまでやらなくてもいいかなという気がしてきた。

「アイトラッカーで電話番号を押す」というのを作るためにプッシュホンの周波数を調べてみたが、いまどきプッシュホンの音聞いてもわからんだろうか?

といいつつけっきょく作った。「アイトラッカーで電話番号を押す」"Eye-tracking for dial tones" 一般公開の広報活動ということで。


一般公開終了! なかなか盛況で、トラブルもなく、全体的には良かったと思う。出し物もまあ妥当。もっと簡単でも良かった。人数配分とか見積もりが悪かった部分はみんなでカバーしてくれて感謝。

「アイトラッカーで電話番号を押す」も使ってみたけど、私自身を被検者としたときは、よく訓練されすぎていてキャリブレーションが綺麗に出来て、問題なく出来たのだけれども、来客の人はメガネかけてたり、お年寄りの方で字が小さすぎたりとか、必ずしもうまくいなかい事がよくわかった。


2015年05月03日

サリエンシーマップと視線計測の日本語総説を(昨年)ふたつ書きました

昨年はサリエンシー・マップと視線計測についての日本語総説を二つ書いた。

サリエンシー·マップの視覚探索解析への応用 日本神経回路学会誌 Vol. 21 (2014) No. 1 p. 3-12 http://doi.org/10.3902/jnns.21.3

視覚顕著性(視覚サリエンシー)の神経ネットワーク 神経心理学:30(4), 268-276, 2014

そのときのメモ書きをまとめてみた。


「 神経心理学雑誌」の日本語総説の終わりが見えてきた!

「サリエンシーの神経ネットワーク」ということで書いているのだけれど、神経回路学会誌に書いた方は計算論寄りだったので、今回は神経生理の知見とか脳部位の方に重きをおいてる。

[特徴の分析]-[特徴マップ(強度ではなく空間コントラスト)]-[サリエンシーマップ (特徴と出力に依存しない)]-[priority map (WTA後、TDとの統合、運動のゴールそのものではない)]-行動、という図式を書いて、それに脳部位を当てはめるってそんな簡単に当てはまらん。

V1は方位の特徴分析のレベルであって、特徴マップではない、輝度コントラストをコードしていて、輝度コントラストのサリエンシーは持ってない、V4,LIPは特徴マップ~サリエンシーマップのレベルだが、サリエンシーモデルで想定しているようなfeature invarianceがあるわけではない。

FEFとSGIはpriority mapのレベル。どちらとも運動との解離は示されている。SGSはmotion saliencyは持ってるので特徴マップであるとは言える。feature invarianceがあるとはいえないが、視覚と聴覚の統合という意味でのinvarianceはあるかも。結論として言うと、純粋にボトムアップでかつ特徴に依存しないようなサリエンシーマップ、というものは多分脳の中にはない。

特徴マップとpriority mapは脳の中にはあって、その中間には両者が混ざっているものがある。とだいたいこんな方向で。


「この解説では視覚のサリエンシーについて扱う」と書いた途端に「(他の知覚モダリティーではなくて)視覚の」と付け足したくなるのだけれども、これをやっているとキリがない。親切なようでくどい。でも読み飛ばされても困る。「言葉で世界の意味を切り分ける」ということの重さと距離感を感じる。

つまり元の文章は「(ほかでもない)この解説(原著論文ではない)では(他の知覚モダリティーも大事だけど)視覚のサリエンシー(と関連する概念を比較しながら概念を明確化して定義する)について扱う(詳述と言える重さではない)」くらいの万感の思いが込められている。

でもまさにサリエンシーの問題であって、「視覚のサリエンシー」と言われたら「サリエンシー」という言葉のほうが耳慣れないからサリエンシーが高い。よって側方抑制が効くので「視覚の」の部分のサリエンシーは低くなる。こうして「サリエンシー」という言葉しか伝わらない。

これが「一文にはひとつのメッセージだけ」という教えの根拠といえるかもしれない。さらに言うならこのような意味での側方抑制は複数の文の間でも効くので、パラグラフの最初の部分にトピックセンテンスを持って来いというのは、パラグラフの最初のサリエンシーが高いからだ。

ついでに記憶の系列位置効果も。(<-サリエンシーという概念の濫用)


2015年02月26日

「状態空間モデル入門」講義に出てきた

明日総研大の大学院講義で「状態空間モデル入門」小山慎介(統計科学専攻)というのがあるので勉強してくる。島崎さんのPLoS Comput Biolとか理解できるようになることを期待して。

予習中。「神経科学と統計科学の対話3」State Space Methods in Neuronal Data Analysis (Z Chen) パート1及びスライド。動画はパート2およびパート3まであり。


「状態空間モデル入門」講義参加してきた。あいにく出席者が少なくて残念なかんじだったが、おかげでバンバン質問してマンツーマン的に教わることができた。講義としてはまず確率的因果推論とマルコフ過程の概論から。

確率的因果推論っていうけど、以前ブログで「ラットの因果推論」について採り上げたときに、原因の確率を手計算していたけど、あれがまさに確率的因果推論であって、PRML8章の「グラフィカルモデル」というやつのこと。たとえば遺伝の話で言えば、メンデルの法則っていうforwardモデルがあるから、先祖から子孫で表現型がどのような確率で伝わるかわかる。ベイズの法則を使えば逆向きの推定ができて、ある子孫の表現型から先祖の表現型の確率を推定できる。

マルコフ過程のほうはPRML13章の「系列データ」に出てくるあれ。状態量x(t)が直前のx(t-1)だけで決まる。隠れマルコフモデルでは、計測値y(t)と見えない状態値x(t)とに変換式P(y(t)|x(t))があって、x(t)がマルコフ過程になっている状態空間モデルの特殊例(取り扱いしやすい例)だということですっきりまとまった。

ベイジアンのグラフィカルモデルでは有向でループのないツリー状構造が扱われるのに対して、マルコフ過程ではx(t-1)だけでx(t)が決まるという、枝のない特殊例であるということも理解した。

カルマンフィルターも状態空間モデルの特殊例で、隠れマルコフモデルが離散的であるのに対して、カルマンフィルターは連続的であり、ノイズがガウシアンであるという仮定が入ってる。

隠れマルコフモデルでは、いったん計測値y(1:t-1)が入手できれば、現在の状態値x(t)の確率密度分布p(x(t)|y(1:t-1))を計算するのにチャップマン=コルモゴロフ方程式を使ってやればよい。

M1ニューロン活動から運動の方向をデコードするような例の場合、ニューロン活動も運動も自己相関が高いので運動の方向は急には変わらない、つまり自己相関が高いのでマルコフ過程の仮定を置くことができて、デコーディングがうまくいく。

実際にチャップマン=コルモゴロフ方程式を使う際には

p(x(t)|y(1:t)) ∝ p(y(t)|x(t)) * p(x(t)|y(1:t-1))

でベイズの公式を使う。規格化するために分母を計算しないといけないのでパーティクルフィルタとか使ったりとかいろいろテクがある。講義では省略されてたけど、ここが難しいし、時間がかかる部分であることはわかる。

けっきょく状態空間モデルでは見えない状態x(t)を計測値y(t)から推測するためにベイズ推定を使うので、x(t)からy(t)を生成するモデルがうまく作れないとダメな推定を行ってしまうことになる。


後半の講義では、小山さんのJ Comput Neurosci. 2010 Comparison of brain-computer interface decoding algorithms in open-loop and closed-loop controlを元にした話をしてた。

ここでは、デコーディングをする際に、1) population vector => 2) ordinary least squares => 3) nonlinear least squares => 4) loglinear least squares => 5) state space model とモデルを変えるごとに拘束条件をゆるめてより自由なモデリングができること、そしてこれらのなかでM1ニューロンのデコーディング(Andy Schwartzのデータを利用)にはどの拘束条件が効いているかを検討した話を聞いてきた。

結論としてはopen loopのデコーディングでは「サンプルしたニューロン集団のなかでpreferred directionが一様に分布している」という1)での縛りが聞いているのだけれど、closed loopでは動物が学習してくれるのでこの縛りは重大でなくなる。それでも5)でadaptiveのノイズのスムージングをしてくれることがデコーディングの性能に効いているという点ではclosed loopでもopen loopでも変わらん、というものだった。

これはモデル推定のパラダイムだから、たとえば状態空間のモデルとして複数のものを作って、それらからより良いモデルを選択するということも可能。


状態空間モデルは自由度が高いので、島崎さんの論文のように高次相関を状態空間モデルに組み込んでやれば、時々刻々と高次相関が出たり消えたりする(セルアセンブリの形成)のを推定することができる。多細胞同時記録神経スパイク時系列データの状態空間モデルおよび動的スパイク相関の状態空間モデル やっとこのへんわかってきた。

状態空間モデルでは、データの追加にともなってそのつどベイズ更新をしてゆくから、たとえば電極埋め込んで長期間デコーディングをしてゆくときとだんだん記録が悪くなっていくのだけど、そのときにデコーダーを逐次アップデートしてゆくことができるわけで、それはよさそう。ざっとググってみたかんじタイトル的にこの論文が該当するか:Neural Comput. 2011 "Adaptive decoding for brain-machine interfaces through Bayesian parameter updates."


状態空間モデルがうまくいけば、状態量 x(t-1) -> x(t) -> x(t+1) といった推移を推定できるわけで、究極的にはそれがスパイキングネットワークモデルでの推移則を決めるための拘束条件にできればいい。こうすると力学系的アプローチにつながる。夢見過ぎだろうか?

それはそれとして、時系列の解析で見えない過程から測定値への変換のモデルを作って、測定値から見えない過程を推定する、というのはまさに生理学者がやりたいことそのものなので、いろんなところに使えるということがわかる。


ニューロン活動だけでなくって、サリエンシーに基づいた視覚探索の場面でも使えるだろう。サリエンシーにもとづいてどのように目を動かすか、IORとかattention apertureとかいくつかパラメータを作って、モデルを作ってパラメータフィッティングとか最近やってるんだけど、これってまさに状態空間じゃね?

とか思ってふと考えてみたら、NTT木村さんがやってたのってまさにベイジアンな隠れマルコフモデルによるアプローチだった。A stochastic model of human visual attention with a dynamic Bayesian network いまのいままで繋がってなかったomg!!! ということでなにすればいいか判明した!


2015年01月31日

Electrooculography (眼電位図)について調べてみた

Wearable EOG Goggles: Eye-Based Interaction in Everyday Environments(PDF)という論文を見つけた。眼電位図をゴーグルで記録するデバイス。JINS MEMEの先祖的な存在か。

Electrooculography (眼電位図)は目の前面(角膜)と後面(網膜)の間の電位差(corneo-retinal potential)を計測して、それが眼球の回転角と比例するのを利用している。"bioelectromagnetism"の28.3 ELECTRO-OCULOGRAMのところのFig. 28.3が分かりよい。

じゃあ誰が計測し始めたかを遡ってみたら、IOVS 1965 "Accuracy and Precision of Electro-oculographic RecordingI"に記述があった。それによると、Schott E (1922) Dtsch Arch Klin Med (ドイツ語論文)が眼の周りの電位差で眼の動きが計測できることを提唱したそうな。

それはdu Bois-Reymond(1848)がかつて見いだしたcorneo-retinal potentialによるものであることをMowrer et al (1936) Am J Physiolが明らかにしたという流れらしい。

The Moving Tablet of the Eye: The origins of modern eye movement research Nicholas Wade and Benjamin Tatler 眼球運動研究史の本を見つけた。

(追記:著者のNicholas Wadeという人は「背信の科学者たち 論文捏造はなぜ繰り返されるのか?」の著者の人と同姓同名だけど別人とのこと。眼球運動研究史の方はThe University of Dundeeの名誉教授。)


2015年01月24日

「サリエンス・ネットワーク」というときの「サリエンス」ってなんだろう?

Menon & Uddinが言うsalience network (anterior insula - aACC)のsalienceと、sensory salience, acquired salience, motivational salienceとを統一的に理解したいということで、彼らのsalience networkのsalienceとは何を想定しているのか、元論文を追っていった。

すると、Seeley et al. JNS 2007ではこういうリストがあった:

"the emotional dimensions of pain, empathy for pain, metabolic stress, hunger, or pleasurable touch, enjoyable “chills” to music, faces of loved ones or allies, and social rejection"

なんだかずいぶん雑多だな。それこそ知覚的なものには落とし込めない「感性」に近いような気がしてきた。(サリエンスは対象に貼り付けられ、感性は感知するヒト側に投影される。そこが違い。)

けっきょく、Craig Nat Rev Neurosci. 2002にもあるように、insulaの活動はsubjective feeling (or ‘gut reaction’)を感知していることと対応している、という考え方があるからこうなるんだろうな。

Salienceという概念を正しく使うためには、隣接する概念、例えばvalueとかときっちり区別しないといけない。たとえば、前述のCraig 2002では「顔刺激を見てその人をどのくらい信頼できるか」といった評定とrAIの活動の相関があるから、それは顔に対するsubjective feeling (or 'gut reaction')なんだという言い方をしている。こりゃ大丈夫だろうか? (Craig自身はsalienceという言葉は使っていない。しかしvalueとかとの対比はしてないっぽい)

ともあれsalienceという概念は、ヒトが自分の主観的な状態を外界の刺激に貼り付けたものなのだけど、サリエンシー・マップで強調していたのは、それによって周りと異なっている、ことがサリエンシー(顕著である、突出している)を作っているということだった。

Shultzが使う寿司の絵で言うならば、寿司がそれ以外のものと比べて突出していることこそがsalienceだ。この場合はvalueが違っているのが理由だけど他のものでもいい。Valueでもabsolute valueではなくてrelative valueのほうになる。

話を戻すと、いろいろ調べてみたんだけど、行われている実験はresting stateでAI-aACCをICAで取り出してそれとexecutiveやDMNの活動との相関を調べるとかそういうのに終始していて、サリエンス・ネットワークがサリエンスとして単離できるような情報を処理していると言えるような証拠はどうやら無いようだ。「サリエンス・ネットワーク」がなんて名前をつけた割りには。まあだからその辺をちゃんと攻めてみるってのもひとつのやり方だし、理論を構築するにしてもそのくらいの証拠に基づいているというpriorを持っておいたほうがよさそう。

Craig Nat Rev Neurosci. 2009のほうも入手した。というか以前チラ見したことがあった。こちらは「Insulaでさまざまなサリエンシーが束ねられて自己ができあがる」と書いてある。これを読みたかった。もう少し正確に抜き書きすると、

"awareness"の定義として「自分が存在していることを知っていること」と書く。これはawarenessの定義というよりも構成要件だ。つまり「自分以外のなにかが環境に存在し、そのサリエンスを経験できる」ためには「知覚する己の存在を経験できる」ことが先立つ。

これは「前反省的自己意識」で言っていることに近い。そしてさらに「環境にある物体をawareする」ことが成り立つ要件として「1) 知覚する存在としての自分の心的表象(前述) 2) その物体の心的表象 3) 自分と物体との間のsalientな相互関係の心的表象」を並べている。

この"the salient interrelationship"というここが面白い。ここではsalienceを物体に投影したものではなくて「物体と主観との間の無数の関係の束の中から突出したもの」というふうに捉えているように見える。

なんかものすごく重要なことを言っているように思えるので、もうすこしじっくり読んでみようと思う。今回のところはここまで。


けっきょくこのあたりの話を見てゆくと、意識の研究には「知覚的意識の内容物(content)」と「主観的な自己としての意識」があって、両方ともにextensiveに行われてきた(前者はBRなどによって、後者はmotor awarenessやラバーハンドで)。サリエンスにキーワードに両者をうまく繋げることができないだろうか、とかそんなことを考えた。

補足:「1) 知覚する存在としての自分の心的表象」とあるようにCraig 2009では「心的表象(mental representation)」が必要だと書いている。これの内実がなんなのか、前反省的なものなのか、反省的なものなのかってあたりを考える意義はありそう。


2014年09月15日

ポスター:サリエンシーマップの視線計測への応用

先日とある集まりで「サリエンシーマップの視線計測への応用」ということでポスターを作成したので、自分の研究紹介を兼ねてslideshareに上げておきました。ぜひどうぞ。

サリエンシーマップの視線計測への応用 from Masatoshi Yoshida

Current biology誌は自分の論文に関しては自分のwebサイトに置く限りは図の掲載、ダウンロードは出来るようになっているので、たまたま今回は全部自前の絵だけで作ってあるのでこれなら公開できる。(自分が授業などで使っているスライドは、いろんな論文から引っ張ってきているので、掲載はしないことにしている。)

研究内容の詳細については、以前のブログにサルの盲視は生活環境でも使える として説明文を書いたことがあるのでそちらを見ながらこのスライドを読んでもらうと分かりよいかもしれない。

今年はなんだか日本語の総説や紀要の執筆依頼が続いた。こんなかんじ:

依頼があるのはいいことだけど、なんだかんだと完成させるのには時間がかかる。そちらで書いた原稿の抜粋などもそのうちブログに掲載しておこうと思う。


2014年03月28日

Aberrant salience仮説と潜在制止と統合失調症における主観的経験

JCのほうはけっきょくSchizophr Bull. 2012 Neural and Behavioral Correlates of Aberrant Salience in Individuals at Risk for Psychosis をやることにした。

Kapurのaberrant salience説のレビューだけだとJCにならないので。ただし、RoiserのSalience Attribution Testというのはなんのことはない連合学習課題なのに、縦軸がaberrant salienceとか操作的でないのが嫌。

あと、結果も汚いのでこれは正直信頼できない(散布図で外れ値一個しだいでp値0.03とか信じるの無理)。ただ、良いところは、動物でもこの課題使える。よってcriticalに読んで、associative account of SZ系の話と繋げるのがよさそう。

要は、aberrant salience説と、連合学習説と、フリスとかのprediction error説とがあって、たぶんどれも同じ事態についてものを言ってるんだろう。

"Latent inhibition"をキーワードにしたらざくざく出てくるな。これはヤヴァい。こっち方向は、勉強しなければならないことが多すぎる。

うーむ、このへんまで見てしまうと、Salience Attribution Testとか車輪の再発明としか思えない。ちょっと方針転換するか。Brain 2007 Disrupted prediction-error signal in psychosisにするとか。

ついに見つけた! Latent inhibition and other salience modulation effects: same neural substrates? これはLIとKapur説を繋げてる!って思ったら澤さんが紹介してくれた本の15章だった。ともあれ満足したので寝る。(<-読めよ!)


潜在制止だったらラットで充分だしすでに中間表現系の一つとなってるので、言いたいことはそうではなくて、kapurが提唱したみたいに、(中間表現系を現象論として評価に使うだけではなくて) 病因論的にどのように症状が発達、展開するのかを生理学的に解明するのに使えるのではないかという話。

だから、潜在制止をラットで見てゲノムとの対応を見てとかそういうのでは、PPIを代わりに使うのと同じ。pubmed見たらそういう研究が山のように出てきて、そういうことがしたいわけではないと思った。

私が問うべきだと思うのは、ラットにもし思考があって、そして潜在制止が低下しているのなら、delusionを引き起こすような展開はあり得るかということ。ありえないなら、じゃあ、霊長類なら思考はあるか? これが以前の因果推論の問題に繋がる。そもそも人間は思考しているのか?


Aberrant salience仮説の説明のために「(ぼっちの)大学生が食堂に来てみたら、その場にいる全員がギョッとして自分を見ている」っていうネットでよく見る画像、あれを使おうと思って探してみたら意外と見つからない。わざわざ探そうとするようなものではないものなあ。

見つかった>「(ぼっちの)大学生が食堂に来てみたら、その場にいる全員がギョッとして自分を見ている」っていうネットでよく見る画像。「ぼっち 食堂」でググればよいのだな。


Kapur 2003で引いているSZ前駆期の「気づきの亢進」についての論文を読んでた。"Living with schizophrenia"

"Psychedelic" Experiences in Acute Psychoses こっちはLSD経験についての主観的経験の報告だと勘違いしていた。そうではなくて、「急性精神症状時の「サイケデリック」な経験」、つまり前駆期にさまざまな「すべてがmake senseした」体験とかそういうまさに探していたものだったので、19ポンド払って購入した。

"there was some overwhelming significance in all this … The walk of a stranger on the street could be a "sign" to me which I must interpret"

"In this state, delusions can very easily take root and begin to grow"

"By the time I was admitted to hospital I had reached a stage of "wakefulness" when the brilliance of light on a window sill or the color of blue in the sky would be so important it could make me cry"

盲視に関しても同様なのだけど、こういう「主観的経験の記述」にものすごく興味が惹かれる。


2014年02月12日

アイトラッカー試行錯誤(2013年9月版)

Macのstandaloneのpsychopyからtobiiを動かそうとしているのだけれども、SDKのEyetrackerBrowser.py動かすためにpygtk入れなくてはいけなくて、MacPortsを入れてインストールしたらquartzがどうのでエラーが出て、そうして1時。

GUIなんてどうでもいいのだから、ぜんぶコマンドで送って、calibrationとかもこっちの好きにデザインさせてほしい。明日明後日で終わらせないと日本心理学会に出かけないといけないし。いっそのことトビー持っていくか。(<-正常な判断ができてない)

ちなみにMac上のmatlabからはサンプルファイルが問題なく動いた。しょうがないからぜんぶpsychotoolboxで作りなおすか。

十河さんのTobiiControllerP.py も参考にする。これ自体はTobii SDK 3.0用でライブラリが違っているようなので(<->Tobii Analytics SDK 3.0)、tobii.eye.tracking.io.basicを使うように読み替える。

午前2時。そしてやっとわかったなう。PsychoPyのpythonはi386で、TobiiAnalyticsSDKはx86_64。つまり明日の朝までに俺の手でちょいちょいとなんとか出来る感じではない。諦めて寝る。

tobiiのmatlabのサンプルプログラムが、1/sampling rate でループを回してアイトラッカーのデータを所得するというふうになっているのだが、ふつうこういうのって新しいデータが入ってきた時かディスプレーのflipのタイミングでトリガー書けるんではないのか?

PsychoPy + tobii SDKを諦めて、PTB3 + Tobii SDKで行けるだろって思ったら、こんどは動画を再生することができない。Mountain LionではQuickTimeを使った再生ではなくなってGstreamerをインストールする必要がある。

けっきょくわかったのはGstreamerのプラグインが全然入っていなくて、MacPortsでffmpegとかplugin入れるか、現状使える動画形式(ogv)にムービーを変換するしかない。めんどくさい。そうして今夜もすでに23時。

そうしてまたもやffmpegの出番。つかデフォルトでh264読めないとかクソすぎんだろ。いや、フリーソフトウェアとコーデックとffmpegの微妙な問題はわかってますけど。

pythonからはavbin5 (2.4MB)入れただけでh264動いたんだが、Gstreamerは200MBくらいあったんだがmpegもmp4もmovも動かない。どうなってんの?

けっきょく「GstreamerのプラグインをMacPortsから入れる」とか「Macのpythonを使ってtobiiを動かせるようにモジュールを設定する」とかそういったまっとうな事はせずにffmpegで無圧縮aviに変換して解決。手入力がどうのなんて全然ブーメランだった。バカス。

X2-60でマカクの眼も記録できることは確認した。ただ、眼がどこにあるかを見つけるまで時間がかかる。EyeLinkみたいに領域を囲ってやりたいが、Tobiiはブラックボックスなのでそういうことができないのであった。

これから解析して、プログレスと認知ゲノムキックオフに間に合わせる。あれもこれも細切れになっている。EyeLinkでのマイクロサッカード記録の結果もまだ解析してない。というよりかまだ記録系が最終版になっていない。Labjack放置中。


2014年01月14日

キャリブレーション無しのアイトラッキング

今日の視覚研究会の東大生産研の佐藤洋一さんの講演で、キャリブレーション無しのアイトラッキングの話を聞いた。元論文はCVPR2010 "Calibration-free gaze sensing using saliency maps"

"Calibration-Free Gaze Tracking"と称するもの自体はいろいろあって、眼球の3Dモデルを作るものとか、眼球の可動範囲を考えるものとか、それぞれにメリットはあるのだろうけど、私のプロジェクトの問題設定的にはたぶんこの方法がいちばん向いてそう。

関連論文:

キャリブレーションにサリンシーマップを使うという発想自体はこちらにもあった:

CVPR2010読んでた。ガウス過程回帰の手前までやってきた。この論文の場合は目の画像のデータからgazeを決めるのだけれど、Tobiiでやるのなら6自由度*2eyesを使うことになる。もっと単純化して頭固定ならたんなるthin-line splineでよい。

ガウス過程回帰が必要になるのは多分、データの数とかにばらつきがあって共分散とかを考慮しないといけないような状況なのだろう。とりあえずは単純にpeak value持ってきてfittingすればよしとする。

JNS2008のときは眼球とモニタの位置関係をちゃんと計算してアイコイルの線形でない部分とかちゃんと考慮してキャリブレーションをしていたのだけど、thin-plate splineで充分行けるということが後で分かって脱力した。

そのときの反省を踏まえるならば、たとえ不正確なキャリブレーションで取得したデータでも、トポグラフィカルな関係は抽出されているのだから、それをマッピングしなおせば十分なはず。


Calibrationの話のつづきだけど、じゃあ赤ちゃんとかのときにはどうやっているのかだけど、けっきょくこの例にあるみたいになんかsalientなものをだして見ている瞬間を使って5点キャリブレーションをしているようだ。

いくつかの点で加納さんのチンパンジーの仕事(Proc. R. Soc. B 2009およびPLoS One 2013)を参考にさせてもらっているが、 これらの仕事では、トレーニングをしてfixationをできるようにしているので、untrainedな個体では無理。

キャリブレーション用になんか目立つ刺激がぽんと一つ出て、それがあちこちに動く、というような刺激を作るのがよいのだろうと思っていたのだが、このページのcalib_check.movは内向きに流れるのが効果ありそう。


2013年04月21日

NBNI2012で発表してきました

2012/11/22

トーク終了した。FAQの「じゃあ色はどうやってV1なしで処理できるの?」はスライドを用意していたが、そこへの質問は来なかった。「じゃあサリエンシーマップはSCにあるの?」という質問に関してはvalue-basedとかがLIPにあったりとかいろんなのが分散してるのでは、って答えた。

山口陽子さんからは「なんでV1が意識に重要なの?」という質問をいただいたので、V1じたいにneural correlate of consciousnessがあるわけではないらしい、ということを答えておいたのだけど、もっと端的にventral pathwayへの経路をブロックするから、と明示的にGoodale and Milnerに従ったラインで言った方が伝わったなとあとで思った。

Perceptual learningやっているひとから、free-viewing taskで見ているのはrecovery trainingによるperceptual learningの結果ではないか?と質問されて、でもmotion stimuliとかは出したことがないのでそれでは説明できないよ、って答えた。

でもそのときにひらめいたけど、たしかにrecovery trainingではmotionは使ってないけど、luminanceでdefineされた刺激をずっと使ってきた。Lesioned monkeyではluminance saliencyの寄与がnormal monkeyよりも高い。

690879802.png

[Current Biology論文のFigure 4より]


いままではこれを説明することが出来なかったけど、彼の質問を敷延すれば、recovery trainingで輝度で定義された刺激でovertrainしたことによって輝度でdefineされたsaliencyが強化されている、もしくはsaliency mapとしていろんなfeatureを足し合わせる際にtop-down的にluminance saliencyの重みを高くしている(もしくはrewardによるvalue-based saliencyが高くなっている)というふうに説明できるんではないかと考えた。

つまり、この条件以外(normal monkeyおよびnormal field of lesioned monkey)では輝度サリエンシーのvalueは低いと言える。完全にspeculationだけど、featureごとの寄与の大きさにつじつまを合わせる説明が出来たのでちょっとこの解析に自信を持った。

(もともと、orientationサリエンシーが0になった上でカラーサリエンシーが0でなくて、色弁別課題ができる、というふうにconsistencyが得られたのでそれでやっと自信を持つことができたし、レビューワを説得できたのだが、それが自分の中で少し補強された感じ。)

ちなみに輝度の寄与がなぜ高い買って聞かれたことはほとんど無かったと思う。じつのところ、この寄与インデックスは絶対値にはあまり意味がない。(full modelでのAUC - leave-one-out modelのAUCだから、%で書いているけど合計しても100%にはならない)

2012/12/6

高等研カンファレンス終了。下條先生はいろんな話を入れながら、social interactionとcross modalを中心にという感じで楽しかった。Changiziの「三色性は顔色を見るために発達した説」の話もしてた。

そこで思ったのだけれども、わたしのfree-viewing実験では、normal monkeyではB-Y (konio)がsaliencyに使われない。(寄与が0%。) かえってblindsight monkeyのほうがB-Y使う。これはやっぱ、R-Gはsaliencyとして使っているのだけれども、B-Yは機能違うんじゃないかとか思った。


2013年01月04日

大学院講義準備中 / 応答潜時と正答率をモデルするdiffusion model

駒場集中講義「意識の神経科学」吉田正俊(生理研)は1月10日(木)3・4・5限(13:00-18:00), 1月11日(金)3・4限(13:00-16:20)、講義室は駒場キャンパス15号館4階409号室。学務情報:広域システム科学特殊講義Ⅴ

なお、講義は英語で行いますが、途中質問タイム多めにとって(日本語質問可)、脱落しないように話をする所存。あとトピックごとの構成なので部分的に聴講しても意味が分かるようにする予定。(努力目標)


正月明けて、駒場集中講義モードへ。研究所所属の者としては、この講義をいいものにして、「教育歴」として胸を張れるようにしたい。そういうわけできっちり仕上げていくつもり。

以前「次回の駒場の大学院集中講義 90min * 5 「意識の神経科学」の構想を練る」というエントリを書いたけど、それがかなり形が見えてきた。思案していたのは、「盲視」をどのように使うかだったんだけど、第一回の講義から導入する。

構成としては、

  1. 意識とは何か。気づきの神経相関。盲視概説。
  2. 気づきを測る: 信号検出理論、意志決定。
  3. 注意の神経ネットワーク、半側空間無視、サリエンシーモデル、予想コード 。
  4. 二つの視覚システム仮説、盲視詳細。
  5. Enactive view / Active vision。内部モデル。可塑性と意識。

こんなかんじだったんだけど、それぞれのところで、私の盲視の話を織り込む。実際問題、今回の五つのテーマはみな盲視のことを明らかにするために使った道具立てだ。これを軸にして話をするのがいちばん分かっていることを話すことになると思うし、話の統一性が出るだろう。浅くあれもこれもではなく。

たとえば、

  1. ではhit-missの比較を盲視でやっている。
  2. ではyes-no detectionとfored choiceとでのd'の乖離についての議論をする。普段ここまでやるのは難しいが今回は出来る。
  3. ではサリエンシーモデルの応用についてのカラバイの話をする。
  4. ではJNS2008以降の仕事でヒトとサルとの話を整理した上で話をする。いま書いてるBrain and Nerveの原稿での議論を持ってくれば、解剖学についても話をすることが出来るだろう。
  5. をどうするかが難しいところだったのだけれども、Alva Noeの話とかは最後にして、もっとactive vision的なもの、たとえばsaccadic suppressionとかSommer and Wurtzのefferece copyの話とかそっちからempiricalに攻めていくことにしたい。頭頂葉の話SugrueとかHaggardとかそっちも行きたいが、あんま手を伸ばすと浅くなってしまうだろう。このへんはスライド並べてギリギリまで思案することにする。そのうえで、JNS2008で「なんでV1 lesionするとサッカードのコントロールが出来なくなってしまうのか」についてのinternal model仮説まで持ってく。

これで盲視を軸にして視覚と眼球運動を中心にしたストーリーにすることが出来る。たぶんこれでいける。


というわけで講義の準備中。視覚刺激への応答の意志決定過程を説明するdiffusion modelのムービーを作ってみた。

たとえば、画面の上下どちらかの場所に視覚刺激が点灯するのでそれをなるたけ早く選択する。このような二択の状況で応答潜時と正答率とを両方モデルするのがdiffusion model。

横軸が時間(ms)で、evidenceのシグナルはランダムウォークしながら蓄積してゆく。上の閾値(上)に辿りつけば正解(マゼンタ)。でも20試行目のように、たまには下の閾値に辿りつく。これは誤答(緑)。10000回繰り返すと、正答と誤答の応答潜時のヒストグラムが出来る。

ここで出しているのは反応閾値は+-20、slope(上方向への刺激の強度に相当)は0.15の条件。これらの値はランダムウォークのgaussianのSDからの相対値となっている。

このようなモデルを使って盲視サルでの応答潜時と正答率をモデル化して盲視ザルでの意志決定の過程を推定したのがJNS 2008(ブログでの解説はJNS論文「線条皮質の損傷は慎重な意思決定およびサッカードの制御に影響を及ぼす」)だった。



2012年12月27日

脳科学辞典「マイクロサッケード」の項目書いた

脳科学辞典の「マイクロサッケード」の項目を書いた。査読されるまえの原稿をブログ用の記事として活用してみる。


マイクロサッケード

英:microsaccade

同義語:マイクロサッカード、フリック(flick)

類語:固視微動、fixational eye movement

マイクロサッケードとは

われわれが視野の物体を見るために視点を固定する(固視)とき、われわれの眼球は完全に動きを止めているわけではない。固視微動またはfixational eye movementと呼ばれる三種類の眼球運動がある。一番目は高頻度(90Hz程度)で小振幅(<1 min of arc)のトレモア(tremor)、二番目は低速度(~6 min of arc / sec)のドリフト(drift)、三番目が高速度(~10 deg / sec)の跳躍的運動であるマイクロサッケード(microsaccade)(フリック(flick)とも呼ばれる)である[1]。本項目では三番目のマイクロサッケードについて記述する。

マイクロサッケードの性質

マイクロサッケードは振幅は1度以下、運動にかかる時間(duration)は25 ms程度、平均速度は10 deg / sec程度、頻度は1-3Hz程度であるが、個体差、種差などによって報告はばらついている[1]

マイクロサッケードは運動としてはその名の通りサッケード(急速眼球運動)の振幅を小さくしたものであると言える。たとえば、サッケードでは運動にかかる時間(duration)と最高速度(peak velocity)との間に正の相関が見られ、主系列曲線(main sequence curve)として記述することが出来るが、マイクロサッカードもこの主系列曲線の上に乗る[2]

マイクロサッケードと視覚

マイクロサッケードは単なる脳内ノイズの結果ではなくて、機能を持つと考えられている。マイクロサッカードは他の固視微動とともに網膜像を絶えず変化させることによって視覚入力を絶えず生成していると考えられている。つまり、静止網膜像の実験では、固視微動に同期させて視覚像を動かすことによって網膜像の変化をなくすと視知覚の消去(fading)が起こる(たとえば古典的な実験としてはYarbus[3]など)。

また、マイクロサッカードは意志によって止めることは出来ない非随意的運動ではあるが、ランダムな運動というわけではない。注意などによってその方向や頻度が影響を受ける[3]。たとえば周辺視野に視覚刺激を提示すると、その方向へのマイクロサッカードの頻度は提示直後(0.2秒程度)には上昇し、さらにそのあと(0.5秒程度)では頻度は平均よりも低下する[4]

マイクロサッケードの脳内メカニズム

マイクロサッケードの指令は上丘吻側の固視ニューロン領域で生成されていることを示唆する報告としてHafed et. al. がある[5]。この論文で著者らはマカクザルが固視課題をしている間の上丘の活動を記録してその反応野をマップすることによって、上丘の眼球運動マップの吻側部にある低振幅部分のニューロンが活動することを明らかにした。

また、Martinez-Conde et.al[6]では、マカクザルが固視課題をしている間のV1の活動を記録して、視覚応答への影響を見たところ、マイクロサッケードの直後(50-100 ms)のV1の応答は増強される。これはマイクロサッケードが視知覚を増強している可能性を示唆している。

マイクロサッケードの計算論的モデル

マイクロサッケードの生成過程は上丘及びその下流の脳幹の神経ネットワークのモデルによって説明することが出来る。これまでに報告されている計算論的モデルとしては、Hafed[7]、Engbert[8]、Inagaki et.al.[9]などが挙げられる。

参考文献

  1. Susana Martinez-Conde, Stephen L Macknik, David H Hubel

    The role of fixational eye movements in visual perception.
    Nat. Rev. Neurosci.: 2004, 5(3);229-40 [PubMed:14976522] [WorldCat.org] [DOI]

  2. B L Zuber, L Stark, G Cook

    Microsaccades and the velocity-amplitude relationship for saccadic eye movements.
    Science: 1965, 150(3702);1459-60 [PubMed:5855207] [WorldCat.org]

  3. Yarbus, A. L.
    Eye Movements and Vision (Plenum, New York, 1967)
  4. Ziad M Hafed, James J Clark

    Microsaccades as an overt measure of covert attention shifts.
    Vision Res.: 2002, 42(22);2533-45 [PubMed:12445847] [WorldCat.org]

  5. Ziad M Hafed, Laurent Goffart, Richard J Krauzlis

    A neural mechanism for microsaccade generation in the primate superior colliculus.
    Science: 2009, 323(5916);940-3 [PubMed:19213919] [WorldCat.org] [DOI]

  6. S Martinez-Conde, S L Macknik, D H Hubel

    Microsaccadic eye movements and firing of single cells in the striate cortex of macaque monkeys.
    Nat. Neurosci.: 2000, 3(3);251-8 [PubMed:10700257] [WorldCat.org] [DOI]

  7. Ziad M Hafed

    Mechanisms for generating and compensating for the smallest possible saccades.
    Eur. J. Neurosci.: 2011, 33(11);2101-13 [PubMed:21645104] [WorldCat.org] [DOI]

  8. Ralf Engbert

    Computational modeling of collicular integration of perceptual responses and attention in microsaccades.
    J. Neurosci.: 2012, 32(23);8035-9 [PubMed:22674278] [WorldCat.org] [DOI]

  9. Keiichiro Inagaki, Yutaka Hirata, Shiro Usui

    A model-based theory on the signal transformation for microsaccade generation.
    Neural Netw: 2011, 24(9);990-7 [PubMed:21741208] [WorldCat.org] [DOI]


2012年12月24日

脳科学辞典「サリエンシー」の項目書いた

脳科学辞典の「サリエンシー」の項目を書いた。著作権に関しては「各用語解説の著作権はそれぞれの執筆者に帰属します。執筆者は編集委員会へ無償で非独占的に使用する権利を与えています」となっている。そういうわけで、査読されるまえの原稿をブログ用の記事として活用してみる。


サリエンシー

英:saliency

類語・同義語:顕著性。サリエンス(salience)。

サリエンシーとは

もし夜空に月が光っていれば月にすぐに目が向くだろう。これは月が目立つ(salient)からだ。このように感覚刺激がボトムアップ性注意を誘引する特性を「サリエンシー」と呼ぶ。 夜の月がsalientであるのは周りの空と比べて明るいからであって、昼の月はsalientではない。つまり、サリエンシーは刺激の時間的または空間的配置によって決定づけられるものであって、その刺激自体の特性ではない。明るいスクリーンに暗い部分があればそこはsalientになる。つまり刺激強度が高いこと(たとえば輝度が高いこと)とサリエンシーが高いことは等価ではない。

しかし、一般名詞としてsalience / saliencyという言葉を(物理的な強度と対比させて)心理的な強度自体を表していることもあり、かならずしも上記の用法で統一されているとは言えない。

視覚探索

サリエンシーは、心理学的研究においては、視覚探索におけるpop-outという概念と関連している。
pop-out1a.png

図1 視覚探索


図1の三つの刺激でそれぞれ仲間はずれの要素を見つけなさい、と問われたとしたら、左と真ん中の二つの図ではひとめで見つかるのに対して、右の図ではなかなか難しい。これは左の図では色特徴でpop-outするから、真ん中の図では傾きの特徴でpop-outするから、と表現される。

このような知見を元にしてAnn Triesmanは注意の「特徴統合理論」(feature integration theory)を作り上げた[1]。特徴統合理論では、視野像は各特徴(輝度、色、傾きなど)ごとに平行して処理され、それらの特徴が最終的に統合される。よって、図1左の色のpop-out刺激では、色特徴の処理の段階で仲間はずれを検出することが出来るので処理が速いのだが、図1右のconjunction searchでは統合された情報を探索しなければならないために処理が遅くなる、と説明される。

同様な現象は他のモダリティー、たとえば音刺激でも見られる。たとえば聴覚でのoddball taskでは、ピ、ピ、ピと連続する純音刺激に違う周波数の純音が混ざったり、または音が鳴らなかった場合にはその時に注意が誘引される。この場合は空間ではなくて、時間的配列がボトムアップ性注意を誘引する例と言える。

サリエンシー・マップ(saliency map)

特徴統合理論はあくまで心理学的な理論であったが、計算論的立場からどのようにボトムアップ性注意が計算されているかを説明するモデルとして「サリエンシー・マップ」が提唱された[2]

サリエンシー・マップとは、特徴に依存しない視覚刺激のサリエンシーをスカラー量として計算して、二次元マップとして表現したもののことを指す。

サリエンシー・マップの機能的な特徴としては以下の二つがあげられる。

  • 平行処理:特徴統合理論からの影響を受けているため、サリエンシーはまず各特徴ごとに計算されて、特徴マップを作る。
  • Winner-take-allルール:これら複数の特徴マップが足しあわされて計算されたサリエンシー・マップの中からいちばんサリエンシーの高い部分が選択される。

Koch and Ulman 1985[2]においてはあくまで計算の原理のモデルであったのだが、それを実際の画像から計算できるようなモデルとして実現したのがItti, Koch and Neiburによるサリエンシー計算論モデルだった[3]

このモデルのアルゴリズムレベルでの特色としては、

  • 各特徴ごとのサリエンシーを計算するため、center-surround抑制を用いる。
  • さまざまな解像度(pyramids)でこの作業を平行して行う(画像処理の分野でのmulti-scale representationに対応) 。
  • 以上の操作を繰り返して正規化する(iterative normalization)。

がある 。

この計算論モデルはC++ソフトウェアとして、南カリフォルニア大学Ittiラボより、ソースがGNU General Public Licenseに基づいて入手できるようになっている。

このソフトウェアを使って図1の画像のサリエンシーを計算したのが図2となる。

pop-out1b.png

図2 サリエンシー・マップ


ほかにもMatlabでのサリエンシー・マップを計算するプログラムとして以下のものがwebから入手可能である。

Itti, Koch and Neibur[3]以降、サリエンシー・マップはさまざまな実装が報告されており、たとえば三次元への拡張、トップダウン注意への拡張などcomputational visionにおいて重要な分野の一つとなっている。

サリエンシーの脳内表象

サリエンシー・マップはあくまで計算論的概念であるので、脳にサリエンシー・マップが表現されている保証はない。オリジナルの定義からすればサリエンシー・マップは単一のものであるはずだが、複数の処理レベルのサリエンシー・マップが脳内で分散して表現されていると主張しているものもある (たとえば[4])。

サリエンシーが表象されている部分としてこれまでに、V1[5]、上丘[6]、視床枕[7]、LIP[8]、FEF[9]、V4[10]などがその候補として挙げられている。

サリエンシー・マップの応用

画像や映像を見ているときの視覚探索をサリエンシー・マップによって予測するという一連の研究がある。そのなかではたとえば視覚探索時の眼球運動のデータからADHD患者やパーキンソン病患者を分類することに成功したもの[11]やマカクザルの視覚探索時の眼球運動のデータから第一次視覚野損傷の影響を解明したもの[12]などがある。

参考文献

  1. A M Treisman, G Gelade

    A feature-integration theory of attention.
    Cogn Psychol: 1980, 12(1);97-136 [PubMed:7351125]/a> [WorldCat.org]

  2. C Koch, S Ullman

    Shifts in selective visual attention: towards the underlying neural circuitry.
    Hum Neurobiol: 1985, 4(4);219-27 [PubMed:3836989] [WorldCat.org]

  3. L. Itti, C. Koch, & E. Niebur
    A Model of Saliency-Based Visual Attention for Rapid Scene Analysis.
    IEEE Transactions on Pattern Analysis and Machine Intelligence: 1998, 20(11):1254-1259.
  4. Vidhya Navalpakkam, Laurent Itti

    Modeling the influence of task on attention.
    Vision Res.: 2005, 45(2);205-31 [PubMed:15581921] [WorldCat.org] [DOI]

  5. Zhaoping Li

    A saliency map in primary visual cortex.
    Trends Cogn. Sci. (Regul. Ed.): 2002, 6(1);9-16 [PubMed:11849610] [WorldCat.org]

  6. Wolf Kienzle, Matthias O Franz, Bernhard Schölkopf, Felix A Wichmann

    Center-surround patterns emerge as optimal predictors for human saccade targets.
    J Vis: 2009, 9(5);7.1-15 [PubMed:19757885] [WorldCat.org] [DOI]

  7. D L Robinson, S E Petersen

    The pulvinar and visual salience.
    Trends Neurosci.: 1992, 15(4);127-32 [PubMed:1374970] [WorldCat.org]

  8. J P Gottlieb, M Kusunoki, M E Goldberg

    The representation of visual salience in monkey parietal cortex.
    Nature: 1998, 391(6666);481-4 [PubMed:9461214] [WorldCat.org] [DOI]

  9. Kirk G Thompson, Narcisse P Bichot

    A visual salience map in the primate frontal eye field.
    Prog. Brain Res.: 2005, 147();251-62 [PubMed:15581711] [WorldCat.org] [DOI]

  10. John H Reynolds, Robert Desimone

    Interacting roles of attention and visual salience in V4.
    Neuron: 2003, 37(5);853-63 [PubMed:12628175] [WorldCat.org]

  11. Po-He Tseng, Ian G M Cameron, Giovanna Pari, James N Reynolds, Douglas P Munoz, Laurent Itti

    High-throughput classification of clinical populations from natural viewing eye movements.
    J. Neurol.: 2012; [PubMed:22926163] [WorldCat.org] [DOI]

  12. Masatoshi Yoshida, Laurent Itti, David J Berg, Takuro Ikeda, Rikako Kato, Kana Takaura, Brian J White, Douglas P Munoz, Tadashi Isa

    Residual attention guidance in blindsight monkeys watching complex natural scenes.
    Curr. Biol.: 2012, 22(15);1429-34 [PubMed:22748317] [WorldCat.org] [DOI]


2012年10月10日

駒場講義レジメ 意識と注意の脳内メカニズム(1) 注意

東大駒場の池上さんに誘われて、6月20日に教養学部広域科学科の学部講義で90分*2喋ってきました。(教養学部広域科学科、生命・認知科学科「システム科学特別講義II」)

これはいろんな人が毎週喋るオムニバス講義というもので、こんなリスト:

  • 5月9日 藤井 直敬  社会的脳機能を考える
  • 5月16日 茂木 健一郎 システム認知脳科学
  • 5月30日 國吉 康夫  身体性に基づく認知の創発と発達
  • 6月6日 多賀 厳太郎 発達脳科学
  • 6月13日 三輪 敬之  コミュニカビリティと共創表現
  • 6月20日 吉田 正俊  意識と注意の脳内メカニズム

ちょっと私が出てって大丈夫だろうかとビビりつつ、受講生の数は25人くらいということで聞いていたのでまあ気楽に、と行ってみた。そしたら、満員になって40人くらい(<-数えてやがる)となっていて、「意識研究」への興味が高いことをひしひしと感じました。

学部外から潜っている人がけっこういて、薬学部の後輩とか、あとなぜか藤井さんとかいたりして、なにやってんのと思いつつ悪い気はしない。

レジメを使ってブログのエントリを作ろうと思いつつずっと放置していたので、ここで思い立って作成してみました。これだけ読んでもあまり役に立たないかんじだけど、スライドを載せようとするといろんな図を使っているので許可取るのが手間なんでこのへんが労力的に最大限、ということで。まずは前半部から。


意識と注意の脳内メカニズム(1) 注意

[意識と注意ってなんだろう?]

実例から始めてみよう。

  • Motion-induced blindness
  • Change blindness

非常に目立つ(salient)ものが消える。=> ちょっと見逃した、とかそういうレベルではない

  • 網膜に映っているものすべてを私たちは「見て」いるわけではない。
  • それにもかかわらず、私たちの視野には「穴」が開かない。
  • Attentionとconsciousnessとは密接に関係している。

[What is attention?]

William Jamesによる定義 (Principles of Psychology (1890))

It is the taking possession by the mind in clear and vivid form, of one out of what seem several simultaneously possible objects... It implies withdrawal from some things in order to deal effectively with others...

[注意の分類]

  • Selective attention: ability to focus on positions or objects (空間的)
  • Sustained attention: alertness, ability to concentrate (時間的)
  • Bottom-up: stimulus-driven (pre-attentive, pop-out)
  • Top-down: goal-directed

[Bottom-up vs. top-down attention]

ポズナー課題中の脳活動 (Corbetta)

  • Cueによってトップダウン注意を操作すると、視覚背側経路、視覚腹側経路の両方が活動する。
  • 脳の機能を理解するためには脳をネットワークとして捉えることが重要。

[半側空間無視]

半側空間無視とは?

  • 脳損傷と反対側の空間の感覚刺激(視覚、聴覚、触覚など) に対する反応が欠如・低下。
  • 感覚障害 (同名半盲)や運動障害 (片麻痺)によっては説明できない認知的障害。
  • 「自分の体とその周りの世界が半分なくなる。」
  • 「環境世界の中に位置する自己」の認知の障害。

原因部位はどこ?

  • 歴史的経緯: TPJ -> STG -> SLFII
  • 半側空間無視は脳内ネットワークの障害

半側空間無視の動物モデル

  • どうして動物モデルの作成が必要か?
  • SLFIIの損傷によって半側空間無視の症状を再現することができる。

[注意の計算論モデル]

Feature Integration Theory (Ann Triesman)から始まる

What is saliency map?

  • An explicit two-dimensional map that encodes the saliency or conspicuity of objects in the visual environment.
  • A purely computational hypothesis

サリエンシーマップの活用法

  • 視覚探索の成績を再現
  • MIBを評価する
  • ヒートマップの代替
  • サルの眼の動きを予測する

トップダウン注意はどうモデル化する?

[Bayesian surprise]

「サリエンシー」は二次元画像の中でどこが「目立つか」を「空間的配置」の中で評価する。

では、「時間的変動」の中でどこが「目立つか」を評価するにはどうすればよいだろう? => 「サプライズ」

(Itti and Baldiの説明。レジメでは省略。)

[Bayesian surprise and predictive coding]

ニューロンは特徴検出器(フィルタ,template)であるという考え (H. Barlow / Lettvin / Hubel and Wiesel)

でもニューロンの応答はすぐadaptする。=> サプライズ検出器なんじゃないか?

V1 response can be modeled by surprise (Itti and Baldi)

「予想脳」仮説

  • ヘルムホルツ的視覚観
  • サプライズ = ボトムアップ注意
  • 脳内のモデル = Conscious perception

2012年06月29日

サルの盲視は生活環境でも使える --- Current Biologyに論文掲載されました!

私が生理学研究所の認知行動発達研究部門で進めていた盲視のサルの研究の成果がCurrent Biologyのオンライン版に出版されました!

Yoshida et.al., "Residual Attention Guidance in Blindsight Monkeys Watching Complex Natural Scenes" Current Biology vol.22 (2012) DOI 10.1016/j.cub.2012.05.046

わかりやすさ重視での説明はプレスリリースを見てもらうとして、このブログではこのブログらしく書くことにしよう。こんなかんじになる:

graphical_abstract5jp2.png

  • [ムービークリップ] 盲視のマカクザルにムービークリップを見せて、好きに見てもらっている間の眼の動きを計測する。
    • おサルにとっては、好きに見ているだけ。なにかを探す必要とか無し。報酬無し。強いて言えばムービーが報酬。
  • [特徴マップ] ムービークリップのどこが「目立つか」を計算論的モデルから予測してやる。
    • 目立つってどういうことか。白い背景の中に黒いマルがあれば目立つ。つまり、明るければ目立つのではなくて、周りと違っていれば目立つ。「目立つ」かどうかは空間的配置によって決まる。
    • この予測は個々の動物でみんな同じ。画像だけから計算している。
  • [サリエンシー・マップ] 計算論モデルの結果としてよく目立つ部分(白色)を図示したのがサリエンシー・マップ。サルの視線が向く場所はよく目立つ部分だった。
    • つまり、盲視のサルは見えない視野(「損傷視野」)に向けてテキトーに眼を動かしているのではなくて、「目立つ」(=ボトムアップ性の注意を誘引する)という視覚情報を使っていることが分かった。
  • さらに、特徴マップのうちどの特徴を使っているかを推定することが出来る。つまり、動きの寄与を知りたかったら、「すべての特徴を使った予測」と「動き以外のすべての特徴を使った予測」の差を評価すればよい。
    • たんに「動きだけのモデル」を評価したのではダメ。なぜなら、ムービー上で各特徴の間には相関があるから。たとえば、動いているパックマンは周りと色が違うので、色の面からも目立つ。
  • こうやって評価してみたら、盲視ザルでは「輝度」「色」「動き」で目立つという情報は利用できるが、「傾き」は利用できないことが分かった。
    • 「傾き」という情報はまさに今回損傷したV1で処理されていることが分かっている。よってこれは理にかなってる。
    • ところで「傾き」で目立つってどういうことか。縦縞の背景の中にぽつんと横縞のパッチがあれば目立つ。とりあえずは形を認識する際の要素の一つだと思ってもらえればいい。
  • 盲視ザルでは「色」で目立つという情報は利用できるらしい。直接検証してみた。つまり、灰色の背景に、同じ輝度の色パッチを出して、それに眼を向けたらジュースがもらえるというテストをした。
    • 色は脳内では「赤-緑」と「青-黄」という二つのチャネルで処理されている。これをDKL空間という。以前ブログで「DKL色空間についてまとめ」という記事を書いたけど、それはモニタのRGB値からDKL空間への変換を自力で計算していたから。伏線回収キタコレ!
  • たしかに色を見つける能力があることを確認した。つまり、計算論モデルによる予測を実験で実証した。以上!

自分の話だとつい長くなる。前提として盲視とはなんぞやとかは省略。一点だけ補足しておくと、盲視ってのはふつうは「何も見えないのだけれども、縦棒と横棒のどちらかがあるから当てずっぽうでいいので答えてみて、と言われて答えたらなぜか当たってしまった」というような「強制選択」の条件で起こると信じられてきた。

でも、左右視覚野損傷で全盲の人が障害物を避けて歩く、という報告(deGeleder 2008)のように、強制選択の条件でなくても盲視は使えるって可能性があることが分かってきた。これをムービー刺激で検証しよう、ってのがこの研究のスタートポイントであり、これが検証されたってのがメインの結果の一つ目。

意識研究としての意義で言えば、生活環境下で盲視が使えるとなるとこれは「哲学的ゾンビ」の概念に近い。どういうことよ、って話になる。(この論点は今日は膨らまさない。)

研究の枠組み的な意義として強調したいのは、動物実験 <=> 計算論モデル での双方向でのやりとりがあるという点。実験屋さんがデータを計算屋さんに渡して解析してもらって終わり、ではない。っていうか解析のメインなところにもわたし吉田(実験屋)がかなり関与した。(吉田の寄与については後述)

つまりこういうこと:[ムービーと眼の動き]->[計算論モデルとの対応]->[計算論モデルからの予言(色への感度)]->[色検知課題での実証]

計算論モデルを作成したのはLAにある南カリフォルニア大学(USC)のLaurent Itti。これまでにもこのブログでいろいろ言及してきた。このカテゴリとか見てくれれば分かる。Laurent Ittiはそれまでconceptualな存在だったサリエンシーマップを実際にコンピュータ上で動かして使えるようにした人で、Koch-IttiのNature Reviews neuroscience 2001はこの分野では必ず参照される論文だし、いまでもコンピュータヴィジョンの論文ではIttiのモデルをリファレンスとして、それよりも何倍速く計算できるとかそういう議論がなされる。

そんなかんじの本家の人と一緒に仕事が出来たのは非常にラッキーなことで、それはHFSPでの国際共同研究事業の中で、[日本・生理研・伊佐教授] - [カナダ・クイーンズ大学・Munoz教授] - [米国・南カリフォルニア大学・Itti助教授] - [オランダ・アムステルダム自由大学・Theeuwes教授]というコラボレーションの中で生まれた。

この共同研究でいくつか論文が出たけど、今回の仕事はそのなかではいまのところいちばんいいところまで来ることが出来たと思う。さあ、どんどん次行こう!


計算論の部分における私の寄与としては、もともとのサリエンシーモデルでは色チャネルはRGBだったりYuvだったり、コンピュータ・ヴィジョンの発想でモデル化されていたので、そこにより神経科学的に尤もらしいDKLチャネルを用いてモデル化することを提案した。(コード書くのはLaurentだった。わたしもC++勉強したけど、ぜんぜん無理だった。)

それから、もともとのモデルではそれぞれの特徴は単純に足しあわされるだけだった。そこで私は、特徴量の寄与を計算するために、この特徴量を足し合わせる部分の重みを振って、予想成績を最大化する重みを見つけて、さらにFullモデル - マイナスワンモデル(上述)の差から各特徴の寄与を計算する、という方法を提案した。(cross validationはしてない。そこはサボってる。)

けっきょくコードを書くのはLaurentだったけど、ペアプログラミング的に、コード書いてるLaurentの横で私があーでもないこーでもないとか言ってコードを確認して、自分がイメージしたとおりにimplementされているかどうか責任を持った。(サリエンシーの評価にDL距離がいいか、ROCがいいか、ROCのばあいにはタイの扱いをどうするか、そういう細かいところまで一緒にやった。) Matlabとかについてはわたしもコード書いた。このためにLAに滞在したのだけど、なかなかextensiveな経験だった。


[社会的意義について] (ここから口調変えます) この研究結果から言えることは「ムービー見ているときの眼の動きを記録するだけで、同名半盲の方が盲視を持っているかどうかを調べるのに使うことが出来ます」ということなのですが、これはあくまで動物実験の結果なので、まだ患者さんからの要望にすぐに応えることは出来ません。

研究発表をする度に、患者さんまたはその家族の方から問い合わせの連絡をいただくのですが、毎度「直接お力になることは出来ません」と返答しています。お医者さんとの共同研究による検証がその前に必要です。

患者さんからいただく問い合わせの中でよくあるのが、盲視とは「トレーニングによって見えなかった視野がまた見えるようになる」ことであるという誤解です。そうではないのですが、このことはなかなかご理解していただけないので繰り返し説明しています。そのような意味での機能回復トレーニングに関する研究はあるのですが、効果は無いか、あったとしても非常に小さいことが分かっています。

もし医師の方で興味のある方がいらしたら吉田までご連絡いただければ(アドレスは生理研のサイトにあります)、本研究成果の患者さんへの応用の可能性について議論させていただきたいと考えております。

盲視は同名半盲の患者さんの中で稀に起こる現象と考えられてきましたが、最近ではトレーニングによってこれまで考えられているのよりも多くの患者さんで盲視の能力が現れることが報告されています。たとえばJNS 2009 "Perceptual Relearning of Complex Visual Motion after V1 Damage in Humans"および著者の大学でのプレスリリースそれからその他の報道 Discover Magazine.comthe guardianなど。

JNS2009の場合には具体的には何をしているかというと、ラップトップにトレーニング用のプログラムを入れたものを患者さんに持って帰ってもらって、毎日家で損傷視野での視覚刺激の弁別課題(ランダムドットの方向弁別とか)を行ってもらうと、はじめは成績が偶然当たるレベルなのに、数ヶ月で二択で9割正解くらいまで上がるというのです。

おそらく盲視自体は医師にとってまだ懐疑的に見られているようにも思うので、まずはこの現象に興味を持っていただけたらありがたい、このへんからスタートしようと考えております。盲視という能力が開発できるとしたら、患者さんにとってはいいことなのかもしれないし、でも患者さんにとってはさっぱり意義を実感できないのかもしれない。(気付かぬうちに見えない視野から飛んできたものを避けたとして、それで得したと実感できるだろうか?) まずはいったいなにが起こっているのかをもっと知りたいし、その上で本当に役立つのかを考えたいのです。


2010年02月01日

高速度カメラ関連

サッカードのvideooculography関連で高速度カメラ関連について調べてます。
急速眼球運動は開始から終了までが20msくらいで起こる現象なので、ビデオレートとかだと、途中の軌跡が測定できない。サーチコイル法だと1KHzで計測してる。アナログのカメラだと1KHzとかのものはそれなりにあるけど、やっぱりデジタルでいきたい。あと小型で、ヘッド部分が分かれてたらなおよい。ということでサーベイ。
IDTジャパンで扱ってるハイスピードカメラ。カタログによると、MotionXtra N3が1280x1024pixels、2,000fps、ギガビットイーサで348万円。ちとこれはオーバースペック。
MotionScope M3が1280 x 1024pixels、520 fps、カメラリンクで158万円。
PhotronのFASTCAM MC2が512x512pixels、2,000fps、ギガビットイーサ。ヘッド部分が独立。ちとこのへんもオーバースペック。
Fastec というのが1280 x 1024pixels、500 fps、ギガビットイーサで300万円。だいたいこの辺がこのクラスの相場らしい。
会社はwikipediaからも探せる。
調べてると、高速度カメラ自体がいろいろ面白い。例の風船が割れる瞬間の写真とかそれ系の世界で好事家が多いことがわかる。
コンシューマ向けでも、カシオからEXILIM PRO EX-F1というのが出てて、336x96pixelだと1200fpsまで出る。
こちらのサイトは神:http://www.anfoworld.com/。ものすごい情報量。歴史とかについても詳しい。
歴史については外国語のサイトで101 History of High-Speed Imagingというのもあって、これもよさそう。
サイエンス関連で調べていると、チューリッヒ大学のSteven N. Fryという人のショウジョウバエの飛行について研究しているラボが出てくる。これはめちゃおもしろい。Real time path trackingをするTrackitとか、飛行に従ってリアルタイムで刺激を変えるTrackFlyとか。固定された状態で飛行を6KHzで記録してその空力特性調べてScienceとか。あ、共著のMichael DickinsonはCtraxの人だ。オー、繋がった。
さて、話を戻すと、ちょっとオーバースペック過ぎるので、もうちょっと安いのを探す。
Point Greyから出ているGrasshopper(GRAS-03K2M)は640x480pixel, 200fps、IEEE1394bで、画素数減らすと350fpsくらい出る。プレスリリース見る限り、10-30万円くらいでいける。
ところがさいきんPoint Greyから新製品の宣伝メールが来て、次の世代の製品が準備中らしい。これがかなりいけてる。CES2010でUSB3.0カメラをデモしてる。ZDnetでも今後のノートPCにHDビデオが撮れるカメラが付くみたいなレポートが出てる。Upcoming Productsとしていくつかの商品がリストにあがっているのだけれど、スピード的には、Gazelleってのが2048 x 1088pixelで340fpsでカメラリンク。たぶんこれまでの価格からしてこれも10-30万円あたりでしょう。"Series production of the first Gazelle models will begin at the end of Q1 2010."だそうな。かなり期待できる。
とはいえ、実際にそのスピード出せるかどうかはいろいろたいへんらしい。たとえば、openFrameworksのフォーラムでのやりとりとか。あとはてなでみつけたDragonFly Expressで340fpsだしてる例とか。
とここまで書いてきたけど、しょせんビデオ法だと瞬きしたらデータは取れないわけで、サーチコイル法がいいとは思わないけど、光学的方法ではなくて、違ったセンサーを使うのがいいわけで、磁気による記録とかはなんとか使えないもんだろうか。Magnetic inductionだと電気生理に干渉するのが問題なのではあるのだけれど。
Van Opstalの"Double Magnetic Induction"がどのくらいいけるのか知りたい。つーか、オランダの人なんだから、FENS2010のときに帰りにでも寄ってくるってのはどうだろうか。いいかも。(自分で合点がいくいつものパターン。)
まあ、そんなことが気になる日々。


2009年12月07日

ヘッドマウント式で眼球運動計測

3年前のエントリ「EyeLinkってどうなんですかね 」でCCDカメラによる眼球運動計測システムについて多少調べたことがありました。あれから業者の方にデモしに来てもらったりとかいろいろやってたんですが、けっこうバカにならない金額なんで、なかなか先に進んでいませんでした。
でも新プロジェクトのこととか考えつつ、今回の脳プロ分科会とかに行ってきて、「ヘッドマウント式で、ヘッドフリーで眼球運動計測(eye, gaze, head)」についていよいよ本気で進めていく気になりました。「でもお高いんでしょう?」(通販番組っぽく)
そうしたら、絶妙なタイミングでMakeのブログで「EyeWriter - 安価な視標追跡器具」なんてのを発見。これは、視標追跡装置(eye tracker)がハードウェア(4000円のプレステ用webカメラ)もソフトウェア(open source)も安価なもので作れるようにすることで、ALS患者の方にとって実用的なシステムになる、というもの。Eye trackerの部分はopenEyeというOpenCVベースのopen source softwareが使われている。文字などを書くeye writerの部分はこれまたopen sourceのopenFrameworksで書かれている。
このへんはprocessing - arduino - openFrameworksといった物理コンピューティングの分野とがっちり繋がっている。つーかはやく"Programming Interactivity"が翻訳されてくれるといいのですけどね。
わたし自身は自分で作ることは考えていなかったのだけれど、これならたしかに作れてしまうな。ということで調べてみました。(以前はわたしはremote cameraのほうを想定していたのだけれど、head-freeに応用するのは厳しそう。)
まず、COGAIN (Communication by Gaze Interaction)という団体がこの方向を推進していて、毎年カンファレンスも開いている(たとえば今年のproceedings(PDF))。webサイトにもいろんな資料があって、レポートを出してる。ハードウェアについては"D5.3 Eye Tracking Hardware Issues"(PDF)で、ソフトウェアについては"D5.2 Report on New Approaches to Eye Tracking"(PDF)があって、もちろんタダでダウンロードできる。正直、この二つ読んどけばもう作れそう。
ともあれ、ちょっと時系列を追ってゆくと、この方向(安価な部品でゴーグル型のアイトラッカーを作る)を確立したのはRochester Institute of TechnologyのJeff B. Pelzであるようだ。2004年の"Building a lightweight eyetracking headgear"(ETRA2004のproceedings)および2003年の"The Wearable Eyetracker: A Tool for the Study of High-level Visual Tasks"に詳しい記載がある。
Eye cameraとしてはPC206XPという小型のピンホールレンズのカメラを使ってる。Supercircuitsというところで78ドル。1/4インチCMOSで水平解像度が420。カメラのサイズは9.5*9.5*16mm。これのレンズの部分を外して、Kodakの87c Wratten filterという赤外線写真用のフィルターのシートを挟んでやる。
(余談だけど、赤外線写真には前から興味があった。というのもサイケデリックロック好きとしては、いくつか有名なジャケット写真が赤外線写真で撮影されていて、たとえばDonovanの"A Gift from a Flower to a Garden"とかFrank Zappaの"Hot Rats"とか、なんかこの世でないようなヤバイ雰囲気を醸し出してくれるんだわ。将来のオレのCDジャケは赤外線写真でいきたい(<-ナニサマ?))
Scene camera (ゴーグルに付いていて、見ている場所を写すカメラ)にはPC53XSというのを使用。IR LEDはRadio Shackって書いてあるんで、同等品を秋月電子から買えばよいでしょう。
ハードウェアはこんなかんじで、ソフトの部分に関しては、とにかく画像をキャプチャーしておいてあとでオフラインで解析とある。
さっきのCOGAINのレポートの"D5.6 Report on New Approaches to Eye Tracking. Summary of new algorithms"では、"Eye tracking indoors can be considered as a solved issue with high resolution eye images and quasi-stable lighting conditions"なんて書かれている。うれしいこと言ってくれるじゃないの(ジッパーをおろしながら)。で、野外とか照明が一定しない条件やIR LEDなしでの検出とかリモートカメラの使用とかそういうところに問題は移っているとのことらしい。というわけでソフトの部分もopen sourceで使えるものが出てきて、それのひとつがopenEyes。これが上記のMakeで採りあげられたシステムが使っているもの。ハードウェアの記載とともに"openEyes: A low-cost head-mounted eye-tracking solution" (前述のETRA2006のproceedings)およびチュートリアルにくわしい説明がある。
こっちでは、eye cameraとしてunibrainのFire-Iというwebカメラを使ってる。IEEE1394接続になっているので直でPCに繋いでもドライバとかが揃っているというところがポイント。(複数台のカメラがデイジーチェーンすることによって自動的に同期するというメリットもある。) スペックは、1/4インチCCDで640x480pixel、30 frames per second、レンズはF 2.0で焦点距離4.3mm。もの自体は今でも売ってるけど、今いちばん新しくて安いものを使う方がよいでしょうね。作り方としては、カメラ部分をソケットから外して、IRフィルタを付けてる。基本的なところはさっきと同じ。
これをさらに簡単にしたのが、Makeで紹介されていたeyewriterで、こっちではプレステ3用のwebカメラ PS3 Eyeを使ってる。アマゾンで4500円。wikiで作られているサイトによると、PS3 EyeはUSBカメラで、解像度は640*480だけど、320*240で使うと120fpsまでいけるというのがミソらしい。Instructablesにチュートリアルがあって(eyewriterからPDFダウンロード可)、なんとこの説明ではハンダ付けすら不要(ワニ口クリップでつまんで繋いでる!)。IRブロックするフィルタを除去して、IRを通すフィルタ(さっきのコダック 86c)の代わりにフロッピーディスクを切り取って貼ってる。超DIY! どうやらこのハックは有名なものらしくて、別の文脈で図解しているサイトもあった。
というのがeyewriterまでの文脈なのだけれど、わたしの文脈で、性能と費用と労力のバランスを考えたらもっとよい解はある。
ぜんぜん別の文脈で見つけていたのが、EyeSeeCamというやつで、これは臨床系の人の研究用のものなのだけれど、まあムービー(vimeo)を見れば一目瞭然で、ヘッドマウント式のeye tracker (600Hz)の入力で、頭の上に載っているgaze cameraがピエゾアクチュエーターで動いて、リアルタイムで実際見ているところを追っかけるというわけです。Gaze cameraの応答潜時は10ms。我々が目をすばやく動かして(急速眼球運動、サッカードという)から止めるまでにかかる時間は20-30msとかだから、かなりイイ線いってる。作成してる人もVORとかの応答に使ったりしてる。サッカード中の視覚は抑制されているわけで(サッカード中の知覚安定性のスレッド参照)、saccadic suppressionの実験と組み合わせることが出来るんではないかとか、すごく面白い。
でもって、ここでやっていることはわたしがやろうとしていることにけっこう関連している。(いま気づいたけど、アイデアの元は全部このブログにすでに書いてあって、それの組み合わせだった。)
もうすこしくわしく調べてみよう。まず公開されている資料としては、フライヤーにリンクが張ってある。そこをみると、左右の目にeye cameraを付けていて、600Hzで記録して眼球の3Dでの位置まで推定できる。(torsionも計算される。) 精度は0.5degある。MacBookに繋いでる。解析ソフトについての記載無し。かれらはこれを売り出そうとしているようだけど、いまのところcommercially availableではない。
さらに詳しい情報を知ろうとすると商業誌を読まないといけない。(ちなみにここまでのすべての情報は英語さえ読めれば誰でもアクセスできるようになっている。なお、COGAINのサイトではgazetalkなどのソフトウェアの日本語訳などにアクセスできる。) 元ネタとなる論文はAnn N Y Acad Sci. 2009 May;1164:461-7. "EyeSeeCam: an eye movement-driven head camera for the examination of natural visual exploration"でUniversity of Munich HospitalのSchneider Eという人がやっている仕事らしい。
論文を読むと、eye cameraとしては2006年のバージョンではPoint Grey社のFleaというのを使っていたと書いてある。これは100Hzで記録できる。IEEE1394a接続で400Mbps。レンズ抜きで3cm*3cm*3cm。Cマウントのレンズを付ける必要があるけど、レンズについての情報は無し。2009年バージョンでは使う画素数を減らして600Hzを達成したと書いてある。
(ちなみに現在ではこれの後継機種Flea2というのが出ていて、IEEE1394bになって、伝送速度は800Mbpsに上がっている。日本ではViewPLUSというところが取り扱いをしている。開発用のソフトウェアとかもセットになっていて、これはなかなか扱い良さそう。わたしが今作るとしたらこれを使うかな。)
Gaze camerおよびscene cameraはおなじくPoint Grey社のFirefly MVというやつで、696*480pixel, 60Hzで取り込める。
まだプロトタイプの段階なのだろうけど、共同研究はどんどん進んでいて、Einhäuser W et.al.(Philipps-University, MarburgのPeter Königら)の論文で同じ号に"Eye-head coordination during free exploration in human and cat."とか"Distinct Roles for Eye and Head Movements in Selecting Salient Image Parts during Natural Exploration"なんてのが出てる。ナヌ? Saliency? なんて思って調べてみれば、カルテクにいたときにLaurentと共著があった! "A bottom–up model of spatial attention predicts human error patterns in rapid scene recognition" つーかこの論文前に見たことあった! うわーい、なんか線がつながってきた!
だいたいこのへんまでかな。
Webで探していると、工学系の人がhuman-Computer Interactionのためにいろんなことをやってるのがたくさん出てきて、要はそういう人と組めばいいのだなと思う。もっと身近なところでニューロサイエンスの分野でも、理研の藤井さんのブログでゴーグル型のeye trackerの話が出ていたし、ATRの川人先生のところのヒューマノイドロボットDBではsaliency modelを組み込んでロボットの目を動かしている(とりあえずCBのときのproceedingsがここから落とせる)。というわけでこれから教わりに行きます。
今回のブログエントリは「わたしはこのくらいはサーべイしてありますよ」ということをそういう人たちに示すという目的もあったりする。(長いし。)
込み入った話をしてしまえば、なんらかの大きなお金をゲットしてから動くべきか、安価なプロトタイプを作って成果を見せてお金を取りに行くか、とかそういう話だったりする。(もうやめて!)
追記:いろいろ調べているときりがない。カメラ自体に脳的な画像処理的なモジュールを持たせてしまうみたいな方向で進んでいる人はいる。こちらも面白い。日本でも浜松ホトニクスでそういうインテリジェント ビジョンセンサがcommercially availableになっているのを見つけた。これはexitに近いところにあると思ってる。
追記2:ひとつ開示しておくべき情報があった。当ラボでは、マウスの眼球運動をvideo-oculographyによって240Hzで記録するという仕事があって("PC-based high-speed video-oculography for measuring rapid eye movements in mice")、カメラについてとかいろいろ情報はもらってます。


2008年03月11日

Autismにおける注視位置

先日はCRESTの第5回領域内研究報告会に行ってきました。わたしもポスター出したり、生理研研究会の宣伝をしたり、いろんな方に挨拶したりと諸活動を。
順天堂の北澤先生の「応用行動分析による発達促進のメカニズムの解明」が興味深かったんですが、未発表の内容なのでここでは紹介を控えるとして(「このサイトについて」のところにも書きましたがこれが当サイトの方針です)、そこでKlin et.al.の仕事を紹介されてました。これが非常に重要な話だと思うので今日はこれについて。
Arch Gen Psychiatry. 2002;59:809-816. "Visual Fixation Patterns During Viewing of Naturalistic Social Situations as Predictors of Social Competence in Individuals With Autism" Ami Klin, Warren Jones, Robert Schultz, Fred Volkmar and Donald Cohen
Autismのある被験者がビデオクリップを見ているときの視線の動きを記録して解析します。これをAutismのない比較対照群の被験者と比べます。Autismのない比較対照群のばあい、人の顔が出てくる場面では視点は目と目の間あたりに来ます。一方でAutismのある被験者で非常に特徴的なのは、人の顔を見るときに、目ではなくて口のあたりを注視する時間が多いということです。
この話を聞いたときに私がはじめに思ったのは、視覚刺激のbottom-upの要素、つまりsaliencyの影響ではないか、ということでした。つまり、じつは口というのは目以上にsalientで、viewers with autismではよりsaliency-baseになっていて、cotrol groupではtop-downの要素によって目を見ているのではないかと。ついでに言えば、英米人の方が言葉を発するときに口を大きく使いますので、われわれ日本人がしゃべるときよりもmotionによるsaliencyが高い可能性があります。
ともあれ、Itti and Kochのsaliency modelとかを元にビデオクリップのsaliencyを考慮に入れて解析したらいいんではないだろうか、と考えてすこし文献を漁ってみたら、もろに該当するものを見つけました。
Social Cognitive and Affective Neuroscience 2006 1(3):194-202; "Looking you in the mouth: abnormal gaze in autism resulting from impaired top-down modulation of visual attention" Dirk Neumann, Michael L. Spezio, Joseph Piven and Ralph Adolphs
以前(20080115)にも多少言及しましたRalph Adolphsの論文です。これがドンピシャで、Itti and Kochのsaliency modelを使って視点の位置を解析してます。
デザインも凝ってて、解析も凝ってる。
刺激には"bubbled face"というのを使っていて、顔刺激(例のDolanの論文とかで使われる恐怖の顔とか4表情のパターン)を空間周波数ごとにランダムな位置でマスクをかけてやって、それをさらに足し合わせる。これではわからんと思うので元論文読んでほしいですが、要は一つの顔の写真からその要素が部分部分入ったものをgenerateするわけです。目のコントラストが高いやつとか、口だけコントラストが高いやつとかいろいろ作れるわけです。これで刺激をtrial-uniqueにすることができる。
課題としては元の4パターンの表情のどれかを弁別してもらう。このときの視点の位置を記録しておく。また、刺激ごとのsaliencyをItti-Kochモデルから計算してやる。どの位置に注視しているかをsaliencyからpredictできれば、それは視線の位置をbottom-upによる効果で説明できるということだし、predictionが悪ければ、top-downのバイアスを反映しているといえるわけです。
結果は私が予想していたのとは違っていました。目のコントラストが高いときはcontrol群でもautism群でも刺激の顔の目に視点が集まる。目の方には実は差がない。差があるのは口の方で、control群では口のコントラストが高いときに口に視点が集まる。一方で、autism群では口のコントラストが低くても口に視点が集まる。つまり、口の位置のsaliencyとはあまり依存せずに口に視点が集まる。つまり、口の位置への注視はsaliency(bottom-up)によるpredictionが悪い。というわけで、私が予想していたのとは逆で、viewer with autismでは、top-downのバイアスで口を見ている、という結論だったのです。
ただ、これだけの結果だと、たんに画像の下の方を見る傾向があるから、という説明も可能です。そこで著者は押さえとして、逆さまになった顔のときのデータを出しているのですが(これはbubbled faceではなくて元の顔画像)、このときは正立しているときよりもさらに口を注視する傾向があります。よって今指摘した可能性は排除できそうです。
あと、top-downのバイアスで目から視線をそらしているとしたら目への視点のpredictionが悪くなるはずだから、それでは説明できません。ちょっとこのへんの結果は謎なかんじ。やってることは正しいようだけどなにか見逃している気がします。
解析も凝ってて、統計はちゃんとmixed effect modelを使っているし、上記のpredictionのところではsupport vector machineを使ってます。視点の位置の密度分布も、ガウシアンカーネルでデータをスムージングではなくて、kernel density estimationを使ってます(いや、本質的には同じなんだけど、視線のデータはデータがsparseになるから、天下り的にband widthを決めるのではなくて、leave-one-outでband widthを決めてやるという意味でこちらの方が良いはず。こんなことすっかり忘れてた。これは参考になった。ちなみにMATLABでの関数はksdensity)。刺激の作り方も、元論文はあるとはいえ、Itti-Kochがfeature mapを何段階かのspatial resolutionでやっていることと対応した刺激の作り方をしているので、理にかなっています。この論文、僕はけっこう好きです。私が目指す芸風に近い。
そういえば、以前(20080115)Ralph Adolphsに言及したときに
Adolphs R, Gosselin F, Buchanan TW, Tranel D, Schyns P, Damasio AR. "A mechanism for impaired fear recognition after amygdala damage." Nature. 2005 Jan 6;433(7021):68-72.
をリストに入れておきましたが、これと今回の話はものすごく関係がありました。両側のamygdalaにdamageのある患者さんが写真の顔が恐怖の表情を浮かべていることを認知することができない、という報告があります(以前言及したNature 1994)。これがじつはその患者さんが写真の顔の目を見てないからで、目を見て答えるように実験者が指示したうえで、同じ課題をやってもらうと対照群と同じくらいの成績になった、というものです。この場合も「目を見ること」が非常に重要な要素でした。
ではまた。


2008年02月14日

顕著性マップを実装するC++ツールキット

どもども、元気です。
娘が好きな男の子にバレンタインデーのチョコをプレゼントするってんで、ママと一緒にフードプロセッサを使ってチョコを砕いてたりする今日このごろです。
さて。
さいきんC++の勉強をしてます。
なんて書くと、また余計なことに手を伸ばして、と言われそうですが、必要に迫られて勉強してます。
University of Southern CaliforniaのLaurent Ittiが構築した"iLab Neuromorphic Vision C++ Toolkit"(iNVT)というのがあって、これがGPLに基づいたオープンソフトウェアとして利用できるようになってます(あらかじめ登録が必要)。これを使ってなにができるかは"iLab Neuromorphic Vision C++ Toolkit Screenshots"のあたりをみるとわかるかと思います。でもって、このコードを読んでやろうってわけ。
Laurent Ittiはsaliency mapのcomputational modelingで有名な人でして、Koch-Ullmanの提唱したsaliency mapの概念をbiologically plausibleなmodelとして実用に耐えうるものにした人です。いちばん有名なのは
Nature Reviews Neuroscience 2001の"Computational Modeling of Visual Attention."(pdf), Vol. 2, No. 3, pp. 194-203
でしょうね。昨年はNeuronにも仕事が出ました。
んで、さいきんはsaliencyに加えて、bayesian surpriseというものを提唱しています。Saliencyのほうは、V1とかのlateral inhibitionを考慮してfeature(colorとかorientationとか)ごとにspatialにsalientな場所を抽出して、それを足し合わせるというモデルだったのですが、bayesian surpriseのほうは、lateral inhibitionを使う代わりに、ある刺激を見たときのprior probabilityとposteiror probabilityとのあいだの変化の大きさをKL divergenceで計算して、これをbayesian surpriseとして定義する、というものです。この定義からわかるように、どのくらいの重みでpriorからposteriorを作るか、という点を固定しないといけない。この点がトリッキーだと思うんだけれど。
このへんについては、以前のエントリでも"Saliency mapとbayesian surprise (1)"および"Saliency mapとbayesian surprise (2)"で紹介しました。

さてさて。でもってじっさいにどういうimplementationがされているかを調べてやろうということでいまソースコードを読んでるんですが、なかなかたいへん。
まず、わたしはC++を知らない。そして、iNVTはC++のけっこう新しい機能を使いまくったコードで、いわゆる"better C"としての使い方じゃない。
たとえば、Saliency mapを表現している脳をひとつのクラスとしていて、さらにそれがcomponentごとに分かれたさまざまの抽象度のクラスを持っている。たとえば、intensityとか、colorとか、featureレベルの処理もひとつのクラスだし、それらより抽象度の高いVisual Cortexとか、Brainというクラスを持っていて、継承を使いまくってる。
それから、template使いまくり。二次元の画像入力の処理に関してだったら、template<class T>とかclass Image< T >とかそういうのが並んでる。この辺の詳細についてはこちらに書いてあります:"Programmer notes"
わたしの方はといえばこれまでは、STLとかtemplateとか継承とかそういう言葉を使うことさえ出来なくて、やっとさいきんわかってきたところ。
そもそもわたしは薬学出身ですんで、学部時代はもっぱら有機化学の実験とかそんなかんじでして、プログラミングについて系統的な勉強はしたことが無くて、10年前にラボ移ってtaskコントロールのソフトでCのポインタで挫折して、解析はExcelでやってたというかんじでした。Matlabの使い方を知って感激して、そのあとはSASをいじったりとか、せいぜい専用高級言語を使ってるというのが5年前。Matlabはいろんなところのconsistencyがクソですが、それでもCのポインタで挫折した私にとっては救世主でした。
だんだん解析で使うMatlabでの計算が重くなってきて(モンテカルロシミュレーション10万回とかをdoubleのままでやってたりするから)、ここはuint8にしようとか、実験データの行列へのアクセスを構造体を使ってやったりとか(連想配列がないので)、昔よりは工夫するようになったけどぜんぜん素人です。
さてそんなわたしがiNVTのコードを読むためにC++の勉強をしている、というわけ。Cのときみたいにmain()を上から読んでいってもさっぱりやってることがわからないので、入力や出力に近いところのクラスや関数の定義や実装をさがしてそれを読んで、またそこから参照しているところを読んで、とかそんなかんじです。
参考書が必要。とりあえずforとかswitchとかそういうのはべつにいいので、C++に特化したところを知りたいということで紹介してもらったのが「Accelerated C++」。これはポインタとかmallocとかそういうのすっ飛ばして最初からvectorとかを使って簡単なプログラムを作る、というやつでして、いま6章まで来ましたがとてもいいです。
とはいえ、いきなりこれで始めるのはたいへんなので超簡単な入門書を読んでおいたほうがよいと言われたので、Accelerated C++のまえに「C++ の絵本」。とりあえず二日で読んで、最小限のことはわかった。コンストラクタとデストラクタとか、例外処理とかそういう概念だけ。
Accelerated C++を読んだあとはこれ読め、って言われたのが「Effective C++ 原著第3版」。ネットで調べて超有名本だということは知りました。値渡しではなくてconst参照渡しをしよう、とかは理解できた。
そんでもって、リファレンスとしてBjarne Stroustrupの「プログラミング言語C++」は持っておけと言われた。これは知ってる。C++でのカーニハン&リッチーですよね。とりあえず枕にしてる。
図書館でおなじくBjarne Stroustrupの「C++の設計と進化」を見つけた。とりあえず、C++が[C言語の改良版]+[クラスを使ったオブジェクト指向言語]+[STL等を使ったジェネリックプログラミング]、という要素を全部つっこんだものだってことはわかった。
さてさて、並行してコードを読むためのエディタなんだけど、とりあえずKDevelopを使ってます(Linux上で動かしてるもんで)。コードの中で出てくる関数やクラスの実装がどこにあるかとかを右クリックで飛んでくれる。ほんとはEmacsでetagが使うとよいと言われているんだけれど、Emacsはなんどやっても挫折しまくり。チュートリアルをやろうとしてもすぐなんか抜けられなくなるとかそういうレベル。なんとかして。んで試行錯誤した結果、iNVT自体がソースコードの中でDoxygenがhtml形式のdocumentを生成してくれるようになっているので、それを使ってコードを追っかけるのがいちばん良さそうだということが判明。というわけでmake doc。
ともあれ、どうやったらコードって読めるようになるんですかね。タイトルにそのものずばり「code reading」というやつがあるので図書館で読んでみましたけど、どうやら私向けではなかったみたい。
ではまた。なにかしら続きます。


2006年10月24日

EyeLinkってどうなんですかね

Saccadeを使って研究するにあたって、将来的には非侵襲的方法が主流になってくると思うのだけれど、ビデオ法(video-oculography)ってどんなもんなんでしょうかね。
げんざいcommercially availableなものといえば、SR ResearchのEyeLinkです。
論文もいくつか出てます。ぜんぶhumanがsubjectのものだけど:
Journal of Neuroscience Methods Volume 114, Issue 2 , 15 March 2002, Pages 185-195 "Recording eye movements with video-oculography and scleral search coils: a direct comparison of two methods" J. N. van der Geest and M. A. Frens。"EyeLink version 2.04, SR Research Ltd/SMI"と明記されてます。Sampling rateは250Hz。Scleral coil法と同様なmain sequenceなどのデータが取れるが、小さいamplitudeのサッケードに関しては誤差があるかも、というかんじ。サッケードの時間プロファイルの図は出していないので、どのくらいとびとびなのかはこれでは評価できない。ちなみにサッケードにかかるdurationはせいぜい40ms(eccentricity=20degにて)であり、250Hzだと10点しか取れない。
The Journal of Neurophysiology Vol. 88 No. 2 August 2002, pp. 692-698 "Scleral Search Coils Influence Saccade Dynamics" M. A. Frens and J. N. Van der Geest。上のと同じ著者が、ビデオ法を元に、Scleral coilを付けているときと付けていないときとを比べて、Scleral coilを付けるとSaccadeが遅くなり、durationとして長くなる、と言ってます。
この論文ではサッケードの時間プロファイルを出してる。でも、eccentricityが30degのときの図で、durationが70-80msあるので20点くらいデータポイントが取れるからそれらしく見える。もしeccentricity 5degくらいのサッケードを記録しようとしたら、ダイナミクスの議論はほとんど無理そう。
J Neurophysiol 90: 12-20, 2003. First published February 12, 2003 "Nature of Variability in Saccades" Jeroen B. J. Smeets and Ignace T. C. Hooge。Scleral coil法でのサッケードのダイナミクスのばらつき(velocity, amplitude and duration)はコイルを付けたことによるdiscomfortによると言う。
Investigative Ophthalmology and Visual Science. 2006;47:179-187. "Recording Three-Dimensional Eye Movements: Scleral Search Coils versus Video Oculography" Mark M. J. Houben Janine Goumans and Johannes van der Steen。これだけEyeLinkではなくて、Chronosのvideo-based infrared three-dimensional eye tracker deviceというのを使ってる。3次元の眼球運動の動き(torsion)を計算するにはvideo法はまだ不十分とのこと。
まだまだnhpのサッケードを扱うには厳しそうな雰囲気。一方で、EyeLinkのサイトを見るとEyeLink 1000という、1000Hzのsampling rateのものが出てきたもようなので、こんどのSFNでは見に行ってこようと思います。Sampling rateが上がれば、取り込める光は少なくなり、画像はよりノイジーになるので、そのへんがどのくらい克服できているかだと思います。
気になるお値段の方ですが(回し者かYO!)、サイトに書いてない。こういうのってどこも書いてくれないんですよね。グラント書きのときに調べないといけないからめんどくさい。このファイルを見る限り("Computer vision, eyetracking, spoken dialog systems, and evaluation: Challenges and opportunities")、tens of thousands dollarsですが、200万か800万かで大違いですな。
……ってエントリ作って放置しておいたらSFNの後になってしまった。SMIのブースも見逃してるし。ダメだこりゃ。

コメントする (3)
# kenken

Pooneilさん、こんにちは。
いままでブログを読ませてもらって、色々勉強させて頂いておりましたが、今回はじめての書き込みです。
赤外線だと、比較的廉価なのは、Iscan http://www.iscaninc.com/ で、私も2台入れておりますが、さらに高時間解像度のものだと、1000 Hzのものが Thomas http://www.thomasrecording.com/en/cms/front_content.php?idcatart=63&lang=1&client=1 から出ていますね。これはどうなんでしょう?

# b

Eyelink IIですと,計測モードによっては500Hzで取れたはずです.

また,CambridgeResearchSystemsでもHighSpeedVideoEyetracker(ビデオ法)で250Hz,本来はMRI用のMR-Eyetracker(強膜反射)ですと1000Hzでの計測が出来ます.
http://www.crsltd.com/

# pooneil

コメントどうもありがとうございます。CRSのやつはサイトを見たことはありましたが、他のは知りませんでした。
Human MRIでの用途とか、動物の時でも視線の位置をモニターする(サッケードを使って課題の応答をさせる)用途ではすでに実用化していると思うのですが、眼球運動じたいのダイナミクスとかを扱う精度があるだろうか、というのが元のエントリでの意図でした。
その意味ではやはり500-1000Hzで記録できないとeye coilに追いつかないよなあと思っていたのですが、そのへんまでかなり近づいてきているようですね。


2006年04月09日

Saliency mapとbayesian surprise (2)

Laurent IttiはKochのところから独立して、いまはUniversity of Southern Californiaでassistant professorをやってます。ここはラボのサイトがむちゃくちゃ充実してます。Visual Attention: Moviesのムービーをダウンロードして見てみると彼がやってることの具体的なイメージがわくのではないでしょうか。あと、wikiで作られているこちらのサイトにいろいろ有用な情報があります。
んで、Ittiは基本的にSaliency mapのことを継続しているのだけれど、さいきんはsaliencyの概念とは違ったアプローチでbottom-up attentionのことを扱おうとして"bayesian surprise"という概念を提唱してます。くわしくはラボのサイトのページもくしはNIPS2005でのproceeding(pdf)にて。
つまり、非常におおざっぱに言って、surpriseの大きさとして、prior probability P(M)とposterior probability P(M|D)とのあいだのKL divergenceを使おう、というものです。んでもって、prior probability P(M)とposterior probability P(M|D)とのあいだにはベイズの法則による関係があるわけです。(Mはmodelで、Dはdataのことを示してます。) つまり、元々の事象の確率分布に関するモデルP(M) (=Prior probability)はあるデータの出現によってP(M|D) (=posterior probability)に変わるということ。出現したデータがsurprisingであるということはP(M)からP(M|D)への変化が大きいということであり、その大きさはKL divergenceで評価できる、というわけです。たとえば、CNNニュースを見ていると思っているとき( P(M)としてCNNニュースである可能性、ABCニュースである可能性、などの確率分布を考えることが出来る)からいきなり画面が砂嵐になるとこのような確率分布がドカンと変わるわけで、それがsurpriseなのだと。なんかこういう風に書くとすごく本当のことというか、ほかにはあり得ないようにも聞こえるのですが、すごいのかどうか私には評価できません。Bayesian updatingをしてゆくときの変化の指標にKL divergenceを使うというのはこの世界では基本的なことらしい(WikipediaのKL divergenceの項)。だから、画像の情報に対してpriorとposteriorを考えるというあたりがミソなのでしょう。とにかく、proceedingによると、surpriseを使ったモデルではこれまでのmotion energyとかsaliency-basedなものよりもサッケードの予測の成績がよいらしい。
Bialekの"Spike"とかの前後でmutual informationがneuroscienctistにものすごく使われた時期があると思うのだけれど、いまどきはやはりbayesianがわからんと、という流れですな(*)。いや、脳がpredictiveにやっているんだ、ということを考えるときにこの概念は非常に使えるツールなはずなんですよね。

* いや、両者は別もんではないんでしょうけどね。でも、シャノン的なものとベイズ的なこととの関係に興味があります。数学的な関係自体は調べればわかります。先述のWikipediaでも、mutual informationとは、二つの確率密度分布P(x), P(y)があったときのP(x,y)からP(x)*P(y)までのKL-divergenceに等しいことが書かれています。でも、そのバックグラウンドというか何というか。甘利先生の情報幾何とかで考えたほうが良いんだろうか。


2006年04月08日

Saliency mapとbayesian surprise (1)

というわけで平行して予習というか勉強も。
セミナーでsaliency mapについての紹介をやりました。ストーリーとしてはこんな感じ:
1) Ann TreismanのFeature integration theoryを持ってきて、画像の属性ごとのFeature mapとそれらをlocationごとに統合するmaster mapという心理学的概念があることを説明する。
2) Koch, C., & Ullman, S. (1985) Human Neurobiologyで、Treismanの概念にインスパイアされた形で、Featureごとのsaliencyを計算した複数のFeature mapから、それを統合して二次元平面上のsaliencyを計算した、単一のsaliency mapという計算理論的概念を提唱。
3) Itti, L., & Koch, C. (2001) Nature Reviews Neuroscienceなどで、この概念が実際の画像分析に応用可能な形のcomputational modelとしてimplementされる。
4) Gottlieb, Kusunoki and Goldberg 1998 NatureでLIPに視覚情報ではなくてsaliencyをコードしているニューロンがあることを報告。Saliency mapという概念が単なるcomputationalなconceptではなくて、脳で実際に表象されている可能性を示唆。
5) FEFやV4などでもsaliencyをコードしているニューロンの報告が続く。「単一の」saliency mapという概念の変更が要求される。
6) いくつかのグループが対論として、Saliency mapがFeature mapとは分離されないモデル(Li 2002)や、Saliency mapは存在せずにFeature mapのみでattentionが操作されるとするもの(Desimone and Duncan 1995)があるとするものなどがある。
7) しかしそれでもげんざいのところ、bottom-up attentionをいちばんうまくモデル化できているのはItti-Kochモデルではなかろうか。
こんなかんじ。Bayesian surpriseについては次回。
追記。Vikingさんのところからトラックバックで来ている記事でより深く展開してますのでそちらのぜひご覧ください。
ヒトのimagingでのsaliency mapの検証はないのか、という話題はセミナーでも出ました。Vikingさんも書いているように、これはそれぞれのニューロンごとにコードされている属性と受容野がわかった上で議論しなければならないので、imagingでは難しいわけです。つまり、imagingでsalientな刺激に活動する領域が見つかったとしても、さらにそれがどの属性であるかに依存せずにsaliencyを表象している、ということを示さなければならないわけです。そうしないとそれはfeature mapの方になってしまうわけですから。というようなことを答えました。ま、そこまで言ってしまうとニューロン記録でも無理なわけですが。ちなみにME Goldbergの論文はKoch and Ulmanはreferしていなくて、"saliency map"という概念そのものと対応させるような論法は使っておりません。

コメントする (1)
# viking

先ほどupdateしたばかりなのに、さっそくTBまでいただいてしまってありがとうございました。
Goldbergの1998年のNatureはKoch & Ullman (1985)は引用してないんですね。今pooneilさんのご指摘を受けて改めて読んでみましたら、Triesman (1980)とWolfe (1994)は引用してありました。こちらの文脈を意識した、ということなのでしょうか。


お勧めエントリ

  • 細胞外電極はなにを見ているか(1) 20080727 (2) リニューアル版 20081107
  • 総説 長期記憶の脳内メカニズム 20100909
  • 駒場講義2013 「意識の科学的研究 - 盲視を起点に」20130626
  • 駒場講義2012レジメ 意識と注意の脳内メカニズム(1) 注意 20121010 (2) 意識 20121011
  • 視覚、注意、言語で3*2の背側、腹側経路説 20140119
  • 脳科学辞典の項目書いた 「盲視」 20130407
  • 脳科学辞典の項目書いた 「気づき」 20130228
  • 脳科学辞典の項目書いた 「サリエンシー」 20121224
  • 脳科学辞典の項目書いた 「マイクロサッケード」 20121227
  • 盲視でおこる「なにかあるかんじ」 20110126
  • DKL色空間についてまとめ 20090113
  • 科学基礎論学会 秋の研究例会 ワークショップ「意識の神経科学と神経現象学」レジメ 20131102
  • ギャラガー&ザハヴィ『現象学的な心』合評会レジメ 20130628
  • Marrのrepresentationとprocessをベイトソン流に解釈する (1) 20100317 (2) 20100317
  • 半側空間無視と同名半盲とは区別できるか?(1) 20080220 (2) 半側空間無視の原因部位は? 20080221
  • MarrのVisionの最初と最後だけを読む 20071213

月別過去ログ