« 机に堆積した荷物を片付ける時間 | 最新のページに戻る | MacBook Pro 2011で120Hzできた »

■ 盲視でtextureは弁別できるだろうか?

盲視で肌理(texture)は弁別できるだろうか? 以前これについて考えたときはあまりに直球的にグラント狙いすぎるなとそんなに追求していなかったのだけれども、今考えるにそんなに悪くない方向だと思ってる。というのも、盲視ではなんだかんだとほとんどのことができてしまうので、なにができないかを見つけることが大事で、texture弁別というのはその候補となる。

盲視はサリエンシーに基づけば色弁別だってできてしまう。ではなにができないかというと、decisionのためにevidenceをaccumulateしたり、刺激があるかないかのメタ認知だったりといった、ただのサプライズ検知ではなくて、なんらか刺激の(歴史的な)統計的構造が必要なものらしいという辺りを付けている。

そうするとNature 2007で出てきたみたいなtextureの空間的な統計的構造の弁別は盲視ではできないんではないだろうかと予想する。(これをきっちり示そうとするのは難しいことだ。たんにhigher-orderな視覚の属性、たとえばsecondary motionとかそういったものが全般的に難しいのとどう違いがあるのかを示さないと。)

そして、高次の視覚属性ではなくて、時空間の統計的構造を必要とするような情報処理こそが「視覚意識」にいちばん近いものなんではないだろうか。これが「意識の内部モデル説」に繋がる。

つまり、なんらかの形でposteriorを統計分布として持っておく必要があって、それはボトムアップのサプライズ検知ではなくて、トップダウンの内部モデルが必要になるというそういうイメージ。

とはいえふつうはそんな風には考えない。統計分布を持つということもけっきょくは空間での刺激の分布をその統計構造のフィルタでconvolutionすればいいだけだから。じっさい、J Vision 2010の論文ではそんなかんじのモデルを提出している。

だから私は今たぶんずいぶんとヘンなことを言っている。もっとヘンなことを言うと、質感処理をベイズ的に扱うことを考えたらなんか出てこないかなと思う。いま「質感処理をベイズ的に扱う」とかわかったような口をきいたけど、いったいそれで何を推定しようというのか、自分をはげしく問い詰めたい。

平均輝度を推定したとしてposteriorである分布が出てくるのだから、統計分布を推定しようとしてposteriorが出てくるとしたら、それは一次元じゃなくて、なんか情報幾何にでてくるような多様体みたいなものを考える? 自分で言っててワケわからん。

あとで自分で見てわかるように書き直すと、情報幾何みたいに多様体上の一点が輝度の分布を表していて、多様体上でそれらの分布がKL divergenceみたいな近接度で分布していて、でもってさらにそれの確率密度分布が雲みたいに広がっていて、ベイズ推定されるごとにだんだんその雲の広がりが収まってゆくとか。そろそろ「情報理論の基礎」村田昇著とかを読んでみよう。問題意識ができてきたので今ならもうすこし理解できるかも。


「モデル」とか言うけどそれは高次ではtemplateでしかなくて、filterでしかない。だからこそほとんどの場合には予測誤差はなくてsurpriseは起こらない。でも見ているものは階層構造での情報処理だから、なんかこれはベイトソン的に言えばタイプエラーを起こしているように気がしていて、ある階層からはフィルターにしか見えなくても別の階層からは来歴の蓄積したモデルみたいに違った風に見えたりしないかなとか考えている。

ベイトソン関連で前にも書いたように、フィードバックは単回のイベントに応じた学習というか応答であるのに対して、フィードフォワードは複数回のイベントの統計構造に基づいた行動であると言える。空間や時間をたたみ込んでしまうだけですむならそれはただのフィルターで話がすんでしまう。複数回のイベントは時間的には繋がっていないからたたみ込んで足してしまうわけにはいかない。イベントの検出を行ったうえでそれを登録する必要がある。わたしが意識と強く関連しているかもしれないと思うのは、後者のような単回では済まないもののことをイメージしている。

このへんまで突き詰めてみると、textureではそのような意味での統計構造を考える必要はないのかもしれない。また今度考えてみることにしよう。


だんだん自分が何をしたいのかわかってきたのだけれど、つまり、おばあさん細胞的な選択性(=フィルタ)のアイデアでは「いま、ここ」に反応するautomata的な捉え方から抜け出すことができないのではないか。「いま、ここ」を越えるようななにかを導入する必要があるのではないか、と言いたいのだな。Noeのような直接知覚論の人はそのようなものはすでに環境にあると考えるけど、それならそれで、どうやってそれをpick-upするのかと考えないと先に行けるアテがない。

ベイズ的脳観ではそのようなモデルが埋め込まれているのではないかと思うのだけれども、実際にそれが回るときにはカルマンフィルタのようにまさにフィルタとして働く。経験はフィルタの特性として埋め込まれている。そしてもちろん脳はほとんど常にただのフィルタなのだ。(自律的なリズムで揺れながら外界からの摂動によってその安定状態を移動させたりするというリアリスティックな像を保持したうえでも。)

だから、process(内部モデル)とrepresentation(予測信号と予測誤差)とを行ったり来たりしていて、それじたいはプログラミング言語が[evalとapply]によって[procedureとexpression]を行ったり来たりするのと同じことで、その基質自体は何も変わらず、個々のニューロンにとってはただの神経発火のシグナルのやりとりでしかない。ただし、プログラミング言語を使う際にはいまどっちにいるのかわかっていなければいけないように、内部モデルを学習し、情報を読み出す際にはこのクラスを混同しないように読まなければならないはずだ。

うーむ、僕は正しい方向に間違っているだろうか? 掘り進めてこれは違うとどんどん陣地を広げていくような。一年ぐらいこういうことだけ考えて突き詰めてゆく時間が取りたいとか考えたりする。


(ついったに書いたことを元にして編集して作成した)


お勧めエントリ


月別過去ログ