« LammeのV1記録からはじまってV1と注意の関係へ。 | 最新のページに戻る | ハーバードからの通信 »

■ MarrのVisionの最初と最後だけを読む

以下のエントリ、またもや下書き状態で放置してたんですが公開します。自分としては超力作なんですが、これを読むと私が「ビジョン」を読んでないことがばれるという次第でして。


このあいだのエントリで、MarrのVisionがうんぬんとか言ってるのは、ASCONE2007で岡田真人さんが講義でMarrの話をしてたのの受け売りでして。ちょうどその次の日の自分の講義でなんとか話を繋げられないかなと考えていたのでした。わたしの講義の方は「視覚的気づき」(visual awareness)というものをどう実験に落とし込んだらいいのか、detection taskでいいのか、というのがひとつのハイライトだったのです。そういうわけで、generalなまとめとしては、

  1. ある認知的概念(今回は「気づき」)の操作的定義の作成とそのrefinement。
  2. 実験による検証、とくにメカニズム的説明の作成、他の認知機能との関係の発見をつうじて。
ascone.gif

というこのふたつがお互いに影響し合ってrefineしつづけてゆく、というもの(左図)を作っていたのですが、その講義の前日に、岡田真人さんがMarrの話をしてくださって、これがとても印象深かった。三つのレベルの議論をなんとか上記のスキームと繋げて話せないかなと思ってあがいたのですが、だめでした。ざっくりと、上記の1)と2)を回すことが、ある認知概念を計算論のレベルで記述するのに役立つのでは、なんて書いて終わったのです。

というわけで訳書を見直してみました。じつはギブソンへの言及もあったりして驚かされる。(*注1)(*注2)

んで、p.21-26のrepresentationとprocess、というところにピンと来て、p.362の図6-1に釘付けになった、てのが今回のお話。ちょっとベイトソンを思い出したり。

もともと[計算理論のレベル]-[アルゴリズムのレベル]-[ハードウェアによる実現のレベル]という三つのレベルの議論(下図)というのは、「ある情報処理装置を完全に理解したと言うためにはこの三つの水準を理解しなければならない」という文脈で出てきたわけです。(*注3)

three_level.gif

それで、それぞれのレベルでrepresentationとprocessの組み合わせがある、という話をしているのですね。これは知らなかった。超重要。つまり、3x2で考えているのです。それがp.362の図6-1。

Representationとはなにか。Representationとはある実体(entity)もしくは情報を明示的にする形式系(formal system)のこと。なにかべつのものを写し取っているわけです。ここでは数というentityをrepresentする系としてアラビア数字の系やローマ数字の系がある、という例を挙げています。つまり、同じことをrepresentするのにいくつかべつの系を使うことが可能であるということ。

Processとはなにか。Processとはそのようなrepresentationを入力としてそれを変換したrepresentationを生成すること、だと思うんだけどあんま明示的に書いてない。例としては足し算を挙げてます。3+4=7というのはつまり、足し算(+)というprocessが(3,4)という数の対を7へ写像している、ということなのですね。この場合だったら入力と出力は同じ数というrepresentationを使っているけれど、フーリエ変換というprocessの場合だと時間ドメインから周波数ドメインへrepresentationが変わってる。

あるprocessを行うには[それの入出力となるrepresentation]と[その変換を実現するアルゴリズム]とが決まらないといけない。よって、process-representationが対等なレベルになってないし、アルゴリズムが出てきてややこしくなってきているのですが。

ともあれ、representationとprocessの関係に関するポイントは、1)上記の通り、representation自体はいくつか選択の余地がある。2)processを実現するアルゴリズムは採用されたrepresentationに依存する。3)あるrepresentationに対して同一のprocessを実現するアルゴリズムは複数ありうる、となります。

じつはこのprocessの項はいつのまにか三つのレベルの話に移行していて、非常にわかりにくい。ほんとうはrepresentationとprocessとの関係を示したあとで、三つのレベルの話に移行すればよいと思うのだけれど。

ともあれ、キャッシュ・レジスタの例を使って三つのレベルの議論を導入しています。[キャッシュ・レジスタがなにをしているのか、なぜそうするのか](what and why)、これがいちばん抽象的な、計算論のレベルです。何をしているか、足し算をしているわけです。なぜそうするのか、買い物の合計支払金額を決めるためです。これが拘束条件となって、行われている演算が決まる。これが計算論のレベル。

このようにしてprocessが決定する。次のレベルでは[どのようにしてそれをするのか](how)を決めます。これがアルゴリズムのレベル。上記の通り、あるprocessを行うには[それの入出力となるrepresentation]と[その変換を実現するアルゴリズム]とが決まらないといけない。たとえばキャッシュ・レジスタでは、アラビア数字をrepresentationとして使って、一の位から足し算して繰り上がった分を十の位に加える、というアルゴリズムを採用している。

このようにして採用されたアルゴリズムをどう物理的に実現するかが、ハードウェアのレベル。同じアルゴリズムを実現するにも複数のハードウェアで可能。たとえばキャッシュ・レジスタでは電子回路によって実現されるが、人間が足し算をするときは脳によって実現される。逆に、実行されるハードウェアの制限によってアルゴリズムの選択は影響を受ける。(電子回路だったら2進法での足し算をするけど、人間だったら10進法を使うとか。)

うーむ、だんだん3x2でなくなってきた。気を取り直して。計算論のレベルでは、どういうprocessを行うかが決定される。アルゴリズムのレベルではそのprocessがどういったrepresentationとアルゴリズムによって行われるかが決定される。ハードウェアのレベルではそのrepresentationとアルゴリズムがどのように物理的に実現されるかが決定される。

さて、そのような三つのレベルはどうやって明らかに出来るか、視覚の問題について書きます。(本文はこんな構成をしていないのでかなりパラフレーズ。)

ハードウェアのレベルは解剖学や細胞レベルの生理学によって明らかにできる。神経生理学はどういうrepresentationが使用されているか、どういうアルゴリズムが使われているか、について明らかにするのにも役立つ。ただ、Marrは実現すべきprocessが明らかになるまでは神経生理学の知見からrepresentationやアルゴリズムについて推論するには十分な注意が必要だと言っている。

アルゴリズムのレベルは心理物理学によって明らかに出来る。たとえば、ある視覚的問題を解くアルゴリズムのうちどちらを使用しているかとか、どういう座標系(representation)でその視覚的問題が解かれているか、とか。

計算論のレベルはどうか、というと明確には書いてないけど、たとえば、RGCやLGNのニューロンの受容野はなぜあんな形(メキシカンハット型)をしているか。これを明らかにするには、ニューロンの記録や結合様式の解明だけではダメで、この受容野の形がある種のフィルタ(ラプラシアン)として働いていることを理解しなくてはいけない、ということになります。

Marrにとっての視覚とは「外界の画像から、不適切な情報によって乱されない、観察者にとって有用な記述を作り出すprocessである」ということになります。計算論のレベルで行っているprocessを明らかにすべし、というMarrの考えが反映しているわけです。じつはここで、計算論のレベルに一番近いことをやっていた人としてギブソンが挙げられるのです。ただし、ここでとりあげられるのは変化する環境から不変項を抽出するという側面であり、以前(20061004)も書きましたが、計算論的ニュアンスのあるほうなのです。そして、その面においてはツッコミが甘いと指摘し、不変項の検出は情報処理の問題として扱うしかない、とそういう話になるのです。

だいたいこのくらいで。けっきょく、このような視覚を記述するにあたって、問題を分割するために、画像、原始スケッチ、2+1/2次元スケッチ、3次元モデルによるrepresentation、という話になるのですが、すべて読み飛ばして(エー)、図6-1へ。これは3x2なんです。

かなりわたしの解釈を入れて改変した図を作りました。本物の図6-1とはべつものなのでご注意を。あと、じっさいにはrepresentationの問題とprocessの問題とは繋がっているから、右端と左端は繋がります。2次元での表現ということで多少簡略化。

marr4.gif

これがいきなりprocessとrepresentationのduality、と言ってる。(*注4) さあここにわたしが探していた答えがあった。もうここは全訳で。

「Processとrepresentationの解明のどちらにおいても、一般性のある問題設定は、日常の経験や心理物理的もしくは神経生理学的な知見のうちごく一般性のあるものによって示唆されているものである。そういった一般性のある知見が特定のprocessやrepresentationの理論を定式化する。そのような理論のうちあるものは詳細な心理物理学的テストが組まれて実施される。このレベルで特定のprocessやrepresentationの理論について充分正しいという自信が出来たなら、それがどのように実現しているのかを調べることが出来る。ここに最終的かつとても難しい問題である、神経生理と神経解剖学の問題がある。」

自作してみたけどダメでした。原文で。

In the study both of representations and of processes, general problems are often suggested by everyday experience or by psychophysical or even neurophysiological findings of a quite general nature. Such general observations can ofteb kead to the formalation of a particular process or representational theory, specific examples of which can be programmed or subjected to detailed psychophysical testing. Once we have sufficient confidence in the correctness of the process or representation at this level, we can inquire about its detailed implementation, which involves the ultimate and very difficult problems of neurophysiology and neuroanatomy.

というわけで、結論としては意外に私がその場で言ってたことは間違ってなかったみたい。ここでは「日常の体験」みたいに言っているけれども、ある認知的概念を抽出してゆく段階でどういうprocessを行っているかを定式化する、という意味においてはそんなに違ってないみたい(*注6)。そのときわたしが例に挙げたのは「注意」の問題で、注意を(意識に上るものには量的に限界があるという問題から)ある種のリソースを効率的に使う、という計算論的問題に落とし込む、というような話をしました。ただ、これでいいのだろうか、とも思う。とってつけた感がある。心理物理や神経生理がどのようにしてこの計算論的問題に繋がるのか、そのへんがまだこの図ではうまくかけてないように思う。あと、こうしてみるとここでのrepresentationの問題ってなんだろうか、って思う。本編読めばわかるんでしょうか。ともあれ、以前のLogothetisの話のときにもありましたけど、ニューロンのデータから両眼視野闘争の知覚のcontent(=representation)と選択の過程(process)との神経メカニズムがあるのかもしれない、なんて話と繋げられるかもしれません。じつはここに現象的意識が来るんではないか、なんて思うんですけど。すくなくとも知覚のcontentであるとは言えないでしょうか。(一番重要なことを書いてここで終了。)

追記:ここまで書いてからふたたび川人先生の「脳の計算理論」と「脳の仕組み」を読んでみるといろいろなことがわかってきていろいろ書き直したくなるのですが、このまま出しちゃいます。ひとつだけ書いておくと、Marrの理論が視覚だけに閉じていて、行動と結びついた視覚という観点がないという批判は当時からすでにあって、川人先生の双方向理論はそれを乗り越えようという意図を持っていることとか。

追記2:要は今回"Vision"をちょっと読んでみて、「Marrのrepresentationの問題とはなにか」という疑問に行き着きました、というのが今回のエントリで書いてることです。

(*注1) 正直言って、"Vision"は昔買って積んだままでした。白血病になったMarrが本の前書きで「とある理由でこの本を早く書き上げなければならなくなった」と書いたところとか、最後のクリックとの会話とかそういうところしか読んでなくて、数式をほとんどスキップしてるのです。岡田さんも、そのような理由からものすごく書き急いでいて読みにくい、むちゃくちゃ頭いい人だから飛躍して書いているところがある、というふうに話をしてました。そういうつもりで読めばいまなら読めるかも。

(*注2) 同時期にナイサーもギブソンを重要な論敵としていたことからしても、当時はギブソンが認知科学にとってかなりシリアスに受け止められていたことがよくわかります。いまはよくわからん。どちらかというとべつの学問的ドメインみたいになっているように思えるのだけど。スキナリアンみたいに。

(*注3) 血気盛んだったかつてのわたしは「行動するわれわれ有機体は情報処理装置として捉えるだけでは取りこぼすんではないか」とか言ってMarrをきっちり読まなかったりしてたのですが、やっぱりえらい人は深く考えているのです。(とか書くとこんどはそういうオベンキョウ癖止めろ、という言う声が聞こえてきたりしてもうどっちにしたらええねんってニセ関西弁で。)

(*注4) Dualityって数学的には「双対」みたいな概念なので、ここでどのくらい厳密に使っているかはさっぱりわからないのだけど、representationとprocessがある種裏返しの関係にあることを意味しようとしているのだとしたら興奮するところです。図的にはたんにパラレルに走っているようにしか見えないないけど。ちなみに川人先生の「脳の計算理論」でも順モデルと逆モデルの双対性、みたいな表現は出てきます。こちらは明白に意味がある。もし、順モデルがrepresentationで逆モデルがprocessならばそれはdualityとでも言える関係にあるのではないかと思うのです。

(*注5) この文脈だと抜けてしまうけど大切な部分:この三つのレベルは比較的独立しているだろう、それからどのレベルの問題を解こうとしているのか誤らないようにしよう、というのがここで書いてあることです。たとえば、ネッカーキューブの二つの安定した知覚について明らかにしたいならば、神経回路網のレベルで二つの安定した状態があることを示すこと(ふだんは日常言語で「メカニズム的説明」とか言ったりしますが)よりは、ひとつの二次元図形から二つの三次元的解釈が生まれることを説明する必要があるというわけです。ってさっそく後者はどのレベルでしょうか? 計算論のレベルでしょうか。

(*注6) この「日常の体験」を「現象学」とまで言ったら(知らないのに)言い過ぎかもしれませんが、その方がじつは階層構造的には尤もらしいかもしれません。


お勧めエントリ


月別過去ログ