« 次回の研究会の形式について考えてみる。 | 最新のページに戻る | 研究会アンケート中間発表 »

■ Vocaloid2と不気味の谷、そこからリアリティーの研究へ。

Vocaloid2ですが、けっきょくそのあとやっとこさ届きまして、ぽちぽちいじってます。ネット世界ではその間にさまざまな話題がすぎてゆきましたが、それはほぼスルーで。黙って自作曲作るべし、ということで。
でもひとつメモっておきたくなったのが、「不気味の谷」の概念との関連について。
「不気味の谷」wikipedia日本語版英語版
The "Uncanny Valley" Masahiro Mori(原著の英訳)
3Dに関しては、リアルな造形のアンドロイドが不気味に見えるという例で、阪大石黒研のアンドロイドの例がいちばんわかりやすいですね。「不気味の谷」の概念が正しいかは別としても、これは怖い。ついでにGIZMODOのムービー。
2Dに関しては、CGでリアルに造形した顔が怖いというやつで、WIREDの記事とか。
けっきょく人間の認知として、顔の認知はとても感度が高い(つまり、顔に関する微妙な違いに気付く能力は他のもの、鳥とかテレビとかの弁別と比べてものすごく高い)ので、なんらかの不自然さを読み取ってしまうのだと思います。それはいったいなにか。このへんは脳科学が出来ることがあるんではないかと思うんです。顔認知に関する議論はここでもいくつか扱いました。(ざっくり考えればモーフィングで刺激作って現象が定量的に再現できればいいわけですが、要は完全にリアルになる手前に安定なポイントがあるということに意義があると思うんです。)(つーか、wikipedia英語版の方を見ると論文ありますね。あくまでrobotics側からのものみたいですけど。)
たぶん声の認知に関しても、視覚的な顔の認知と似たようなことが起こっていると考えられます。だから、vocaloid2について不気味の谷のことを考える意義があって、いま多くの人がそのことに気付いています。
CNET blog
注文の多い古書店
たろの日記ページ
END_OF_SCAN
「セキュリティ&コンサドーレ札幌」(vocaloidの話ではないけど、「手前の山」に言及してます)
んで、「キャラクター性を抽出した、ある抽象度の、表現のレベル」(あるキーワードを回避するためまわりくどい)によってその谷の手前の山が大きくなっているということなんではないか、というわけです。これってもしかしたらそういうキャラクター性を取り扱う糸口になるんではないか、脳科学として可能なことがあるんではないかと思っているのです。これが将来のネタのひとつになるんではないかとけっこうまじめに考えてます。以前から冗談めかして吹聴してますけど(20051115のエントリとか)、どのようにしてキャラクター性が生まれるのか、ということは意識研究と繋がってくるはずです。
つまり、意識の研究は「何を見ていると思っているのかについて、どう信憑性を確保しているのか」という側面からアプローチすることによって「リアリティー」の問題に繋がると考えています。つまり、たんなる受け身のvision (こっちはventral pathwayが主役)では、意識経験を外界によるものと幻覚とを区別することはできない。それらを区別するためにはverificationの可能性を持っているかどうかが重要であり、そこにsensorimotor contingency(こっちはdorsal pathwayが主役)が関わってくる、というのが現在のアイデアです。ある物体に実際に触れて確かめなくても良いのだけれど、確かめる手段を持っていること、つまりその可能性を持っているかどうか、が意識経験とリアリティーに重要であるだろうと考えています。夢は意識経験か、とか桶の中の脳問題とか、開眼手術後の視覚とかはこのラインで考えられないかと思うんです。(こういう重要なことをこういうエントリに差し込んでみる。)
元の話の方をもう少し展開させますね。顔認知においてこのような不気味の谷がある一方で、biological motionの研究からもわかるように、われわれは単なる点の動きからでも人間や生き物の動きを読み取ることが出来ます。ここは面白い対照だと思います。これはけっして矛盾ではないと思います。つまり、たぶんどっかで図と地の関係が反転するのですな。人間ぽい要素の方が大きくなってきてそっちが地になって、そのなかに混じったロボっぽさが図となって目立つときに気味悪さが出てくる。音声に関しても、以前のボコーダー的な発声の場合はロボっぽさが地だったと思うけど、vocaloid2は人間っぽさが地になって、調整が下手だと出てくるロボっぽさが図になり、気味悪さが出てるのだけど、キャラクター性によって補われている。そのようなキャラクター性による補完ができない人が、「ぜんぜん人間らしいと思えない」と言ってる、ってのが現在の状況なんではないかと思うんですけど(スルーできてないし)。
たしかにここにキャラクターが介在していなかったら、けっこう気味悪かったかもしれません。んで、これはいったい手前の山が高くなったということなのか、それとも谷を乗り越えたのか、ってのがひとつの論点です。たしかに、顔認知の類推でいけば、谷の手前としか思えない。でも、これから音声合成の技術が上がってさらにリアルなものができたときに気味悪さが生まれるかというとそうとも思えない。谷を乗り越えられる人と乗り越えられない人がいるように思います。わたしは乗り越えちゃいました。
ちなみに、実際に使ってみればとそれなりにわかるもんなのですが、歌詞を入れないで「アー」だけで旋律を作るとロボまる出しなんです。日本語を入れるとそれが一挙に人間らしくなります。この過程は面白い。さらにロボっぽさを消すために細かくいろいろ設定する必要があるのですが、わたしはそちらにはこだわらずに使用しております。
たぶん、将来的には音声合成のレベルはもっと上がる(もっと平板さが少なくなるとか)のだろうけど、それは製作過程でロボっぽさが消えるのと、細かい調整の手間が減るという方向であって、本質的にはそんなに変わらないんじゃないか、そんなふうに予想してます。つまり、ボコーダー的な使用法からいまのvocaloid2での使用法というところ(上記の図と地の反転)がやっぱりいちばん大きかったんではないかと思うのです。ちなみに図と地の反転がこの不気味の谷間とは別もんであるだろうことは、2D,3Dでの顔の造形について考えれば明らかです。不気味の谷自体は図と地の反転が起こってからの現象であるとは言えるでしょうけど。
ではまた。
(ちなみにこの商品名を一回も書いていないのは、検索でひっかかんないようにということと字面のバランスを取るためです。回りくどいエントリでした。)
12/19追記:稲葉振一郎氏のエントリでも関連した話をしているのを発見。


お勧めエントリ


月別過去ログ