« ブログどうやって活用するかいつも通りちょっと考えた | 最新のページに戻る | 僕らの人生って空飛ぶブタくんサーカスみたいだね? »
■ 階層ベイズなdiffusion model
たぶんどっかで「信号検出理論と応答潜時のaccumulator modelとが統合されてconfidence levelとかの議論ができるようになるべき、俺の仕事じゃあないけど」みたいなことを書いた気がする(*)けど、これはけっこうそれっぽい: Two-Stage Dynamic Signal Detection: A Theory of Choice, Decision Time, and Confidence
(* あとでブログ調べたらこれのようだ:Confidence in LIP「"Log posterior odds = log-likelihood ratio + log prior odds"という式はaccumulator modelとSDTとを組み合わせるために有望なものです」もっといろいろ書いてた気がするのだけれど。)
Constraint-freeな状況でライフログ的に膨大なデータを獲得するというやつは階層ベイズモデル(とその仲間)と組み合わさることで威力を発揮すると思う。つまり、たくさんのデータがあるところで、構造を考えずにデータマイニングすると終わりが見つからない。いっぽうで、充分リアリスティックな階層ベイズモデルをつくるためにはそのパラメーター空間を充分埋めてくれるような大量な多次元データが必須だ。
このふたつの組み合わせによって生成モデルを作ることができる。生成モデルを作ること自体が理解するということであり、統計モデルでしかないという意味ではこれがまず第一歩。もちろん、本当は統計的モデルではなくて、動力学的なモデルに行きたいのだけれども、その前を固めることが重要。
そういう意味で以前「生態学的アプローチを見習ってGLMMとか使ったらいいんじゃん」とか書いた。実際、この論文(pdf)のfig.2とかシビれる。こんなかんじで、電気生理から解剖学まで全部ツッコみたい。
アイデアの発端は以前のJNS論文で使ったdiffusion modelなんだけど、あれはかなり大胆にモデルを簡略化してパラメータたった二つにしたことでなんとかなった。大元のdiffusion modelはもっとパラメータが多い。当時はこんなパラメータ多かったらなんでもfittingできちゃうでしょ!とか思ってたけど、逆に行くならば、たくさんのsubjectとたくさんのセッションとたくさんの条件でたくさんデータを取ればたぶんもっと複雑なものでもいけた。じっさい、nhpのデータのいいところは、データ数がsubjectあたりで万を超えるってところ。ヒト被験者ではこうはいかない。
Diffusion modelはそれでも脳の中の過程はぜんぜん考えてない。個人差とかいろんなrandom effectを取り込んでいけばよいでしょうなんて思ってたら、Ratcliffの共著者だったTuerlinckxによる"HIERARCHICAL DIFFUSION MODELS"(pdf)ってのが出てきた。まだ読んでないけど、こんなかんじでいきたい。
書いててわかったぞ、つまり、Ratcliffの論文読んでるといつもなんか歯がゆい感じがしてたんだけど、つまり、データがショボイくせに複雑なモデル立ててなんとかしようとしてたからなのだな。驚くべきことに、Ratcliff論文ではsubjectのデータをmergeしている。そうしないと充分なデータ数が集まらないからだ。つまり、データとモデルのバランスが悪いからなのだな。これがさっき書いたことと繋がる。
(ついったに書いたことを元にして編集して作成した)