« 比率のデータにエラーバーを付けたいんだけど | 最新のページに戻る | 今年の生理研研究会のテーマは「意識」。参加応募、ポスター募集始まってます »

■ Mutual informationとdecoding

さてさて4日連続投稿、のはずが遅れてしまいましたが前回のつづきです。これまでで最長エントリではないかと思います。

Mutual_informationとdecodingの関係ということがずっとあたまに引っかかってました。ひとつは以前のわたしのエントリ(「「補正」が必要なのは、モデル化が不充分である証拠 」)でmutual informationのupward biasについて書いたときに、最上さんのブログエントリ(「情報量の有用性、補正、ビニング」)でレスポンスをいただいていて、近日中にレスポンスしますと言ったきり放置中だったということがあります。ただそれだけではなくて、BMI関連につなげてencoding-decodingについてもっときっちり考えておきたいと思っていたのですけど、ずっと手つかずのままでいたということもあります。Kay et.alのNature 2008とMiyawaki et.al.のNeuron 2008についてきっちり読んでおきたいのですが、まだそこまでたどり着けてません。vikingさんのところで神谷さんとの非常に興味深いやりとりがあるのですが。

そういうわけで、今回はmutual informationのほうに重きを置いて、いろいろ読んで考えたことをまとめておきたいと思います。最上さんのエントリへの直接的返答というよりはそれに刺激されてエントリを作成したという側面のほうが強いです。直接的なレスポンスに関してはいちばん下で書きます。

んで、以前のわたしのエントリですけど、

超背伸びして書きました。怪しいところをwebで確認したりせずに書いた。もうしらない。厳しくせずに、褒めて伸ばしてほしい。
で、情報理論ってなんか嫌いなんですよね。っていうかニューロンの発火の解析関連での情報理論の応用ってのが嫌いってのが正しいのか。

というかんじで逃げをうちながら極論を言ってたのでかんじが良くなかったなあと思います。そのときはmutual informationそのものの話よりかは「補正」が必要な場合の例のうちのひとつとして挙げたつもりでいました。、昔勉強したとき("Spikes" MIT pressが出版された時代)の記憶をたどりながらなんでかなりあやふやな話でしたが。ただ、せっかくレスポンスがいただけたので、いい機会ですからmutual_informationのupward biasの問題について現状に追いついてみようと思います。というわけでいくつか論文を読んでまとめてみます。まずはこちらから:"Correcting for the Sampling Bias Problem in Spike Train Information Measures" Stefano Panzeri, Riccardo Senatore, Marcelo A. Montemurro, and Rasmus S. Petersen. J Neurophysiol 98: 1064-1072, 2007

まずは導入ですが、刺激sと応答rとのあいだのmutual information MI(s,r)は二つのエントロピーの引き算:MI(s,r) = H(r) - H(r|s)で計算できます(direct method)。それぞれのエントロピーはresponse entropy: H(r) = Σp(r)*log2(p(r))、noise entropy H(r|s) = ΣΣp(s)*p(r|s)*log2(p(r|s))として計算されます。Mutual informationのバイアスとは、けっきょくのところその元となるエントロピーのdownward biasを反映しています。つまり、試行数が少ないとき(rの場合の数K << 試行数Nを満たさないとき)、rの分布が正確に推定できないため、エントロピーが低く計算されてしまう。しかも、この効果はnoise entropyのほうが大きいから(試行数が少ないから)、mutual information全体としてはupward biasとなる、というわけです。

それでこれを補正するために使われるのがMiller-Madow補正(1955)というやつで、これをニューロンのスパイクの例に応用したのがPanzeri and Treves (1996)でした。これが最上さんが説明してくださった、p*log(p)をテーラー展開をして二次の項までを見たときの近似値の話でした。ちなみにPanzeri and Treves (1996)でベイズ推定をしているのはこの補正でのbin数(R, R_s)についてですので、わたしがイメージしていたベイズ的なmutual informationの推定というのとは少々違っているようです。

わたしがイメージしていたような、trial数が充分あることを仮定していないときのmutual informationの推定というものは

あたりのことだったようです。ここで前回の比率のベイズ推定のエントリの応用問題ですが、応答rはK binあるので多項分布です。多項分布の自然共役分布はDirichlet分布となりますので、これをpriorとおいてベイズ推定をします。あるk binでのスパイク生成率の最尤推定値がy_k/n (実データでnスパイクのうちy_kスパイクがk binに落ちた場合)だったとすると、priorをa_k/A (k binのcountをa_kとして、A = Σa_k)とおくと、あるk binでのスパイク生成率のMAP推定値は(y_k + a_k)/(n + A)となります。でもってnoninformative priorだとa_k = A/K (K=bin数)となるというわけです。(このへんはHausser and Strimmer "Entropy inference and the James-Stein estimator, with application to nonlinear gene association networks"(pdf) の説明を使いました。)

後者のNSB entropy estimation methodは、これをさらに改良して複数のDirichlet分布の重み付けみたいにしてやると推定が良くなることを見つけた、という話でした。これは元のPanzeri and Treves (1996)よりもbiasが少ないということで優れています(Figure 3A,B)。たしかに、良くも悪くもpriorの選択の善し悪しが推測の成績に大きく影響を与えるようです。

このような状況でPanzeri and Trevesが巻き返しを図ったのが、

Montemurro, Senatore and Panzeri "Tight Data-Robust Bounds to Mutual Information Combining Shuffling andModel Selection Techniques" Neural Computation 19, 2913-2957 (2007)

であるようです。この論文はnoise correlationのうちでcorrelationのない成分H_ind(r|s)を計算したり、刺激と応答をシャッフルしたH_sh(r|s)を使ってやると、NSB methodよりも優れた成績のときがある(Figure 3C, D)というものなのですが、なんか部分的な改善というかんじでわたしにはあまりピンと来ませんでした。

ともあれ、これがだいたいPanzeri et.al., JNP 2007の内容でした。


さてさてまだつづきます。直接バイアス問題に関わるわけでもないのですが、entropyおよびmutual informationの信頼区間のベイズ推定をしたという仕事があります:

前回のエントリで比率の推定についてMLEおよびベイズ推定によって推定のばらつき具合を評価して信頼区間を求めましたが、エントロピーも有限個のデータがどのbinに落ちるかという確率から推定されるものですので、同様なアプローチが可能です。エントロピーおよびmutual informationについて、多項分布のMLEから信頼区間を計算したもの、さらにMiller-Madow補正をしたもの(信頼区間には変化無し)、ベイズ推定で信頼区間を計算したものを提示しています。

Mutual informationも比率のデータと同様、信頼区間が付いたものとして扱うのが筋だと思いますので、こういう形で統計に乗っけてやるのがいいんじゃないかと思いました。そもそもmutual informationで出てくる数字のバイアスを問題にしていたのは、いったんinformation rateが計算された後にそれが確定した値として統計で扱われるというあたりに違和感を持っていたからだったわけです。(ROCがひとつの確定した値として一人歩きするのと同じ。) 思えば統計的な扱いとmutual informationとを対立させるというよりは、mutual informationという量を統計的に扱ってやるというのが正しいアプローチなのかもしれません。


まだつづきます。わたしがこのへんの論文を読んでいた動機の一つは、さいきんはやりのencoding-decodingのスキームと、mutual informationを用いた解析とはどういう関係にあるかという点でした。ちょっと話は飛びますが、encoding-decodingの話のほうでさいきん読んだレビューについて言及します:

Wu MC, David SV, Gallant JL. "Complete functional characterization of sensory neurons by system identification."(pdf) Annu Rev Neurosci. 2006;29:477-505.

これはvisual neuroscienceの分野で使われているreverse correlationとかspike triggered averageとかm-sequenceを使ったsystem identificationとかSVMを使った推定といった、刺激sからニューロンの応答rへの変換r=f(s)のfを推定するすべての研究についてMAP推定の一種として捉えてまとめたレビューです。MLEもpriorを使わないMAP推定の一種として捉えられるし、parametricなWiener-Volterra展開的なアプローチも、SVMを含んだカーネル法によるnonparametricなアプローチもモデル選択の違いとして統一的に捉えられることを示しています。このようにしてモデルを作成して、MAP推定(点推定)をしてやって、corss validationをしてやってモデルの善し悪しを評価する、というスキームが示されます。

このコンテクストの中では、mutual informationはモデル選択の善し悪しの評価法としてcorrelation coefficientなどと並列して扱われています(correlation coefficientと比べてmutual informationの方がよいかどうかはわからない、みたいな記載があります)。たしかにそうして考えてみると、mutual informationというのは統計解析の中でいうR^2に対応したものと考えることが出来るのではないでしょうか。データが有限ならupward biasを持っているという意味でも似ています。そういう意味では、mutual informationのオリジナルな意味、データの伝達の正確さの評価に戻って、mutual informationの定量化がなにをしているかということを考える意義があります。


さてこのようなencoding-decodingのスキームと、mutual informationを用いた解析とはどういう関係にあるか。その意味でJonathan D. Victorのこれらの論文に書いてあることは非常に役に立ちました。

Jonathan D. Victor. 2006. "Approaches to Information-Theoretic Analysis of Neural ActivityApproaches to Information-Theoretic Analysis of Neural Activity." Biological Theory 1:3, 302-316.

Jonathan D. Victor, Sheila Nirenberg "Indices for Testing Neural Codes" Neural Computation, December 2008, Vol. 20, No. 12, Pages 2895-2936

前者にはShannon entropyでできることの限界を強調してます。後者では情報理論的解析とベイズ推定とを並列的に扱って、どちらを使うのが刺激sから応答rへのcodingの問題(あるコーディングが使われている可能性を除外する方法)に向いているかの異論をしています。前者の論文にはこう書いてあります:

Fundamentally, the Shannon theory was designed for characterizing communication systems whose principles were understood, not for the "inverse problem" of determining the principles by which a system works from observations of its behavior.

それからこちら:

Moreover, the Shannon theory does not attempt to describe the relationship between a sensory or motor domain and neural activity (i.e., the nature of the neural representation) but merely provides an index of how faithful this representation is.

そういう意味では、direct methodのいいところは、刺激sから応答rへの変換に関して明示的にモデルを作らなくてもmutual informationを計算することによって、encodingの過程についてなんらか示唆を得ることができるという点にあるのでしょう。ただし、まったくassumption-freeなわけではなくて、応答rのbinの切り方とか、時間幅の問題とか、そういうところで隠れてcodingのモデルが入り込んでいるんじゃないかと思うのです。長々と書きましたが私の主張はなにかといいますと、刺激sと応答rとはものすごく違った構造をしているわけでして、その二つをつなげるmutual information MI(s,r)を作るために、非明示的にモデルのassumptionが入っているので、direct methodというものはなんか変なんじゃないのか、ということです。

Reconstruction methodのほうはmutual informationの計算という意味ではずっとクリーンです。MI(s,r)の代わりに応答rからdecodeした刺激s_estを使ったMI(s, s_est)を計算するわけです。刺激は自分でデザインできるからbinとかの問題もクリヤーだし、なによりsと s_estという、同じ構造のものを比較しているわけですから。もちろん、MI(s, s_est)はモデル化が悪ければいくらでも下がるので、lower boundしか決めることができない( MI(s, s_est)<=MI(s,r) )わけですが、reconstruction methodははモデル化の部分を上記のMAP推定的なスキームに任せて、mutual informationをモデルの評価に限局して使うということで、こっちだけにしといた方が良いんではないだろうか、という気がしてきたのです。

まあ極論ですが。実際には、刺激空間がよくわかっている低次視覚野ならばモデル化のほうからアプローチする方が効率がよいし、高次視覚野ではなるたけ最適刺激にassumptionをおかずに多くの種類の刺激を使って応答を見て、それを比較的応答モデルに対するassumptionの少ないmutual informationで評価してcodingについての示唆を得る、というのが現実的であるということなのでしょう。


さてここまで書いたところでPanzeriがQuirogaといっしょに書いたレビューが出ました。これについても読んでおきましょう:

Rodrigo Quian Quiroga and Stefano Panzeri "Extracting information from neuronal populations: information theory and decoding approaches"(pdf) Nature Reviews Neuroscience 10, 173-185 (March 2009)

現在の文脈で重要なのは、"Complementarities of decoding and information theory"のセクションなのですが、decodingはposteriorのarg maxをとっている(MAP推定をしていちばんもっともらしい刺激を推定する)のに対して、mutual informationはそれ以外にも情報があることを定量化している、という点を強調します。だから、mutual informationでは2番目にlikelyな刺激についての情報とか、ある図形が非常にunlikelyであることとかも持っているだろう、というわけです。

ただこれって、あくまでMAP推定に限局した問題だと思うんですけどね。posteirorの情報を持っているということは、確率密度分布を持っているわけだから、刺激26がmost likelyだけど、刺激29もそのつぎにlikelyだとかそういうことはdecodingの方でも言えるわけですよね。だからあまり説得的に思えないのですが。

どうやってdecodingとmutual informationを組み合わせるかという点では、decodingできたinformation MI(s, s_est)をdirect methodによるMI(s,r)との比率で評価する(「95%の情報がdecodeできている」といった評価ができる)ということが書いてあって、これはいいなと思いました。つまり、BOX3に書いてあることですが、われわれがdirect methodで計算しているmutual informationというのは応答rそのものではなくて、rをカテゴリー分けしたりいくつかの処理をしたf(r)なわけです。(さっきわたしはこの点を捉えて、非明示的なモデリングが入っている、と指摘したわけですが。) すると、

MI(s,f(r)) < MI(s,r)

が成り立ちます。そのうえで、reconstruction methodで使われるdecodingでも、けっきょくまったく同じ形でのrの変換(r -> f(r))が不可避なわけです(spike countのカテゴリー化であれ、時間windowの幅であれ)。だからdecodingによる逆変換をg()としておくと、reconstruction methodによって計算できるmutual information MI(s, s_est)では、

MI(s, s_est) = MI(s, g(f(r)) <= MI(s,f(r)) < MI(s,r)
MI(reconstruction method) <= MI(direct method)

がなりたちます。Upward biasの問題は依然つきまといますが、そういう意味では、decodingのperformanceの評価としてはいいんではないかと思います。この、direct methodとreconstruction methodで挟むという話自体は新しいものではなくて、私自身は以下のような論文で見ましたが、もっと広く使われてもいいと思いました。

あとはdecodingの成績をまとめたconfusion matrixを元にしてmutual informationでの「次元の呪い」を除けないか、みたいな話も。これもdecodingとmutual informationとを組み合わせる方法として有望だと思いました。

イントロの部分でdecodingとmutual informationがどんな風に"intrinsically related"であるかを示すことを目指す、ってあったんですが、ここについてはあまり満足がいくかんじがしません。

思うんですけど、どんな風に"intrinsically related"であるかって、ベイズ推定はp(s|r) ∝ p(r|s) * p(s)を使っていて、mutual informationはp(r)とp(r|s)を使っていて、共通のものを使って計算しているという意味でintrinsically relatedなわけですよね。それなら、ベイズ推定の計算から推定されたp(r)とp(r|s)でもってmutual informationを計算する、みたいなことをすれば良いんではないのでしょうか。p(r)とかは積分しないといけないわけですけど。ベイズ推定の方はcross validationが使えるけど、mutual informationのほうはそれに対応したものがない(shuffleしたもの?)というあたりが推定の問題でもあるわけだから、同じ確率密度分布を共有して計算することで推定の確かさも揃えて扱うことができるんじゃないでしょうか。ちょっともう素人がわかったような口をきいてるかんじのもの言いになってる気がするんで恐縮ではあるのですが。


さて、いろいろ書きましたが、もちろん統計解析と情報理論は深いところで繋がりあっているので、そのへんをもう少し勉強しなくちゃなあと思ってます。その意味では情報幾何での、mutual information - fisher information - KL divergence - maximum likelihood estimationあたりを包括して捉えられる図式を勉強しなきゃなあ、ということで「新版 情報理論の基礎」村田昇を読むのを自分の宿題にしてます。

ふと思い立って村田昇教授のサイトを見たら「少数データを用いた推定」というのを発見。KL情報量よりrobustなBregman情報量というものがあるらしい。きりがないのでこのへんまでとします。


さて、以上を踏まえて、最上さんのブログエントリ(「情報量の有用性、補正、ビニング」)に応答してみたいのですが、補正公式、ベイズ統計関連、binningなどについては以上ですでに言及しました。脳が尤度推定やベイズ推定をしてるという最近の話題には私も興味があるし、とくに意見の相違はないですね。この話題と解析としてのベイズ推定とを混同しないほうがよい、というのはたしかにそうだと思いました。ただ、これも深いところで通底しているような気がしてますが。

ベイズ統計の是非の話というのはじつは二層あって、[頻度主義 vs. ベイズ主義(モデルパラメータthetaを固定しているとするか、確率変数としてとらえるか)]という話と[priorを使わない(MLEまで) vs. 使う(MAP推定、ベイズ推定まで)]という話があるのではないかと思います。今回の話は後者でした。脳が確率密度分布を持っているってのはどちらかというと前者の話だったのではないかと思います。

後者の問題に関してですが、前回のエントリを作りながら思ったのですが、あるていど単純な問題にはベイズ統計はいらないし、それなりに複雑な問題で、priorを使わないと明らかに損しているようなモデルではpriorを使うことによって道が開けるわけです。それぞれの実験の状況で、利用可能なデータ量(maximum likelihood)と、利用可能なpriorとによって、どっちがより効率のよいモデルを作れるかによって決まるんではないかと思います。充分データが集めることができて、それで充分なforward modelを作ることができるならMLEのほうがよいし(priorを使うことによる不安定性を回避できる)、データ収得に限りがあるようなら、priorを使ったほうが推定の成績と効率は良くなる。でもって、脳計測の場合はしばしばデータ収得に限りがある状況のほうが多いのではないでしょうか。(「物理をやっていた者の思考として自然」というのは統計物理のように前者が妥当な状況でのことではないでしょうか。)

あと、ぶっちゃけ情報量の利用はプラグマティックな意味でも役に立ちます。

これ以降の部分での複数ニューロンのデータの集積に関する話は、データいじっている方の実感なので面白いと思いました。じっさい、わたしも解析してていつも悩ましい問題です。ただ、別のニューロンのmutual informationを足すというのはその意味上よいのでしょうか? つまりmutual informationの単純な足し算というのは、別々のニューロンが独立した情報を持っているときの情報量を意味しているわけで、そうすると、意味がありすぎると思うのです。一般的なsingle-unit recordingのデータで同時記録をしていないデータを集める場合、多ニューロンのmutual information量の集積は、それらの複数のニューロンのデータから抽出可能な(提示した図形に関する)情報量を計算することとして捉えることができます。そうすると、複数のニューロンのデータを足していけば、似た反応特性を持っている分、得られる情報量の増加は目減りしていくわけで、単純な足し算をするよりかはこういった反応選択性の相関を考慮した集積をしたほうがよいのではないでしょうか。ちょっと発想がdecodingに寄りすぎているのかもしれませんが。

あと、上記のPanzeri et.al., JNP 2007を読んだかぎり、direct methodによって、biasの問題に対処して意味のあるmutual informationを計算するためには、NSB methodのような現状でいちばん良いものですら N_s > 2-4 R (R: 全応答の場合の数)という縛りがあるわけです。そうすると、たとえば5ms windowで0/1 spikeに分類してtime window 8個分でR=2^8=256としても、N_s (刺激ごとの試行数)に500trial以上必要なわけですから、RSVP使うとかしてN_sを相当稼がないといけないわけです。いったんこういう数字を見てしまうと、direct methodを使ったmutual informationの計算というのはかなり敷居が高いんではないだろうか、と思いました。


以上です。長大になりすぎましたが、こうやって書いていくことでまえに考えていたときよりはずいぶんいろいろ明確になってきました。レスポンスしてくださった最上さんにお礼申し上げます。

コメントする (3)
# viking

僕のblog(しかもモメたエントリ)にリンクをいただいて大変有難いのですが、今回の件とfMRI mind-reading studyの件ってそんなに関連していますか? 工学系出身の身としては、fMRIでmind-readingというのはもっと泥臭い部分(良くも悪くも力業)の話だと思っておりますもので・・・あくまでも比較の問題ですが、むしろERP/MEGの逆問題推定の方が話題としては親和性が高いかもしれませんよ。

# pooneil

どうもおひさしぶりです。前者が「力業」に帰結する話なのかどうかはまだ私は勉強不足なのでよくわかりません。そこへ辿りつくための枠組みあたりをまとめているつもりです。ほんとうは立場上、そんなのんきなこと言っているようではいかんのですが。後者が親和性が高いことは二百も承知でして、それが以前にLFPのまとめを作ったりしたことと関係してたりします。

# viking

mind-reading methodのチュートリアル的な総説がNeuroImageに出てます。ご参考までに。

Machine learning classifiers and fMRI: a tutorial overview (Pereira F, Mitchell T, Botvinick M, Neuroimage. 2009 Mar;45(1 Suppl):S199-209)
http://dx.doi.org/10.1016/j.neuroimage.2008.11.007


お勧めエントリ


月別過去ログ