« アナウンス and 来訪者プロット | 最新のページに戻る | 週末は人少ない説 »
■ Post-hocな解析
ガヤ、コメントサンクス。6/3の後半については直接ガヤに宛てたものではなかったのだけれど(今のところこの日記でですます調で書くと、誰かへのコメントへの返答のように見えてしまうようです)、コメントサンクス、アゲイン。
でもって、
gaya>> いわゆる世間一般でいう“多重比較問題”の意味(定義?)と照らし合わせて正しいんだろうか
これについてはもうちょっとポイントがわかるようなわからないようななので、わかったら教えてください。
以下のことをガヤが想定しているとは思いませんが、ついでに書いてみます。
いきなりデカめな話ですが。科学論文は、基本的には後付けでしか実験結果と解析を提出できません*1。だから恣意性や仮定が混ざる解析をできるだけ排除するように向かわなければなりません。この点でそもそも実験計画というものはデータが取れてからpost-hocにやるものではないので、その点で実験計画を使うのはおかしいというところはあります。ある種の大規模な調査(Fisherの農場での試験のような)のときにのみ受け入れられる性質を持っているとはいえます。ただ、さすがにそれは厳しすぎるので、実験結果が得られた後に恣意的な解析が出来るものは避ける、というのが現実的な手ではないかと思います。
たとえば、現状でも使用が受け入れられないものに、orthogonal contractがあります。例を挙げますと、control-condotion1-condition2という三つの因子があったときに、1-way ANOVAをやった後にpost-hocの多重比較をやらずに、[control] vs. [condition1 and contdition2]というふうな二つの項にsum of squareを分解して二つの項を比較する、というものです(三つの因子での多重比較が有意にならなくても、こっちは有意になる可能性があります)。このばあい、実験計画の段階で三つの項を上の二つの項に分けることが決まっていればよいわけですが、もしかしたら結果次第で[control and condition1] vs. [ contdition2]や[control and condition2] vs. [contdition1]に都合よく変えてしまうこともできるのです。我々は後付けでしか統計解析したものを論文として呈示できないですから、そのようなorthogonal contrastを実験結果が出てきてから論文に書いてもダメだと思うのです。
これが、後付けで都合のよいところだけ持ってくることが可能な解析の例です。ほかにもいくらでも挙げられますが、たとえば、動物ごとの結果がちゃんとconsistentであるかどうか示していない論文をJournal of Neurophysiologyから削ったら、どのくらい雑誌が薄くなることでしょう。
これらのことはつまり、論文を書く人は、自分に都合のよいことだけ書いて、都合の悪いことは書かない、ということになりがちであるという根本的な問題なのかもしれません。こういうところにだまされないように論文が読めるようにならなければならないし、その意味で本当に重要でかつ信ずるに足る結果を出している論文は私の分野では非常に少ないと思います(だから、fMRIのデータを集積してデータベースを作る、というような計画(先月のNature Neuroscience参照)については私はけっこう悲観的です。)。
それからもうひとつの大きな問題は、実験結果というものはnegativeな結果については論文にならないため、positiveな結果へのbiasが生まれるということです*2。つまり、一般的にはわれわれはα=0.05で統計をやっておりますが、ある同じことを検証するグループが20あったとします。じつはこのテーマは有意ではなかったのです。19個のグループではnegativeな結果が出ます。彼らは論文を書きません。残りのひとつのグループではpositiveな結果が出ます。α=0.05なのだから1/20でpseudopositiveが出るのもあたりまえです。そして彼らは論文を書きます。そうしてこの論文は他の論文に紛れ込んでしまいます。この問題はどっかで扱われているはずで、なんか名前がついているはずです。メタアナリシスや実験データの集積の問題とも関わっていることでしょう。
また、binごとの解析の多重比較問題というのは要するにこれです。そして、なんで対ごとの比較をせずに多重比較しなければならないかといえば、このようなα値の問題があるからです。というわけで、このようなα値の問題こそが多重比較問題だというのが私の理解です。多群の中から対の比較を持ってくるのもα値の問題であって、そのような多重比較の前にANOVAをやっておかなければならないことを考えると、time binごとの検定でも形式的には同様なはずで、、全体として有意であるという保証を持ってきてから行う必要があるようにも思えます。そもそもなんでbinごとの有意度検定がいけないか、それは100binでα=0.05で検定すれば5binが有意になるのはあたりまえだからでありますが、これはつまり実験結果としてあるbinで有意だったことを示すとき、それは単にほかの有意でなかったbinを無視している、ということであり、post-hocに有意なところだけ見つけてきてそこに注目して都合悪いところを無視する、という上記の問題でもあるということです。そこでどうすればよいか、それが私がこのあいだ提案したように、時系列データ全体を説明できるようなモデルを作ってやる、という方向へ行くべきなのではないか、というわけです。だんだん[そうであったほうがよいこと]と[これを間違えてはならないこと]との境界があいまいになってきている感じはするのだけれど。
長くなりました。元に戻ります。こうやって書いてみると、問題は[実験計画をあらかじめデザインする]ということと[GLMなどを使って実験結果をモデル化してやる]ということとの関係にあるようです。統計には実験計画的な側面とモデル化の側面とが混ざっています。例を挙げましょう。実験デザインの段階で因子と被験者を割り当てるrandomizationをするところは実験計画的な手法です。ここでは因子と被験者とのあいだにinteractionがないという仮定のもとでは効率的に因子の効果を見ることができるようにデザインされています。しかし実際にそのデータが出たときには、それをGLMなどでモデル化するのにその因子と被験者とのあいだのinteractionの項を入れてやって、それが有意でないことを確認する必要があるでしょう。しかししばしば前者の実験計画の段階の仮定を後者のモデル化のところにも適用してしまう、というわけです。
うーむ、こういうことはどこかで議論されているとは思うんだけど、そしてここで書いたことが正しいのかもよくわからないのだけれど、出してしまおう。
*1:論文を読んでると、introductionでこれこれこういう事を検証するために我々はこれこれの実験を行った、なんて書いてあるわけですが、著者はそれをすべての実験が終わってそれをまとめた後に論文を書き、上記の文を書くわけで、読者からはそのような研究動機が本当なのかを確かめることは出来ません。たまたま面白い結果が出たからって、たまたま面白い結果が出ました、なんて誰も書かないわけで、前からそのことを深く考えたかのような顔をして論文を書くわけです。これは良し悪しではなくて、もう、構造的に後付けが運命付けられているのです。
*2:Natureかなんかの記事でnegativeなresultをshareする、というような動きについて読んだことがあるけれど、それはこの問題と関係しています。