読者です 読者をやめる 読者になる 読者になる

豊田秀樹氏による検定論批判――検定・データ解析・データマイニング

豊田秀樹『金鉱を掘り当てる統計学 データマイニング入門』という本から。示唆的なので、長めに引用。「1.1 統計学の憂鬱」より。※小見出しのゴシックはstrongタグで表現。ルビ、注は省略

検定論の憂鬱
 統計的検定論の理論的枠組は,アメリカで活躍した数理統計学者のワルドやレーマンの独創的な業績によって,1950年代に完成してしまっている。極論するならば,それ以後は,その理論の精緻化,および具体的な検定法の開発が続いているだけの状態ともいえる。
 ただし,検定法の理論研究の枠組みは,優秀な先人達が練りに練り上げたものなので,一朝一夕に参加できる研究課題ではなくなっていた。理論体系が洗練されたことによって,研究に参加するためには,長期にわたる数理統計学的な「修業」を必要とし,皮肉なことに,そのことが検定を作る側と使う側の明確な分離を生じさせ,実質科学的な要請が検定論に反映されにくい下地を作ってしまった。
 統計的検定論は,当初から,理論的枠組みそのものに欠陥があることが,モリソンやヘンケルなどから指摘されていた。
 たとえば2つのグループの母平均の差の検定を例にとると,そこでは「2つのグループの母平均は等しい」という帰無仮説を議論の対象とする。そして実際にデータをとって,2つのグループから標本平均を計算し,大きな差が観察された場合には,当然,帰無仮説を捨てて,母平均には差があると判断する。ところが,逆に,標本平均にほとんど差がない場合は,「2つのグループの母平均は等しいという仮説は捨てられない」という,もってまわった歯切れの悪い結果しか出せない。もっと有効桁を多く,精度良く観察をすすめるならば,厳密に2つのグループの母平均は等しいということはありえないからである。
 帰無仮説の棄却は,危険率を覚悟で仮説を実質的に捨てることであるのに対して,帰無仮説の採択は実質的に態度を留保することである。このような帰無仮説の棄却と採択が対等でないという性質は不合理である。加えて,常識的に考えても,実世界の異なる母数が互いに厳密に等しいということはありえない。つまり帰無仮説は,初めから偽りであることが明白であり,これは矛盾である。このような不合理と矛盾は,統計的検定全体に共通する性質である。
 それにもかかわらず,具体的な検定法の開発は,完成された研究方法の枠組の中でパズルを解くが如くに自己目的化していき,本質的な修正はされなかった。
 データ解析の現場では,データが欲しい。多くのデータを参照して安定的な分析結果を導きたいという願いは,常にデータ解析家の夢であった。そして現在,1日あたり,数ギガ(10億)単位のデータがネットワークやWWW(World Wide Web)を通じて,オンラインで企業に蓄積される時代となった。ハードディスクとメモリのコストが下がったお陰で,マグネットテープにデータを死蔵することなく,オンラインで分析家が扱えるようになった。
 ある意味で,データ解析の実務家が待ち望んでいた理想的な状況が実現されたのである。ところが検定論に決定的なダメージを与えたのは,逆説的ではあるが,データ解析家が待望していたデータの数であった。
 データの数が増すと,それに伴って「検定力」と呼ばれる確率がいくらでも1に近づいていく。検定力とは,帰無仮説が偽であるときにそれを棄却する確率である。帰無仮説は先に述べたように,元々,厳密には偽だから,データの数が増せば必ず棄却される。つまりオンラインで蓄積されたギガ単位の膨大なデータに対して,検定論は「高度に有意」という紋切り型の無意味な反応しか返せない。文字どおり(有意水準を示す)星を仰いでお手上げの状態になってしまう。
 残念ながら,ここでの記述には少しの誇張もない。数理統計学の理論体系の中で大きなウェイトを占めている検定論は,データの洪水に対して,あらゆる意味で無力である。
分布論の憂鬱
 データから計算された母数の推定値は,現実には手元に1個(1組)しかない。母数とは平均や分散や比率のように母集団の性質を表す数指標である。ここで仮に,もう一度データを取り直し,再び推定値を計算することを想像してみよう。もしその値が,1度目の推定値と全く違った値になるとしたら,現在,手元にある分析結果は信用できない。
 そこで,仮にデータを取り直して何度も推定値を計算したら,尺度上のどの辺りにどの位の確率で観察されるかを数学的に予め調べておく。これを「標本分布」という。統計量の標本分布がわかっていれば,手元の推定値に対して,より確かな評価ができる。
 平均も分散も比率も……,多くの統計量の標本分布は,標本数が多くなると正規分布で近似できる。この単純で有用な性質は100年以上前から知られていた。
 それに対して,中小標本に対する精密な標本分布を求めることは,標本平均の差の考察に利用されるt分布をゴセットが発見したことによって始まった。この分野は精密標本分布論と呼ばれ,χ2分布,F分布と偉大な分布の発見が続き,それらが様々な学問分野で成果を挙げ,20世紀前半に目覚ましい発展を遂げた。
 その後,精密な標本分布を記述できない中小標本における統計量に関しても,近似的な標本分布を導出する研究が続いた。エッジワース展開,コーニッシュ・フィッシャー展開を代表的な手法とする漸近展開の隆盛である。しかし漸近展開の複雑で煩雑な数学は,データ解析家をはっきりと遠ざけた。事実,あまり利用もされなかった。
 漸近展開の成果が示された論文には,いつ果てるともしれない数式が延々と続くことが多い。査読者すらも追計算するのが嫌になるほどの煩雑な公式を,実務家が使用するはずがなかった。
 探索的データ解析(EDA=exploratory data analysis)を標榜したテューキーが,分布論は研究が自己目的化し,データ解析に役立たないのではないかと,1960年代に盛んに批判した。しかし逆に,まだそれらは発展段階であり,実用に供される日が,そのうち来るかもしれないという理論家の夢を支える見方もあった。
 しかし,その日はついに来なかった。引導を渡したのは,1979年にエフロンによって提案されたブートストラップ法である。ブートストラップ法は,リサンプリング法は,リサンプリングと計算機による大量の反復計算という一般的なストラテジーによって,推定量の標本分布をオールマイティに提供する。
 ブートストラップ法を利用すれば,もはや個々の推定量の個別の事情を考慮する必要がなくなり,どの推定量に関しても同一の,しかも分かり易い方法で標本分布を導くことができる。したがって,世界中の大学図書館に大量に所蔵されている漸近展開の論文がデータ解析の実務家に利用される日はもう来ない。
 さらにブートストラップ法ですら,ネットワーク上の大量データに対しては苦戦し始めている。そもそも,数十万の標本数で数百の変数を扱う統計量のリサンプリングができるかという問題である。またリサンプリングできる程度のモデルでも,標本数は膨大である。苦労して標本分布を求めた結果,それは結局,正規分布なのではないか,しかもチラバリは,ほとんどないのではないか,という問題である。
 これは伝統的なブートストラップ法が,変化しない母集団を想定しているためである。ネットワーク上のデータは,大量なだけではなく構造が容易に変化する。今月集計したデータから推定した母数の標準誤差が(膨大な標本数のお陰で,仮に)小さくても,それが来月のデータに当てはまる保証がない。この問題は,後述する交差妥当化によって,部分的にではあるが解決される。
 これは,10代で修業に出て,大工の親方を仰ぎ見て,小突き回されながら必死にカンナのかけ方,釘の打ち方を覚えたのに,自分が若い衆を使う年代になったら,電動のカンナ,電動の釘打ち機が登場してしまった状態に似ている。それどころか,ろくすっぽ修業もしていないのに,ログハウスのキットをEメイルで海外に注文できる後輩が,若い衆の尊敬を集めてしまうことだってある。パラダイムシフトはいつも非情である。
豊田秀樹『金鉱を掘り当てる統計学 データマイニング入門』P23-28

豊田秀樹氏による、検定論に対する痛烈で本質的な批判です。10年くらい前のものですね。もちろん豊田氏は、検定を全く用いなくて良い、というような主張を持っている訳では無いと思いますが(豊田氏には、『検定力分析入門』という良書もある)、検定という方法が持つ根本的な問題を突いています。
豊田氏としては、検定を用いるにしても、実質科学的な効果の大きさや差を意識し、検定力分析を行った上でやるべきだ、のような主張であると、他著等の記述から推察します。つまり重要なのは、統計的検定の限界を知り、実質科学的な意味合いをよくよく考えて検定を行う、という事なのでしょう。
けれど、この辺の事情について、あまり入門的なテキストでは触れられません。何度も書いている事ですけれども。検定論への批判は何十年も前からあって、それ自体(帰無仮説を棄却するかどうかという事だけでは意味を持たない)はそこまで複雑では無く、説明されれば なるほどと思えるような事なのに、「書いていない入門書がある」事実が不思議だなあ、等と思っているのですね。著者が知らないのか、それとも、「後で教えればいい」と考えているのか。前者は論外として、後者とすれば、初学者には易しく無い気が。だって、それって、最初から知っていなくてはならない類の知識ですよね。やはり、統計学を実務的に応用したいという問題意識を持っている人にとっては、「違いの大きさ」が重要な関心事の一つであるから、検定によって帰無仮説が棄却されるかどうか、という所だけ説明したのでは、読者は置いてけぼりを食らう事になると思います。と言うか、自分自身がそうなりましたし。
豊田氏の表現の仕方については議論や異論があったりするかも知れませんが、心理統計・調査論系の有数の論客である所の豊田氏の主張は重要と考えたので、引用しました。少なくとも、検定論の欠点の指摘の部分は概ね妥当であるでしょうし、そこを押さえておくに越した事は無いであろうと思います。

金鉱を掘り当てる統計学―データマイニング入門 (ブルーバックス)

金鉱を掘り当てる統計学―データマイニング入門 (ブルーバックス)