P値・帰無仮説・有意

「統計的有意」には弊害があるとして800人以上の科学者が反対を表明 - GIGAZINE

有意差検定では実験の計測結果から「P値」と呼ばれる確率変数を計算します。例えば、実験結果が起こりえる確率が95%以上である場合は、P値は0.05以下になります。慣例的に科学者は「P値が0.05以下、つまりこの事象が起こりえる確率は95%以上ならば、この実験結果は偶然ではない」と判断し、「有意である」としていました。

だいぶん、不正確だと思います。

まず、P値とは、

帰無分布において、検定統計量の実現値、またはそれよりも極端な値が出る確率

の事です。帰無分布とは、

帰無仮説が正しいと仮定した場合の、検定統計量が従う確率分布

です。

検定統計量とは、

統計的検定に用いるように構成した、標本統計量の一種

です。それは、母集団から無作為に抽出した確率変数列(標本)を独立変数とした関数(標本統計量)であり、それ自体が確率変数です。

帰無仮説とは、

母集団が従う確率分布(母集団分布:母集団から大きさ 1 の標本を抽出した場合に標本が従う確率分布)の特性値についての言明

です。たとえば、母平均:0といったものです。ある薬を使えば痩せるか、という事を考えるとして、薬を飲めば(飲まない集団に較べ)集団の体重の平均値が減る、というのを知りたいのですが、基本的な統計的仮説検定は、それを否定する、差が無いという仮説を立てます。
帰無仮説は、数理的な仮説です。科学的な検証対象である、薬などに効果があるかを否定する効果が無いといった仮説ではありません。薬に効果が無ければ体重の平均値は変化しないであろう、との推論から、数理的な(ここでは確率分布に関する)仮説を立てます。

帰無仮説は母集団の特性値についての言明ですが、帰無分布は標本統計量が従う分布:標本(抽出)分布である、のがポイントです。

  • 母集団が従う分布
  • 標本統計量(検定に用いる標本統計量:検定統計量)が従う分布

をきちんと区別します。

P値に戻ります。ここまでを踏まえるとP値とは、

母集団における特性値に関する仮説が成り立っているとした場合に検定統計量が従う確率分布において、検定統計量の実現値(実際に得られた標本から算出された、検定統計量の値)または、それよりも極端(元々知りたい事が、以上であるか、以下であるか、あるいは両方であるか、によって、上側か下側か、どちらに極端かは変わります)な値が出る確率

の事であると言えます。

P値が小さい場合は、

帰無仮説が成り立っているとすれば、起こりにくい事が起きた

と判断します。母集団における平均がゼロである、という帰無仮説の場合には、その仮定のもとでは起こりにくい事が起きた(小さいP値が得られた)ので、帰無仮説は成り立っていないのであろうと考えます。その事によって、

間接的に、帰無仮説を否定する仮説を採択する

と考えます。その、帰無仮説を否定する仮説を、対立仮説と言います。つまり、科学において確かめたい仮説は、対立仮説のほうです。それが成り立っているかを考えるために、対立仮説を否定する仮説:帰無仮説を立てます。

どのくらいP値が小さければ対立仮説を採択するかという事を考える場合、ある種の基準を設定します。たとえば、P値が5%以下である場合には、対立仮説を採択する(つまり、帰無仮説棄却)、といった具合です。このような基準を、有意水準と言います。そして、P値が有意水準以下である時、有意であると判定します。すなわち有意とは、

P値が、あらかじめ設定しておいた有意水準以下であった

事を簡潔に表現するものです。

P値が小さい事は、

帰無仮説が成立していない

事を保証はしないです。あくまで、

帰無仮説が成立しているとすれば起こりにくい事が、実際に起きた

という所までしか言えません。確率的な表現に留まります。したがって、P値が小さく対立仮説を採択した場合も、常に誤っている可能性を持ちます。有意水準は、その誤っている可能性を一定の所に抑えておく基準、という訳です。

ここまでご覧になって、なんだこれ、訳わからん、となったかたがおられると思いますが、そうなるのは当然です。これらの概念は、日常的な知識からは全く想像出来ないような、かなり特殊なものです。そもそも理解しにくいものなので、解らないのは、しようがない事なのです。理解するには、きちんと確率・統計を勉強する必要があります(私も、ほんとうに厳密に解っているか、というとそうではありません――どこまでを厳密と考えるか、にもよりますが)。

GIGAZINEの記事に、次のような反応がありました。

「p値が0.05以下」とは検証したい仮説と対立する仮説(帰無仮説と言います。例えば「AとBには因果関係が無い」等)に現象が支配されてる場合、得られた結果が出る確率が5%以下であると判定する事を言います。帰無仮説のままだと起きる確率が5%以下なので偶然ではない(可能性が高い)と考える訳です。

かなり間違っています。列挙します。

  • 帰無仮説対立する仮説と呼ぶべきではありません(帰無仮説を否定するものを対立仮説と表現するから)
  • AとBには因果関係が無いというようなものを、帰無仮説と設定する事は出来ません。帰無仮説は数理的な仮説(母集団の特性値に関する言明)ですし、因果関係に無いというようなものは、検定のようなやりかたでは評価出来ません
  • 得られた結果が出る確率が5%以下ではありません。P値は、検定統計量の実現値、またはそれより極端な値を取る確率(累積確率)です。連続型の標本分布を考えれば、ある実数値を取る確率はゼロです。この間違いは、統計の本でもしばしば見かけます

参考文献:

心理統計学の基礎―統合的理解のために (有斐閣アルマ)

心理統計学の基礎―統合的理解のために (有斐閣アルマ)

身近な統計 (放送大学教材)

身近な統計 (放送大学教材)

基礎課程 数理統計

基礎課程 数理統計