30人のクラスが2つありました。クラスAとクラスB。全員の握力を測定、クラスAの平均は30kg、クラスBの平均は35kgでした。握力はクラスBの方がクラスAより高い、と言えるでしょうか?
言えるでしょう。クラスAとクラスBの全員
の握力を測定し平均値を出しているのだから、握力の測定値の平均値はクラスBのほうが高い、とそのまま言えます。これは記述統計の話で、統計的推測における概念たるP値の説明をする際の例示としては、不適切でしょう。検定の文脈に持ってくるなら、それぞれのクラスの成員が、なんらかの母集団から抽出した標本(母集団の部分集合)と看做せる必要がありますが、特にそのような前提は無いようです。初めから、すぐ下にあるスタチン投与の臨床試験のような例を設定したほうが良かったと思います。
「真実は ‘クラスAとクラスBの握力が同じである’ としたら、握力がクラスAとクラスBでこれほどの違い(平均5kg以上の差)が認められる確率がp値なのです。
(強調はリンク先に従った)間違いです。P値は(それぞれのクラスの全員を、なんらかの母集団からの確率標本であると、前提しておきます)、
帰無分布――帰無仮説が正しい場合に検定統計量が従う確率分布――において、検定統計量の実現値、またはそれより極端な値をとる確率
です(P値は累積確率。また、どちら方向に極端かは、帰無仮説の立てかたによります)。読者の指摘を受けて、後での説明には修正が入っていますが、上で引用した箇所は誤ったままです。2020年1月4日13時42分追記:本記事を上げた時点で、リンク先には平均5kg以上の差
との修正が入っていますので、誤ったままとの指摘は不当でした。大変失礼いたしました。
p値とは、「本当は差がないのに、この研究で認められた程以上の差が出てしまう確率」の事をいいます。
※「本当は差がないのに、この研究で認められた程以上の差が出てしまう確率」の「以上の」を付け足しました(2019/1/3)。
↑修正後の文です。
p=0.03であれば、「こんなにクラス間で差があるのに、実はクラス間の握力が同じ確率は3%だ」ということです。
間違っています。P値を、帰無仮説が正しい確率と解釈する事は、一般には出来ません。言えるのは、帰無仮説が正しければ、実現値またはそれより極端な値が出る確率は3%なのだから、(誤りのリスクを受け入れて)帰無仮説が成り立っていないと判定しよう、というものです(それを判断する閾値が有意水準)。
参考文献
- 作者:縄田 和満
- 出版社/メーカー: 朝倉書店
- 発売日: 2003/05/01
- メディア: 単行本
はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―
- 作者:豊田 秀樹
- 出版社/メーカー: 朝倉書店
- 発売日: 2016/06/02
- メディア: 単行本(ソフトカバー)