確率統計の本を読んでいて

しばしば思う事。初学者の疑問なので、容赦無く突っ込んで下さい。

例題などで、「○○人が属するクラスの身長は正規分布に従っている」みたいなのがあるけれど。

それって「間違い」ですよね? だって、有限の集合なのだから。
それは本当の所は、「正規分布的な分布になっている」とか、「正規分布で近似出来る」という事ですよね。
自然現象にしろ社会現象にしろ、我々が得られるデータは、あるメカニズムによって生成される。そして、それを生み出すものとして確率モデルなどを想定すると上手く現象を説明出来る事がある。中でも代表的なモデルは正規分布で、色々の現象は、正規分布で近似する事が出来る。
実際問題としては、現実の現象が、数学的な確率モデルに厳密に従う事は無いのだから、上手く説明出来るものとして近似的に当てはめて考えるのである。
というのが、今の所の私の理解です。で、そこの所を初学者は、いや、「初学者だからこそ」きちんと説明して欲しいのですね。上に書いた、○○人のクラスの身長は正規分布に従っている、という書き方にしても、え?正規分布って連続型の分布で確率密度関数がどうたら、てのじゃないの? ○○人の身長がそれに従うって変なんじゃ? てなる訳です。そして、悶々としながら次に進んで、結局よく解らん、となっていく。
初学者は、初学者であるが故に、書かれてある言葉を厳密に捉えようとする、という場合がありますね。だから、整合性が取れていないと思う所で詰まったり不安になったりします。「解っている」人は、適当に知識で補ったり文脈から読み取ったり出来ますが、これから勉強しようとする人は、なかなかそうはいかない。文脈が上手く取れない。
であるから、「初学者向けだからこそ厳密に記述する必要がある」場合もあるんじゃないかと思う訳であります*1
厳密というのは何も、数学的な証明や導出を書き尽くすとかそういう事では無くて、用語の定義をきちんと踏まえさせるとか、全体の整合性を取るとか、敢えて省略した部分はその旨明記するとか、そういう心配りの事です。誤魔化さない事。

たとえば、「同様に確からしい」とは一体どんな意味なのか、とかね。本当は、ここら辺の説明だけで5ページくらい割いても構わないと私は思っています。どうしても初学者は、実際の現象に引きつけて考えようとしてしまいますから、そういった部分の、ある種哲学的な所は疎かにして欲しく無いと思うのです。

箱の中に入った玉が、それぞれ同確率で取り出される事を、「同じ大きさの玉が入っている」とか、そういう風に説明する場合がありますよね。こういうのも、あれ、別に大きさが一緒でも区別出来ないとは言い切れないんじゃ?みたいに考えてしまう場合がある。本によっては、区別が出来ない、と書いてあったり、手触りでは解らない、という情報も入っていたり、よく混ぜる、という説明だったりしますけれど、ここなんかも、「よく考えると」納得がいかなかったりします。他にも無数の条件があるんだから、同じ確率になるとは言い切れないんじゃないかなあ、て。これは、確率モデルを実際の現象を通じて解りやすく説明する「工夫」だと思うのですが、それが却って理解を妨げる事があるのではないでしょうか。と言うか、私がそうだったのですね。「それはそもそも説明されるべき現象なのに、その現象が厳密になんちゃら分布に従うと考えるのは変じゃないだろうか」と。
実際、1/2の確率で表と裏が出る硬貨がある、と言っている時点で、それは現実の話とは離れたものであるはずです。その段階では既に、「現実の硬貨の話はしていない」。そこをきちんと教えて欲しいのですね。気の利いた本では、「仮想的」「理想的」「仮定」みたいな事がちゃんと注意として書いてあります*2

検定の話もそうです。普通、統計の本では、帰無仮説を設定して、それから得られる検定統計量の確率分布(標本分布・帰無分布)を考え、実際に得られた検定統計量より極端な値が出る確率が事前に決めた確率より小さければ、帰無仮説が誤っていると看做す、と説明されますが、そこでも、「そもそも実際の現象が帰無仮説に厳密に従っている事があるの?」とか、「差がゼロという仮説を検定すると言っても、実際に差が0の訳が無いのでは?」といった疑問がすぐに、初学者であっても出てきます。ところが、この辺を説明しようとする本はそんなに無い。なぜか、統計の勘所を教える的な本で採り上げられたりする訳ですが、こういう所って、「そもそも初学者に対して教えておくべき」事柄だと思うのです。だって、統計解析って、実際の現象をどう解析するか、という問題意識があって勉強するのですから。なのに、出てくる疑問に対する答えが全然無くて、なんだか解らないなあ、となる。で、「有意」の意味もよく解らずに、それが見出されば何か決定的な証拠なのだ、という風に考える人も出てきたり*3

とまあ、この辺に懊悩する人って結構多いんじゃないかと思うんですよね。特に、私のような独学者だったりすると。詳しい人が身近にいるとか、良質な教科書に出逢えるか、というのはとても重要な事なんじゃないかと思います。

*1:啓蒙書・普及書の類の記述の不正確な部分を、よく知っている人が指摘してくれるのは非常に大切な事

*2:たとえば、『基本統計学[第3版]』(P53など)では、「サイコロは正常に作られていると仮定している。」「この仮定はあくまで人為的な仮定であって科学的な法則ではないことに注意する。」とあります(強調は引用者)。

*3:統計の本すら読まずに云々する人は論外ですけれども