確率分布と無作為抽出

たとえば、ある国の人々全員(これを母集団とする)の身長を考える。
それを測定し記録して、ある形状を持ったヒストグラムを描く事が出来る。
この時、母集団の身長はそのような確率分布に従う……とは言えない。何故なら、それはあくまで、母集団に属する要素が持っている属性の度数分布なのであって、そのままでは確率がどうこうとは言えないから。
ここで、母集団に属する要素にID(当然それはユニークなものとする)を付与し、その要素が持つ属性の一つとして身長を考える。いまは、その要素は球状の物体であるとしよう。つまり、その物体には固有のIDがあり、身長という、正の実数で表される属性を持つ、とする。
前もって、この身長からこの身長まではここに入る、という仕切りがあって、そこに、いま考えている球状の物体をしまっていく、と想定する。そうすると、ある幅に入る身長の人が多ければ、そこに積まれた球状の物体は高くなっていくし、少ない所は低くなる。IDは固有だけれども、それぞれが持っている属性は同じになっても構わない。たとえば、身長を1cm刻みで記録していくと考えれば、「同じ身長」の人が複数出る可能性がある。
そうして出来上がったものを遠目で眺めれば、それは、いま着目している集団の身長というものの「分布」の仕方を幾何学的に表現したものと考える事が出来るだろう。
確率分布とは、確率変数とそれが出現する確率との対応を示したもの。横軸に確率変数をとり、縦軸に確率なり確率密度なりをとれば、その分布の様子をグラフィカルに表現する事が出来る。
じゃあ、先ほど考えた、球状の物体が形成したような形状は、その母集団が従う確率分布を表していると言えるのか……言えない。先ほど考えた形状というのは、あくまでも、ここからここまでの身長にはこの人達が入る、という様子を示したもので、それだけでは、確率がどうこうとは言えない。出現のしやすさなどとはそれは無関係なのだから。
先ほどは、母集団に属する人を球状の物体に見立て、それにIDを付与し、各人の身長という量をその物体の属性と考えて、全体の様子を幾何学的に表現出来ると考えた。ここで、その物体の集まりを「バラバラ」にしてみよう。つまり、各物体をIDを基準にして一列に並べる、というような様子を想像する。表計算ソフトを使った事がある人ならば、二列あるいは二行の、「ID・身長」というデータの並びを思い浮かべると良い。
そうすれば、「IDは全て異なるが、身長の値は同じものが並ぶ可能性がある」という様子が想像出来るだろう。「区間」で考えると、「同じ区間に入る値が複数ある可能性」と見る。
ここで、母集団の成員数を N で示し、母集団の要素に付与されたIDは、1から N までの自然数であるとする。また、「1から N までの自然数が全く同じ確率で出現する乱数」を考える。そして、その乱数を生成し、出現した乱数と一致したIDが付与された個体に注目するとすれば、その各個体が出る確率は、「同様に確からしい」と言える。
次に、乱数生成によって採られた個体の持つ身長属性に着目する。そうすると、その値の出方は、「同様に確からしく無い」。何故ならば、ある「個体が出る確率」は同様に確からしいけれども、それらが持つ「属性の値」は重複する、あるいは同じ区間に入るものが複数出現する、という可能性があるから。
という事は、母集団に属する個体を一様な乱数の出方に応じて採るという事を考え、結果出現した個体の持つ身長という量に着目した場合、その身長という量は、「何が出るかは解らないがどの値が出やすいか(出にくいか)かは解る」ものだと言える。そして、その出やすさ出にくさは、先に考えた球状の物体の描く形状で示せるだろう。すなわち、その物体が高く積み重なる値あるいは区間の出る確率は大きく、それが低い所の出現する確率は低い、と看做せる。
確率分布というのは、理論的に考えられるものだけれども、現実に存在する集団の成員が持つ属性(の値)の集まりというのは、それだけでは確率分布とは看做せない。どこからどのように要素を採るか、という事を考えないといけない。母集団の成員の属性値が描くヒストグラムを確率分布のように扱いたいなら、その成員を採るという所に確率的な操作を入れなければならない。たとえば、コインを投げて出た面を見る、という事を考える場合は、その出る確率は、よほどおかしな形状になっていたりわざとらしい投げ方をしなければ、大体 1/2 辺りであろうし、何回も投げる時も、それぞれの投げが互いに、面の出る確率に大きな影響を与える事は無いであろう、というような、経験的あるいは自然科学的な想定が出来ると考えられるだろうけれども、国の成員を母集団と見てその要素の持つ量の分布に着目するといった場合は、人間の広がる空間的な範囲などから、そのままでは、コイン投げのごとくシンプルに確率的な視点を導入する事が出来ない。比喩を使えば、味噌汁や、粘度の高いシチュウなどをしばらく置いた時の味であるとか材料であるとかの様子は「一様では無い」という事。実際、国の成員全体の様子というのを俯瞰して見る事は出来ない。いや、もし見る事が出来るのならば、それ自体を観察すれば良い話なのであって、いちいち確率云々と言う必要は無い。いま考えているのは、巨大な規模な集団の持つ属性値であって、確かにそれはある分布をするのだろうけれども巨大過ぎて調べきれない、という場合なのだから。
その属性値自体の全体は知る事が出来ないけれども、要素に通し番号をつけて、それを確率的に扱う、というのは、属性値全体を直接調べる事に比較すれば、圧倒的に容易に出来る。先に見たように、成員にIDをつけて、それぞれの成員の出現する確率が全て等しくなるような手順を行えば、その集団から1つの要素を採りだすという操作は、「ある確率分布に従う確率変数を出現させる」という事に相当する。そうして、目標とする母集団の属性値の集まりを確率分布として扱うような操作を行って初めて、「母集団からいくつかの個体を採り出して、その様子から母集団のあり方を推測する」という事が可能となる。いくつかの個体を採り出して新たな量を計算するなりすれば、その量自体が、ある確率分布に従う。そして、実際に得られたその量から、母集団について推測する、という寸法。
先ほど、国の成員に通し番号をつけて管理する事は、全体の属性を知る事よりは簡単だと言ったけれども、それでもそういう事が出来るには、その社会にそれなりの備えが無くてはならない。社会に属する成員の名簿を用意出来る事は、そういう事の可能な制度が整備されているのを前提する。実際に用意出来た名簿を「枠(フレーム)」と言ったりするが、その枠がきちんと用意出来るだろうか、というのがこの種の問題の重要な点。

                                                • -

という夢を見た。
実在する集団の要素が持つ属性の値の分布を考える時、それを確率分布として扱って良いのか、という所を最近よく考えていて。コイン投げなどはたぶん、その自然科学的な背景などから、まあベルヌーイ試行的に扱ってもそんなにズレは無いんだろうな、という気はするけれども、たとえば身長の分布なんかは、「観察する時の空間」が、つまり、観察する人の見る事が出来る範囲とか、その人が存在する範囲とか、そういうものが恐らく相当に影響するだろうな、と考えられる訳で。
だから、その成員に通し番号をつけて、その成員がドローされる確率が一様になるような操作を加えないと、母集団の属性値の描くヒストグラムを確率分布的に扱ってはならない、と。ここら辺は、特に社会調査などで重要になってくるのでしょう。ギャラップの敗北と勝利、なんかは象徴的なエピソードでしょうか。
母集団自体が、ある理想的な上位母集団からサンプリングされた1つの標本(つまり実現値)である、と考える事も出来るだろうか、とかも思いましたが、面倒くさくなりました、はい。
以前、スープや味噌汁の喩えを見て考えたのは、「社会は大き過ぎて、スープのようにかき混ぜる事は出来ないけれど、社会の成員に付与した番号をかき混ぜる事は出来るな」という事で、それが、サンプリングフレームから乱数を用いて標本を抽出する、という操作と対応している訳ですね(ですよね?)。
前々から、実体的な母集団を、説明を端折ってそのまま確率分布的に扱っているような記述に納得が行っていなくて。実在していて静的な集団の持つ属性の分布を直ちに確率論的概念として考えて良い道理は無いのでは、と思ったのでありました。
いま、静的な、とか、社会的集団について限定して言っているのは、たとえば、工場で生産される工業製品のごときはまた少し考え方が違うだろうな、と想定しているからですね。あるロットを確率変数発生装置と考えて良いのか、とかですね。品質管理方面とかとの絡みで。これは、社会調査的な文脈のサンプリングとは、かなり事情が異なるものですし。
以上、敢えて余り推敲せずに出してみた、雑文乱文悪文、でした。