標本や母集団などの、統計用語の説明

発端

note.mu

たぶん、こちらの記事に端を発する話題です。大まかに言うと、WEB上のアンケートは、新聞社等が行う調査に較べて性質が劣っている、というような記事です。それで、ここについた はてなブックマークが↓

はてなブックマーク - ネットのアンケートは世論調査の名に値しない|はる/みらい選挙プロジェクト(情勢分析ノート)|note

ここに、色々の意見が寄せられているのですが、このブックマークについて、はてな匿名ダイアリーで、次のような指摘がなされました↓

anond.hatelabo.jp

簡単に言うと、母集団標本などの用語について誤りが見られる、という指摘です。
この匿名ダイアリーの書きかたは、煽るようであまり好ましく無いと思いますが、それはそれとして、確かに、用語を混同しているものがいくつか見られました。

最初の記事に関して、togetterでも意見がまとめられていました↓

togetter.com

ここのコメント欄でも、用語の混乱が見られます。

このような話題は、専門分野で定義されている用語が関わってくるので、そこを踏まえておかないと、やり取りが全く噛み合わないものとなる危険があります。そこで、僭越ながら私が、簡単に用語の解説を試みたいと思います。

説明には細心の注意を払いますが、もし誤りや不適切なものがあれば、ご指摘・ご批判を頂ければ幸いです。

用語の解説

母集団と標本

いわゆる世論調査などでは、有権者はどのような意見か、どの政党を支持しているか、といった事が調べられます。この時私達は、有権者の意見の傾向などを知りたい、と思っている訳です。このように、調べたい対象全体 の事を、母集団(population)と言います。

当然、母集団の全数を調べる事が出来れば、全体の傾向が解るのですが、実際的な問題、たとえば時間や費用などのコストの制限から、全体を調べ切れない場合があります。全有権者を母集団とすれば、そこに属する人数は一億以上にもなり(たとえば、総務省|衆議院議員総選挙・最高裁判所裁判官国民審査結果 には、衆議院議員総選挙における有権者数の資料があります)、それを調べ尽くすというのは、全く現実的ではありません。
また、工場から生産される工業製品といったようなものの場合には、母集団に属する物の数は、理論的に無限と捉えられ(情況が一定の所から無限に製品が出てくる、というような事を仮想する)、その場合には、そもそも調べ尽くす事は原理的に不可能となります。
このように、母集団に属するものの数が有限の場合、それを有限母集団と言い、有限では無い場合、無限母集団と言います。

母集団に属するものが多い場合、それを調べ切れません。そこで、母集団から一部を採り出し、そこから得られた内容から母集団の様子を推測する事が試みられます。この、採られたものを標本(sample)と言います。また、標本を採り出す事を、標本抽出(sampling)と表現します。

ところで、先ほど、母集団に属するものの数の話をしました。この数の事を、母集団の大きさ(size)と言います。標本のほうも同じように、大きさ、と表現します。母集団と標本それぞれで、

  • 母集団の大きさ・母集団サイズ
  • 標本の大きさ・標本サイズ・サンプルサイズ(sample size)

と言います。ここを見て、なぜ大きさと表現するのか、ではいけないのか、と思われたかたもあると思います。母集団も標本も、それ自体は集合であると考えます。そして集合論では、集合に属する要素の数を、大きさ(size)と表現します。ですから、それぞれに属する要素の数の事を、大きさと表現する訳です。
これを踏まえると、母集団の数標本の数と言うと、それは要素の数では無く集合の数を表していると看做されます。つまり、ある母集団から10個の要素を抽出したとすれば、

  • 標本数(number of sample):1
  • 標本の大きさ(sample size):10

このようになります。ここを区別せずに使っているテキストは多くありますが、きちんと分けて考えたほうが、知識が整理出来ますので、押さえておくのが良いでしょう*1

このように、着目している母集団から標本抽出し、そこから母集団の様子を調べる事を、標本調査と言います。また、工学などの方面では、母集団から要素を抜き取る事から、抜き取り検査と言います。

※母集団をドメイン(domain)とする文献もあります
林知己夫氏などは、ユニバース(universeと母集団の区別を強調します

確率抽出(無作為抽出)

標本調査をおこなう際、たとえば、有権者の一部を調べて支持政党の傾向を考えたいという場合、仮に、都道府県ごとに顕著な割合の違いがあるとします。そして、標本が、いくつかの県に限定して抽出されたとしたらどうでしょうか。
この場合、有権者全体では〇〇党が優勢であるのに、標本では△△党支持の割合が多い事から、全体でも△△党支持が多いであろう、というような、誤った推測をおこなってしまいかねません。

これは、母集団に属する要素が採られる可能性が一定では無い、という理由によって起こります。つまり、たとえば熊本県だけから標本を抽出したとすれば、それは、熊本にいる有権者が抽出される可能性が大きかった、というのを示します。これでは、良い推測は出来ません。

そこで重要なのが、母集団に属する要素が採られる可能性が同じになるように抽出する事です。そうすれば、北海道に住む人も香川県に住む人も、同じように採られる可能性を持つので、結果として、標本から得られた様子が、全体の傾向から外れにくくなる事が期待出来ます。具体的には、乱数表やコンピュータなどを利用して、要素が同じ可能性(確率)で採られるようにします。そしてこのような操作を、確率抽出または無作為抽出、あるいはランダムサンプリング(random sampling)と言います。

標本抽出枠・台帳

ランダムサンプリングの話をした時に、次のような事を考えたかも知れません。つまり、

有権者全員が同じ確率で採られるようにすると言うが、有権者全体はどう把握されるのか

と。ここで、有権者全員のリストや名簿を用意する事が重要である事が分かります。そして、このようなものを、標本抽出の台帳枠(frame)と呼びます。用語としては、標本抽出枠(sampling frame)などが使われます。
ここから、有権者の傾向を調べるというような、母集団が極めて大きい場合は、その成員の名簿を用意出来るような、社会制度が整備されている、といった事が重要であるのが解ります。そして、実際的には、

  • 調べたい対象全体(標本の結果を一般化したい全体)
  • 実際に定義出来る標本抽出枠

これらを考える事が重要です。ここで、前者を特に、目標母集団(目的集団・標的集団:target population)などと言う場合があります。そうすると、研究上想定している母集団と、実際に用意出来た枠とにズレが生ずる事を考えるのが重要です。

ところで、先に、確率抽出の話をしましたが、もし調査内容が、面接によるものだったりする場合、母集団が巨大であれば、その成員に通し番号をつけて枠を作り、そこから標本を抽出するとなると、コストが莫大にかかったりします。ですので、まず母集団をいくつかの層に分け、それから市町村を確率抽出してから標本を採る、といった方法が採用される場合があります。

母数

有権者を調査する場合は、たとえば支持政党の割合を知りたい、などの目的があります。この時に着目しているのは、母集団における支持政党割合といった指標です。そしてこのような、母集団における特性値を、母数:parameterまたはpopulation parameterと言います。つまり、標本調査は、標本抽出によって得られた、標本における指標から、母数を推測するのが目的である、と言えます。

ちなみに、母数を分母の意味で用いる場合があります。たとえば、標本における支持政党の割合を算出するという場合、その分母、つまり標本の大きさの事を母数と表現するのです(母集団の大きさの事も)。これは明確に誤った用法ですので、気をつけましょう。

※統計の知識前提の補足:母数をもう少し限定して、母集団分布(確率分布)の定数であると考える場合もあります

偏り(バイアス)

標本調査といっても、対象となった全員が答える訳ではありません。調査によっては、回収の割合が数十%という事もあります。
もしその時に、答えない人に特有の性質があったとすればどうでしょう。実際にはA党の支持割合はそんなに高く無いのに、それ以外の政党を支持する人が調査に答えない傾向があったりすれば、母集団におけるA党の支持割合よりも、標本におけるそれのほうが大きい、という結果が出てしまう、などが考えられます。

このように、何らかの理由によって、標本の傾向が母集団の特性値(母数)から一方向にずれてしまうようなものやプロセスを、偏り(バイアス:bias)と言います。
これを踏まえると、先に説明した、確率抽出をおこなわない事によるズレも、偏りを生じさせるものである、と言えます。だからこそ、確率的に標本を抽出する事が、とても重要となるのです。

※統計の知識前提の補足: 統計学的には、統計量の期待値と母数との差をバイアス、と定義します。

達成母集団

とは言っても、様々な制約などから、調べられる範囲も限定されます。たとえば心理学の実験などでは、ある大学の研究室のメンバーを対象にする、とせざるを得ない場合があります。本当は、もっと広い人間一般の事を調べたいのですが、実際には、日本に住む全体、といった対象を調べられません。その意味で、先にも言った、世論調査のような、巨大な標本抽出枠を用意して抽出出来る、という事のほうが珍しい訳です。

ここで、調べる事の出来た標本の母集団と看做せるような集団を、達成母集団(achieved population)と言う場合があります。『心理学研究法』の例を借りれば、目標母集団は「日本の青年」であるが、達成母集団は「ある大きな大学の新入生」というような場合です。

有権者の調査で考えると、目標母集団を、文字通りに有権者全体、達成母集団を、標本抽出枠として用意出来た名簿、のようにも捉えられるでしょう。電話がさほど普及していない時代に、電話を引いている世帯のみを対象とすれば、目標母集団と達成母集団とにズレが生じたであろう、という事も考えられます(実際の例:www.stat.go.jp)。あるいは、達成母集団を目標母集団の標本である、と便宜的に捉えるのも可能です。重要なのは、何を母集団と設定し、どのようにして標本を抽出したか、という部分と、もし偏るとしたらどのような理由が考えられるか、という検討です。

まとめ

ここまで、統計や標本調査に関係する、いくつかの用語を説明しました。ここで説明した用語は、ほんの一部であり、理解しておきたい語は、他にも沢山あります。それらを勉強するには、是非とも、統計分野(今の流れだと特に、社会調査論)の教科書を読む事をオススメします。そこできちんと用語を理解しておく事が、他者との円滑なコミュニケーションや議論をおこなうためには大切である、と思います。

参考文献

心理統計学の基礎―統合的理解のために (有斐閣アルマ)

心理統計学の基礎―統合的理解のために (有斐閣アルマ)

社会調査の基礎 (放送大学教材)

社会調査の基礎 (放送大学教材)

身近な統計 (放送大学教材)

身近な統計 (放送大学教材)

社会調査入門 (社会事業新書)

社会調査入門 (社会事業新書)

調査の科学 (ちくま学芸文庫)

調査の科学 (ちくま学芸文庫)

臨床疫学

臨床疫学

ロスマンの疫学―科学的思考への誘い

ロスマンの疫学―科学的思考への誘い

心理学研究法 (放送大学教材)

心理学研究法 (放送大学教材)

社会調査の基本

社会調査の基本

基本からわかる 看護疫学入門 第2版

基本からわかる 看護疫学入門 第2版

最速の推計統計- 正規分布の徹底攻略 -

最速の推計統計- 正規分布の徹底攻略 -

*1:文脈上は混同しにくいのでそのままになっている、という事情はあると思いますし、豊田秀樹氏など、議論を知っていて敢えて標本数を標本の大きさの意味で用いる研究者もいます