誤解しやすかったり紛らわしかったりする統計の話達

統計の話題で、こういう誤りをよく見るなあ、とか、ここら辺はややこしいなあ、的なものを、エッセイ風に書いてみます。
各トピックの最後に、参考資料を紹介したりします。
色々な話題を扱うので、エントリー全体で、このくらいの知識を持っている層向け、みたいな想定はしていないです。下に行くほど、知っている人向けになる、という感じ。

標本数と標本の大きさ

調べたい集団全体から採り出した個体の数の事を、標本数と書くのをよく見かける。でも正確にはこれは、標本の大きさと言う。この違いは、標本という言葉をどのように捉えるか、に起因するもの。標本を、調べたい集団に属する要素と考えるか、含まれる集合と捉えるか。前者で考えると標本数を使う事になるけれど、抽出した集まりそのものを標本とすれば、標本数とは言えなくなる。で、集合に属する要素の数の事を、集合論では大きさというので、それを踏まえて、標本の大きさと言う。
たとえば、50人ずつの2組の集団を比較する、といった場合、標本数は、50で無くて2となる。で、50という数は、標本の大きさ。それぞれを、標本数は k で、標本の大きさは n で表したりする。なかなかややこしい。
気の利いた教科書なんかは、要素の数の意味で標本数を使うのは間違い、という指摘をしているし、自分も事あるごとに書くのだけれど、これまたややこしい事に、教科書的な本でも間違っていたりする。自分の場合は、統計の本を読み始めた最初の方の本で、ここに関しての注意があったので憶えた、という感じ。それまでは、やっぱり標本数を使っていたという。
参考資料:

はじめての統計学

はじめての統計学

統計の本を読み始めた最初の方の本がこれ。明確に、標本数と標本の大きさは異なる概念だという事が書いてある。きっかけというのは重要なもので。
コラム:サンプル数とは何か?/独立行政法人 労働政策研究・研修機構(JILPT)
統計数理研究所に問い合わせたというエピソードが載っていて、統計学者ならば、サンプル数という言葉は使いません。という答えが返ってきたと。へえ、なんだけど、統計数理研究所の所長を務められた林知己夫氏・赤池弘次氏らが要素の個数の意味で標本数を使っていたりするのを考えると、これまたへえ、である。

母数

この調査は母数が少ないみたいな言い方。twitterのリアルタイム検索でも行えば、沢山出てくる。要するに、調査対象者とかの数。で、この意味で母数を使うのは間違い。しかも、結構重大な間違い。
母数というのは実際は、知りたい集団を特徴づける特性値を示す言葉。A という集団について知りたいとすれば、その A が持つ平均値とか中央値とか、そういうもの。母数とはそもそもそれらを示す用語という事。
最初に例として出した使い方は、A について知りたいからその一部である n 個を採り出して、その集団を a と考えると、a に属する要素の個数である n を母数と言っている、という事になる。で、これは、知りたい集団の特性では無くて、調べる事の出来た要素の個数を示している、と言える。そう、つまりこれは、標本の大きさの事。
なんでこういう誤用があるのか、その理由はよく解らないけれど、の字が関わっている気はする。さっきから言っている、知りたい集団の事を、統計の用語で母集団と言うけれど、ここにの文字がある。そして、母集団の特性値の事を母数と言うと書いたけれど、ここにも母の字がある。
対して、その母集団の様子を知りたいが一部しか調べられない、という時に、その一部の事を標本と言う。それで、その標本の大きさの事を母数と言ってしまっている、のが今の話だけれど、たぶんこれには、分数の分母が関係しているのかな、と思う。何かのもとになるとか、そういう意味合いが共通している、という感じ。そういう意味では、単なる分母の事を母数と表現してしまうのは、結構自然と言うか当然、なのかも知れない。
単に分母の事を母数と言うのは重大な間違いと書いたけれど、そういう間違いをしている人は、ああ、統計の教科書を見た事が無いんだろうな、と判定出来るレベルで重大な誤り、という事。と言うのも、統計学には、知りたい集団から一部を採ってきて、大元の集団の事を確かめようとする、というとても重要な柱があって、それを解説する部分で、母数という言葉とその意味は大抵出てくるから。それを知らないで誤用するというのは、教科書を読んでいないか、読んでもちゃんと理解していないかのどちらか、と判断出来る。ものすごく易しい読み物とか普及書とかだったら、そういう専門用語は無いだろうけれど、それは教科書では無いからね。
参考資料:
統計学の教科書各種

相関と関連

あるものと他のあるものとの関係の事を、統計では相関と呼ぶ。これは日常的にもよく使われる言葉で、たとえばニュースなんかで、何かと何かの関係を仄めかす報道があったりした時に、それは本当に相関関係があるのか? みたいな反応があったりする。
で、色々なもの同士の関係に私達は興味を持っている訳だけれど、そのものを、どのように測れるかという観点がある。たとえば、血液型なんかは、単に区別が出来るだけで、その分け方に順序があったりする訳では無い。対して、身長や体重なんかは、数値で表わせて、大小関係を示す事が出来る。そうすると、血液型みたいなものの関係と、体重のようなものの関係、というように大まかに分けられる。
実は、統計の専門的には、後者のようなものの関係の事を相関関係と表現して、血液型のようなものの関係を、関連と表現して区別する場合がある。あるいは、そういう関係をひっくるめて関連と呼んで、その内、体重や身長などの関係の事を相関と呼んだりもする。これを踏まえて言うと、たとえば血液型と性格との関係なんかは、相関と言うよりは関連と言った方がより正確、となる。細かい事だけれどね。
ちなみに、私は心理学方面から入ったので、血液型みたいなものの関係の事を、連関とする方がしっくりくる。統計に、クラメールのV という指標があって、これは他に色々な呼び方があり、クラメールの関連指数などとしているものもあるけれど、心理学方面辺りでは、クラメールの連関係数と書いてあるのを結構見かける。
参考資料:

マンガ 統計学入門―学びたい人のための最短コース (ブルーバックス)

マンガ 統計学入門―学びたい人のための最短コース (ブルーバックス)

↑この本によれば、ここで書いたような意味で関連という言葉を使うのを提唱したのは、ユールらしい。

疑似相関という言葉

ある食べ物を食べたら痩せた、みたいな話があった時に、疑り深く、知識のある人は、それは疑似相関では無いのか、と突っ込んだりする。ここで疑似相関と言うのはつまり、その食べ物が痩せるという結果をもたらしたのでは無くて、一緒に変わった他の原因があって、それが結果的に、食べ物を食べた事と痩せた事とに関係があるように見せた、というのを言っている。
でも、ちょっと考えてみると、この疑似相関という言葉、しっくりこない。と言うのは、そもそも相関って、一方が増えるにつれてもう一方が増えるとか、一方が増えるにつれもう一方が減る、というような関係の事を示すのであって、原因がどうこう、つまり因果関係に関しては直接触れていない言葉なので、因果関係には無いものを、敢えて疑似相関という風に表現するのは変じゃない? という事。疑似相関と言うと、相関が疑似みたいに読めてしまうからね。でも、実際には相関はある訳で。うーん、ややこしい。
と、こういう事を前から考えていたんだけど、とある疫学の教科書を読んでいたら、とてもしっくりくる言葉があった。それが、非原因的関連というもの。うん、これなら、関連はあるけどそれは因果関係では無いという意味がちゃんと表せているから、特に違和感は無い。あ、ここでは関連となっているけど、ここまで読んでいれば、特に問題無く捉えられると思う。
疑似相関という言葉を、疑似的に因果関係を思わせるような相関、みたいにすれば、まあ読めない事は無いかもな、とも考えた事はあるけれど、ちょっとそれは、表現していない事を読ませようとし過ぎかな、とか思ったりする。
参考資料:

しっかり学ぶ基礎からの疫学

しっかり学ぶ基礎からの疫学

とある疫学の教科書 相関の代わりに関連を使うと、疑似相関には見かけの関連という言葉が対応するけれど、その言葉に関しても、こう使えば納得いくな、という説明がある。

抽出とドロー

標本は、採り出した個体の集まりを表す。で、統計の用語では、標本を作る事を、標本の抽出と言う。これを踏まえると、抽出というのは、ある集まりを作る(構成する)事を表す、と言える。だから、標本を作る過程で、1つの要素を採り出す事を抽出と表現するのは、なんか合わないなあ、と思ったりする。で、そんな事を考えていたら、とある統計関連の文章に出会って、そこでは、要素を取る事を、drawと表現していて、抽出つまりsamplingという言葉と区別していて、なるほどなあ、と思った。それで、その文では、drawを日本語で抜き取りとしていたんだけど、どうもしっくりこない感じがして、また、品質管理での用語とも重なるので、敢えてカタカナでドローとするのがいいんじゃないかな、と思った。ほら、それだと、TCGでカードを引くみたいなイメージだし。いや、TCGやった事は無いんだけれども。
実は私、実際に区別して使っているんだけど(そこまで厳密にでは無いかもだけど)、気づいた人はどのくらいいるだろう。
参考資料:
統計用語雑記帳
とある統計関連の文章 標本数の話も絡めて書いてある

有意抽出

標本を抽出する時に、母集団の要素それぞれがドローされる確率が等しくなるようにする事を、無作為に抽出する、と言う。それに対し、そういう確率的な操作が入らないやり方を、有意抽出といったりする。
ところが、この有意という言葉が厄介で。辞書的にはこれは、単に意味がある事、というような意味だけれど、統計の文脈では、ものすごく重要な他の専門用語にこの語が当てられている。なので、無作為抽出に対するやり方を有意抽出(有意選択と言われる事もある)と表現する所に、結構抵抗がある。
なので、自分が使う時には、単純に、無作為では無いという意味を込めて、非無作為抽出と書いている。あまりスマートでは無いんだけどね。他に良さそうな言葉を思いつかないので、こうしている。

高度に有意

有意水準に比較して有意確率がかなり小さい事を、高度に有意と表現する場合がある。この表現については結構議論になる場合があるけれど、私は、大きな違和感を持つ派。そもそも有意というのは、あらかじめ決めた有意水準を、文字通りに水準として、その左と右のどちら側にあるか、というのを定性的に表現する用語だから、そこに高度という、量的な意味合いが含まれた言葉をくっつけるのは適当では無い、と思う。有意水準は、研究目的やリスクの取り方によって設定が変わるものだし、有意確率の大きさを云々したいのだったら、その数値を具体的に示せば済む話だろうし。

推定値と推定量

特に区別する事無くこれらを用いているのを結構見かけるけれど、正確には違う概念。推定量が確率変数で、推定値はその実現値。尤も、ものの本によれば、それほど厳密に区別せずとも良かろう、と書いてあったけれども。
この2つの用語はともかく、確率変数と実現値との区別をつけておかないと、学習は全然進まないと思う(経験者談)。
参考資料:

日本統計学会公式認定 統計検定2級対応  統計学基礎

日本統計学会公式認定 統計検定2級対応  統計学基礎

ものの本 誤解が無ければ確率変数の意味で推定値を用いても誤りでは無い、という立場。でも、区別しておくに越した事は無い(敢えて区別しない必要は別に無い)と思う。

分布と確率分布

統計を学び始めの時に陥るのが、ヒストグラムと確率分布の区別がつかないという事。統計の本では、確率変数とその値の取り方の対応、つまり確率分布の事も、実際にデータを得て作られた、値と頻度との関係を表したものの事も、共に分布と表現する事がある。そして、概念的にこれらを区別するのは、ものすごく重要な事。で、初めの内は、今自分が読んでいる分布がどちらの話をしているのか、さっぱり解らなくなったりする。特に、標本分布の勉強をしている時に落とし穴がある。平均の分布の平均って何よ!? みたいな。
気の利いた本では、そこら辺の区別が重要だよ、と書いていて、そういう本に出会えるのが重要だなあ、と思ったり。

Rによるやさしい統計学

Rによるやさしい統計学

気の利いた本 私もだいぶ回り道をした……。

中心極限定理

無作為標本の標本平均の標本分布は(何という解りにくい表現か)、母集団分布が正規分布で無くても、標本が大きくなると正規分布に近づく、というのを中心極限定理と言う。で、私は最初、これは、正規分布近づく事の、動きというか、そういう性質の事を中心と表現しているのかと思ったのだけれど、ものの本によると、どうも違うらしい。実はこれは、極限定理の内、中心的なものという意味らしいのだ。へえ。いや、こういう由来の専門用語というのはあまり見かけない気がするので、面白いなあ、と思った次第。なんかこう、ぐにゃぐにゃのものが正規分布に近づくイメージ、的なものが、中心極限の語感にぴったりな気がしたんだよね。
参考資料:

統計的方法のしくみ―正しく理解するための30の急所

統計的方法のしくみ―正しく理解するための30の急所

ものの本 色々重要なトピックが詰まった良書。

RDD

ランダムに電話番号を生成して電話調査する社会調査の方法を、RDD(Random Digit Dialing)法、と言う。この方法は、比較的手軽に実行出来る反面、批判もあって、対象者が電話所有者に限られる、とか、その時に家に居る人に偏ってしまう、という批判。確かに尤もな批判だけど、一応、次のような事も知っておいていいと思う。
asahi.com(朝日新聞社):世論調査 - ニュース特集
これは、朝日新聞社RDDを行う時にされている工夫についての説明。RDDの欠点を踏まえた上で、それをカバーするように工夫が凝らされている。こういうのを知っておけば、RDDが行われた、というのを見た時に、単に、それでは偏るのではないか、と批判するのでは無く、偏りを減らすためにどのような工夫がなされているかという観点で考える事が出来るからね。完全な調査というのは初めから無いのだから、具体的にどんな方法が用いられているかをきちんと確かめるのは、とても重要。