読者です 読者をやめる 読者になる 読者になる

『1万票差でも多数確実が出せるワケ』という記事について

1万票差でも多数確実が出せるワケ - ゆとりずむについて、いくつか不正確に思える所がありましたので、シンプルに指摘します。

サンプル数

標本に属するデータ数の事をサンプル数と表現するのは誤り。サンプルサイズが正しいです。

サンプル比率

サンプルサイズ / 母集団サイズ という量を、サンプル比率(リンク先の画像の表を参照)と表現してはいけません。表の上の方に載せられている標本比率と全く同じ言葉(日本語か英語かの違いだけ)なのに、違う意味が指されています。標本比率や標本割合というのは、標本に属する、ある性質を持った要素の数の割合、の意味で、標本の大きさを母集団の大きさで割った量は、(標本)抽出率などと呼ばれるのが普通です(私は、抽出割合と表現します)。

信頼区間

表中にある信頼区間の列に書かれている数値は、信頼区間ではありません。これは、誤差幅精度の半分、です。通常、信頼区間と言った場合には、不等式で表す・上側と下側信頼限界の数値の組で表す・複号(±)と推定値を合わせて表す、などの表現をします。たとえば、「このロードレースの区間は?」という問いがあった時、「5km」と答えるのは、変ですよね? 「○○から△△まで」という風に答えるものだと思います。
ちなみに、±0.695%くらいの誤差という文がありますので、これで信頼区間を表していると思いますが、表中には、何からのプラスマイナスか書いてありません。情報不足ですね。私は最初、この表の数値が、どう計算されたものか、全く解りませんでした。

「サンプル比率80%」

表に、標本サイズ / 母集団サイズ が80%の例が書いてありますが、数値を見ると、そのまま、抽出割合が小さい時と同じように正規近似を用いているようです。しかし、今考えているのは有限母集団からの非復元抽出で、それで標本抽出割合が80%ですから、有限母集団修正項(約0.44)が無視出来なくなります。これは、復元抽出もしくは無限母集団からの非復元抽出で考えた場合よりも、誤差が小さくなるという事です。
ところで、統計の話題において、標本抽出割合が大きくなると誤差が小さくなるというのは、データ数の増やし方の割には誤差はそれほど小さくならない事を教えるために用いられるのが多いように思います。

「二項分布の推定」

ある特性を持つ対象の、母集団における割合を知りたい、という時、統計の話においては、母比率の推定母集団割合の推定などと表現します。二項分布の推定とは言わない気がします。今の場合ですと、二項分布というのは、標本分布で用いているものですし(超幾何分布の近似として)。
尤も、同じ母集団からの要素のドローを独立試行と看做すなら、母集団はベルヌーイ分布と言え、それは二項分布の特殊な場合なので、その場合には、母集団を二項分布と表現する事も出来なくは無い気もしますけれど。

無作為抽出

例のように統計的推測(信頼区間の構成)が出来るには、標本が無作為に抽出されている必要があります。しかし、リンク先の議論ですと、開票が進むごとに、それを無作為標本と看做しているように思えます。そもそも、開票が無作為的に行われている根拠も、そうする必要も、どこにも無いので、無作為標本と看做すのは、とても無理があります。
また、表の一番下にあるように、標本抽出割合が8割にもなった場合、それを統計的推測に用いるものか、という疑問もあります。80%もの結果が判ったのなら、たとえば開票分の半数が賛成だとしたら、0.8 * 0.5 = 0.4 という事で、全体の40%以上が賛成というのは確実に判明する訳です。
マスメディアは、当選確実、等の出し方について公開していないようですから、方法は推論するしかありませんが、恐らくは、色々考慮するデータの内、出口調査の結果をかなり重視しているだろうと考えられます。調査する際の時間帯などでもバイアスがかかるでしょうから、各メディアの統計のプロ達が、その辺りを工夫して、予測の確実さを求めている事と思います。

「『統計的に有意な水準』まで、実際の開票データを積み上げてから行う」

ちょっと、この表現の意味が取れません。通常、統計学の分野において有意水準というのは、調査前に調査者が決めておくものですから、有意な水準まで積み上げるというのがどういう事なのか、掴めません。