信頼区間

ほとんど、ちがやまるさん&YJSZKさん向けエントリー的。
でも、紹介する記述は、多くの人に参考になると思います。
前のエントリーで紹介した本で引用した文の続き。超大事な所なので、かなり長く引用します。※P270-272より引用。数学記号には、見えない時用に、括弧つけて別表現をします。(標本平均Xは「Xバー」とするなど)。強調+青文字装飾は、重要だと私が思った部分に施しました。

ビジネス統計学【上】

ビジネス統計学【上】

 中心極限定理によれば、平均がμ、標準偏差がσのどのような母集団であっても、数多くの無作為標本を選択すれば、その標本の平均X(Xバー)は(少なくとも近似的には)平均μ、標準偏差σ/√n の正規分布に従うことが知られている。もし母集団自体が正規分布に従うのであれば、X(Xバー)はどのような数の標本に関しても正規分布に従う。標準正規分布の確率変数Zは、0.95の確率で-1.96から*11.96の値の範囲内にあるということを思い出そう(このことは、巻末付録の表2を使用することで確認できる)。Zを平均μ、標準偏差σ/√n の確率変数に変換することで、「標本抽出以前の時点において」X(Xバー)が0.95の確率で以下の範囲内に入ることが分かる*2
 いったん標本を抽出した後には、われわれはその標本の平均として、特定のx(xバー)の値を得る。この特定のx(xバー)は、式6-1に示された範囲内の値かもしれないし、範囲外の値かもしれない。(確固とした)母数μの値を知らないと、式6-1で得られる範囲の中に、本当にx(xバー)があるのかを知る方法がない。無作為標本抽出がすでに行われ、特定のx(xバー)が計算された以上、もはや確率変数の話をしているわけではなく、確率の話をしているわけでもない。しかし、われわれはX(Xバー)が式6-1の範囲内に位置することの標本抽出前における確率が0.95、すなわち数多く標本抽出を繰り返していく際に得られるX(Xバー)の値のうち、およそ95%はこの範囲内に収まることを知っている。こうしたプロセスで得られる値のうちの1つとしてx(xバー)があるわけだから、x(xバー)がこの範囲内にあることについて、95%の信頼(確信)を持っているといっていい。この考え方を示したのが、図6-1である*3
 特定のx(xバー)について見ると、x(xバー)から見たμまでの距離は、μから見たx(xバー)までの距離と同じであることに注意しよう。したがって、x(xバー)がμ±1.96σ/√n の範囲に位置するのは、μがたまたまx(xバー)±1.96σ/√n の範囲内にあったときのみ*4である。何度もこの試行を繰り返した場合において、このようなことが起こるのは全体の約95%の場合のはずである。したがって、x(xバー)±1.96σ/√n の区間のことを、「未知の母集団平均μについての、95%の信頼区間」と呼ぶ。このことは図6-2*5に図示されている。
 1.96σ/√n という幅をμの両側に測定するのではなく(そもそもμは未知だから、このようなことは無理なのだが)、同じ1.96σ/√n という幅を既知となった標本平均であるx(xバー)の両側に測定する。「標本抽出前の時点」では、確率変数をもとにした区間X(Xバー)±1.96σ/√n がμを含む確率は0.95だから、「標本抽出後の時点」では、x(xバー)±1.96σ/√n という特定の区間が実際に母集団平均μを含むことについて、95%の信頼度で信頼できる(確信を持てる)。われわれは、μがこの区間内にある「確率」が0.95である、とはいえない。なぜならば、区間x(xバー)±1.96σ/√n も、μも確率変数ではないからである。母集団平均μはわれわれには未知ではあるが、特定の値であって確率変数ではない(引用者駐:引用元に註釈あり。後述)。μは信頼区間内に位置するか(この場合の事象確率は1.00)、位置しないか(この場合の事象確率は0)しかない。しかしながらわれわれは、このようにして計算されたすべての可能な区間のうち、95%はμを含んでいることを知っている。したがって、μがこの特定の区間内に含まれることについて、95%の信頼度で信頼できる(確信が持てる)といえる

いかがでしょうか。私が今まで見た信頼区間の説明の中では、群を抜いて丁寧で詳しいものだと思います。しばしば統計のテキストで、信頼区間を求めた後で、その信頼区間に母数が入る「確率」は……という説明を見かけますが、その辺についてより詳しく解説している訳ですね。つまり、既に信頼区間を計算したのならば、(母数が、未知であるが定数、と考えれば)母数はその区間に入っているのか入っていないのかどちらかはもう決まっているのだから、そこに母数が入る「確率」を云々する事は出来ない、となるでしょうか。前のエントリーのコメント欄でも書いたように、ここの所に関して丁寧に説明してくれるテキストはそれほど無いので、とても貴重なものだと思います(訳文にちょっと解らない部分もありますが。たとえば、「両側に”測定する”」とか。言わんとする事は解るけど)。

ところで、引用文中に註釈を入れ、後述、と書きました。「母集団平均μはわれわれには未知であるが、特定の値であって確率変数ではない。」の部分についている脚註です。ここを引用します。

われわれはいわゆる「古典的(clasical)」、もしくは「頻度論派的(frequentist)」な信頼区間の解釈を使用している。代替的見方としてのベイジアン(Bayesian)アプローチにおいては、未知の母数を確率変数として取り扱うことが可能になる。したがって、未知の母集団平均μについて、区間内にある「確率」が0.95である、と述べられることがある。

ここら辺の補足は抜かり無いようです。本文の引用を見て、頻度論的な説明だけではないか、と思ったあなた。残念でした。とは言え、ベイズ統計について訳書では省略されているし、頻度論的アプローチが中心ではあるのですが。
これくらい丁寧な説明なら、YJSZKさんにも感心してもらえそうですが、どうでしょう。

*1:原文では波線

*2:式6-1は省略

*3:省略

*4:原文では「のみ」に傍点

*5:省略