信頼区間

信頼区間は難しいですねー。

参考資料を紹介します。

岩崎学『確率・統計の基礎』(P75)↓

 点推定がひとつの値で θ を推定するのに対し,区間θ を推定する方法を区間推定(interval estimation)という. α を小さな確率値とし,確率変数 X_1,...,X_n から θ_L=T_L(X_1,...,X_n)θ_U=T_U(X_1,...,X_n)

\rm{Pr}(θ_L<θ<θ_U)=1-α (1)

となるように定めるとき,区間 (θ_L,θ_U) を信頼係数(conficence coefficient) 100(1-α)\% の信頼区間(conficence interval)あるいは簡単に 100(1-α)\% 信頼区間という. θ_L は信頼下限(lower limit), θ_U は信頼上限(upper limit)とよばれる. X_1,...,X_n が離散型の場合は(1)の等号は一般には達成されず「 \geq1-α 」となる.この場合は,信頼係数 100(1-α)\% 以上の信頼区間とよぶべきであるが,その場合も信頼係数 100(1-α)\% の信頼区間ということが多い.

 信頼区間では,信頼係数が高いほどその区間は信頼が置け,区間幅が狭いほど精密な推定ができるので,それらが両方とも成り立つのが望ましいが,それはできない.すなわち,データ数 n が一定であるとき,信頼係数を高めると区間幅が広くなり,区間幅を狭くすると信頼係数が低くなる.そこで信頼係数を 1-α=0.95 とした 95\% 信頼区間を求めるのが一般的である.

 通常の確率計算では,たとえば確率変数 X に対し \rm{Pr} (a \lt X \lt b)X区間 (a,b) に含まれる確率を表す.ところが,信頼区間の定義式(1)では区間の両端が確率変数となっている.すなわち,n 個の観測値を得て信頼区間 (θ_L,θ_U) を求める」という作業を多数回繰り返したとき,その区間がパラメータ値 θ を含む確率が 100(1-α)\% であることを保証するものである.観測値 x_1,...,x_n を得て, θ_L および θ_U の実現値 {θ_L}^*=T_L(x_1,...,x_n){θ_U}^*=T_L(x_1,...,x_n) を計算して具体的な信頼区間 ({θ_L}^*,{θ_U}^*) を得たとき,区間 ({θ_L}^*,{θ_U}^*)θ を含む「確率」が (1-α) ,というのではない.したがって,区間 ({θ_L}^*,{θ_U}^*)θ を含む確率が (1-α) でるといわずに信頼係数が 100(1-α)\% であるというのである.

強調は引用者によります。

n 個の観測値を得て信頼区間 (θ_L,θ_U) を求める」という作業を多数回繰り返したとき,その区間がパラメータ値 θ を含む確率が 100(1-α)\% であることを保証する

↑ここでの信頼係数は、2つの推定量から構成される区間が得られる確率。

観測値 x_1,...,x_n を得て, θ_L および θ_U の実現値 {θ_L}^*=T_L(x_1,...,x_n){θ_U}^*=T_L(x_1,...,x_n) を計算して具体的な信頼区間 ({θ_L}^*,{θ_U}^*) を得たとき,区間 ({θ_L}^*,{θ_U}^*)θ を含む「確率」が (1-α) ,というのではない.

↑ここでの信頼係数は、推定値(推定量の実現値)を得た(具体的な信頼区間)場合の解釈。