信頼区間 - Interdisciplinary

信頼区間は難しいですねー。

参考資料を紹介します。

岩崎学『確率・統計の基礎』（P75）↓

作者:岩崎学
東京図書

　点推定がひとつの値で $θ$ を推定するのに対し，区間で $θ$ を推定する方法を区間推定（interval estimation）という． $α$ を小さな確率値とし，確率変数 $X_1,...,X_n$ から $θ_L=T_L(X_1,...,X_n)$ と $θ_U=T_U(X_1,...,X_n)$ を

$\rm{Pr}(θ_L<θ<θ_U)=1-α$ （1）

となるように定めるとき，区間 $(θ_L,θ_U)$ を信頼係数（conficence coefficient） $100(1-α)\%$ の信頼区間（conficence interval）あるいは簡単に $100(1-α)\%$ 信頼区間という． $θ_L$ は信頼下限（lower limit）， $θ_U$ は信頼上限（upper limit）とよばれる． $X_1,...,X_n$ が離散型の場合は（1）の等号は一般には達成されず「 $\geq1-α$ 」となる．この場合は，信頼係数 $100(1-α)\%$ 以上の信頼区間とよぶべきであるが，その場合も信頼係数 $100(1-α)\%$ の信頼区間ということが多い．

　信頼区間では，信頼係数が高いほどその区間は信頼が置け，区間幅が狭いほど精密な推定ができるので，それらが両方とも成り立つのが望ましいが，それはできない．すなわち，データ数 $n$ が一定であるとき，信頼係数を高めると区間幅が広くなり，区間幅を狭くすると信頼係数が低くなる．そこで信頼係数を $1-α=0.95$ とした $95\%$ 信頼区間を求めるのが一般的である．

　通常の確率計算では，たとえば確率変数 $X$ に対し $\rm{Pr}$ $(a \lt X \lt b)$ は $X$ が区間 $(a,b)$ に含まれる確率を表す．ところが，信頼区間の定義式（1）では区間の両端が確率変数となっている．すなわち，「 $n$ 個の観測値を得て信頼区間 $(θ_L,θ_U)$ を求める」という作業を多数回繰り返したとき，その区間がパラメータ値 $θ$ を含む確率が $100(1-α)\%$ であることを保証するものである．観測値 $x_1,...,x_n$ を得て， $θ_L$ および $θ_U$ の実現値 ${θ_L}^*=T_L(x_1,...,x_n)$ と ${θ_U}^*=T_L(x_1,...,x_n)$ を計算して具体的な信頼区間 $({θ_L}^*,{θ_U}^*)$ を得たとき，区間 $({θ_L}^*,{θ_U}^*)$ が $θ$ を含む「確率」が $(1-α)$ ，というのではない．したがって，区間 $({θ_L}^*,{θ_U}^*)$ が $θ$ を含む確率が $(1-α)$ でるといわずに信頼係数が $100(1-α)\%$ であるというのである．

強調は引用者によります。

「 $n$ 個の観測値を得て信頼区間 $(θ_L,θ_U)$ を求める」という作業を多数回繰り返したとき，その区間がパラメータ値 $θ$ を含む確率が $100(1-α)\%$ であることを保証する

↑ここでの信頼係数は、2つの推定量から構成される区間が得られる確率。

観測値 $x_1,...,x_n$ を得て， $θ_L$ および $θ_U$ の実現値 ${θ_L}^*=T_L(x_1,...,x_n)$ と ${θ_U}^*=T_L(x_1,...,x_n)$ を計算して具体的な信頼区間 $({θ_L}^*,{θ_U}^*)$ を得たとき，区間 $({θ_L}^*,{θ_U}^*)$ が $θ$ を含む「確率」が $(1-α)$ ，というのではない．

↑ここでの信頼係数は、推定値（推定量の実現値）を得た（具体的な信頼区間）場合の解釈。