決定係数 / 寄与率
「〜の変化は…でX割説明がつく」という言い回し - 発声練習
ピアソンの積率相関係数を割合や確率として扱うのは論外ではないかと思いますが、それは措いて、決定係数(寄与率)に関して、説明出来るとか説明がつくといった表現は、結構見るように思います。
そこで、手許にある統計の本を参照して、この用語がどのように解説されているかを引用してみます。自分の知識の整理にもなりますし。
尚、引用文中にある決定係数の数式は省略し、<数式>と書きます。
※強調は原文のまま
工学・品質管理・実験計画系
F検定によって,有意性を検定するだけでなく,要因によるばらつきが,全体の変動Srのどのくらいを占めているかを調べることがある。それには,寄与率を求めればよい。
例えば,<数式>
したがって,全体のばらつきの43.4%を成形温度という要因で説明できることがわかる。
谷津『すぐに役立つ実験の計画と解析 基礎編』(P56)
したがって,これらの比<数式>
の値は,全変動と呼ばれるyの平均値からの偏差2乗和のうち,回帰直線によって説明される変動の割合を表すことになる。これが寄与率である。
山田ら『TQMのための統計的品質管理』(P61)
これにより,回帰の残差の平方和が小さければ小さいほどr2は1に近づくことがわかる.したがって,r2の大きさはxとyの関係を示す回帰式がどれだけの説明力を与えるかの割合として考えられる.たとえば,r2=0.5ならば,偏差の平方和を50%,r2=0.8ならば,偏差の平方和を80%説明するというように回帰の寄与率といえる。
久保[監修]阿部・都筑[著]『理工・医歯薬系の統計学要論【増補版】』(P53)
社会統計系
全体集団の増加減少に対して,部分集団のそれぞれの増加減少がどの程度寄与したかを測る測度が,寄与度,寄与率である。
岩井ら『情報化社会の統計学』(P78)
とくに,全変動における回帰による変動の割合(SSR/SSY)を線形回帰モデルの適合の良さを示す指標として決定係数(R2)とよんでいる。
岩井ら『情報化社会の統計学』(P94)
係数r2は(引用者註:これは決定係数の事),Yの変動がXの変動によってどの程度説明されるかを示すものである.
Taverekere Srikantaiah, Herbert H. Hoffman, 三浦[訳]『ライブラリアンのためのやさしい統計学』(P77)
(略)さらに,重相関係数の2乗は決定係数と呼ばれ,観測データの変動の何%がモデルによって説明されたかを示す。例えば,重相関係数が0.8であるとすれば,元の観測データの分散の64%(=0.82)が数量化I類のモデルで説明されている。
岩永ら『社会調査の基礎』(P192)
統計一般・数理統計学
したがって,R2は,yの変動を1とした場合に,回帰式がどの程度説明しているかを表しているので,これを決定係数(coefficient of determination)とよぶ.
日本統計学会[編]『日本統計学会公式認定 統計検定2級対応 統計学基礎』(P63)
これより全変動が回帰によってどれだけ説明されたかという比率をもって当てはまりの程度を表すことにする.これを決定係数(coefficient of determination)といい,r2で表す.
稲垣ら『統計学入門』(P165)
またr2のことを寄与率と呼び,「変動の説明される度合い」ということができる。この場合,r2は0.3346なので,「身長は体重で33%の説明ができる」といえる。
飯島『SASによる大学生のための実用統計学入門』(P25)
多変量解析
(略)yの全変動のうちxによって説明される変動の割合をあらわし,決定係数(coefficient of determination)あるいは寄与率と呼ばれる。
田中・脇本『多変量統計解析法』(P8)
<数式>
とおけば,R2は全体の変動のうち回帰によって説明される部分の大きさの割合を表し,その意味で決定係数(coefficient of determination)あるいは寄与率と呼ばれる。
田中・脇本『多変量統計解析法』(P38)
さて,従属変数yの変動が,回帰によってどれだけ説明されるかを当てはまりの良さの指標とし,これを決定係数といいます。
長谷川『ホントにわかる多変量解析』(P16)
GFIは,モデルがデータを説明している割合であると紹介したが,「決定係数」は,モデル内部の「構造的な変数」が「内生変数」を説明する割合を示す指標である。
豊田ら『原因をさぐる統計学』(P183)
疫学・医療統計・保健統計
大まかに見当をつけるのに,関与率(寄与率,決定係数)r2を計算する方法がある。これは,y(またはx)のバラツキをx(またはy)によってどの程度説明できるかを示す指標で,たとえば収縮期血圧は体重によって,r2=0.5922=0.350,すなわち35%だけ説明できるということである。となると,残り65%は別の因子で説明できるということで,1-r2を不関与率と呼ぶ。
片平『普及版 やさしい統計学 保健・医薬・看護関係者のために』(P123)
一方の変数から他方の変数の変数を(原文ママ)どの程度説明できるかは,相関係数の2乗によって表され,「決定係数 coefficient of determination」とよばれている.
丸井[編]『疫学/保健統計』(P174)
従属変数yの全変動のうち,x1,x2,……,xnに対し,回帰によって説明される部分の割合(R2)を寄与率あるいは決定係数(coefficient of determination)といい,式の適合度を示す指標となる。
金森ら『系統看護学講座 基礎4 統計学』(P122)
経済系
(略)そこでこれを1から引けば<数式>
は消費Yが収入Xによって説明される「説明力」の大きさをあらわすことになります。この大きさをr2でしめし,決定係数(coefficient of determination)と名づけます。
安川『経済学入門シリーズ 統計学入門[基礎編]』(P109)
余談
なお、私は高橋洋一さんの主張には賛成。貨幣の量を増やして、そのしばらく後に予想インフレ率が上がるという事実があり。貨幣量の増量と予想インフレ率の上昇が相関係数0.9ならば、機序はわからなくても貨幣量増加させて予想インフレ率の上昇を待つのは良い方法だと思う。私の理解ではこれは証拠に基づく医療と同じ考え方なので、科学ではなく工学・医学の範疇と考えれば別に変なことしていないと思う(追記:コメント欄参照)。
(強調は引用者)私は経済学には疎いのでその専門の議論には踏み込めませんが、一般論としては、関連が大きい強いという事しか解っていない情況なのであれば、それを予測に使うならまだしも、一方の変数に介入してもう一方の変化を期待する、というのは、それが非原因的な関連であった場合を考えると、ちょっと危うい気がします。EBMと同じ考え方、という部分はどうでしょうか。EBM、というか疫学の方法は、(実験的方法はちょっと措いて)観察によって見出された関連を色々に検討して因果関係を注意深く推論していくものであって、関連があったから取り敢えずそれに介入する、というのは戒められるものではないのかな、と思います。機序が解らないのと因果関係が解るのとは別の話でしょうし。