相関
相関係数を2変数間の直線的関係の強さの尺度と解釈することは,純粋に数学的な解釈であって,これら変数の間に何らかの因果関係があるという意味ではないのである.2つの変数がともに増加またはともに減少の傾向にあるということは,一方が他方に直接または間接に何らかの影響を及ぼしているということを意味するものではない.2変数がともに別の変数によって影響を受け,そのために2変数間に強い数学的関係が生じたのかもしれない.
たとえば,10年の期間における教師の給料と酒類の消費量との相関係数を計算したところ0.98となったとする.この期間にはあらゆる種類の賃金や給料がたえず上昇し,しかも景気が一般に上昇傾向にあった.このような条件のものとでは教師の給料も増加するであろう.さらに一般賃金も購買力も上昇するとともに人口も増加して,その影響から酒類の総消費量も増加したのであろう.それゆえ高い相関は,景気の上昇傾向が単に2つの変数に共通の影響を反映させたからにすぎない.もし相関係数が2変数間の関係について微妙な情報を与えるようなときには,その取り扱いに慎重を期さなければならない.相関係数を有効に利用するにはその数学的性質のみならず,適用分野の知識にも精通している必要がある.
ホーエル[著]浅井・村上[共訳]『原書第4版 初等統計学』P196
※強調は引用者
いわゆる、関連があるからといって因果関係にあるとは言えない、という所の説明。
相関係数(ここではピアソンの積率相関係数)というのは、ある2つの変数を選んで計算すれば出るものなので、それで高い数値が出たからといって、即座に因果関係にあるとは言えない、という事ですね。それはあくまで関連や相関の指標であるのを押さえておく必要があります。引用文中の例では、教師の給料と酒類の消費量との関連について書かれていますが、これは、その期間中に、いま着目している両方の変数それぞれに因果的な影響を与えているであろう別な変数があって、それが時間の経過で変化し、結果的に2つの変数を共に上昇させる事によって、片方が高くなればもう片方も高くなる、という現象が認められた、という事です。つまり、その2つの変数が(ある期間に注目すれば)ともに上昇したという現象そのものは事実であって、それを数学的な指標として表したものが相関係数で、その数値が高かった。その事を、関連や相関が強い、と表現する訳ですね。けれどそれは、内部の仕組みを考えずに、着目しているものの変化の仕方のみを表現する指標であるから、それだけでは因果関係についてどうこうは言えない、となります。
ここで、以前に紹介した上智大学の大西博氏の説明を再び引用してみましょう(現在リンク切れ。以前に紹介したエントリーを貼ります⇒WEBで読める統計関係の良質な資料 - Interdisciplinary)。
2つの変数の同時分布と、その条件付き分布は、変数の間の数量的結び付きを示しています。この数量的結び付きは、統計的頻度分布として観察されるものであり、現象の背後にある実態的な「関係」や「構造」から導かれる法則性を必要としません。
例えば、人間の身長と体重とは密接な統計的分布関係を持っていますが、両変数を決定する背後機構は複雑であり、単純な数量法則として理解することは困難です。にもかかわらず、ある人の体重を推測する時に、その人の身長が判れば、条件付き分布に関する経験的知識から、体重の推測が容易になります。
つまり、同時分布が示す変数間の結び付きは、情報と情報との間の頻度的な連関を表わしています。一方、もしも2つの変数間に、構造的な意味での因果関係[注1]が存在すれば、その数量関係は同時分布においても検出可能です。したがって、同時分布が示す変数間の数量的結び付きは、因果関係を含んだより広い関係と考えられます。この関係を相関 (correlation)と呼びます。
- -
[注1] 因果関係(causality)とは、ある要因が「原因(cause)」で、他のある要因がその「結果(effect)」であるような"関係"をいう。そのため、A と B の間に、数量に関する統計的関係が見られる時は、A が原因であるのか、それとも B が原因であるのかを、さらに決定する必要がある(ただし、C が原因で A と B が共にその結果である場合や、市場経済構造のように A→B、 B→A の両関係が同時に存在する場合などは決定不能)。1960年代には様々な因果律の判定方法が研究されたが、現在では、時間を考慮して、過去のA→現在のB、過去のB→現在のA の両関連度を統計的に判定し比較する方法が使われている。
重要な事が詰まっている説明ですね。よくよく噛み締めておいて良い文章だろうと思います。