読者です 読者をやめる 読者になる 読者になる

【メモ】身長と連続型

問い

身長のような、ある範囲内における任意の実数を取り得るような変数を連続変数と呼ぶ、とは、色々の人文・社会科学の本で説明されている所である。
では、身長における、ある範囲とは、どの範囲であると考えられるか。
ある範囲内の任意の実数を取り得るような確率変数を、連続型確率変数と呼ぶ。
連続型の確率変数の説明において、身長が例にあがる場合があるが、これは説明として妥当か、あるいは充分か。
連続変数に対して、飛び飛びの値しか取れないような変数を離散変数と呼ぶ。
この離散変数の説明において、歩数などを挙げ、歩数は1.2歩などのような値は取れない。こういうのが離散変数と言うなどと説明される場合があるが、これは説明として充分か。

考え

身長というのは、我々が経験(観察・観測)してデータを得る事の出来る対象、すなわち現象的なものである。それを連続変数として考えた場合、その取り得る範囲というのはどうなるか。言い換えると、身長の最小値と最大値は何か
ヒトの身長の最小値とは。
ヒトが誕生したその瞬間の体長をそれと考えるか。そもそも誕生とはどの時点か。受精? 出産? そこに答えられるのはどの分野か。発生学か心理学か、あるいは哲学なども絡むだろうか。
ヒトの身長の最大値とは。
恐らく、生物としてのヒトの体長が、5000cmにも到達したという事は無いだろう。では、身長なる連続変数の最大値というのはいったい何か。
概念的には、これまでの生きてきたヒトの中で最長に達した存在の身長であると考えられるか。
そもそも、連続変数というのは、もっと一般化すれば、長さ重さなどである、と言える。つまり、身長や体重といった属性を有する存在を一歩抽象化した所に得られる量である、と。
しかるに、身長というのは、ここでは、ヒトという生物の持つ属性という概念である。そして、ヒトというのはこれまで多数存在し、これからも誕生するだろう。
この事を踏まえるならば、身長を連続変数と看做す場合の、その取り得る範囲というのは、
これまで存在したヒトの内、誕生時に体長が最も小さかった者の長さ
から
これまで存在したヒトの内、最も体長が長くなった者の長さ
の範囲、とでも言えるだろうか。当然ここでは、
最小身長を記録した者が最も高かった時の身長最大身長を記録した者が最も低かった時の身長
である必要がある。

          • -

連続型確率変数の例として身長が持ち出される。しかし、こういう時の例は大概、複数人が持つ属性としての身長である(たとえば、どこかの国に住む人々の身長を調べる、など)。という事は、対象とするのは、高々加算個の大きさの集合のそれぞれの要素に備わる属性からなる集合である、と言える。
幾人かのヒト(無限人でも構わない)の集まりをユニヴァースと考え、要素が持つ身長なる属性を対象とする。そして、集められた属性の量を、数直線上にプロットするとすれば、それは、飛び飛びになるはずである。何故ならば、今考えているのは、高々加算個の要素数の集合から得られたデータなのだから。
ここでは、測定の精度などは関係が無い。身長が正確に測れるかは問題にしていない。ある存在が、真の身長なる量を有していると設定する事が出来れば良い。そうすれば、数直線上には、有限もしくは加算無限個の実数が並ぶ事になって、それは、連続では無い
複数人の身長というのを対象にする以上、それは本質的には離散型の確率変数にしかなり得ない。連続型確率変数を説明するのに、理想的な円周上の点など(理想的なルーレット等)が例として持ち出される場合があるけれども、これに対応して、一人のヒトが持ち得た身長なる量を対象として、それと確率概念とをどうにかして当てはめれば、それは連続型の確率変数として扱える可能性を持つかも知れない。しかるに、複数の身長を集めたものというのは、いくら理想化しようとも、連続型の概念には当てはまらないように思える。

        • -

離散変数の例として歩数などが持ち出され、小数点以下の数値を取る事が無いから、のような説明がなされる事がある。確率変数の例では無い場合には、離散整数型と同じように扱っているような節が見られる。つまり、ある区間内において任意の実数を取れるのでは無い事を、Integer 型の変数であるとして説明しているように見える。
では、たとえば、
「1.2, 2.564, 87.547, 91104.54545」
このような値のいずれかを取れるような変数は、離散型かそれとも連続型か。
概念的には、背後に、そのデータが生み出される連続的な区間があると想定されるか否かで異なると思われる。前者なら連続、そうで無ければ離散。
しかし、離散変数は整数しか取れないかつ、それ以外は連続変数という前提ならば、これを連続変数と看做すだろう。
端的に言うと、この考えは間違いだろうと思う。少なくとも、離散変数とは整数しか取れないという風な説明は、不十分だろう。
思うに、データの桁数連続というのが混同されるのではないか。概念的には、連続変数あるいは連続型確率変数というのは、ある区間内の任意の実数を取り得るという所が重要なのであって、それをどのくらいの桁数で表せるかというのとは全然異なる話のはずである。
たとえば、時間を固定した空間上において、160+π[cm] なる身長を持つ存在を許さない論理的な理由は特に無いと思うけれども、これが、複数のヒトから構成される集まりの内の1要素の持つ属性なのであれば、それはすなわち、離散(型)変数と言うべきものであると考える。その身長が測れるかどうかは問わない。
あるいは、飛び飛び整数が結びつくのだろうか。しかし飛び飛びというのは本当は、高々加算を意味する、はず。

締め

以前書いた話の続き。知っている人向け。現象を理想化して、高度に抽象的な数学的概念と対応させる場合には、その現象がどのような構造をしているかをきちんと考える必要があるように思います。
後、離散/連続 変数と、離散型/連続型 確率変数という概念とは、絶妙に異なるニュアンスがあるように思います。私もやっぱり、離散データと言えば整数型を思い浮かべます。けれど、ある区間内で連続、の否定を離散と捉えるなら、整数型のデータしか離散型に入れない理由は無いはず、と思う訳です。
統計の本を読んでいると、最初の方で離散/連続 データを説明して、そこで身長や体重が例に出され、そのしばらく後で、確率変数の説明をする時に、離散変数の場合は離散型確率変数、連続変数の場合は連続型確率変数と対応させて説明してあるのを見かける場合が結構あるのですね。でも、よく考えてみるとですよ。前者と後者の身長や体重を同じと扱って構わないと思えますか? 前者の身長体重を連続と考えるのは、まあ何となく解ります。1人の身長の変化という現象でも思い浮かべれば、長さという一般的な量と対応づけやすいですし。
けれど、確率統計において身長や体重というのは、母集団の要素が持つ属性のはずです。心理統計にしても社会調査にしても、ヒトの集まりを対象にしている。そうすると、高々加算個の実数としか捉えようが無いですよね。だから、それをそのまま連続型の例として挙げるのは混乱すると思うのです。それよりは、
現実の調査対象となる集合の持つ量を確率分布として扱う場合には、ほぼ離散型の分布だが、それにしばしば連続型の理論分布を当てはめ、近似する事が出来る
というような説明をまずはっきりとしておくべきだと考えます。そうしておかないと、サイズ 1 の標本を無作為抽出する事によって母集団を確率分布として扱うというような操作と概念化も、よく理解出来ないのではないかなと。
それから、無理数を取り得る時は連続型みたいな認識もあるように思います。実数が連続である事と、有限個の無理数、というのが混同されるのではないでしょうか。
なお、このエントリーは、思いつきをそのまま書いた感じです。しっかり教えてくれる本が皆無、つまり、数学的な素養を持つ人は疑問にすら思わないから敢えて書く必要が無いから解説されていない、という所で引っかかってしまったので、ダラダラと書いている次第。でも、自分と同じような所で誤っていたり引っかかっている人は他にもいるんじゃないかなあ、なんて。