Interdisciplinary

以前書いた、死亡割合と致死割合について説明した記事です。

interdisciplinary.hateblo.jp

当該記事では、専門的には峻別すべき用語が曖昧に用いられている事を指摘し、実際にはどのような概念であるのかを、図も用いて解説しました。

記事を書いてからしばらく経っても、結構読まれており、名取宏さんなども、時折紹介してくださっています。やはり、混同しやすい（と言うか、区別するものだと思い至らない）用語であり、まだまだご存知無いかたも沢山おられるようです。

そこで、本記事では、新たに、これら指標を、（棒・帯）グラフ的に示します。

f:id:ublftbo:20190221213646p:plain — 罹患と死亡の指標

改めて、各指標を説明すると、

人口: 着目するヒト全体の集まり
累積罹患: 一定期間内に、特定の疾病に罹ったヒトの総数
疾患特異的死亡: 一定期間内に、特定の疾病に罹り、かつその疾病によって死亡したヒトの総数
累積罹患割合: 一定期間内での、人口全体に占める、特定の疾病に罹ったヒトの割合
致死割合: 一定期間内で特定の疾病に罹ったヒトの内、その疾病で死亡したヒトの割合
死亡割合: 一定期間内での、人口全体に占める、特定の疾病に罹り、かつその疾病によって死亡したヒトの割合

上記のようです。ここでは簡単のために、罹患も死亡も、全ての数が把握出来たとしたら、と仮定しています。また、罹患割合や死亡割合が、ものすごく高くなっていますが、実際には、がんなどだと、示されるのは10万人あたりの割合になったりして、かなり見辛いですので、誇張してあります。

これら指標の違いをしっかり把握しておく事が、現象の理解、あるいは議論をおこなう際に重要となってくるでしょう。

誤っていたり、こうしたほうが良いのでは、という所があれば、教示頂ければ幸いです。

興味のある対象について、起こり得る結果を、標本点と言う。

起こり得る全ての標本点を要素とする集合を、全事象と言う。

全事象の部分集合を、事象と言う。

要素が一つであるような事象（標本点一つのみが属する事象）を、根元事象と言う。

各標本点が備える属性について、特に着目するものを指標と言い、指標のみと関連する概念で表現出来るような事象を、確率事象と言う。例：トランプのマークを指標とする場合、ハートのカード全体のような事象は確率事象と言えるが、2のカード全体のような事象は確率事象とは言えない。※赤攝也『確率論入門』参照

ある公理を満たす、全事象の部分集合から成る集合族を、σ-代数（集合族）と言う。赤攝也によればそれは、確率事象を要素とする集合である。

全事象と、その上に定義されたσ-代数との組を、可測空間と言う。

ある条件を満たす、σ-代数上に定義された実数値関数を確率測度と言う。

全事象・σ-代数・確率測度　の組を確率空間と言う。

ある条件を満たした、可測空間上で定義された実数値関数（可測関数）を、確率変数と言う。

確率変数は、それ自体は確率とは関係しない。確率を与える事が出来る変数という意味。※柳川堯『統計数学』参照

確率空間上の確率変数と、それの確率測度の与えかたの対応関係の事を、確率分布と言う。

確率分布について、確率変数の取り得る値が高々可算である場合は離散型確率変数と言い、その確率分布を離散型確率分布と言う。

確率変数の取り得る値が連続的である場合、連続型確率変数と言い、確率分布を連続型確率分布と言う。

ある確率分布において、確率測度を確率変数の関数と考えた場合、それを確率関数と言う。

特に、離散型確率分布の場合に確率関数を確率質量関数と言い、連続型の場合には確率密度関数と言う。

ある確率変数について、それ以下の区間が取る確率（-∞からの積分）との関数を考えた場合、それを累積分布関数と言う。離散型では非減少の階段関数となり、連続型では単調増加関数となる。

何らかの興味を持ち着目する、調べたい対象全体の集合の事を、ユニバースと言う。

ユニバースの部分集合を標本と言う。

それぞれの集合に属する要素の数を、大きさと言う。

ユニバースも標本も、そのままでは、確率的な事を考えていない単なる集合である。

ユニバースの成員について、調べたい属性・側面の事を標識と言う。例：支持政党

ユニバースにおいて、標識と、その出現する度数（度数）との対応関係を、度数分布と言う。記述統計の文脈。

ユニバースから部分集合（標本）を採り出す事を標本抽出と言い、抽出する際に何らかの確率的な操作を伴うものを、確率抽出と言う。

ユニバースに属するあらゆる成員が全て当確率で拾われる、という場合を考える。そうすると、ユニバースの成員全員を要素とし、全要素の出現確率が当確率な全事象が構成される。その全事象の事を母集団と言う。※ユニバースと母集団などの関係については、林・吉野・杉山　らを参照

大きさ 1 の標本を等確率抽出する事を考える。これは、母集団を構成する事である。そこで成員の標識を指標と考え、何らかの実数に対応させると（標識自体が実数の事もあれば――身長や体重――、政党の支持に 1 、不支持に 0、というようなダミー変数の事もある）、それを、母集団の上に定義された実数値関数という意味での確率変数と捉える事が出来る。

このように母集団を構成した場合、母集団における指標（を実数に対応づけたもの）の度数分布を、確率分布として扱う事が出来る。この確率分布を母集団分布と呼ぶ。
この文脈においては、標本を、確率変数の集まり（列）と看做せる。

このようにして、実現象を、母集団から標本抽出するという数理的構造でモデル化して捉える事が可能となる。

母集団から大きさ n の標本を抽出し、実際に得られた値（実現値）から相加平均などを算出する事を考える。標本は確率変数の集まりだから、そこから算出する量も確率変数である。これを標本統計量（あるいは単に統計量）と言う。

確率変数は関数であり、標本統計量は確率変数であるから、標本統計量は関数であると言える。

標本抽出をおこない、標本統計量を算出すると、標本統計量を確率変数とし、それの取る確率測度を対応させるという意味での確率分布を考える事が出来る。これを標本分布と言う。私は、標本統計量分布や統計量分布と呼ぶ事を提案したい。

ひとまずは、こんな感じです。

以下、参考文献