メモ的
いつもの統計関連の雑記的な何か。
1月19日 朝日新聞 食品セシウム検査報道 それぞれの見解 - Togetter
私は、朝日の記事は、ある程度丁寧なものとして評価出来ると考えています。
asahi.com(朝日新聞社):福島の食事、1日4ベクレル 被曝、国基準の40分の1 - 社会
ただし、記事タイトルは相当に早計ですね。現段階で、当該調査での代表値に基づいて「基準の○○分の1」という風にアピールするのはあまり好ましく無いと思われます。
この調査の問題点(考慮すべき点と言った方が良いか)を統計的に考えると、
- 標本が小さい
- 標本が母集団(確かめたい全体)を代表しているか不明
この辺が主でしょうか。
標本が小さいというのは、調査の精度が低いのを意味しますから、標本でこういう値が出た、だから母集団ではこうなっているのだろう、というような推測をする時に、幅を大きく取らないといけません。
標本が母集団を代表しているか否か、というのは、ちゃんと母集団から無作為抽出なりを行わなければ、結果に偏りが出る危険性があるという事ですね。採ってきた所の特性によって、大きめになったり小さめになったりする。もし、汚染度が極端に小さい所からばかり採られたとすれば、過小評価してしまう。これは非標本誤差なので、確率的に誤差を評価する事が難しいと。
今興味を持っているのは、ある世帯における1日あたりの食事に含まれる放射能量(これが標本抽出の「単位」にあたる)ですから、それがどう分布しているのか、を知りたい訳ですね。全体(母集団)としては何を考えるべきでしょう。ひとまずは福島県全体? 福島県を母集団として無作為抽出して調査を行う? あるいは、これまでの降下量等から考えて、最も汚染が大きいであろう地域を設定して、それを母集団とする、という見方も出来るのでしょうか。そうすれば、比較的小さい規模の調査で済むし、他の地域はそれよりは小さいであろう、と評価するのは一応可能?
恐らく、母集団でどう分布しているか、という理論的な根拠は無いですよね? 調査対象は「1日の食事に含まれる放射能量」で、それには非常に色々な要因が関わっていると思いますが、全体として正規分布状の分布になる(あるいは他の分布で近似出来る)、という知見はあるのでしょうか。
ところで、toggeterにある牧野氏の見解はよく解りません。なぜ中央値を代表値として用いる事がそれほど批難されるのでしょうか。検出限界未満のものは具体的な量が不明なので、代表値として中央値を採用する、というのは、妥当な検討だと私は思うのですが。その代表値をどう解釈するか、は別の話として。