第一種の過誤と第二種の過誤

twitterを眺めていたら、NATROMさんが

第1種の過誤と第2種の過誤の用語の使い方にも疑問が…。
http://twitter.com/NATROM/status/244301894485438464

こう書いておられたので、気になってNATROMさんのRTを辿ったら、どうやら、このエントリーの事のようでした⇒差別をめぐる2種類の過誤 - Whoso is not expressly included
NATROMさんによれば、ここで使われている「第1種の過誤と第2種の過誤」という用語の使い方に疑問があるらしい。で、そのエントリーをよく見てみると、以前に自分が(NATROMさんも)ブックマークしていたものでした。私は不勉強にして詳しい経歴を存じあげないのですが、書き手の金明秀氏は、twitterプロフィールによれば、計量社会学を専門とする方のようです。
実際に当該エントリーでの用語の使い方を見てみます。

 推測統計学の世界には「第1種の過誤」と「第2種の過誤」という言葉があります。前者は真実を見落としてしまうこと、後者は誤りを見過ごしてしまうことです。

 例えば、ある公害による病気の被害認定が争点になるとき、(a)その公害による病気の典型的症状がほとんどすべてそろっていること、(b)その公害による病気の重要な症状の一つ以上があること、の二通りの基準があるとしましょう。(a)の立場をとれば、経験的にいって「被害者」は実際の被害よりも確実に少なく見積もられることになります。これが、第1種の過誤です。(b)の立場をとれば、「被害者」が実際の被害よりも多く見積もられる危険性を否定できません。これが、第2種の過誤です。

 別の例を出すと、法曹界には「疑わしきは罰せず」という基本ルールがあります。これは、絶対に第2種の過誤(=冤罪)が起こってはならないというスタンスによるもの。一方で、医療界には「疑わしければ再検査」という基本ルールがあります。これは、絶対に第1種の過誤(=病気の見落とし)があってはならないというスタンスによるもの。

ここをいくつかに分割して検討します。※強調は引用者による

 推測統計学の世界には「第1種の過誤」と「第2種の過誤」という言葉があります。前者は真実を見落としてしまうこと後者は誤りを見過ごしてしまうことです。

まずこう書かれています。この説明からちょっとよく解りません。つまり、ここで言う「真実」と「誤り」の意味合いが掴めない。
そもそも、統計学で言う「第一種の誤り」「第二種の誤り」とは、統計的な検定という文脈で用いられる用語で、

第一種の誤り(過誤)
仮説が正しいのにそれを棄却してしまう誤り
第二種の誤り(過誤)
仮説が間違っているのにそれを見過ごす誤り

の事です。それで、注意しなくてはならないのは、この仮説というのは普通、「違いが無い」というようなかたちであるという事です。たとえば、何か薬の効き目を知りたい時に、確かめたいのが、「それまで用いられている薬より効く」という事だとします。統計的検定ではこのような場合に、「薬を与えて変化する何らかの指標の数値に違いが無い」というのを、検定する仮説として立てます。これを「帰無仮説」と言います。多くは無に帰する事が期待される仮説、という意味合いでそう表現すると説明されます。
そして、我々が実際に知りたい事、ここでは「確かめたい薬が効く」というのを「対立仮説」と称します。細かく言えば、実際の対立仮説は、「薬が効く」のような現象的・定性的な表現では無くて、母集団における平均値がゼロでは無い(帰無仮説を否定する仮説)、といった数学的な表現です。
ちょっとややこしいやり方ですが、統計的検定では、このような、数学で言う背理法に似たやり方、つまり、

  • 差が無いという仮説を立ててデータを検討する
  • その仮説のもとでは得られたデータが出る可能性は低い
  • 帰無仮説が誤っていると評価する

という流れでもって、初めに確かめたい事を支持する*1、という方法をとります。
ここで先ほど書いた、第一種/第二種 の誤りの所を少し書きなおすと、

第一種の誤り(過誤)
帰無仮説が正しいのにそれを棄却してしまう誤り
第二種の誤り(過誤)
帰無仮説が間違っているのにそれを見過ごす誤り

となります。
で、それを踏まえると、

 別の例を出すと、法曹界には「疑わしきは罰せず」という基本ルールがあります。これは、絶対に第2種の過誤(=冤罪)が起こってはならないというスタンスによるもの。一方で、医療界には「疑わしければ再検査」という基本ルールがあります。これは、絶対に第1種の過誤(=病気の見落とし)があってはならないというスタンスによるもの。

ここで強調した所は、説明が逆ではないかと思います(NATROMさんも以前ブックマークで指摘していたし、今回twitterで書いていたのもそういう事でしょう)。
この引用部では、第二種の誤りを「冤罪」とし、第一種の誤りを「見落とし」としています。しかし、私が知る限り、冤罪の喩えに対応するのは、第一種の誤りの方です。先に示したように、検定される仮説は帰無仮説、つまり、違いが無い、という仮説ですから、対応するのは、「罪を犯していない」であるはずです。そうすると、第一種の誤りは、「罪を犯していないのに犯したと判断される」事に対応しますから、そちらが「冤罪」に喩えられます。逆に第二種の誤りは、罪を犯しているのに、罪を犯したと評価されない、となりますから、「見逃し」に喩えられます。
品質管理においては、不良品がどのくらい含まれているか、等の管理状態を把握する事がとても重要な問題ですが、ここでも二種類の過誤の概念が用いられます。つまり、適切な管理状態にあるのにそうで無いとしてしまう事を第一種の誤りと言い、適切に管理されていないのにそれを見逃す事を、第二種の誤りと言います。また、第一種の誤りの事を「生産者危険(生産者リスク)」、第二種の誤りの事を「消費者危険(消費者リスク)」とも言います。第一種の誤りは、適切に管理されているのに慌ててそれを問題だとしてしまうから、生産者が損をする事になり、対して第二種の誤りは、適切な管理状態に無くて品質が低い(たとえば不良品がとても多い)のにそれが見逃されるから消費者が損をする、という事でそう言われますが、これも、冤罪の喩えと対応させるならば、第一種の誤り、つまり、品質が保たれているのに問題ありと判定する、という事に相当すると見る事が出来ます。
ちなみに、第一種の誤りの事を「αエラー」、第二種の誤りの事を「βエラー」とも言います。用語の憶え方として、この文字を使って日本語に合わせ(語をローマ字表記にした最初の文字に見立て)、「あわてものの誤り(αエラー)」「ぼんやりものの誤り(βエラー)」と説明しているテキストもよく見かけます。こうすれば、「あわてて棄却」「ぼんやりして見逃し」と憶えやすいと思います。もちろん、帰無仮説と対立仮説の関係を把握しておく必要がありますが。
医学方面では、診断の文脈において、ある病気なりの特徴を持っている事を診断するとして、実際にその特徴を持っていないのに、持っていると判断される(検査で「陽性」とされる)事を「偽陽性」、本当はその特徴があるのに無いと判断される(検査で「陰性」とされる)事を「偽陰性」と言いますが、これも第一種/第二種の誤り と対応して説明されます。これなどはまさに、

 別の例を出すと、法曹界には「疑わしきは罰せず」という基本ルールがあります。これは、絶対に第2種の過誤(=冤罪)が起こってはならないというスタンスによるもの。一方で、医療界には「疑わしければ再検査」という基本ルールがあります。これは、絶対に第1種の過誤(=病気の見落とし)があってはならないというスタンスによるもの。

この部分に対応する話であって、ここまでの説明を踏まえると、やはり逆に書いているのではないか、と考えられますが、いかがでしょうか。
ところで、医療界では疑わしければ再検査というのが基本ルールである、と書かれていますが、これは、どのような病気を対象とした検査か、とか、検査によってどのようなリスクがあるか、費用がかかるか、などに依存する問題ではないのでしょうか。たとえば、一部の穿刺などの検査には、ある程度のリスクがあると聞きますし、その検査の性能や、検査を受けたい人の既往や年齢などが勘案されて計画が立てられるものである、と理解しています。
また、「絶対に第1種の過誤(=病気の見落とし)があってはならないというスタンス」とは、ちょっと考えられない表現だと思います。何故なら、いずれかのエラーをゼロにする事は、現実的には全く意味の無い事だからです。病気の見落としが無いようにすると、「全員陽性」にすれば可能ですが、それでは無意味ですよね(病気を持たない人も全て陽性にされる)。
いかに二つのエラーの可能性を上手にコントロールしていくかが重要で(両方同時に小さくは出来ないから)、ある程度の拙速(第一種)と見逃し(第二種)の可能性を共に考えつつ検査を行なっていくはずです。医学は、エラーをゼロにする、などという志向は無いのではないでしょうか。
以上見てきたように、ここで検討した文は、恐らく用語を逆に使っています。「統計学で言う」と最初に書いていますから、他の分野での用法で使った可能性、というのは無いでしょうし、金明秀氏のtwitterのログ(例:http://twitter.com/han_org/status/234423155387678721)を見てみると、結構最近になっても同じような使い方をしているように思えますから、もしかすると、逆に憶えたままずっと使い続けているのかな、という気がします。
余談
この二種類のエラー、ドーキンスか誰かの本で、まさに犯罪捜査に喩えられていた気がしましたが、違いましたっけ? ちょっとどの本か憶えていないので定かでは無いですが。

*1:確かめたい事は「薬が効く」というような現象的な事だけれど、統計的検定で評価されるのは数学的な確率分布に一致しているかどうか、といった事だから、それだけで知りたい説を立証は出来ない