室月淳氏による過剰診断を測る説明の誤り

産科医の室月淳氏が、過剰診断についてtwitterで発言していました。

大部分は合っていますが、最後の所が完全に誤っています↓

検診をおこなう群とおこなわない群で生存率に差がなければ、それは過剰診断です

月氏は、検診する群としない群で生存率に差が無ければそれは過剰診断と説明しています。まず生存率(生存割合)とは、

着目している疾病に罹った人の内、一定期間でその疾病によって死亡した人の割合

を指す言葉です。室月氏は、それが検診群と非検診群で差が無い場合に過剰診断だと言います。しかし、よく考えてみてください。差が無いのに、どの部分が過剰診断だと言うのでしょう。

具体的に考えてみます(説明のために極端に単純化します)。ある疾病の検診を10,000人におこない、検診をしない10,000人と比較しました。検診した群で3人が検診で見つかり、検診しない群でも3人見つかりました。そして、両方とも、5年間で1人がその疾病で亡くなりました。この場合、5年致死割合(致死率)は、どちらも1/3です。差は無いですね。で、室月氏は、このような時、過剰診断ですと言います。改めて確認すると、過剰診断とは、

症状や死亡の原因にならない疾病を発見する事

です。では一体、どれが過剰診断ですか?

実際は、致死割合なる指標は、その疾病での死にやすさを示すものです。またこれは、治療法等の有効性を測る指標としても用いられます。ある病気に罹った人に対して異なる治療法を実施して、致死割合が低い場合、そちらの治療法のほうが有効である事が示唆される、といった具合です。死にやすさを下げるほうが良い処置だろう、と考える訳ですね。ちなみに、1から致死割合を引いたら、それは生存割合です。

致死割合はそういう性質ですから、過剰診断を測る指標にはなりません。

更にです。もし着目しているのが検診の有効性の場合、一般に致死割合は指標として使われません。どういう事かと言うと、致死割合は、罹った人の内で発見時点を起点にして一定期間に死亡する割合なので、検診が寿命を延ばさなくても発見時期が前にずれてくるので、生存割合が高くなりやすいのです。こういうのを、

リードタイムバイアス

と言い、検診の有効性評価を歪める重大なバイアスとして知られています(他にもレングスバイアスもあります。参考⇒なぜ「生存率」ではだめなのか | 社会と健康研究センター)。

こういう訳で、室月氏は、通常は治療法などの有効性評価に用いられる指標をなぜか過剰診断を測るものとしていて、しかも、検診では通常用いない指標としての致死割合を持ち出しているのです。要するに、過剰診断を測る話としてめちゃくちゃ間違っている事を言っているのです。

じゃあどうやって過剰診断の程度を測るかと言うと、次のようです。

  • 出来るだけ性質の似通った同じ人数の集団を用意する
  • いっぽうには検診をおこない、もういっぽうには検診をおこなわない
  • 検診群は全員が検診し、非検診群は全員検診をしない(完璧なアドヒアランス
  • 全員が漏れなく、死亡するまで追跡され、死因等が完全に記録される

このような比較が実施されたとして、検診群と非検診群の

発見数の差

が過剰診断分である、となります。非検診群は検診をしないので、必ず症状きっかけで発見されます。いっぽう検診群では、検診での発見(無症状発見)+症状きっかけの発見が見つかります。その内、検診での発見は、

症状が出るものを先取りして発見+症状が出ないものを発見

したものです。それぞれの群は同質のものだと前提されているので、非検診群での症状きっかけの発見数は、検診群での症状が出るものを先取りして発見+症状きっかけの発見と同じになりますから、検診群の発見数から非検診群の発見数を差し引いたら、残るのは

症状が出ないものを発見

です。これが過剰診断された分です。

つまりです。過剰診断というものは、検診群と非検診群の発見数ので測る訳です。差が無ければ過剰診断は無いという事です。何故ならば、差が無いのは、検診群で見つかった分全体が、症状が出るものを先取りして発見+症状きっかけの発見と一致するからです。

月氏は、致死割合の差がなければ過剰診断と言いました。先にも書いたように、差が無いのなら、いったいどの部分が過剰診断であると評価するのでしょう。全部ですか? いや、それはおかしいです。検診しない群では過剰診断はおこらないのだから、そうなる訳がありません。結局、そんな見かたで過剰診断の程度は測りようが無いのです。室月氏は、過剰診断を測る事について、何重にも間違っています。過剰診断の議論としては論外と言って良いでしょう。

月氏は、過剰診断議論について主張をしている一介の産科医、のような立場ではありません。福島における健康調査における「県民健康調査」検討委員会の一員に名を連ねている医師です(下記リンク先の委員名簿を参照)。

www.pref.fukushima.lg.jp

そして、その委員が、福島での検診における重大な論点の一つである過剰診断の測りかたについて、全く間違った認識を持っていて、あまつさえ、それをtwitter上で流布しているのです。これは大問題です。何がまずいかって、そういう立場の医師が誤った主張をしているのに、いまの所はその誤りを指摘するものが見当たらない事です。そういう事情もありますので、ここで指摘した次第です。

ところで、私がおこなった過剰診断の測りかたの説明を読んで、引っかかったかたもあるかも知れません。

出来るだけ性質の似通った集団を用意する
都合良く似たような集団を用意出来るのか
検診群は全員が検診し、非検診群は全員検診をしない(完璧なアドヒアランス
それがちゃんと守られるものか
全員が漏れなく、死亡するまで追跡され、死因等が正確に記録される
そんな事が現実に可能なのか

このような具合にです。そして、このような疑問は妥当です。私が書いたのは、理想的な設定です。つまり、完璧なアドヒアランスがあり、完璧なフォローアップと記録が出来たとしたら、と考えている訳です。それを出来るはずがありません。だから実際には、それに近い設定をするようにして、出来ない場合に生ずるズレ(バイアス)を評価します。そして、バイアスを無くす事は出来ず、大規模な集団に介入出来るとは限らないから、常に推計には幅を持たせ、ズレが生じるのを想定するのです。そもそも、検診する群としない群に分けて評価する(こういうのを介入研究と言います)研究自体が難しいのです。有効かどうか解らない介入を安易に出来ませんし、長い年月フォローアップすると費用もかかります。フォローアップが短いと、過剰診断割合は過大に推計される傾向を持ちます(将来に症状が呈するはずのものを過剰診断と判定するバイアス)。その場合には、間接的に推計するしかありません。方法的には、検診しない場合の発見数を設定して実際に見つかった数との違いを見出したり、がんの自然経過をモデル化してシミュレーションをおこなったりです。要するに、過剰診断の程度を測るのは、ものすごく難しいのです。しかも、議論の対象は小児甲状腺がん検診です。成人対象で介入研究のおこなわれた検診と異なり、そもそも蓄積されたデータ自体が少ないのです。ここはよく押さえておくべきでしょう。※介入研究したからといってバイアスがかからないのではありません

参考文献:

↓内科医の名取宏氏の説明。名取氏が仮想的な癌検診の例として紹介しているものが、私が本文で書いた仮想的な検診の例と同様の説明です。名取氏の説明がピンと来ない場合、私が設定した4つの理想的条件を補って読んでみてください。重要なのは、両方の群が同質という所です。

natrom.hatenablog.com

↓実際の研究ではこのように複雑なプロセスで過剰診断割合が推計される、という実例です。推計は極めて難しいのです。

www.bmj.com

academic.oup.com

https://journals.sagepub.com/doi/10.1177/0969141317733294journals.sagepub.com

www.mja.com.au

検診などの医療介入における《便益と害の両立》

衆議院議員米山隆一氏が、次のような発言をしていました。

これは、医師の室月氏による、がん検診で生ずる余剰発見(過剰診断)への注意喚起に対し反論したものですが、注目すべき箇所を引用します。

これらの検診が有害であるかのような情報を流すのは

↑米山氏は、がん検診が有害であるかのような主張をいたずらにする事を批判しています。米山氏の指摘には一理あり、室月氏の主張も、検診の害をいたずらに強調するもので好ましく無いと思いますが*1、米山氏の物言いも話を単純にし過ぎています。

検診に限らず医療介入は、ほぼ便益と害の両方が生じます。害の全く無い介入は、仮想は出来ても実際的には考えにくいでしょう。また、超音波検査のように、単独では侵襲がほぼ無く安全なものはあっても、それが検診なるプロセスに組み込まれた場合、着目する介入は検診となります。それを考えると、介入を評価するに際して

有害かそうで無いか

の観点で見るのは、的を外していると言えます。もしその2値的な判断をするのなら、

ほとんどの医療介入は有害

と言える(言えてしまう)のですから。したがって、米山氏の検診が有害であるかのようなとの発言に対しては、それに乗ってシンプルに、

どんな検診でも有害である

と返せる訳です。でも、そういうやり取りをしたってあまり意味が無いでしょう。

私が検診の説明で散々言及しているように、こういうのは、程度の問題なのです。これくらいの数の人に検診をしたら、これだけの人の命が助かって、これだけの数の害が生じた、じゃあそれがどのくらい同士なら推奨出来るのか、と考えていくのです。

介入は便益と害が両立します。試しに、単純に益と害の語を両方使って検診の事を説明すると、

がん検診は有益だし有害です

のようになります。このような表現に違和感を覚えるかどうかが、検診の話をスムーズに進められるかの1つのポイントであると思います。違和感を覚える人は、害があってはならないと考えているか、便益と害は両立しないものと考えているか、いずれかだと思われます。

なぜ医療介入で、便益と害が両立するかと言うと、

  • 個別例で便益と害が両立するから
  • 個人では両立しなくても集団で評価するから

この2つの観点があります。前者については、ワクチンで考えると解りやすいでしょう。ワクチンは、対象の感染症での症状を抑えたり死亡を防いだりします。これが便益。しかし、それと同時に、発熱や痛みや倦怠感などの副反応という害も生じます。ですから、個人レベルで便益と害が両立する。

いっぽう、個別で見れば、便益と害が両立し得ない場合もあります。たとえば、病気に対する手術で考えると、ものすごく難しい手術だが、成功したら死亡を免れる、しかし手術しなくても手術に失敗しても患者が死亡する、のような場合、便益は死亡の回避で、害は患者の死亡です。その場合、便益と害は両立しません。死んだが死ななかった、は有り得ません。

がん検診の余剰発見も同じです。余剰発見は、症状や死亡をもたらさない疾病の発見ですから、そこから論理的に、症状や死亡を減らすという便益と両立しません。その疾病によって症状や死亡が起きないので、それを防ぐ便益は必ずゼロだからです。

手術の場合は、片方が生じたらもう片方の可能性が消えるもので、余剰発見は、初めから便益が生じ得ないものに害を与えるものです。

これらは個人レベルで見ると、便益と害が両立し得ない場合ですが、集団を評価すれば両立します。たとえば、検診を何人かにおこなって、A氏は余剰発見されたがB氏とC氏は命が救われた、という場合には、1人に害が生じて2人は便益を得られた、と評価出来る訳です。害も便益も生じているから、その割合などの指標で比較しよう、という寸法です。

もちろん、B氏とC氏には、心理的負担や手術における侵襲や後遺症等の便益と両立する害も生じますが、それはまた別に評価します。

これまでを踏まえるなら、がん検診などの医療介入について、有害かどうかのような観点だけで評価するのは、見かたが極めて粗いものである、と解って頂けるでしょう。標語的に言えば、

有害な事は無益や無用であるのを意味しない

とでもなるでしょうか。

*1:ただし、室月氏は検診が有用である事を否定しないはずです