室月淳氏による過剰診断を測る説明の誤り
産科医の室月淳氏が、過剰診断についてtwitterで発言していました。
甲状腺がんの過剰診断とは誤診ではありません。病理学的にはがんにまちがいないのですが、進行がきわめておそく生涯でまったく症状を示さないなどです。残念ながら個々のがんにおいて過剰診断と判断することはできません。検診をおこなう群とおこなわない群で生存率に差がなければ、それは過剰診断です
— 室月淳Jun Murotsuki (@junmurot) 2022年5月24日
大部分は合っていますが、最後の所が完全に誤っています↓
検診をおこなう群とおこなわない群で生存率に差がなければ、それは過剰診断です
室月氏は、検診する群としない群で生存率に差が無ければそれは過剰診断
と説明しています。まず生存率(生存割合)とは、
着目している疾病に罹った人の内、一定期間でその疾病によって死亡した人の割合
を指す言葉です。室月氏は、それが検診群と非検診群で差が無い場合に過剰診断だと言います。しかし、よく考えてみてください。差が無いのに、どの部分が過剰診断だと言うのでしょう。
具体的に考えてみます(説明のために極端に単純化します)。ある疾病の検診を10,000人におこない、検診をしない10,000人と比較しました。検診した群で3人が検診で見つかり、検診しない群でも3人見つかりました。そして、両方とも、5年間で1人がその疾病で亡くなりました。この場合、5年致死割合(致死率)は、どちらも1/3です。差は無いですね。で、室月氏は、このような時、過剰診断です
と言います。改めて確認すると、過剰診断とは、
症状や死亡の原因にならない疾病を発見する事
です。では一体、どれが過剰診断ですか?
実際は、致死割合なる指標は、その疾病での死にやすさを示すものです。またこれは、治療法等の有効性を測る指標としても用いられます。ある病気に罹った人に対して異なる治療法を実施して、致死割合が低い場合、そちらの治療法のほうが有効である事が示唆される、といった具合です。死にやすさを下げるほうが良い処置だろう、と考える訳ですね。ちなみに、1から致死割合を引いたら、それは生存割合です。
致死割合はそういう性質ですから、過剰診断を測る指標にはなりません。
更にです。もし着目しているのが検診の有効性の場合、一般に致死割合は指標として使われません。どういう事かと言うと、致死割合は、罹った人の内で発見時点を起点にして一定期間に死亡する割合なので、検診が寿命を延ばさなくても発見時期が前にずれてくるので、生存割合が高くなりやすいのです。こういうのを、
リードタイムバイアス
と言い、検診の有効性評価を歪める重大なバイアスとして知られています(他にもレングスバイアスもあります。参考⇒なぜ「生存率」ではだめなのか | 社会と健康研究センター)。
こういう訳で、室月氏は、通常は治療法などの有効性評価に用いられる指標をなぜか過剰診断を測るものとしていて、しかも、検診では通常用いない指標としての致死割合を持ち出しているのです。要するに、過剰診断を測る話としてめちゃくちゃ間違っている事を言っているのです。
じゃあどうやって過剰診断の程度を測るかと言うと、次のようです。
- 出来るだけ性質の似通った同じ人数の集団を用意する
- いっぽうには検診をおこない、もういっぽうには検診をおこなわない
- 検診群は全員が検診し、非検診群は全員検診をしない(完璧なアドヒアランス)
- 全員が漏れなく、死亡するまで追跡され、死因等が完全に記録される
このような比較が実施されたとして、検診群と非検診群の
発見数の差
が過剰診断分である、となります。非検診群は検診をしないので、必ず症状きっかけで発見されます。いっぽう検診群では、検診での発見(無症状発見)+症状きっかけの発見が見つかります。その内、検診での発見は、
症状が出るものを先取りして発見+症状が出ないものを発見
したものです。それぞれの群は同質のものだと前提されているので、非検診群での症状きっかけの発見数は、検診群での症状が出るものを先取りして発見+症状きっかけの発見と同じになりますから、検診群の発見数から非検診群の発見数を差し引いたら、残るのは
症状が出ないものを発見
です。これが過剰診断された分です。
つまりです。過剰診断というものは、検診群と非検診群の発見数の差で測る訳です。差が無ければ過剰診断は無いという事です。何故ならば、差が無いのは、検診群で見つかった分全体が、症状が出るものを先取りして発見+症状きっかけの発見と一致するからです。
室月氏は、致死割合の差がなければ
過剰診断と言いました。先にも書いたように、差が無いのなら、いったいどの部分が過剰診断であると評価するのでしょう。全部ですか? いや、それはおかしいです。検診しない群では過剰診断はおこらないのだから、そうなる訳がありません。結局、そんな見かたで過剰診断の程度は測りようが無いのです。室月氏は、過剰診断を測る事について、何重にも間違っています。過剰診断の議論としては論外と言って良いでしょう。
室月氏は、過剰診断議論について主張をしている一介の産科医、のような立場ではありません。福島における健康調査における「県民健康調査」検討委員会の一員に名を連ねている医師です(下記リンク先の委員名簿を参照)。
そして、その委員が、福島での検診における重大な論点の一つである過剰診断の測りかたについて、全く間違った認識を持っていて、あまつさえ、それをtwitter上で流布しているのです。これは大問題です。何がまずいかって、そういう立場の医師が誤った主張をしているのに、いまの所はその誤りを指摘するものが見当たらない事です。そういう事情もありますので、ここで指摘した次第です。
ところで、私がおこなった過剰診断の測りかたの説明を読んで、引っかかったかたもあるかも知れません。
- 出来るだけ性質の似通った集団を用意する
- 都合良く似たような集団を用意出来るのか
- 検診群は全員が検診し、非検診群は全員検診をしない(完璧なアドヒアランス)
- それがちゃんと守られるものか
- 全員が漏れなく、死亡するまで追跡され、死因等が正確に記録される
- そんな事が現実に可能なのか
このような具合にです。そして、このような疑問は妥当です。私が書いたのは、理想的な設定です。つまり、完璧なアドヒアランスがあり、完璧なフォローアップと記録が出来たとしたら、と考えている訳です。それを出来るはずがありません。だから実際には、それに近い設定をするようにして、出来ない場合に生ずるズレ(バイアス)を評価します。そして、バイアスを無くす事は出来ず、大規模な集団に介入出来るとは限らないから、常に推計には幅を持たせ、ズレが生じるのを想定するのです。そもそも、検診する群としない群に分けて評価する(こういうのを介入研究と言います)研究自体が難しいのです。有効かどうか解らない介入を安易に出来ませんし、長い年月フォローアップすると費用もかかります。フォローアップが短いと、過剰診断割合は過大に推計される傾向を持ちます(将来に症状が呈するはずのものを過剰診断と判定するバイアス)。その場合には、間接的に推計するしかありません。方法的には、検診しない場合の発見数を設定して実際に見つかった数との違いを見出したり、がんの自然経過をモデル化してシミュレーションをおこなったりです。要するに、過剰診断の程度を測るのは、ものすごく難しいのです。しかも、議論の対象は小児甲状腺がん検診です。成人対象で介入研究のおこなわれた検診と異なり、そもそも蓄積されたデータ自体が少ないのです。ここはよく押さえておくべきでしょう。※介入研究したからといってバイアスがかからないのではありません
参考文献:
↓内科医の名取宏氏の説明。名取氏が仮想的な癌検診の例
として紹介しているものが、私が本文で書いた仮想的な検診の例と同様の説明です。名取氏の説明がピンと来ない場合、私が設定した4つの理想的条件を補って読んでみてください。重要なのは、両方の群が同質という所です。
↓実際の研究ではこのように複雑なプロセスで過剰診断割合が推計される、という実例です。推計は極めて難しいのです。
https://journals.sagepub.com/doi/10.1177/0969141317733294journals.sagepub.com