過剰診断（余剰発見）の意味と、その「数えかた」【後編】

interdisciplinary.hateblo.jp

上記記事の続きです。

余剰発見の確かめかた

ここからは、どのようにして余剰発見が確かめられるのか、あるいは、集団で見た場合に、余剰発見が起こる程度をどう評価するのか、を説明します。

個別症例

まず、ある個人について、見つけた疾病が余剰発見であるかどうか、を考えます。

余剰発見は、一生その疾病による症状が出ないものを発見する事です。したがって、個別の例について、見つけた疾病が余剰発見であるかを確かめるには、

疾病を見つけ、かつ、何も処置をしないまま、対象が死亡するまで観察する

必要があります。その結果によって、

症状が現れる→余剰発見では無い
症状が現れずに、別の原因で死亡する→余剰発見である

f:id:ublftbo:20190715121447p:plain — 余剰発見では無い事が判明

f:id:ublftbo:20190715080812p:plain — 余剰発見が判明

このように判別をする事が出来ます。原理的にはそうです。

実際的問題

原理的には、疾病が見つかっても無処置で、死亡するまで観察すれば、余剰発見か否かは判明しますが、これには、以下のような実際的問題があります。

疾病を見つけたのに処置をしないという倫理的問題
疾病に罹っている期間が長い場合のリソース的問題

前者は、疾病が検診によって見つかったのに、それを敢えて処置せずに放っておく事の問題です。処置すれば、その疾病による死亡が防げたのかも知れないのに、何もしないままにその疾病で死亡させるのが、倫理的に許容されるはずがありません。

後者は、疾病に罹っている期間（罹病期間）が長く、対象者が若い場合を考えると、理解出来ると思います。もし、30歳くらいに検診でがんが見つかって、経過観察を続けるとして、何十年も、症状が出る訳でも無く、自然退縮により消退する訳でも無い、としたらどうでしょう。医師は同じ患者を何十年も観察し続けなくてはならないし（途中で引き継ぐにしても）、患者のほうも、何十年もずっと、医療機関に通って診察を受けるなりしなくてはなりません。理論的に不可能では無いものの、実施するのは現実的ではありません。

処置した場合

では、疾病を症状が出る前に発見（検診による発見）し、症状が出る前に処置をした（がんの場合、手術や化学療法・放射線治療）、としたらどうでしょう。
そうした場合、

余剰発見では無い場合は判るが、余剰発見である事は判らない

と言えます。

もし、手術なり化学療法なりの処置をしたと想定して、それが上手くいかずに、当該疾病による症状が出た、としましょう。
その場合には、対象の疾病による症状が出現したのですから、余剰発見の定義であるそれによって症状が出ず死亡もしない疾病を見つけるという事に反するので（その疾病による症状を呈した）、この症例は余剰発見では無い、と評価出来ます。

f:id:ublftbo:20190715080802p:plain — 処置後、余剰発見で無い事が判明

では反対に、症状前に処置をした所、その疾病による症状が出ず、別の原因で死亡した、としましょう。この場合、

余剰発見であったかは判らない

と考えられます。何故ならば、

処置によって症状が出なくなった

のか、

処置しなくても症状が出ないままであった

のかが、処置すれば判らなくなるからです。

f:id:ublftbo:20190715080808p:plain — 処置後、他原因死のケース

図のように、処置をおこなった後、症状が出現する前に他の原因で死亡した場合。

上：処置が症状の出現を遅らせ、結果的に他の原因で死亡した
下：そもそも症状が出現する前に他の原因で死亡するようなものに、処置をおこなった

このどちらであるか、区別が出来なくなります。

剖検

病気で死亡した人に対し、遺体を解剖して、臓器や組織を直接確認して、医学的な検討をおこなう、という営みがあります。これを病理解剖や剖検と言います。

pathology.or.jp

剖検では、、病理解剖によって、生前には見つかっていなかった疾患や未知の疾患についての重要な情報を得られる可能性があります。これには、がんも含まれます。
生前に徴候や症状が現れなかったにも拘らず、死後に剖検がおこなわれ、がんが発見された場合（そのようなものを、ラテントがん、オカルトがん、潜在がん、隠遁がんなどと呼びます）、もしそれが生前に診断（発見）されていれば、余剰発見がおこなわれた事を意味します。

たとえば、下記に示すのは、2018年版の、前立腺がん検診ガイドラインです。

【PDF】https://www.urol.or.jp/lib/files/other/guideline/32_prostate_cancer_screening_2018.pdf

ここに、検診受診者への情報提供に関する部分があります↓

生前に前立腺がんと診断されなくても，死後に病理解剖を行うと，いわゆる死亡に影響しない小さいがん（ラテントがんといいます）が 30 ～ 50％の方に認められます。このような死亡に影響しない小さながんが，PSA 検査をいた前立腺がん検診の中で発見されることもあります。

（※強調は引用者）このように、がんによっては、剖検によって数十％もの人（もちろん、それは推定された数値です）に隠遁がんが見つかる事が判っています。引用部の直後には、死亡に影響しないような “ 臨床的に重要ではないがん ” が診断される（過剰診断）ことがあります。とも書かれています。

隠遁がんに関する知見は、死後に臓器を検索したら対象の疾病が発見された、という事実から、もし検診がおこなわれていたら余剰発見を生ずる可能性があったと評価されるものです。これは、疾病によっては徒に検診をおこなうと、多くの余剰発見を生ぜしめる虞がある、という意味で、重要な知見です。ただしこの事は、個別の症例について、起こった余剰発見を確かめるものではありません。

f:id:ublftbo:20190715083619p:plain — 剖検による発見

上：剖検によって疾病が発見されるケース
下：もし生前に見つけていれば、余剰発見となった

集団の評価

このように、個別例を考えると、その例が余剰発見であるかどうかを正確に評価するのは、理論的には可能だとしても、実際的には極めて困難である、と言えます。
また、もし個別の症例で、余剰発見かが判明したとしても、たくさんの人を対象に検診をした場合（取り組みとしての集団検診や、キャンペーンがおこなわれた結果として参加する人が増える場合）などで、どのくらい余剰発見が起こるのかについては、評価が出来ません。したがって、余剰発見を確かめるには、

集団を比較する

という観点が必要です。

全く同じ集団の比較

ここで、次のように仮想しましょう。つまり、

全く同じ集団を2組用意する
片方の集団に検診をおこなう
もう片方の集団はそのままにする

このような条件を設定します。ここで、

同じ集団を2組用意する

ことは、当然不可能です。全く同じ集団を用意して、特定の条件だけ違えて比較する、などというのは、SFなどの設定でしかあり得ないからです。たとえば、ゲーム『STEINS;GATE』をご存知のかたなら、それで設定されている世界線などを思い浮かべましょう。あるいは、その設定の元になったであろう、エヴェレットの多世界解釈を援用した作品などを想定してください。設定的な背景はともかく、全く同じ集団で、検診をおこなうという条件のみ違うようにして比較する、と考えるのです。

発見数の差

このような仮想世界を考え、次のような理想的条件を前提します。

検診を受ける集団は、全員が受ける
検診を受けない集団は、全員が受けない
集団全員について、疾病の発見や経過が、死亡するまで漏れなく正確に評価出来る

このようにして、それぞれの集団で、

がんが発見された数

を比較します。そうすると、

検診集団での発見数 - 非検診集団での発見数

が、

余剰発見数

となります。何故でしょうか。

まず、検診をしない集団を考えます。
検診をしない、つまり、症状が出る前に発見をしようとしないのですから、疾病が発見されるのは、

症状が出て発見される

ものに限ります。いっぽう、検診する集団について考えてみると、その集団で発見される疾病の数は、

症状が出て発見
症状が出るものをそれ以前に発見
症状が出ないものを発見

これらを合わせたものとなります。この内の前2つは、検診をおこなわない集団における発見数と同じですから（その一部が検診によって発見される）、それを検診集団での総発見数から差し引けば、余剰発見の数になる、という寸法です。

f:id:ublftbo:20190715080816p:plain — 検診群発見数 - 非検診群発見数 = 余剰発見数

まず、理想的（仮想的）には、このようにすれば余剰発見の程度（数・頻度・割合、等）は判明する、という事を押さえておきます。しかるに、それは現実的には不可能の条件です。したがって、

現実を理想に近づけて評価する

事が重要となります。

RCT

全く同じ集団を比較する、という仮想的設定をおこなえば、余剰発見の程度を評価出来る事が解りました。では、現実世界でこのような事に近いやりかたは、出来ないのでしょうか。科学は、そのような方法を研究してきました。

まず、ある大きな集団を考えます。そして、その集団の成員を、くじ引きなどを用いて、確率的に2つの集団に振り分けます。そうすると、

同じような性質をもった集団が２組出来る

のです。つまり、全く同じような集団を複数用意する事は不可能だけれども、確率的に振り分ける事で、身体的や心理的など、色々の属性について、だいたい同じような集団が出来る事が期待出来るのです。

もちろん実際には、いっぽうの集団に、何らかの属性を持つ人が多く含まれてしまう、といった可能性もあります。検診であれば、対象の病気になりやすい人がどちらかに多く含まれるとなれば、単純に発見数の差を求めても、正しい結果にはなりません。こういった事は、現象を確率的にしか捉える事の出来ない、人間の方法的な限界です。それを踏まえた上で、理想的条件に近づけて検討するのです。

このような操作によって、似た集団を２つ用意出来たとします。そうした上で、いっぽうを検診群に、もういっぽうを非検診群にして、発見数の差を取れば、余剰発見の推測が出来ます。先にも言ったように、現象を確率的に捉える事しか出来ないので、得られた結果はあくまで、ほんとうの値を推測によって捉えたもの、と考えます（その推測がどの程度信用出来そうか、を数学的理論に基づいて研究するのが、統計科学の分野です）。

ここで紹介したような方法を、

RCT（確率化統制試験：無作為化対照試験）

と言います。医学においては、RCTによる証拠が最も強いものである、と看做されます。

RCTの実際

ただし、RCTによるデータが証拠として強いと言えるには、RCTとしての理想的条件に近い事が前提となります。これは、先に述べた仮想的設定の中でも挙げた、

検診を受ける集団は、全員が受ける
検診を受けない集団は、全員が受けない
集団全員について、死亡するまで漏れなく正確に評価出来る

このような条件です。前者2つが守られないと、アドヒアランス不良となります。その結果で起こるのは、

検診群なのに検診を受けない人が出る
非検診群なのに検診を受ける人が出る

これらが入り交じってしまう事です。そうするとやはり、2つの似たような集団で、何らかの指標を比較する際に、不正確さが生じます。こういった現象を、コンタミネーションと言います。
前掲の久道によれば、宮城県で胃がん検診の効果を検討するグループRCT（※各成員をシンプルに非検診群と検診群に確率的に振り分ける、というのとは別の方法。詳細は前掲書参照）が試みられたものの、途中でコンタミネーションが起こり、中止をやむなくされた、との事です。

3つ目の、集団全員を、漏れなく死亡時まで調べる、という条件については、当然リソース上の問題があり、全員が死亡するまでの超長期の観察（フォローアップ）は現実的ではありませんし、研究に参加する人が、何らかの理由で辞退したり脱落したり、といった事も起こります。

最も強い証拠を提供するとされるRCTでも、このような、結果に不正確さを生ぜしめる要因があります。これら要因を考慮しつつ、どれだけ理想に近づけるかが、重要となります。

ここで、具体例を見てみましょう。

www.bmj.com

これは、カナダでおこなわれた、マンモグラフィによる乳がん検診の有効性を評価した研究です。概要は次のようです。

実施年: 1980-1985
対象年代: 40-59
方法: RCT
検診群: 年1回のマンモグラフィ + 乳房触診検査を5年間受診
対照群: マンモグラフィを受けない。40-49歳は1回の乳房触診検査ののち通常診療。50-59歳は、毎年乳房触診検査
フォローアップ: 平均21.9年。最長25年

このように、当該研究は、約9万人を、マンモグラフィを受ける集団（以後、マンモ群）とそうで無い（触診は受ける）集団（以後、非マンモ群）とに分けて比較するRCTで、20年以上のフォローアップをおこなったものです。

まず、5年間の検診実施期間中には、マンモ群で666人（分母：44,925）、非マンモ群では524人（分母：44,910）の乳がんが発見されました。差は142例です。それが余剰発見の推定の数値ですが、検診が終わった後、15年後には、その差は106例となりました。
このように、フォローアップ期間が長くなると、発見数の差は縮まる傾向にあります。つまり、フォローアップ期間が短いと、非検診群における発見を数え損ない、余剰発見を過大評価する可能性があるという事です。

そして、この研究では、マンモ群において検診で見つかった484例の内の106例（22％）が余剰発見であった、と推定しています。ちなみに、マンモ群における176例は、インターバルがん（中間期がん）といって、検診と検診のあいだに、症状が出て見つかったものです（だから、余剰発見では無い）。※6例は欠損データ

これまでのRCTの説明で解るように、RCTをおこなうには、あらかじめ多くの人数を対象にして案内を出し、研究に協力してもらい、長期間に渡るフォローアップをしなくてはなりません。これは、膨大なリソースを要するものであり、実施は容易ではありません。また、検診とは、受ける人に健康上の利益を与えようとする行為ですので、検診の効果が期待出来る場合に、集団を分けて、検診を受けさせない群に割り付けて良いのか、などの倫理的な問題もあります。日本において、乳がん検診の効果をRCTによって評価するＪ-STARTという研究が2007年に開始されましたが、この研究では、検診を受ける群と検診を受けない群で比較するのでは無く、マンモグラフィのみの群と、マンモグラフィ + 超音波検査の併用の群、の比較をおこなっています（【PDF】http://www.j-start.org/01_entry/about/pdf/090206_leaf.pdf）。

様々の事情によって、RCTがおこなえない場合、証拠の力としてはRCTほどでは無い別の方法によって、余剰発見の程度を推測する事になります。

時系列分析

RCTの実施が難しい場合、統計的な資料によって、検診の有効性や余剰発見の程度を推測する事が出来ます。
日本においては、がん登録や人口動態統計などで、がんの発見数や、そのがんによる死亡数が記録されています。また、アメリカには、SEER：Surveillance Epidemiology and End Results Programという、地域がん登録の連合体などがあります。このような仕組みによって得られたデータを、時系列的に比較して、検診の評価に役立てようという訳です。

www.jacr.info

seer.cancer.gov

ここで、次の画像をご覧ください。

https://www.ncbi.nlm.nih.gov/core/lw/2.0/html/tileshop_pmc/tileshop_pmc_inline.html?title=Click%20on%20image%20to%20zoom&p=PMC3&id=6168593_41598_2018_32844_Fig2_HTML.jpg

画像が収録されている論文は↓

www.ncbi.nlm.nih.gov

この画像は、がんの発見割合（Incidence）と死亡割合（Mortality）との時系列的変化を、模式的にグラフで表現したものです。ちなみに、Incidenceは通常、罹患割合と表現されるものですが、ここまでの議論を追うと解るように、罹患と発見に乖離が現れている可能性があるので、ここでは発見を用います。

３つのグラフは、それぞれ左から、

発見割合も死亡割合も上がった
発見割合は上がったが死亡割合はそのままだった
発見割合が上がり、死亡割合は少し上がるか下がるかした

このようなパターンを描いています。まず、発見割合が年々増加している場合、

何らかの原因によって、対象の疾病に罹る人が増えている

可能性が、当然想定されます。また、それが性質の悪いもので、死に至るような疾病であれば、同時に死亡割合も増えるでしょう。参照画像の（a）グラフは、このような可能性を示唆します。

次に、発見割合の増加の理由として、

検査の性能や、検診の機会が増えた

このような理由も考えられます。今まで見つけられなかったものを発見する事が出来たり、罹病期間が長いものを先取りで見つければ、発見割合は増加します。ただし、いずれ症状が出るようなものを先取りしているのだとすれば、この上昇傾向は、そのうち落ち着き、再び下がる事でしょう。

実際には、発見数の変化は、これら理由の組み合わせによって起こります。

今度は、死亡割合を見ます。

グラフ（a）は、発見数の高まりとともに、死亡割合も上がっていっています。これは、進行がある程度速く致死的な病気への罹患が実際に増え、また、治療法の改善等にも乏しいので、その結果、死亡割合も上がっている事を示唆します。
もし、治療法の改善や、検診の成功による死亡の回避などがあれば、死亡割合の増加は緩やかになる可能性があります。あるいは、病気に罹る人は増えておらず、しかし治療法の改善や検診が上手くいっている場合には、発見割合は増加するが死亡割合は下がる、という場合もあります。グラフの形状としては、（c）の、死亡割合が下がっているほうに近くなります。

そして、グラフ（b）です。これは、発見割合が増えているが、死亡割合に変化は無いというパターンです。この場合の解釈としては大きく、

死に関わる疾病が増えているが、同時に治療法の改善や検診の成功がある
死に関わる疾病は増えておらず、見つけなくても良いものを発見する（余剰発見）が増えている

このように分かれます。しかし、この前者の解釈は、

治療法の改善等が、致死的な疾病の増加による死亡を、それまでの死亡割合程度にちょうど一致するように下げ、維持する

と仮定しなくてはならず、その仮定は、かなり困難です。実際、色々の研究において、このような時系列的変化が認められれば、それは、主に検診による余剰発見の間接的な証拠（直接的な証拠はRCTによるもの）と看做されています。いくつか具体例を見てみましょう。※本記事では、検診の有効性は別議論であるため、言及しません

↑甲状腺がん。韓国
Association between screening and the thyroid cancer “epidemic” in South Korea: evidence from a nationwide study | The BMJ

↑甲状腺がん。ブラジル
SciELO - Brasil - Thyroid cancer burden and economic impact on the Brazilian public health system Thyroid cancer burden and economic impact on the Brazilian public health system

↑甲状腺がん。カナダ
Overdiagnosis: causes and consequences in primary health care | The College of Family Physicians of Canada

↑甲状腺がん。日本
環境省_甲状腺がんの罹患率：日本

↑前立腺がん。アメリカ
Screening for Cancer: Concepts and Controversies - American Family Physician

【PDF】http://www.assc.org.au/wp-content/uploads/2019/03/Bell-Melanoma-Screening-Summit-2019-Melanoma-Overdiagnosis-in-Australia_without_results.pdf

↑メラノーマ。オーストラリア

間接的な証拠

先ほど述べたように、時系列的研究による証拠は、RCTによるものに較べ、間接的なものです。何故なら、時間経過にしたがって様々な要因が一緒に変化し、どの要因が、着目しているもの（ここでは発見割合と死亡割合）に影響しているかを、厳密に確かめられないからです。前節でも、ある時系列グラフのパターンについて、複数の解釈の可能性を提示しました。

しかし、これらの時系列的研究による検討が、他の地域でもおこなわれて同様の傾向が見られるとか、そういった所で証拠を補いつつ、知見としています。
たとえば、甲状腺がんにおける余剰発見は、検診のRCTがおこなわれて確かめられた事は無く、時系列的研究や、色々の地域の検討、あるいは、検診機会の程度と発見割合との関連を見る（検診する人の割合が多い地域で発見割合が高くなる）、といった事によって、それが相当程度起こっている、という知見が得られています。実際に罹る人がいくらか増えてもいるのではないか、の議論もありますが、それでも、多くは余剰発見であろう、というのは共通見解です。

その他の証拠

余剰発見の程度を調べるには、これまでに見たRCTや時系列研究の他に、

地域相関研究（生態学的研究）
モデル解析

などがあります。前者は、検診をおこなう地域とおこなわない地域とで発見割合の違いを見出す。後者は、それまでの知見を用い、色々の偏りを補正しつつ数学的モデルを使って、余剰発見の程度を推定します。いずれも、時系列研究と同じく、証拠としては間接的なものですが、それぞれの証拠が補い合って、知見を固めて行きます。

病理学的には判らない

ところで、がんなどについて、

手術をおこない、組織を病理学的に調べれば、余剰発見か否かが解る

というような意見を見る事があります。実際、現状それは出来ません。下記リンクは、マンモグラフィの余剰発見に関するものですが、ここから引用します。

Implications of Overdiagnosis: Impact on Screening Mammography Practices - PMC

Overdiagnosis is an epidemiological rather than a pathological concept. There is no way to determine in the pathology lab whether an individual cancer has been overdiagnosed. The frequency of overdiagnosis therefore must be estimated indirectly, drawing on data from large-scale breast cancer screening programs and population studies.

つまり、余剰発見について、

余剰発見は、病理学的と言うよりは、疫学的概念である
個々のがん症例について余剰発見であったかどうかを、病理学的に判定する方法は無い
余剰発見の程度は、大規模な検診（スクリーニングプログラム）など、集団を対象にした研究によって得たデータによって（病理組織学的を直接的とすれば）間接的に推定されねばならない

このように捉える必要があります。見つかったものを詳しく検討してみれば……というのは、一見尤もらしそうですが、そもそも、検診によって見つかるようなものは、緩やかに成長して症状が出るまでには時間がかかるものであったり（そういうものだから見つかりやすい）します。要するに、症状が出て手術されたものの特徴に似ているようでも、実際の成長のしかたがどうであるか、は解らないという事です。もしそれが解れば、乳がん検診などでも余剰発見は相当減らせているはずですが、残念ながら、そうなってはいません。もちろん、今後どうなるかは解りませんが、現状の所、それは出来ていないですし、余剰発見の程度を測るには、疫学的な方法（ＲCTやコーホート研究、時系列研究などがそう）によるのが、最も強い証拠を提供します。

まとめ

ここまで、前編では、過剰診断（余剰発見）とは何か、どのように定義され用いられているか、を説明し、後編の本記事では、余剰発見をどのようにして確かめる事が出来るのか、割合などの程度を見出すにはどうすれば良いのか、といった事を解説してきました。
福島の甲状腺がん検診にまつわる議論では、様々な論点が絡み合っており、きちんと用語の意味合いを把握して臨まないと、全く噛み合わなくなります。過剰診断（余剰発見）の語は、その中でも最重要のものの一つです。

もし、ここまでの解説が、議論がスムーズに進むための手助けになったり、用語の意味や概念同士の関係性を整理するきっかけになるとすれば、幸いです。

ところで、本記事で解説したのは、検診の議論における重要概念の一つでしたが、もし、

検診とは何か、どのような目的でおこなうのか。有効性はどのようにして評価するのか

といった所にも関心があるかたには、別な記事でその内容について解説していますので、そちらも参照していただければありがたいです。

interdisciplinary.hateblo.jp