山崎元氏による疑問への回答と、がん検診のメカニズム

※15,000字近くあります

はじめに

note.com

 検査の身体的負担が嫌だからという理由もあったのだが、詳しい検査を受けなくてもいいと考えていた理由の一つは、故近藤誠医師の癌に関する一連の著作の幾つかを過去に読んで、自分に都合のいい部分に共感していたことだ。

自分に都合のいい部分に共感と書いておられますので、近藤氏の主張を全面的に信じ続けている、のでは無いと思われますが、その後に、

 近藤氏の主張を一言でまとめるのは難しいが、私の理解をまとめると、以下のようなものだ。(1)早期発見を目的とした癌検診が死亡率を下げているという信頼できるエビデンスはない。検査には、放射線被曝、内視鏡による消化管の傷の可能性などマイナス面もあるし、検査の目的自体が商業的で不純である。
(2)癌には、転移して害をなすような基本的に治らない「本物の癌」と、転移せずに治療で治せる「癌もどき」とがあり、前者は早期発見しても治らないし、後者は症状が出てから対処しても間に合う。本物の癌が早期発見で治らないという理由は、転移の細胞分裂のスピードを考えると、原発病巣を発見して治療した段階では、まだ見えないものの既に転移が行われていると考えざるを得ないからだ。(「癌と癌もどきの理論」)
(3)以上から、癌は積極的に検診で見つけるのではなく、不調の症状を感知してから対処すればいい。

このように近藤氏の主張とそれに対する山崎氏の見解が書かれており、現在の認識として、

 近藤氏の考えが正しいのか否かは、私の中では、今も結論が出ていない。特に(2)の部分に関しては、医師の友人達なども含めて、論理的に有効だと思える反論を聞いたことがない。

こう書かれています。特に(2)の部分に関しては、とある事から、他の部分について強く同意しておられないのはうかがえますが、がん検診に関して腑に落ちないものがある、といった雰囲気です。

いまからこの記事で、番号を振ってある3つの論点について、現在の知見を踏まえ検討します。長くなりますが、この問題は、長い分量を取らないと説明出来ない類の議論である所を承知願います。

(1)早期発見を目的とした癌検診が死亡率を下げているという信頼できるエビデンスはない。

あります。

【PDF】有効性評価に基づく 大腸がん検診ガイドライン更新版

上記は、大腸がん検診のガイドライン(2023年)です。ドラフトですが、前回のガイドラインは十数年前のものですので、こちらを参照します。ここに、

便潜血免疫法 (推奨グレード A)

と記載されています。がん検診の推奨グレードについては、

canscreen.ncc.go.jp

こちらを参照ください。推奨グレードAとは、検診による利益が不利益を明らかに上回るので、検診としての実施を推奨するのを示します。ここで利益とはまさに、死亡率を下げるとの意味です。グレードAの条件は、害を便益が上回る事ですが、そのためには便益、すなわち死亡率現象効果が確認されているのが前提です。よって、推奨グレードAであるのは、死亡率減少の証拠があるのを意味します。

大腸がん検診に戻ります。便潜血免疫法による大腸がん検診の推奨グレードはAです。すなわち死亡率減少効果が認められています。ではその内容はと言うと、

【PDF】大腸がん検診エビデンスレポート 2022 年度 簡略版 ドラフト Ver.3

こちらに示されています。がん検診ガイドラインには、エビデンスレポートなるものがあり、そこでは、検診の効果や害を評価する際に、どのような研究をどのように検索・参照したか、などが詳細に記述されています。

エビデンスレポートには、

1) 便潜血検査化学法

直接的証拠として、便潜血検査化学法は3件のランダム化試験により証明されていた。不利益としては、精度を一定に保つための食事制限、薬剤制限、精密検査に伴う偶発症、中間期がんなどが取り上げられた。証拠のレベルは証拠の信頼性が極めて高い(1++)と判定され、推奨グレードも A(対策型・任意型検診で推奨)であった。

このように書かれています(ガイドライン本編にも記載)。直接的証拠として、便潜血検査化学法は3件のランダム化試験により証明とあります。ランダム化試験でというのが重要です。よくデザインされ良好に実施されたランダム化試験は、最も強い直接的な証拠を提供します。よくデザインされ、と書いたのは、ランダム化が破られたりすれば、研究としての信用が著しく損なわれるからです。証拠が直接的とは、死亡割合(死亡率)など、検診によって得たい結果を直接的に観察した研究という事です。対して間接的とは、発見時の病期や生存割合などにより評価したものを示します。注意すべきなのは、直接的だから証拠が強い、とすぐにはならない所です。知りたい結果を指標として測ったものが直接的であり、それを検討する研究法が、提供する証拠の強さによりレベル分けされています。

canscreen.ncc.go.jp

ここで順序がつけられていますが、その研究デザインを採用していれば良いとはならない事に気をつけます。先に、よくデザインされ良好に実施された、と書いたのはそれを念頭においています。ランダム化試験(以下、略称のRCTを用いる)とは、検診を受ける群と受けない群、あるいは検診Aと検診Bを受ける群、などを確率的に振り分け、検診の種類以外を同質にする操作をおこなうものですが、実際、ランダム化試験が採用されたにも関わらず、ランダム化が崩れ(コンタミネーションと言う)て結果に疑義が生じた例(前立腺がん検診研究などで問題となった)もあります。

エビデンスレポートに戻ります。 便潜血検査化学法はRCTによって有効性が確認されたと記されています。山崎氏の問いは効果あるいは便益に関するものなので、ここでは害の議論は措いて構いません。推奨グレードAが免疫法になっているのは、ガイドライン本編によると、

現在の日本国内の診療において便潜血検査化学法や S 状結腸鏡の実施件数はごく少数となっているため、本ガイドラインではわが国で実行可能性がある便潜血免疫法と全大腸内視鏡を評価することとした。

このようです。いまは、検診に死亡率減少効果はあるか、とのクエスチョンですから、ひとまずは化学法の証拠を検討すれば充分です。具体的な有効性評価は、エビデンスレポートのCQ1. 便潜血検査の有効性評価 (P47)の部分にあります。

内容を箇条書きで整理すると、

  • RCT7文献を採用
  • 2003年から2015年
  • サンプルサイズは30,964から360,492人(それを各群に割り付ける)。
  • RCT5件、クラスターRCT2件
  • 10年以上の追跡期間での死亡率減少効果は、9%から32%

こういった所です。年齢で言うと、60歳以上から70歳くらいまでで効果が現れるようです。相対リスクとは、死んだ人の割合や率と、死んだ人の割合や率、との比です。たとえば、検診しない人たちで、がんでの死亡割合がm%だとして、検診した人たちで死亡割合が半分(m/2)であったとしたら、相対リスクは50%(0.5)です。検診しなければ100人死ぬ所、検診すればそれを50人くらいに減らせるのが期待出来る、のようにも言えます。検診したら、検診しない場合の7割に死亡を押さえられるとしたら、相対リスクは70%です。言い換えると、検診したら死亡割合を30%減らせるとなります。*1

P270の表3には、RCT含めた各種研究デザインによる結果がまとめられています。いずれでも、死亡率減少効果が示されています。

便潜血検査化学法による無作為化比較対照試験 (RCT) の対象年齢を表 3にまとめた。すべての研究で有意な大腸がん死亡率減少が示されていた。各研究により対象年齢は異なるが、45歳から80歳までが対象となっている。特に50-74歳は、スウェーデンのRCTを除いた 3 研 究の対象年齢に含まれており、この年齢の検診受診者には便潜血検査の死亡率減少効果が証明され、検診の利益がある。

ただし、検診で死亡リスクをr%減らした、といった話がある時、実際には幅を取って推計している事に注意してください。あるいは、有意/有意で無いといった表現が出てきた時には、検診が死亡リスクを減らさないとしたらこの結果は不合理だ、のような主張をしているのであって、どのくらい減らすかは、具体的に幅を示したほうを参照します。ここで重要なのは、

死亡を減らす方向の結果が、複数の研究で安定的に示されている

所です。どのくらい減らすかを具体的に検討するので無く、山崎氏の

(1)早期発見を目的とした癌検診が死亡率を下げているという信頼できるエビデンスはない。

このクエスチョンに答えるとするならば、

複数のRCTによる安定した証拠が示されている

と言えるでしょう。当然これは、あらゆる検診について成り立つものではありません。がんによるという事です。がんの性質、検査の技術、処置の確立、それら検査や処置の安全性、等々が絡み合って決まってきます。その意味で、

がん検診は、ただすれば良いというものでは無い

と言った疑問があるとすれば、それは一般論としては全く正しいです。しかるに、山崎氏の示した問いのような、がん検診が死亡率を下げる証拠そのものが無い、との主張は、はっきり誤っていると評価されます。

(2)癌には、転移して害をなすような基本的に治らない「本物の癌」と、転移せずに治療で治せる「癌もどき」とがあり、前者は早期発見しても治らないし、後者は症状が出てから対処しても間に合う。

これを見ると、山崎氏が解釈する近藤氏の主張は、

がんは、見つけても意味の無いものと、見つけなくても問題の無いものに大別出来る

であると表現出来ます。検診とは無症状で発見するのを意味しますから、近藤氏の主張を正しいものとすれば、検診で見つけても、

  • 間に合わない(手遅れ)
  • 見つけなくて良い(悪さをしないから)

ものしか無いと言えます。そして、その主張は正しくありません。それを理解するために、いくつかの鍵概念を用意する必要があります。

疾病の自然史

疾病、つまり病気には、

何もしない場合に辿る自然経過

があります。これを、疾病の自然史(natural history of disease)と言います。それは下記のようなものです。

疾病の自然史

つまり、

  1. 病気に罹る(病気が発生する)
  2. 病気による症状が出る
  3. 病気が消える

このような流れです。病気に罹って何もしなければ(だから自然史)、いずれその病気による症状が出て、それが良くなれば治癒して消え、悪くなれば死亡して消えます(死ねば病気も何も無いから)。

疾病の消退

前臨床期とDPCP(前臨床期内発見可能期間)

検診は症状が出る前に発見する事です。だから、検診の効果を検討するには、まず対象の病気に症状の無い期間が存在する必要があります。これを前臨床期と呼びます(症状が出た後は臨床期)。

前臨床期と臨床期

症状が出ない期間(前臨床期)があるからといって、それが見つけられなければ意味がありません。そして、見つけられるかどうかは、その時点での診断技術などによって決まります。つまり、前臨床期の中には、技術的に対象の疾病を発見する事が可能である期間、が想定されます。それを、前臨床期内発見可能期間と言います*2Detectable Pre-Clinical Phase、略してDPCPとも表現します*3

前臨床期内発見可能期間(DPCP)

ここまでを踏まえると、検診とはまずDPCPで疾病を発見する所から始まる、と言えます。DPCPで見つけて処置に繋げ、結果として予後を改善せしめる一連のプロセスの事を検診と言うのです。決して、単に検査をするのを指すのではありません。

臨界時点(クリティカルポイント)

病気が身体に発生し、それが進行する事を考えます。どんどん進んでやがて症状が発現し、そして最悪の場合には死を向かえます。これが自然史。

当然、着目するものが生活の質を落とし、あるいは生命を脅かすようなものであれば、それに対して、薬物療法や化学療法、放射線療法、あるいは手術など様々な処置が開発され、予後の改善が目指されます。それは、疾病の進行状況によって効きかたが異なるはずです。つまり、疾病の経過において、

処置が功を奏するかどうかを分ける時点

が想定されます。これを、臨界時点(クリティカルポイント)と呼びます。

臨界時点(クリティカルポイント)

図ではCP(Critical Point)と略しています。定義上クリティカルポイントは、様々な時点に複数存在し得ます。クリティカルポイントの場所と数は、疾病の性質と処置の内容に依存して変化してくると考えられます。これは、病理学的にこういう状態であればそこがクリティカルポイントである、と完全に記述出来る類のものではありません。たとえば、ある疾病について、特定の場所への遠隔転移が起こる時点が処置による予後改善を左右する事があるとしても、それが別の疾病にも当てはまるとは限りません。

検診の効果

疾病の自然史ではクリティカルポイント(CP)の存在が仮定されます。しかし、それは直接観察出来るものではありません。クリティカルポイントは処置が効果をもたらすかを左右する点です。であれば、

  • クリティカルポイントの時点
  • 疾病を発見した時点

によって検診の効果が決まると言えます。

検診で見つけても効果がない

上図は、クリティカルポイントの後に発見したのを示しています。DPCPの中に1つクリティカルポイントがあって、疾病の発見はその後でおこなわれたのを意味します。クリティカルポイントは予後改善――ここでは最も重要な、死亡時点を遅らせる事を指します――を左右する点だから、それより後で見つけても延命出来ません。だから、この事例で言えば、

検診は失敗した

と評価されます。重要なのは、検診とは症状が出る前に発見すれば良いとは言えないという事です。せっかくDPCPで見つけても、それがクリティカルポイントの後であれば予後が改善されないからです。これを踏まえれば、検診が効果を発揮するとは、

DPCPにあるクリティカルポイントより前に発見する

事であると言えます。

検診が効果をもたらす

この図は、死亡時点が右にずれています。処置によって延命したのを意味しています。

もちろん厳密に言えば、発見後におこなわれる処置が失敗しないのが前提です。いま考えているのは、鍵概念に着目し、他の要因はひとまず捨象している状況であるのを押さえておきます。だから、図では発見と処置が同じ時点として描いてあります。実際の検診では当然、発見(診断)と処置が同時におこなわれる事は稀でしょう。

また、クリティカルポイントは理論的に複数存在し得るので、DPCPにクリティカルポイントが複数存在する場合、どのポイントを捉えるかで予後が段階的に異なってくる、といった事も想定されるでしょう。

クリティカルポイントがDPCPの中に存在せず、臨床期にある場合も考えられます。

検診は不要

死亡時点が右にずれていますから、先の図と同じく処置によって延命したのを意味しています。しかるに、クリティカルポイントはDPCPにはありません。つまり、

症状が出てから処置しても間に合う

のです。クリティカルポイントより前に処置しているのだから、確かに処置は功を奏しています。けれど、それはDPCPの中にはありません。したがって、検診が効果をもたらしたのでは無いのです。

処置による効果と検診による効果は異なる

これが、検診を議論する際に最も重要な論点であるのを押さえてください。ここまで来れば明確になるはずですが、その論理を理解する鍵概念が、DPCPとクリティカルポイントであったのです。

理論的には、クリティカルポイントがDPCPの前にのみ存在するのも考えられます。

クリティカルポイントを捉えようがない

ただし、想定は出来ても、実際的な状況としては、あまり考える必要は無いと思われます。技術的に発見が出来ないのに、それより前に処置が出来る、というのは現実的ではありません。たとえば、他の手術をおこなった時に、気づかずに別の疾病がクリティカルポイント前に処置され(予後が改善され)た、のような想定は出来ますが、ちょっと無理があります。

リードタイムと病悩期間

検診をしなければ、病気は徴候や症状が出て発見されます。つまり臨床期内で発見されます。これに検診をおこなった場合、検査の性能が良ければ、DPCPで発見出来ます。とすれば、

発見されてから症状が出るまでの期間

分、病気であると認識される期間が延伸されます。これをリードタイムと呼びます。

リードタイム

生命を脅かすと世間的に認知されている、がんのような疾病の場合、それに罹っていると自覚する事自体が、強い心理的社会的負担をもたらします。もちろん、心因により身体的に影響をもたらす事も想定されます。がんは、その性質によっては、生物学的に発生してから何年もかけて進行するものがあります。つまりDPCPが年単位であるという事です。ここで見つけると、本来は症状が出てから発見されるはずだったものが、より早く見つかりリードタイムが発生します。これは負担、すなわちです。検診とは、この害と引き換えに、DPCPにあるクリティカルポイントを捉え、延命する事を目的とする訳です。ですから、もしDPCPにクリティカルポイントが無ければ、リードタイムは起こしてもしょうが無い害です。検診の害を考える上で、これはとても重要です。

病気に罹っている事を自覚し、それに思い悩む期間を病悩期間と呼ぶ事があります*4。つまり、検診はリードタイム分の病悩期間を延伸します。こちらの表現を使えば、検診とは、病悩期間延伸などと引き換えに延命を得るのが目的、とも言えるでしょう。

病悩期間の延伸

効果の測りかた

ここまで、疾病の自然史および、DPCPとクリティカルポイントの概念を用意して、検診による効果がどのようなものかを検討しました。個人における自然史を図解し、そこにDPCPが存在し、クリティカルポイントが配置される。そして、DPCP内のクリティカルポイントを捉え処置に繋げ、寿命延伸をもたらすのが検診の目的なのでした。しかし、DPCPやクリティカルポイントは、あくまで概念的なものであって、それ自体を直接観察する事は不可能です。DPCPが何年か、クリティカルポイントがどこにいくつ配置されているか、その厳密な所は、文字通り誰にも解りません。

ではどうやって評価するか。それは、

集団を観察し、寿命が延伸された事を確認する

のをおこないます。つまり、DPCPやクリティカルポイントは直接確認出来ないので、それらの構造(すなわち自然史全体)をブラックボックスにしたまま、集団を観察して、結果的に寿命延伸が認められれば、その検診はDPCP内のクリティカルポイントをある程度捉えられたのであろう、と推察するのです*5。そして、寿命延伸を測る指標が、いわゆる死亡率(や死亡割合)であるのです。

山崎氏が提示した論点の(1)を検討するにあたり、大腸がん検診ガイドラインエビデンスレポートを参照し、便潜血検査を用いた検診での死亡率減少の証拠が安定的に見出されている事を検討しましたが、実は、その有効性評価の背景にある構造が、論点(2)で検討した、DPCPとクリティカルポイントの鍵概念を含む疾病の自然史であったのです。

疾病の自然史は、個別の人間によってそのありようが異なります。年齢や性別、あるいは罹るがんの性質などによって全く違います。直腸結腸がんと膵がんと甲状腺がんでは、これが同じがんと表現される病気なのか、と思えるほどです。ですから単純に、転移や浸潤があるからどうとか、他の検診がどうだから別の検診もこうだとか、そういうのが検診には全然通用しないのです。それぞれのがんについて、集団を観察し、その結果の指標としての死亡率などの下がりかたを評価するしか無いのです。そして、現在の知見を参照すれば、大腸がん検診などにおいては、確かに死亡率減少を示す証拠があると評価されます。

(3)以上から、癌は積極的に検診で見つけるのではなく、不調の症状を感知してから対処すればいい。

疑問への回答

ここまで検討した内容から、山崎氏による論点(3)

以上から、癌は積極的に検診で見つけるのではなく、不調の症状を感知してから対処すればいい。

に対する回答も導かれます。すなわち、

  • 対象とするがんによる
  • 性別や年齢などの属性による
  • 大腸がん検診などは、集団的に受ける事が推奨される
  • どんながんについても検診をすれば良いとは言えない

このようです。現状、集団に対しておこなう検診(対策型検診)は、5種類が推奨されています(前立腺がん検診は推奨されない)。ガイドラインは下記リンク先にあります。

canscreen.ncc.go.jp

それぞれの検診について、推奨グレードとガイドラインが示されています。見ると解りますが、実施する対象の性別や年齢層、検査法の種類など、かなり細かく分かれています。たとえば肺がん検診は、タバコをたくさん吸う、いわゆる高危険群に対して受ける事が勧められています。また、大腸がん検診において、直腸指診による検診の推奨グレードはDであり、これは、受けない事を勧めるとの意味です。

canscreen.ncc.go.jp

・検診による不利益が利益を明らかに上回るので、推奨しない

・検診の有効性がないことを示す科学的な証拠がある。

つまり、同じ◯◯がん検診と言っても、検査法や、対象の属性によって、推奨のされかたが異なるのです。これは、繰り返し言っているように、がんの性質や検査の性能、対象の属性によって、DPCPにあるクリティカルポイントを捉えられるかどうかが様々だからです。疾病を持っている人の割合も関わってきます。罹っている人の人数が少なければ、減らしかたにも限界があるためです。若い世代への推奨グレードが高くなりにくい理由の1つです。

注意しなくてはならないのは、なるべく新しい知見を参照する事です。上に張ったリンクは、大腸がん検診だと2005年度版のガイドラインが示されています。私が最初に参照したのは、2023年の更新版です。十数年経てば、証拠の知見も違ってきます。肺がん検診も2006版ですが、肺がん検診は、NLSTやNELSONといった重要な研究がその後に検討され、それがガイドライン作成に反映されています。

www.haigan.gr.jp

便益と害の評価

ここまで検討してきたのは、主に検診の効果の側面です。効果とは、実臨床における、興味ある医学的指標の意義ある変化をもたらす作用の事ですが、それらを含んだ、もっと一般的な表現を用いると、検診による便益:benefitをもたらすのが目的である、と言えます。

いっぽう検診には、先に示した病悩期間延伸のような害:harmがあります。ここでは紹介していませんが、昨今話題になる重要な害として、

余剰発見:overdetectionあるいは過剰診断:overdiagnosis

があります。これは、臨床期が生じない疾病を発見するもので、それに関わるあらゆる害が、不必要な害、すなわち便益と引き換えようが無い害をもたらします。

臨床期が存在しない。これを見つけると余剰発見となる

臨床期が生じないのは、

  • 疾病の進行が止まって症状が出るようにならない
  • 症状が出る前に別の疾病や事故で死亡する
  • 症状が出る前に治る(がんであれば、自然退縮による消退など)

などの場合です。既に中止された、小児への神経芽細胞腫検診や、前立腺がん検診、甲状腺がん検診などでよく取り沙汰されますが、他のがん、乳がん検診や肺がん検診でも発生する事が推計されています。

ここで、次のような事が指摘出来ます。

近藤誠氏の主張は部分的に正しい

つまり、近藤氏が言っている、

  • 見つけても間に合わないものがある
  • 見つけなくても構わないものがある

これらの見解自体は正しいのです。ですが、あたかもそのどちらかしか無いかのごとく言っている所が近藤氏の誤りです。実際には

DPCPにクリティカルポイントがあり、それを捉えれば延命出来る

ものも存在し、その存在は、RCTなどの研究によって示されています。

検診の有効性評価は実際には、効果などの便益と、余剰発見などの害を比較衡量して推奨の程度が決められます。ガイドラインではそれが詳細に検討されています。しかるに、それをおこなうには、まず検診の有効性とは何かが理解されねばなりません。その基本が、この記事で紹介してきた概念です。これらの理解は、あくまで出発点であるのを念頭においておくのが肝要です。

参考文献

canscreen.ncc.go.jp

がん検診の有効性評価における基本的な考えかたの紹介。特に、発見率(割合)や生存率(割合)を指標とすべきで無い所などが重要なので、必ず押さえておきます。

www.cancer.gov

米国国立がん研究所による、がん検診についてのまとめです。PDQPhysician Data Queryの略です。このページには、がん検診の有効性評価をどのようにおこなうか、便益と害として何がありどのような指標で測り、またそれらをどのような研究アプローチによって見出すのか、などが網羅的に記述されています。専門家向けで簡単な内容ではありませんが、がん検診の議論をおこなうには最低限押さえておくべき論点がまとめられていますから、読む事をおすすめします。

https://cancerinfo.tri-kobe.org/summary/detail_view?pdqID=CDR0000062758

PDQの日本語版

ほとんど存在しない、検診の有効性評価に関する専門書です。著者の久道氏は、近藤誠氏を痛烈に批判した、がん検診有効性評価の専門家です。

interdisciplinary.hateblo.jp

本記事で説明したような内容を、もう少し詳しく解説してあるものです。私が書いたものです。

*1:エビデンスレポートは率と率の比。割合のほうが簡単なので、例は割合

*2:本によっては診断可能前臨床期など。これだと前臨床期の中に発見可能期間がある事が解りにくい

*3:他に、Pre-Clinical Detectable Phase:PDCPなど

*4:明確な定義がされているものがなかなか見つからないので、そういう概念を指す場合がある、くらいに捉えます

*5:捉えた度合いが、死亡率減少などの効果の大きさに反映されます