検診の意味と有効性評価――後編

ご案内

本エントリーは、検診について説明した連載記事の一部です。
連載は、以下の記事からなっています。

記述は正確さを心がけておりますが、誤りがあれば、コメント欄等でご指摘いただければ幸いです。

それでもリードタイムは

さて、このようにして、比較の準備は整いました。では次に、検診の効果を何によって測りましょうか。

生存割合は、特定の期間経ってどのくらいの人が生き残っているか、という指標でした。では、RCT によってバイアスを取り除けたので、生存割合を比較しましょうか……実は、これでも、生存割合をそのまま使ってはなりません。何故でしょうか。

リードタイムを思い出してください。それは、早期発見によって、見かけ上の生存期間が、(延命効果が無くとも)長くなる事でした。

リードタイム

無作為化によって、検診を受ける人々とそうで無い人々とで、特徴が似通うようにしました。けれど、リードタイムは、検診を受けた後生ずるバイアスです。これは、(リードタイムを補正しなければ)ほんらい死亡とすべき例を生存とする事によって生ずるバイアスですから、無作為化だけでは排除し切れない訳です。

こういう事情があるので、検診の効果を確かめる場合には、そもそも生存割合では無く、別の指標を用います。

死亡割合(死亡率)

生存割合は、病気に罹った人の内、生存した割合でした。ですから、この割合の分母は、病気に罹った人です。

ここで見方を変えて、分母を別のものにしましょう。つまり、

研究参加者(の数)を分母とする

のです。こうすると、分母には、病気に罹らなかった人も入ってきます。そして、分子には、

観察終了時(あるいは、定期的な評価時点)にその病気で死亡していた人(の数)

を入れます。まとめると、

研究参加者の内、その病気で死んだ人の割合

という尺度を考えるのです。そしてこの尺度を、死亡割合と言います。これはまた、死亡率とも言います。この尺度の分母の、より一般的な意味合いは、その病気に罹っておらず、かつ罹る可能性を持つ者(の数)ですが、今は、研究に参加してくれる人々を全体と考えているので、それを分母とします。もちろん、その時罹っている人や、罹る可能性の無い人(対象の がんに罹る臓器が無いなど、つまり、既に切除している例や、性別に固有の場合――女性なら前立腺がん、男性なら子宮がん など)は最初に除外します。

ところで、かなり前の、生存割合と致死割合の説明の所で、

対象の内、死亡する人の割合の事を、死亡した人だからといって、死亡割合と表現してはなりません。

このように注意書きをしていたのを憶えておられるでしょうか。これは、いま見ている尺度の方に死亡割合の語が充てられているという事情から、だったのですね。

なぜ死亡割合なのか

今は、RCT をおこなうという前提です。という事は、

  • その病気を持っている人の数
  • その病気の症状が出る人の数
  • その病気の進行の度合い
  • その病気で死ぬ人の数

などが同じようになる事が期待されます(そうなるように RCT をおこなっている)。そして、がんについては、着目すべきは死亡ですから、全対象者中の死亡者の割合を比較する事によって、それぞれの集団で異なる条件、つまり検診の有無の効果を評価出来る、という寸法です。

もし、検診が無効であるなら、死亡割合は、検診をしない集団と同じくらいになるはずです。何故なら、

  • 進行が早いものは(DPCP が短いから)検診では拾えない
  • 検診で拾えても、早期発見で延命出来なければ(DPCP の中に、治療成果を左右するポイントが無ければ)、検診しない場合と同時期に死亡
  • 病気を持たない人は最後まで生き残る

これらの理由で、死亡する人と生存する人との配分が同じようになると考えられるからです(途中で追跡不能になる場合などは、ここでは考えない事にします)。

生存割合を見る場合に生ずるリードタイムバイアスに関しては、死亡割合は、観察終了時の割合を見る訳なので、発見時にリードタイムが生ずる、という事はありません。別な見方をすれば、参加者全員について、観察開始時をリードタイムの始点とする、とも言えます。つまり、(敢えてリードタイムという語を使うなら)リードタイムの定義自体が異なるという訳です。

それでは、どのような場合に、死亡割合が検診によって減るのでしょうか。
下の図をご覧ください。

Overdiagnosis in Cancerおよび『過剰診断』を参照して作成
がんの進行パターン

これは、がんが進行するパターンを模式的に表したものです。

グラフの縦軸は、がんの大きさで、横軸は、経過する時間です。横紫破線は、がんによる症状が出るまで大きくなった事を表しており、横暗赤太線は、そのがんによって死亡してしまうまでの大きさになるのを示します。
縦暗赤太線は、その がん以外の原因によって死亡する事を示しています。

枠内の 4 種類の矢線が、がんの進行パターンです。
赤線は、進行が急激で、短期に死亡してしまうもの。オレンジ線は、進行が比較的ゆっくりなもの。
濃緑線は、進行が極めて遅く、症状が出る前に、別の原因で死亡するようなもので、明緑線は、進行が途中で止まり、それ以上大きくならないものです。
更に、薄緑点線で示したものは、がんが小さくなっていく場合(退縮)を表しています。

この内、進行の急激なものは、定期的な検診では見つかりにくく、したがって、検診の恩恵は受けられません。進行の非常に遅いものや進行が止まるものは、そのがんの症状が出る前に別の原因で死亡するのですから、検診で見つける必要の無いものです(見つければ過剰診断)。
という事は、検診に期待されるのは、オレンジ線で示されているような、進行が比較的ゆっくりなものを見つける事、であると言えます。

また、対象の がんに対する有用な治療法が存在する事も重要です。それが無ければ、どの時点で見つけても、寿命を延ばす事がそもそも出来ないからです。

もう一つは、DPCP の中に、治療成果を左右するような時点が存在する事です。つまり、それが起こると治療が困難になるような、浸潤(がんが広がる)や転移(違う臓器に移動して定着する)を起こす時点(クリティカル・ポイント(臨界時点))が DPCP の中にあって、そのポイント以前で病気を捉えて治療されれば、検診が効果を発揮する事が期待出来ます。
対して、もしクリティカル・ポイントが、症状が出て以降(臨床期)にしか無いのであれば、症状が出てから治療しても延命の度合いは変わらないので、検診は無効である、と評価されます。

これらを踏まえると、有効な検診というのは、

  • その がんに対する有用な治療法があり
  • DPCP 内にクリティカル・ポイントがあって
  • 適切なタイミングで(クリティカル・ポイント以前に)
  • 比較的ゆっくりと進行するものを多く見つける事の出来る

検診である、と言う事が出来るでしょう。そうすれば、延命・救命する事が可能で、その結果、観察終了時に死亡する人の割合が減る、という訳です。

このように、RCT によって検診集団と無検診集団とで、対象の病気の死亡割合を見て、検診集団の死亡割合の方が低ければ、検診に効果があった事の証拠として認められるだろう、と言えるのです。

ここで、生存割合は生存者に着目していたから高い方が良かったが、死亡割合については死亡者を見ているので、それは低い方が望ましい、という事に注意しておきましょう。
なら生存割合では無く致死割合を用いて揃えれば良いではないかと思われるかも知れませんが、前にも言ったように、そちらは、急性の病気の危険の度合いを示す場合に使われる事があり、治療法の効果の評価などで生存割合が使われたりするので、今のような表現の仕方となっています。

総合的に

先ほど、RCT で死亡割合が検診によって低くなる事で、

検診に効果があった事の証拠として認められるだろう

というように書きました。ずいぶん、もって回ったような言い方に感ぜられたかも知れませんが、これには理由があります。つまり、RCT によって得られた証拠は確かに有用だけれども、RCT を一度おこなったから充分という訳では無いのです。それは次の理由によります。

RCT でも偏る事はある

RCT の説明の所で書きましたが、無作為化しても、それはあくまで、両方の集団が大体等質になる事が期待出来るよう偶然に任せる、という事をやっているのであって、結果的に偏ってしまう場合もあり得ます。

脱落や追跡不能が起こる

研究に協力してくれるのは人間ですから、当然、途中で追跡出来なくなったり、何らかの理由で研究から脱落した人が出てきます。そういう人が多ければ、その分、ほんとうの結果とのズレが生じます。

標本が小さい

研究の目的は、人間全体に通ずる何らかの関連や因果関係を見出す事ですが、調べたいもの全体は調べ切れないので、その一部を抽出します。それを標本と言いますが、標本があまり大きく無い(標本に属する人が多く無い)場合には、その結果を、より広い集団に適用すると、誤る場合があります。
たとえば、ある選挙について、有権者全体の、特定の政党に対する支持の割合を知りたいとしましょう。そして、有権者全員の名簿が手に入ったとします。そうすると、有権者全員に質問する事は出来ませんので、くじ引きによって、名簿中の誰が選ばれる確率も全く同じになるようにしてから何人か選んで(無作為化に通ずる方法。無作為抽出)、その人々(標本)における割合を確かめます。

もし、この標本に属する人数が、ほんの数十人だとすればどうでしょう。有権者全体は、数十万から数千万に及ぶでしょうから、いくら無作為に採ってくるとは言っても、全体における割合と標本でのそれに、乖離が生ずる場合があります。

今考えているのは、がんの話です。がんの種類によっては、罹る人が何万人に一人のものもありますので、そういう場合には、標本自体をとても大きくする必要があります。RCT は、協力者を募っておこなうものですから、そのような大きな標本を集めるのに限界がありますので、一つの RCT では充分な数が得られない場合がある、という事です。

メタ・アナリシス

これらの欠点を補うために、別におこなわれた複数の研究を総合して評価する、という方法があります。これによって、小さい標本を統合して大きな標本として扱い統計的な処理をおこなったり出来ます。
この方法を、メタ・アナリシス(メタ分析・メタ解析)と言います。メタとは、高次の、とか、何々を超えた、というような意味合いです。

医学的には、このメタ・アナリシスで得られた証拠が、最も良質なものと看做されます。ただこれは、他の研究が意味を持たないという訳ではありませんし、メタ・アナリシスでも、無効という結果が出た研究は公表されにくい傾向があれば、統合した結果が、効果ありの方に偏ってしまう、という可能性もあります(これを出版バイアスファイル引き出し問題と言います)。まずきちんとおこなわれた RCT を選別する、という作業も必要です。

いずれにしても、個々の研究の具体的内容を吟味して総合的に捉える事が肝腎です。

実際の検診の評価と、まとめ

それでは、現在おこなわれている各種検診は、どのように評価がなされ、どのくらい有効であるか(あるいは効果が無いか)が実証されているのでしょうか。

科学的根拠に基づくがん検診推進のページ

上のページは、がん検診に関する情報が総合的にまとめられたサイトです。ここでは、検診というものの基本的な考え方や、その効果の確かめ方、また、どの検診についてどのくらい推奨出来るか(推奨出来ないか)が、グレードとして示されていますがん検診ガイドライン 推奨のまとめ

推奨のページのまとめを見ると解りますが、部位によって、性別によって、また年代によって、推奨される検診も異なってきます。それほど、検診の評価というものは複雑であるのです。単に効果を見るだけで無く、受けるデメリットも勘案して、推奨出来るかどうかが決められる訳です。このページをご覧になって、何と、この検診はこの年代では推奨されないのか、と驚かれた方もあるかも知れません。

もし、自分が検診を受ける事を考える場合には、このようなサイトをまず参照するのをお勧めします。ただ、なにぶんこのような文章というのは、いささか堅めで、説明も簡略したものなので、予備知識無しに理解するのがむつかしい所があります。私が書いた一連の記事は、基本的な事柄を説明する事によって、ああいう専門的な資料を理解するための橋渡しをしよう、という狙いも含んでいます。

マスメディアは、著名人が病気に罹ると、それを大々的に報道します。がんのような深刻なものであり、また、罹った人が好ましく無い経過を辿ると、いかにもドラマティックに紹介し、病気の周知と、早期発見による治療の大切さを訴えます。
ところが、本連載でも説明してきたように、そもそも、早期発見すれば良いという考え自体が、必ずしも当てはまるとは限らないのです。病気によっては、過剰診断などのデメリットも生じ得ますし、誤陽性に伴う心理的負担もあります。治療に必要な費用は家計を圧迫します。
ですから、病気は早く見つければその方が良いという、いわば常識をまず見直して、冷静に情報を吟味し、いざという時のために備えておきたいものです。もしこの連載が、少しでもその助けになるとすれば、幸いです。