検診の意味と有効性評価――中編

ご案内

本エントリーは、検診について説明した連載記事の一部です。
連載は、以下の記事からなっています。

記述は正確さを心がけておりますが、誤りがあれば、コメント欄等でご指摘いただければ幸いです。

長さ

ある地域で、特定の病気に罹った人について、検診を受けた人とそうで無い人（症状が出て受診した人）を調べて、辿ってきた経過について比較しました。その結果、検診を受けた人の方が、より良好な経過を辿る人が多く、受けていない人は、あまり経過がよく無く、早く死亡した人も多かったのでした。
このような結果から、即、検診（早期発見）に効果があったと言えるでしょうか。

ここでのポイントは、既に検診を受けた人と受けなかった人の情報を、後から集めて比較したという事です。

ところで、検診というものは当然、定期的におこなわれるものです。たとえば、1 年ごとに受ける、といったようにです。
検診は、それ自体が負担になる場合もありますし、費用も人手も要ります。ですからどうしても、ある程度の期間を空けなくてはなりません。

それでは、次の画像をご覧ください。

これは、ある期間中の、病気の発生と検診の情況を表した図です。角丸四角を結んだものが、個々の症例です。

ここで、各症例の横線が、診断による発見可能時点から症状出現時点までの期間を示しています。それが短いほど進行が速く、長ければ進行はゆるやか（緩徐）です。そして、がんなどの病気は、進行が速いほど経過が悪く、緩徐なものは比較的経過が良いという傾向を持ちます。つまり、各症例の症状出現から死亡までの期間は、図中の横線の長さに関連する傾向がある、という事です。

それを念頭に置きつつ図を見ます。ここでは、進行の速い症例と遅い症例とが同数発生しています。そして、期間内に、検診が 2 回おこなわれています（「検診」と書かれている所から下に伸びる線が、検診のタイミングを表しています）。
ここで、各症例の横線と、検診の縦線とが交差した所が、検診によって病気が発見された事を示しています。横線が青色であるのが、検診による発見を表し、赤線であれば、症状出現からの発見を表しています。

まず、赤線の症例を見てみます。進行の速い症例が 5 例あり、進行の遅い症例が 2 例です。という事は、進行の速い症例の割合は、5 / 7 となります。

次に、青線の場合、つまり検診発見例です。
図を見ると、進行の速い症例が 2 例であるのに対して、緩徐なものが 5 例です。したがって、進行の速いものは、2 / 7 です。

がんは、進行の速さに応じて、経過が悪くなる傾向にあるのでした。ですので、たとえ検診に延命効果が無くとも、進行の速い症例の割合の高い検診無し集団の方が、より成績が悪かったと評価し、相対的に、検診あり集団の方が好成績であったと看做してしまう、という可能性があるのです。これは、そもそも検診集団の方に経過の良い症例が沢山入れられた事によって生ずる偏りです。

このような偏りを、レングスバイアスと言います。レングス（length）とは、そのまま日本語に直せば、長さです。では、これは一体、何の長さの事なのでしょうか。

ここで、最初の方で示した図の事を思い出していただきます。再掲しましょう。

これは、病気の発生から死亡までの経過（自然史）を表した図でした。そして、発見可能時から症状の出現までに病気を発見する事が検診であり、それが出来る期間を、診断可能前臨床期と呼ぶのでした。これではちょっと長すぎますので、略称として、DPCP を用いましょう。Detectable Pre-Clinical Phase の略です。

ここまででお察しの通り、レングスバイアスのレングスというのはつまり、DPCP の長さの事なのです。

ここで次の事を思い出しましょう。

進行の遅い症例は、発見可能時から症状出現時まで（DPCP）が長い
進行の遅いものは、経過が良好な傾向にある
検診は、間隔を開けて定期的におこなわれる

という事は、

検診ではDPCPの長い、つまり経過の良い症例を見つけやすい

のです。

これは、網で魚を掬う事にたとえられるでしょう。つまり、ある程度目の大きい網では、体長の長い魚は引っ掛かりやすいけれども、小さな魚は網目をすり抜けてしまう、といった具合です（時間の長さを物体の長さに置き換えているので、あくまでイメージの助けと捉えてください）。
そして、検診で見つけた症例集団において、経過が良い症例の割合が大きくなり、結果、比較対象の集団よりも良い状態になったように見えた（検診に延命効果が無いのに）、という寸法です。

見つけなくても良いもの

レングスバイアスの説明で、進行の速い症例と遅い症例の話が出てきました。この所について、もう少し考えてみましょう。

がんの中には、死ぬまで症状が出ないものや、症状が出てもその病気では死なないものがあります。図で示します。

上の図が、症状が出ないケース。下は、症状が出てもその病気では死なない、つまり、別の原因で死亡する場合です。これはいずれも、その病気になったとしても、他の原因で死ぬ事を意味します。

これは、がんの進行が極めて遅いケースなどで起こりやすい事が想定されます。たとえば、ある種の前立腺がんや甲状腺がんなどには、進行の緩徐なものがあり、死んでから罹っていた事に気づかれる（解剖などにより）事すらあります。

今、これらのケースは、進行が緩徐な場合に起こりやすいと言いましたが、起こりやすい、と書いたのは、他の場合、たとえば、そんなに進行が遅く無いがんに罹っても、その後で何か非常に重い致死的な病気になって死亡してしまうとか、とても高齢の人ががんに罹った場合（高齢であれば、他の病気で死ぬ可能性も高い）なども考えられるからです。

ここまでを踏まえると、可能性として、その病気では死なない人を、その病気であると診断する事が考えられます。これを、過剰診断と言います。なぜ過剰と表現するか。それは、その病気では死なないのに、その病気であると診断してしまっても、メリットが無いからです。たとえば、95 歳頃に、ゆっくりと進行するがんに罹ったとして、それを診断して治療してもしょうが無い、という場合がある訳です。

ちなみに、過剰診断に基づいて治療をおこなう事を、過剰治療と言います。がんの場合などは、手術や薬物治療などがおこなわれますが、そもそもその病気では死ななかったに治療したのだから、過剰と言うのです。
過剰診断と過剰治療を図で示すと、次のようになります。

前の節で、レングスバイアス、つまり DPCP の長さによるバイアスの説明をしました。それを思い浮かべつつ、DPCP が極端に長い 場合を想定してみてください。つまり、DPCP が、数十年も長くあり、症状が出るまでに死亡する場合を考えるのです。
そうすると、検診によって、症状さえ出る事の無かったであろう症例をも発見してしまう事になります。先ほど、症状も出なかったのに、死亡した後でがんが発見される例もあると書きましたが、それらを生前に発見するのです。

そうすると当然、そういったケースが検診をした集団に多ければ、治療の成績は、より良く見える事でしょう。何しろ、その病気で死ぬどころか、症状すら出なかったはずなのですから。しかも、前立腺がんや甲状腺がんは、そのようなケースが相当数ある事が知られていますから、その分を見つけると、検診した全体に占める、その病気ではあるがそれでは死なない人、の割合が高まり、大きく検診が有用に見えてしまいかねないのです（それがたとえ無効であったのだとしても）。

このように、その病気の症状が出なかったり、それでは死ぬ事の無い人まで見つけてしまう（過剰診断）事によって生ずる偏りを、過剰診断バイアスと呼びます。これは、レングスバイアスの極端な場合とも看做せます。

※リードタイムバイアス・レングスバイアス、の説明において用いた数値例は、ウェルチ他［著］・北澤［訳］『過剰診断』を参考にしました

志願者の傾向

皆さんは、進んで検診を受ける人に対し、どのようなイメージを持つでしょうか。
もしかすると、検診を積極的に受ける人は、より健康に気を遣い、普段の体調管理もしっかりして、検診を受けるだけの経済的余裕も有した人、であるかも知れません。そうすると、検診を受ける人達がそもそも健康な傾向がある、という可能性があります。であれば、検診した人とそうで無い人を後から集めて比較した場合、もし検診が無効であっても、検診しない人達に比べ、経過良好となるでしょう。

このような、積極的な参加者が持つ傾向による偏りを、志願者バイアス（自己選択バイアス）と言います。検診に志願して行った人の方が、健康的な傾向を持ちやすいために生ずるものです。

様々なバイアス

このように、検診を評価する際には、色々のバイアスが紛れ込み、正確な評価を損なわせる可能性があります。この他にも、科学の研究には、いくつものバイアスが関わってきます。研究に潜む敵――バイアス（偏り）のはなし - Interdisciplinaryには、ここで紹介しなかったものも解説してあるので、ご参照ください。

無効なだけなら良いけれど

ここまで、検診に生じ得るバイアスを説明しました。
ところで、もし、早期発見、つまり検診が無効であったとしても、診断する事によるデメリットが何も無い、というのなら、さほど気にする必要は無いでしょう。しかし、無効な検診によるデメリットは、色々考えられます。

誤陽性

検診の第一段階、つまり、病気になっていそうな人を拾う事を、特にスクリーニングと言う場合があると書きました。この段階は、病気は確定されませんから、当然、

病気で無い人を病気と判断する（陽性）
病気の人を病気で無いと判断する（陰性）

このような可能性があります。スクリーニングは、大勢の人におこなう場合には、ある程度迅速に、かつ安価で出来る必要がありますから、性能を犠牲にして、つまり、誤る事を許容して実行します。その際、上記のような誤りが生じます。前者を誤陽性（偽陽性）と言い、後者を誤陰性（偽陰性）と呼びます。なお、教科書などでは偽とする場合が多く（英語で false だから）、誤としている文献はほとんどありませんが、字面的に把握しやすいと考えて、こちらを用います。

検診では通常、誤陽性の誤りを許容します。誤陰性、つまり、病気があるのに見落としたら大変だからです。なので、陽性の判断が誤る事をある程度受け容れつつ、出来るだけ見落としが無いようにします。

誰しも病気には罹りたく無いものです。まして、がんであれば、それは死ぬ可能性もあるものなので、あなたはがんかも知れませんと言われた場合の心理的負担は、計り知れません。そして、それが誤っていた場合、そもそも病気ですら無いのに病気かもと判定される（誤陽性）のですから、これはデメリットしかありません。

誤陽性を許容するとは言っても、それは、病気の見落としを防ぐ事を優先するが故の、いわば妥協です。それなのに、無効な検診、つまり、その検診で見つけようが見逃そうが余命には影響しないのに、誤陽性者に心理的負担を与えるのは、デメリットでしか無いのですから、大きな問題です。

検査そのものの危険

検診は当然、色々の検査を伴います。画像診断であれば、放射線に曝される事も考えるべきですし、確定診断（に伴う精密検査）では、臓器に針を刺して（穿刺）組織を顕微鏡で調べる（生検：生体検査）事がおこなわれますが、穿刺等にもデメリットがあります。たとえば、前立腺がんの検査に関して、前立腺生検について【PDF】によると、以下のような合併症が考えられるそうです。

出血
前立腺炎
敗血症
排尿困難・尿閉

このように、検査自体に合併症等のデメリットが生ずる可能性もあるので、とにかく早い内に沢山調べれば良いものでは無い、という訳です。

誤診

稀ではあるでしょうが、がんで無いのにがんと診断してしまう、つまり誤診をする可能性もあります。最終的にがんと言われて手術したのに、実はそうでは無かった、という場合などは、メリットが無いばかりか、訴訟問題にも発展しかねない重大事です。これも、検診を受けて陽性になっていなければそもそも起こらなかったので、大きな損失です。

ちなみに、先に説明した誤陽性と誤診は同じではありません。誤陽性は、検診の第一段階のふるい分けで生ずる事が初めから想定されているものであるのに対し、誤診は、確定診断そのものが間違っている場合です。

過剰診断

過剰診断というのは、その病気では死んだり症状が出ないものを診断する事を表すのでした。ですから、検診を受けなければ症状も出なかったであろうものを発見する場合は、ただ単に、検診に伴うデメリットのみを被るという事になります。がんであると確定診断されれば、手術を受ける事も多いでしょうが（見つけたがんが、別の原因で死ぬまでずっと症状が出ないものなのかを、事前に確実に区別するすべが無いため）、手術でも、その後に薬を飲み続けなくてはならなかったりしますし、手術そのもので死亡してしまう可能性すらあります。死亡した場合には、検診は無効どころでは無く、却って大きく有害だった事になります（寿命を縮めたのだから）。

また、もし症状が出る（がそれでは死なない）場合にしても、早期発見した所で寿命が延びる訳では無いので（検診は無効だという前提）、結局、治療期間が長くなるというデメリットが生ずる事が考えられます（リードタイムを思い出しましょう）。延命期間が同じであるのなら、治療する期間は短い方が望ましいでしょう。また、当然、期間が延びた分にかかる医療費も馬鹿になりません。

検診の正しい評価へ

このように、無効な検診には様々なデメリットが生じ得るので、ここでいくつか解説したようなバイアスを取り除き、しっかりと正確に評価して、有効である事を確かめてから用いる必要があるのです。

検診の有効性評価

では、このようなバイアスを取り除いて検診の効果を評価するには、どのような方法があるのでしょうか。

タイムマシンがあったら？

前の例で、
もし、全く同じ集団に、検診した場合としなかった場合とを両方調べる事が出来としたら
という想定をしました。これは、完全に同質の集団であれば、そこに属するそれぞれの人が、全く同じ性質を持ち、全く同じ経過を辿る事を意味します。いわば、全く同じ人が 2 人ずついて、それを 2 つのグループに振り分けるようなものです。
そうすれば、検診の有無以外は全部同じである 2 つの集団が出来ますので、検診そのものの効果を切り分けて測れるという訳です。同じ人なのですから、検診への意気込みや動機も同じ、身体的特徴も同じ。心理的傾向も同じ……という事で、どちらかに元々健康な人が多いとか、そういう意味での偏りは生じません。このようなものが、理想的です。

くじびき

今考えてみたものは、理想的とは言っても、仮想的でしかありません。つまり、思考実験的には役立てられても、実現する事は不可能です。そこで、どうにかそのような理想的条件に近いかたちが実現出来ないかと考えます。

その方法として、前もってくじびきによって、検診を受けるか受けないかを決める、というものがあります。こうすると、どちらのグループに入るかを偶然に任せる事になって、結果、両方のグループに属する人々の構成が似通ったものになる、という事が期待出来るのです。たとえば、どちらかに身長の高い人（低い人）が偏るという事が起こりにくくなる（色々な身長の人がそれぞれのグループに入る）のが期待出来ます。

今、期待出来ると強調しました。これは、偶然にまかせても、結果的に偏ってしまう事はあり得るので、結局はバラけるのを期待する事しか出来ないのを意味します。身長の例で言うと、高身長の人ばかりが、くじで検診を受けるグループに入ってしまう、というのも当然あり得ます。それを防ぐためには、なるだけ多くの人に参加してもらったり、複数の研究で同様の事を調べて検討したり、などのやり方があります。

無作為化

このように、くじ引きによってグループ分けをおこなう事を、無作為割付と言います。ここでの無作為というのは、どちらかのグループに入る確率を同じにするのを意味します。たとえば、出来るだけ均質に作られた、表裏の区別のつく小さい円盤でコイントスをして、どちらに入るかを決める、というように考えてください。
また、このように、確率的なやり方で、なるだけバイアスがかからないように割り付けなどの操作をおこなう方法を、より一般的に、無作為化と言います。確率化とも表現します。

RCT

ここまでを踏まえると、バイアス（偏り）を出来るだけ排除して、検診を受ける集団と受けない集団との結果を較べるには、

研究参加者を、それぞれのグループへ無作為に割り付ける：無作為化
無作為化によって、複数のグループが同じような特徴を持つようにし、効果を知りたいものだけの条件を変えて与える（ここでは検診の有無）：条件の統制（制御）
それぞれのグループの結果を較べて検討する：比較・対照

このような条件を満たす事が重要であると言えます。そして、これらの条件を備えた方法を、

無作為化統制試験

と言います。これは英語で、

無作為化：Randomize
統制：Controlled
試験：Trial

ですので、その略称である RCT がよく用いられます。また、日本語の表現は、

無作為化比較試験
無作為化対照試験
ランダム化比較試験
ランダム化対照試験

など色々あります。いずれも長いですし、表記にもブレがありますので（私の用いた表現は超少数派ですが、英語の直訳的表現を取りました）、RCT の語を今後使いましょう。名前も大切ですが、押さえておくべきは、その語が表す意味と、何故それを用いるかという意義です。

RCT が、より良質な証拠を提供する方法とされるのは、これまで説明したように、

両方の集団の性質を揃える（R）
効果を調べたい所だけ条件を違えるようにする（C）

このようにする事で、確かめたい事（検診）の効果を切り分けて評価出来るからです。

後編に続く