意外に高くならない陽性適中度

これは、検診の議論を考える時に絶対に押さえておかなくてはならない部分なので、是非把握してください。

線虫でのがん検査に疑義が生じ、スキャンダルとして批判的報道がなされています。

www.youtube.com

このトピックの中では当然、

検査で陽性になったが、精密検査を受けてもがんが見つからなかった

このような体験談が報告されます。N-NOSEの場合は高リスクなる表現ですが、検査-診断プロセスにおける陽性に相当するものである事は言うまでもありません。なるほど、陽性と言われたのに精密検査をしたら見つからなかったのは、くじ引きで言えば外れに相当するのだから、それは検査性能に関して疑問を抱かせるものなのでしょう。

では、改めて考えてみてください。

陽性になった人の内、実際にがんが見つかった人の割合がどのくらいであれば、高い/低い と評価しますか? 80%なら高いと考えますか? いやいや、がんを見つけるための検査なのだから、90%以上は行かないと、と思うでしょうか。

がん検診の道筋全体について、その性能を評価する指標として、プロセス指標なるものがあります*1

ganjoho.jp

このプロセス指標は、検診の性能を維持するために、最低限このくらいは達成すべきというラインが定められている指標です。そこには、

  • 精密検査(精検)受診率
  • 要精検率
  • がん発見率
  • 陽性反応適中度

などがあります。そして、先に示した

陽性になった人の内、がんが見つかった割合

の指標は、陽性反応適中度です(以下、適中度)。説明を引用します。

精検が必要と判定された人(要精検者)のうち、がんが発見された人の割合です。

ここで要精検者とはもちろん、陽性になった者の意味です。われわれはいま、この指標に着目している訳です。では、このプロセス指標の目標はどのくらいに定められているでしょうか。

https://ganjoho.jp/reg_stat/statistics/stat/screening/image/process_indicator_fig_16.png

上記は、リンク先にある、胃がん検診(胃部エックス線検査)の適中度をグラフで示したものです。横軸に都道府県が並べてあり、縦軸が割合(%)です。そして、許容値は1.0%以上です。

どうでしょう。めちゃくちゃ低くありませんか? なにしろ縦軸の上限が4.5%です。つまりこれは、

陽性になった人の内、がんが見つかった人は5人に満たない

という事です。他の検査も概ね似たような感じで、10%を超えるものがほとんどありません。外れでは無いですよ、当たりの割合が10%も行かないのです。なぜこういう事が起こるのでしょう。

COVID-19の検査などが話題になって、感度は結構知られてきている指標です。これは、がんを持っている人の内、陽性になる割合です。

左側に着目

↑この画像で言うと、左2つに占める左上の割合です。

感度:左側に占める左上の割合

いっぽう、適中度(陽性適中度)は、いま話題にしている陽性になった人の内、がんを持っている人の割合を指します。

上側に着目

↑この画像で言うと、上2つに占める左上の割合です。

陽性適中度:上側に占める左上の割合

ところで、左2と右2つは、がんがあるか無いかで分けてあります。つまり、分割線を左に移動させれば、人口に占めるがん保有者の割合が少なくなりますし、右に移動させれば増えていきます。

上:保有割合が低い 下:保有割合が高い

適中度は、上2つに占める左上の割合でした。という事は、分割線が左に移動する、つまり保有者の割合が小さくなると、

適中度が上がりにくい

のを示します。左2つに占める左上の割合が感度だから、感度が高いほど左上は大きくなります。しかし、いくら左2つに占める左上の割合が増えた所で、

分割線が左にあれば、適中度は大きくなりにくい

のです。

感度は同じ。左:適中度が上がらない 右:適中度が上がる

↑感度が同じでも、保有割合が異なれば適中度が全然違います

疫学や公衆衛生学の教科書で、この種の検査指標について解説が書かれている事がよくありますが、そこでもこの論理が指摘されています。つまり、

適中度は保有割合に強く影響を受ける

のです。

プロセス指標にがん発見率があります、これは、がん検診受診者のうち、がんが発見された人の割合です。リンク先にもあるように、見逃し(誤陰性)があったり、受診者の性質が偏っていればそれに影響を受ける指標ですが、検診を受けた人における割合ですので、一般的な集団における保有者の割合と、そこまで大きく離れていない数値だと想定されます。それによれば、

https://ganjoho.jp/reg_stat/statistics/stat/screening/image/process_indicator_fig_11.png

上記のようです。縦軸上限が0.25%です。つまり100人に1人も見つからないのを意味します。これに合わせて、少し大きめにして保有割合を1%としてみます。

保有割合1% ほとんど見えない

↑もう画像だと、保有者が見えませんね。100分の1だから当然です。こうなってくると、

感度と特異度が90%

↑感度と特異度(保有していない人の内、陰性になる割合)を90%にしても、適中度は8%程度にしかなりません。これは、保有割合が相当に低いため、いくら感度を上げても、右上領域の大きさに強く影響を受けるためです。そして、右上を小さくするのは特異度なので、それを上げない事には適中度が上がりようが無くなってくるという寸法です。

特異度を99%にすると、適中度が急激に上がる

↑特異度が99%になると、適中度が急激に上がります。しかし、全体に占める陽性者(要精検者)、つまり左上と右上を併せた領域は、もうほとんど見えなくなります。しかも1次検査では、特異度より感度が重視されます。なぜなら見落としが深刻だからです。そして一般に感度と特異度はトレードオフの関係がありますから、感度を上げようとすると特異度は上がって行きません。したがって、右側の大きさに影響を受けやすい適中度も上がらない訳です。これが、がん検診における検査での陽性適中度が10%にも満たない事のメカニズムです。

感度や特異度の検査指標の説明をする時、そこまで小さくない保有割合をとって適中度が計算される場合があります。その流れで適中度の高さを云々するのですが、それをがん検診の文脈に持ってきて論じてはなりません。何故ならば、これまで説明してきたように、がん検診では一般人口(症状を持たない人びと)における保有者の割合は1%にもならないため、どうしたって適中度は上がっていかないからです。肺がんや子宮頸がんだと保有割合0.1%も行きません。

ちなみに、ここで保有者の割合と言っていますが、これは一定期間の累積で計算している事に注意します。ある時点で切って断面を見て割合を論じるのとは異なる所を押さえておきます*2

ここで重要なのは、この種の検査は

適中度が低いから役に立たない

のでは無く、

適中度が低いのに役に立てられている

所です。あるいは言いかたを変えると、

指標の高い低いは目的による

となるでしょう。がんという疾病は命に関わり得るものなので、全体に占める割合がすごく小さいとしても、それを拾い上げて処置につなげるのが重要です*3。元の集団では1%に満たないものを数%に上げる事が重要となってくるのです。

ここまでを押さえれば、最初に紹介したような、検査で陽性になったが、精密検査を受けてもがんが見つからなかったといった体験談を取り沙汰して評価する事が、必ずしも適当では無いのが解ります。なにしろ、当たっている割合が10%でも高いのです。60パーセント? そこまで高く無いなあ、のようにはならない訳ですね。ですからたとえば、がん検診を受けて陽性になった人にたくさん訊いてまわったら、がんが見つからなかった人のほうが多くなって当然なのです。

これは、相当に意外な話ではありませんか? 通常の生活ではなかなか認識しないものです。要するに、われわれが日常的直感的に思う高い/低いの評価と、専門分野におけるそれとでは、乖離が生ずる場合があるのです。日常的な感覚では低いと感ずる数値でも構わないのです。それは、がん検診の文脈では低く無いのです。ここをしっかり押さえておかないと、がん検診の議論を適切に把握出来ません。

*1:検診全体の品質を維持するための仕組みを、品質管理や精度管理と言います

*2:人間に時点での観察は不可能だから、期間を取って累積している

*3:その処置が妥当かは別の話ですが、この記事では措きます