分母が違う――余剰発見の割合のはなし

流れは↓を見てください。

togetter.com

要するに、余剰発見の割合の話題です。Welchらの論文では、甲状腺がんを無症状の内に、小さいものも含めて見つけたとしたら、その内の余剰発見の割合は99.7-99.9%と推定されているが、現実では、検査のカットオフポイント(陽性の閾値)を高くしているので、その割合をそのまま示すのは著しく過大評価なのではないか、との指摘があった訳です。

で、名取宏さんが、↓のつぶやきから、もし小さいのを見つけないようにしたら、との想定で、計算をなさいました。

twitter.com

これに対し、Masato Ida & リケニャ氏が異議を唱えた、という流れです。そして、Masato Ida & リケニャ氏による計算が↓

twitter.com

これです。端的に言って、Masato Ida & リケニャ氏が間違っています。

まず、名取さんが計算しているのは何か、改めて見てみます(原文ママ)。

twitter.com

、検診で発見された臨床的に治療介入されうる甲状腺がんうち過剰診断のは割合

少し前のつぶやきより↓

twitter.com

、「検診で発見された治療介入されうる甲状腺がんうち過剰診断のは割合は?」の答えは?

このように、検診で発見された がんの内、余剰発見の割合を話題にしています。しかるにMasato Ida & リケニャ氏は、

twitter.com

↑ここで、(1000 - 960 - Y)/(1000) = 3.7~3.9 %と計算しています。分母を1000のままにしています。名取さん(ら)は最初から、見つかったがんに占める余剰発見の話をしているのに、発見していない分を分母に組み込んでいるのです。つまり、全然別の話をしているという事なのです。これは、

存在するがんの内、検診で発見する隠遁がんの割合

の議論では無いのです。がん検診の議論の文脈で、通常そのような割合を検討しません。乳がんの余剰発見の割合は20%くらいである、といった数値が話題になったりしますが、その際の割合も、発見されたがんに占めるものです(Twenty five year follow-up for breast cancer incidence and mortality of the Canadian National Breast Screening Study: randomised screening trial | The BMJ)。

結局の所、Masato Ida & リケニャ氏は、がん検診の文脈を何も理解しないままに、前田敦司氏や名取氏(やWelchら)が誤っていると批難したのだ、と言えます。甲状腺がん検診で危惧されているのは、カットオフポイントを上げて見つけないようにして余剰発見を減らしたとしても、依然、検診発見に占める余剰発見割合は高いであろうという事なのですから。

名取さんはそういう事情はよくご存知なので、「検診で発見された治療介入されうる甲状腺がんうち過剰診断のは割合は?」と、冗長と思えるほど注意深く表現していますが、見ない人は見ないという事ですね。

ちなみに、余談ですが。

www.med.osaka-u.ac.jp

↑これは、高野徹氏の想定問答です。この中に、2.次の説明は正しいか? 「検査を慎重にやれば過剰診断は防げる。」との問があり、それの答えが、

。第一に、このような操作をすることで、過剰診断の割合が減らせる、というデータはありません。どのサイズにどのような割合で過剰診断例があるのかがわかっていないからです。

↑こう書かれています。まるで、問の正解は防げないと言っているようですが、それは誤っています。※防げる減らせると解釈する前提です

これは甲状腺がんの話です。したがって、発生するがんの内、見つけたら余剰発見となるもの(隠遁がん)は、相当高い割合だと考えられます。ですから、分子に入る数が大きい訳です。そうすると、想定される症状発現がんより大きい部分を見つけないようにすれば、余剰発見は減らせます。発見時のがんの大きさと隠遁がんとの関連が解らなくとも、隠遁がんの割合が大きい事は判っているので、発見可能な分を数十%でも減らせば、自動的に余剰発見も減ります(減らした分に症状発現がんが含まれても、残りに隠遁がんが入るから)。

ここまで読んでお解りかと思いますが、先に検討した、Masato Ida & リケニャ氏の意見は、むしろこちらに関わる部分です。氏は、カットオフポイントを上げる事によって、余剰発見は減らせると言っていますが、それは正しい。けれどそれは、発見されたがんの内の割合を大きく下げるとは限らない(分母も一緒に減るから、元々の分子が大きければ、割合も大きいままとなる)。

つまり、

  • カットオフポイントを上げる事により、余剰発見は減らせる
  • 余剰発見を減らしても、検診発見がんに占める余剰発見の割合は高いまま

この2つは両立するのです。何故なら、検討している割合の分母が違うから。検診(より一般には、科学)の議論に参加する際には、自分が考察している指標は何か、という所をよく意識しておくべきです。

《性能の良い検査》が《検診の性能を良くする》とは限らない

headlines.yahoo.co.jp

↑新しく開発された性能の良いがんの検査法を、検診に応用する事が期待される、という内容の記事です。

まず前提として、がん検査について、

  • 安価
  • 簡便
  • 低侵襲(身体への負担が小さい)
  • 高感度(がんの人を陽性にしやすい)
  • 高特異度(がんで無い人を陰性にしやすい)

これら条件を備えたものが開発される事そのものは一般に、医学的に望ましいと言えます。

しかるに、高性能で安価・簡便な検査法が出来た時に(その方法が標榜通りであるか、の検討は別問題とします)、それをすぐに、検診に用いるべきだとか、検診による効果がもたらされるだろう、と安易に考えるべきではありません。

まずおさらいとして、検診とは、

症状が無い人の疾病を発見する事

を指します。そしてそのプロセスの結果、

症状が無い内に発見する場合よりも予後を良くする

のを目的とします。ここで、多くの人が、

無症状の時に見つけるのだから、症状が出てから見つけるよりも良くなるのだろう

と考えるだろうと思われます。ですが、事実はそうではありません。

疾病には、その経過において、発見の際に存在する処置――手術や化学療法等――の結果を左右する時点があると想定されます。つまり、この状態で見つかって手術すれば寿命を延ばせるとか、ここより前ならば、より負担の少ない処置法が実施出来るとか、そういう点です。これを、クリティカル・ポイント(臨界時点)と呼びます。

検診、すなわち無症状時に発見する事が効果をもたらすかどうかは、このクリティカル・ポイントが、どこにどのくらいあるかで(も)決まってきます。クリティカル・ポイントが、症状が出る前に無く、症状が出た後にあれば、症状が出てからでも間に合いますし、症状が出る前にクリティカル・ポイントがあれば、そこより前に見つけられれば検診が効果を発揮出来る、と考えられます。

また、どれだけ進行が速いかも関わります。たとえクリティカル・ポイントが、症状の出る前にあったとしても、発生から1ヶ月で症状発現に至るとすれば、いくら性能の良い検査があっても、年単位等でおこなわれる検診では発見が出来ない(したがって効果も発揮されない)、となるでしょう。

もちろん、本記事で着目する、性能の良い検査であるかどうか、も関わります。ここで性能とは主に、疾病を持つ人を陽性にする性能、すなわち感度を指します。検診の最初の段階である病気かも知れない人の篩い分けには、病気に罹っている人をなるだけ掬い取らねばならないからです。

整理すると、検診の効果は、

  • クリティカル・ポイントの位置や数
  • 検診の間隔
  • 検査の性能(感度)

等が絡み合って発揮されるのだと言えます。当然、そもそも有効な処置があるかも関わります。治療法が無いのであれば、見つけた所で寿命を延ばしたりQOLの下げかたを抑えたりしようが無いからです。

ここまでを踏まえると、

高性能の検査

がある事は、すぐに

検診の性能を高める

とは言えません。検査の性能が高いのは、あくまで病気を見つける性能が高いのを意味するのであって(それ自体に意義があるのは先述の通り)、それは即、クリティカル・ポイント前に発見する性能が高いのを意味しないからです。

また、検診におけるの検討を欠かしてはなりません。検診に伴う害には、

  • 検査そのものの侵襲(身体への負担)
  • 病気で無い人を陽性にしてしまう事(による心理的等の負担):誤陽性
  • 病気の人を見逃してしまう事(による心理的等の負担):誤陰性
  • クリティカル・ポイントより何年も前に見つける事による、病気だと認識される期間:病悩期間の延伸
  • 一生症状が出ないものを見つける事(余剰発見・過剰診断)に伴うあらゆる負担

これらです。その害がどの程度かは、検査法の性能、各疾病の予後、検診の間隔、等によって決まってきます。

検診とは、ここまでに挙げてきた様々な要因・観点からの検討を重ねて、それが推奨されるかどうか決められるものです。ですから、先にも言ったように、高性能の検査が開発されたからといって、検診の性能も高めるとは限りません。

予後の悪いがんなら、無症状時に発見すれば良いのではないか、という意見もありそうですが(実際あります)、そうではありません。

症状が出て見つかったら予後が悪い

疾病があるからといって、

症状前に見つけたら予後が良くなる

とは限りません。そもそも、

検診は、予後の良いものを見つけやすく、予後が悪いものは見つけにくい

傾向があります。検診は一般には、半年や年間隔でおこなわれるものですから、検診と検診とのあいだに発生した予後の悪いがんが、症状を伴って発見される、という事があります(中間期がん)。逆に、進行がゆっくりで、症状が出るまでの期間が長いものは、検診で見つかりやすいと言えます。しかしそのようなものは、クリティカル・ポイントが症状発現後にあって、やはり検診が効果を発揮しにくい、という可能性もあります(そうるすと、病悩期間延伸の害だけが発生する)。要するに、

検診で見つけた→予後が良かった

ものは、

検診で見つけた事によって予後が良くなった

のでは無く、

もともと予後が良いものを検診で見つけた

のかも知れないのです。そして、検診にこのような傾向があれば、検診自体に効果が無くても、検診したら予後が良かった事を検診が予後を良くしたと誤って(偏って)評価します。これを、罹病期間によるバイアス(レングスバイアス)と言います。

このように、高性能の検査が検診を高性能にするとは即言えませんので、検診を実施する側は、検診を受けようとする側に、その旨を必ず伝えねばなりません。受診者が、無症状で発見するのは一般に望ましい事なのだとの認識を持っていたとして、そのまま受けさせるのは、もっての他です。

もちろん、検診に効果が無いとしても、それを受ける・受けたいと考えるのは自由です。自身の身体的な利益に乏しくとも、科学的知見の蓄積に貢献したい、と思う人もあるでしょう。しかしそれは、検診に効果が無い場合がある事、実際に効果が認められていない検診がある事(甲状腺がん検診など)、推奨されるがん検診は数種類しか無い事、効果がある検診でさえ害が伴う事、などを知らせた上で検討すべき話です。そして、単にやってみるレベルでは無く、効果を検討するための臨床研究として実施されるべきです。

がん検診は、効果に乏しいものがあるのが判ってきた事もあり、単純に、

  • 検診を受ける人
  • 検診を受けない人

に分けて実施するのは困難です。効果が無い場合には害しか受けない、という可能性もありますし、有効性が認められている検診がある場合には、検診をさせないグループに振り分けられないからです(医療的な利益を得られなくなる)。ですので、たとえば日本における乳がん検診の臨床研究であるJ-STARTは、有効性が認められている検診をおこなうグループと、それに別の検査法を加えたグループ、とを比較しています。検診を臨床研究にのせる事自体が、倫理的にも難しい状況なのです。

参考資料:

canscreen.ncc.go.jp

ganjoho.jp

ganjoho.jp

www.j-start.org

自分が書いたもの:

interdisciplinary.hateblo.jp

interdisciplinary.hateblo.jp

interdisciplinary.hateblo.jp