体液生検(リキッドバイオプシー)実用化の評価について

体液生検による検診の実用化

N-NOSEなる がん検査法が、株式会社 HIROTSUバイオサイエンス によって、実用化されるそうです。

xn--icktbzci4u.com

ここで実用化とは、

”がんの1次スクリーニング検査”

に用いられる事を指します。スクリーニングは、検診、つまり

症状の無い人に検査して疾病を見つける

のを意味します。

この検査法、最近取り沙汰される事のある、血液や尿を検査して がんなどの疾病を見つけるもので、カタカナでリキッドバイオプシーと書かれます。私は、直感的に解りやすいように、体液生検と日本語で書きます。この方法は、リンク先にもあるように、低侵襲(身体への害が小さい)であったり、より小さい内に病気を発見出来るのが、特徴としてアピールされます。尿や少量の血液で検査出来るので、受ける側の簡便さも謳われます。

検査の性能

この検査について、twitter上で話題になっていて、togetterでまとめられていました。

togetter.com

かいつまんで言うと、簡便や低侵襲ながん検査の実用化が喧伝される場合、検査で

  • 病気の人が陽性になる割合
  • 病気で無い人が陰性になる割合

の両方が高いものであるかを注意深く見なければならない、といった内容です。

検診は一般に、症状の無い健康な人におこなわれます。今は がん検診の話ですから、健康な集団で がんに罹っている人の割合をまず考えます。それは、かなり低いものです。低いので、日常的に用いられる割合の指標である%(100人あたり)では無く、1万人あたりや10万人あたりの割合で表されます。

そのような低い割合の病気を対象とした検査では、仮に病気の人が陽性になる割合が90%程度であったとしても、

全体の陽性に占める、実際に病気である人の割合

が高くなりません。これは、陽性判定が誤っている割合が高いのを示します。対象は、命に関わると社会的に認知されている、がんです。それに罹っているかも、と判定された場合の、心理的社会的なインパクトは、相当なものでしょう。上記のtogetterでは、そのあたりの事情が解説されていて、ある程度参考になるものだと思います。端的に言うと、感度や特異度が○○%だと表記され、その高さが強調されていたとしても、集団全体に占める病気の人の割合を考慮しないと、その性能評価を見誤ってしまうので気をつけておこう、といった所です。

余談ですが、話題になっている各指標をビジュアルで直感的に確認出来るページを、以前作りました。よければ参照ください(いま言及した指標は、陽性適中度です)。

screening.iaigiri.com

検診の性能

紹介したtogetterでまとめられている解説は、ある程度参考になるものである、と書きました。しかし、注意しておかなくてはならない所があります。

togetterでまとめられた意見が焦点を合わせているのは、

検査の指標の数値がアピールされていても、その検査が高性能であるとは限らない

↑この部分です。それは正しいのですが、しかし、あまりそこがクローズアップされると、今度は、

検査の性能が高い事が示されさえすれば、検診に組み込んで実用化して良い

と誤解される可能性があります。ところが実際は、

検査の性能が高いからといって、検診の性能が高くなるとは限らない

のです。さきほど説明したように、検査の性能が高いとは、

  • がんである人をなるだけ拾い上げる
  • がんで無い人をなるだけ拾わない
  • がんを小さい内に発見出来る

などの能力が高いのを指します。しかるに、検診の性能と言う場合には、

検査して疾病を見つけ、処置する事によって、予後を良くする

能力を指します。予後を良くするのが効果です。それが発揮されるには、単に検査の性能だけで無く、

  • 病気の自然経過のありかた
  • 検査のインターバル
  • 治療法の有無

等が関わってきます。たとえば、いくら高性能の検査があっても、治療法が存在しないのでは見つけてもしょうが無いのは、解りますよね。また、検診は通常、年単位でおこなわれます。ですので、予後が悪いものの成長が早い場合、いくら小さい時に見つけられる検査をしたとしても、予後が悪く、かつ成長初期であるものをタイミングよく捕らえられねば、予後を改善出来ないのです。

かといって、じゃあ間隔を狭めれば良いではないか、と気軽には言えません。コストやリソースの問題もありますし、がんには生涯にわたって症状をもたらさない自然経過を持つものがあり、それを見つけてしまう(余剰発見: overdetection)可能性もあります。またそもそも、検診は単一の検査で終わる訳ではありません。多段階です。一次検診でいくら、簡便な検査を間隔を狭めておこなえたとしても、その後の精密検査も同じように出来るとは言えません。

更には、検査の性能が上がる事で害が増える可能性すらあります。減るでは無く増える、です。つまり、検査性能は高まったとしても、予後の悪いものをタイミングよく見つけられるには至らないとすれば(症状が出てからでも間に合うものを発見する能力だけ高まる)、

  • 検診は効果を発揮しない(見つけても予後を良くしない)
  • 検査が病気を見つける性能は上がる

となって、病気を見つける事による害だけが増します。ここで言う害とは、病気が無いのに陽性と判定された場合の心理的社会的な負担や(一般に、病気を見つける能力が上がると、病気が無い人を陽性にするエラーの可能性も高まる)、その後の精密検査に伴う身体的な負担。また、症状が出てから間に合うものを早く見つける事に伴う、色々の負担(病気だと認識する期間が延びてしまう)。そして、さきほど説明した余剰発見などです。とりわけ余剰発見は、そもそも見つける必要自体が無いものを見つける(結果、手術などの処置がなされる傾向にある)ので、検診の害の内でも、最悪の部類です。

このような事情がありますので、

検査の性能と検診の性能は同じでは無い

のをよく理解しておく必要があります。

実は、リンク先togetter内でも、ここに触れた大脇氏のつぶやきが、収録されています。

↑このあたりです。検診の性能を考える際、ここが最も重要なのですが、見落とされがちです。togetterのコメントにも、検査の性能のみに着目した意見があります。そこばかり見ると、今はまだ検査の性能は低くとも、より研究開発が進んで高性能になれば、検診に用いて役立てられるだろう、と短絡してしまう訳です。

このように、がん検診について考える場合には、検査の性能検診の性能とをきちんと区別して論じるべきであるし、解説のアプローチとしては、あまり理解されにくい検診の効果のほうを、より強調して説明するのが肝腎であると考えます。

注意:大脇氏の誤り

※少しややこしいですが、重要な所です

大脇氏は、結腸直腸がん(大腸がん)検診(軟性S状結腸鏡検査を用いる)について検討しています。

↑しかし、これらの意見は、誤っています。大脇氏はなぜか、非検診招待群および、検診招待群における、大腸がん発見者の致死割合(がん発見者に占める、そのがんでの死亡者の割合)の差を取る事をして、その差である約2%を、大腸がん検診の効果である、としています。しかるに、論文(Long term effects of once-only flexible sigmoidoscopy screening after 17 years of follow-up: the UK Flexible Sigmoidoscopy Screening randomised controlled trial)を読むと解るように、検診は、対象がん特異的死亡割合(後で説明)を、30%減少させたと示されています。

In intention-to-treat analyses, colorectal cancer incidence was reduced by 26% (HR 0·74 [95% CI 0·70–0·80]; p<0·0001) in the intervention group versus the control group and colorectal cancer mortality was reduced by 30% (0·70 [0·62–0·79]; p<0·0001) in the intervention group versus the control group. In per-protocol analyses, adjusted for non-compliance, colorectal cancer incidence and mortality were 35% (HR 0·65 [95% CI 0·59–0·71]) and 41% (0·59 [0·49–0·70]) lower in the screened group.

がん検診の効果は、致死割合では測りません。まず、疫学的には、なんらかの介入の効果を考える際、なるべく似た性質になるよう仕立てた集団を複数用意し、介入をしない集団とする集団とを比較して、死亡等の結果を評価します。ですから、これを検診に当てはめると、

  • 検診をしない集団
  • 検診をする集団

とを基準(分母)とし、がんで死亡した人の割合を出して、それを比較します。ところが、この分母を、がんが見つかった人にしてはいけません。なぜなら、もし検診で見つかりやすいのが、特定の性質を持つものである場合、検診をしない集団と検診をした集団それぞれの、がんが見つかった人たちは、同じような集団では無くなってしまうからです。これだと、最初に説明した、なるべく似た集団を用意して比較する前提が、成り立たなくなります。たとえば、あるがんについて、一生症状を顕さないものが結構な割合を占めるとして、検診でそれを見つけやすくするとすれば、分母に予後の良い分が組み入れられて、結果、検診が予後を良くしなくても、致死割合は下がります(前がん病変に介入できたり有効性が発揮される検診の場合には、事情が異なると思われます)。

これを踏まえて、がん検診では、各集団で、病気を持たない人も含めた全体を分母とし、分子を対象のがんによって死亡した数とした割合(死亡割合)を評価の指標とします。

ここで論文の話に戻ります。そこでは、死亡割合を30%減少させた、と書いています。これは言いかたを換えると、当該検診を実施すれば、しない場合に比べて死亡割合を0.7倍にする、となります。

ちなみに通常、集団的な検診の効果は違う指標で測られますが、それは別の所で言及されます。というか、それがメインです(NNSなる指標)。

このように、大脇氏は、検査性能の部分については、概ね妥当な解説をしていますが、検診の性能(効果)に関しては不正確なものですので、ご注意ください。

ここまで見てきたような、検査性能と検診性能との違いや、検診の効果は何によって測るのか、といったトピックは、医師でも誤るものです。たとえば、日本の医師1000人弱を対象にして、検診について質問をおこなった研究があります。

onlinelibrary.wiley.com

これは、一般内科医の約1000人を対象とした研究ですが、もちろん、抽出のしかたを考えると、内科医総体のありようを良く反映しているとは言えません。しかし、医学の専門的トレーニングを受け、実際の臨床に関わっている集団の一部が(アンケートに答えるのだから、関心が高い方向に偏っている可能性もある)、結構な割合で検診を理解していない事は、興味深い所だと思います。

実用化の是非

主題である、N-NOSEなどの体液生検を検診に用いる事の、是非についてです。

まず、最初に言及したように、検査性能の問題があります。感度と特異度が85%であるといっても、対象が健康者集団であり、見つけたいのが がんだとすれば、検査性能が充分高いものである、とは言えません。また、現段階では、どのがんの陽性かは特定出来ないので、検査で陽性になった場合、次のステップはどうするのか、考えるべきです。取り敢えず、5大検診(死亡割合減少の効果が認められている検診)の受診を促しているものもありますが、それなら、適切なインターバルで、適切な年齢層の人が、はじめから5大検診を受ければ良いのではないか、との疑問が出てくるでしょう。

仮に、検査性能を高められたとしても、それですぐに、検診性能が上がるとは限りません。検診性能は、死亡割合を下げる効果の大きさで測られます。体液生検を組み込んだ検診がその効果を発揮する事の証拠は、現状ありません。

また、検診に伴うの説明も、とても充分であるとは言えません。N-NOSEの紹介ページには、苦痛がないと強調されていますが、それはあくまで、検査の身体的負担の話であって、検診なるプロセスに伴う様々な(本記事で解説したような)害の一部に過ぎません。検診に用いる意味での実用化を目指しているのであれば、それら害の事をあらかじめ、しっかりと説明すべきです。

これらの事情を知ってなお、その検査を受けたい、と思う人はいるでしょう。しかしそれは、効果がまだ認められていない事、検診には害が起こる事、などをトータルに説明され、納得を得た上で選択されるべきものです。精度が高いとか簡便とか、身体に負担が少ないとか安価であるとか、そういう所だけを前面に出して検査を促すのは、問題のあるおこないでしょう。

事情を説明した上で実施するとしても、それはまず、臨床研究としておこなわれるべきです。実用化はその先です。検診の効果は、すぐには出ません。十数年からのフォローアップをおこなわないと、結果は出ません。コストもかかります。ほんらい、それくらいやってから、一般に普及させるべきなのです。それを現段階で広めようとするのは、早計と言うほかありません。