検査性能の証拠、検査と検診の違い

先日に話題になり当ブログでも採り上げた、線虫によるがん検査の一種であるN-NOSEを開発したHIROTSUバイオサイエンスが、問い合わせに対するFAQを公開していた。

HIROTSUバイオサイエンス | 線虫がん検査に関する世界最先端の線虫行動解析技術

顧客からの問い合わせに答え疑問の解消を試みる事は、製品を提供する企業として当然であり、そこには何の問題も無いが、回答を見ると納得しがたい部分もあり、それを書き留めておく。

まずA1、当該検査法の科学的な信頼度は？との問いへの回答。そこでは、論文や学会発表、おこなった講演等の数が書かれている。しかし、提示されている学説（ここでは、製品の性能を裏付ける科学的な基盤）が信用に値するかを検討する際、それらの件数をただ示す事に、重要な意味は無い。特に講演などは、色々の組織に頼まれて成果なりを発表する場に過ぎないので、学説の裏付けには全くならない。

A2、検査の再現性の報告について。示されているのは3件、A1では合わせて数百件を紹介しているのに、こちらは3件。それで科学的信頼性が証明というのは相当に強い表現。証拠はたくさんあるが代表的なものを3つ出した、と言うかも知れないが、上述したように、報告や発表の数自体は証拠の強さとはならないので、その中に良質な証拠がどれくらい含まれているかも解らない。

当然、示された3件の研究自体もきちんと検討されるのが良い。2021年12月28日追記：続報有り。コメント欄に書いてあります。

Q3、検査の手順が示されている。気になるのは、独自のリスク値を算出しているという所。算出の内部がブラックボックスである事自体は構わないが、結果としての指標がどのような意味合いを持つのかは、きちんと説明される必要がある。

2段落目については、内部通報に関わる問題なので双方に言い分があるはずであり、それはしっかりと検証されるべきだろう。

Q4、検査にバイアスが入りません。と言っている。バイアスが生ずるのは様々の局面においてであり、常にその可能性に注意しておくべき最重要事項であるが、バイアスが入る余地は全くありませんと言い切るのは、科学的にも工学的にも極めて強い表現と言える。できる限りバイアスが発生しないようにオペレーションをこのように構築している、のような表現でも無い。気づかぬ所で混入するからバイアスは恐ろしいのである。

Q5、ここは最も重要なので詳しく。当該検査では、低リスクと高リスクという表現で結果を伝えるらしい。twitterで検索した所、リスク比なる表現で定量的に示している。通常のがん検診で伝えられる要精密検査のような表現とは異なる。

ここの回答では結局、低リスクでも無いとは言い切れない、高リスクでもあるとは言い切れない、という、間違えようの無い一般論を書いているに過ぎない。そして、ご心配な方はと5大がん検診の受診を促しているが、結局は受診者の判断に委ねている。しかも、5大検診のどれを受ければ良いかは全く判らない。

通常の検診では、要精密検査と伝えられ、医療機関での再検査が促される（そのための書類も同封される）。これはいわゆる検査における陽性であり、2値的な判断の結果が伝えられている。要精検と出たけど受けなくても良いよ、のような悠長な事は書かれず、なるべく早く検査を受けるように、と言われる。

当ブログでしばしば言及するように、がん検診とは、検査も含めた一連のプロセスであり、単に検査の性能を論じて済むようなものでは無い。死亡率減少等のアウトカムをもたらすかどうかで有効性が評価される。であるからこそ、感度特異度だけで無く、要精検割合や精検を受けた割合、適中度等を総合的に評価し品質管理をおこなっている。であるのに、N-NOSEは、

がんの不安をいたずらに煽るものではなく、がんのリスクをいち早く検知することで各種がん検診の受診を促し、社会のがん早期発見率向上を目指しています。

などと主張している。実に白々しいと言える。もし当該検査がそのような機能を担っている、担い得ると言うのであれば、それ自体を評価し示さねばならない。実際、低侵襲・安価・検体採取容易、などの性能があれば、トータルとしての受検診割合を高め、結果として死亡率低減に寄与する事は、理論的にはあり得る。しかるにそれは、あくまで可能性としてあり得るというものであって、感度等の指標のみで測れるものでは無い。より早く見つかればそのほうが良いのでは無い、という所が、検診の議論で特に難しいのである。

いま論じたような事は、N-NOSEのみならず、昨今話題になる体液生検の手法一般に言える。それらは簡便な事や高性能を謳いアピールするが、結局それで命が救われるのかについては何も言わない。言えなくて当然である。なぜなら、がん検診の性能を評価するには、莫大なコストと長い期間が必要なのだから。乳がん検診におけるエコー検査の有用さを検討するJ-STARTのごときRCTは、近年では珍しい例。しかもそれは、マンモグラフィという、既に有用さが確かめられているものと併用できるからこそ実施されたものである。

私がよく、検査の性能と検診の性能は違う所に着目するよう言うのは、このような論理を踏まえての事。検査の指標の数値が高い（高く見える）事は、それだけで有用であるのを意味しない。検診は、検査の性能、検査と検査の間隔、性別や年齢、習慣等の様々の要因によって結果が違ってくる。検査の性能は確かに重要だが、そこにあまり拘ると、議論の要点を見失う。

先にも書いたように、安価や低侵襲である事は、検診を受けようとの動機づけを高める可能性があり、そこはかなり期待できる所である。胃のX線検査、胃や大腸内視鏡検査、マンモグラフィや直腸の指診等、想像するだけで心が萎えるような検査はたくさんある。採血でも血管迷走神経反射によって気を失う事があり、経験した人はいるだろう。受けやすさは確かに重要なのだ。

生物を使った検知にも解らない事が多いだろう。だから私は、そんなものが実現するはず無いだろうとか、役に立たないだろう、などと現時点で主張する事は無い。それが実現すれば使いようによっては有用かも知れないのは押さえる。そうして、使いようはどのように検討すべきかに着目すべき。全ては証拠に委ねなければならない。期待できると書いたが、その期待につけこむものには注意しておく。

Q6、二重遮蔽試験に準じた研究をおこなっている、との主張。これは検体の種別に関わる遮蔽。理論的に可能ならおこなわれるべきだし、おこなったと主張されていても、遮蔽が破られていないかは精査する必要がある。遮蔽は様々の対象に実施し得るので、それが2対象であれば、二重遮蔽と言って差し支え無い（薬剤の種別の遮蔽を含めなければならないとの条件は無い）。

Q7、がんの種類は区別できるかとの問いについて。これは、何種類かをまとめて判定した場合、共通するものと異なるものを同定し、物質なりの種類を弁別できれば技術的に応用できる、という一般論の話なので、それはそうだ、な内容。だからこそ、基盤の部分に関する検証がどれだけしっかりしているかが問われる、とも言える。