線虫がん検査と、がん検査の性能の話
経緯
線虫がん検査(登録商標:N-NOSE)が(悪い意味で)話題になっています。 大まかな流れとしては、
- 株式会社HIROTSUバイオサイエンスが開発したN-NOSEが精度86%などと謳っていた
- 上松医師や週刊文春が、N-NOSEの開発プロセスにおいて不正行為があったと疑義を呈した
- HIROTSUバイオサイエンスが報道に強く抗議した
上記のようなものです。
不正の疑義
疑義の内容としては、
- 検体の種別について遮蔽がおこなわれていなかった
- 判定に広津代表による判断が入っていた
- 再現性に乏しい
といったものです。もし明確な判定基準が無く判定員の勘に相当する部分が大きいのだとすれば、線虫が判定すると謳う部分が疑わしくなりますし、個人の判断で振り分けたのであれば、人為的に、性能を高いほうに不当に評価するというバイアスをかける事になりますから、研究として大問題です。ですから、この疑義については、企業はきちんと説明する義務がありますし、追及する側は明確な証拠を提示していく必要があります。本件は内部通報がきっかけですから、それの信ぴょう性の確認や通報者の保護の問題も関わってくるでしょう。第三者機関による調査も必要かも知れません。それらを鑑みれば、現段階で不正や捏造があった無かった、などと、報道に触れただけの者が評価するのは困難であり、態度保留しておくのが無難と言えます。
別の観点
私がここで書くのは、当該検査の性能評価に対する疑義の部分そのものではありません。ここで、次の意見群をご覧ください。
↑11分50秒あたり。感度86%特異度90%という性能が合っているとしても性能が低い事を仄めかしている。
線虫がん検診「N‐NOSE」の問題点は3つ。
— やさしい皮膚科医 (@S96405539) 2021年12月9日
①精度86%が本当でも判定結果は間違いばかりになる
②精度86%の宣伝を裏付けるデータが未公表
※論文内容と実用化商品に大きな乖離
③元論文データの信憑性に対する内部告発(文春)
③は今後の検証待ち。
しかし①②だけでも全く推奨できないのが大問題です。 https://t.co/2JMd0HAZLt
↑検査の問題点として、精度86%が本当でも判定結果は間違いばかりになる
のを挙げている。
がん線虫検査が感度約90%,特異度約90%であるとしたときのベイズの定理に基づく結果を示しているクリニックがありました。現在の胃がんのデータをもとに考えると,もし検査で陽性と判定されても本当にがんである人は 0.9%しかいない。統計判断の誤りに繫がる典型例です。https://t.co/jxuX1GdXVD
— こなみひでお (@konamih) 2021年11月30日
↑感度約90%,特異度約90%であるとしたとき
を想定し、陽性者の内の罹患者が0.9%になる事をもって統計判断の誤りに繫がる
と言っている。
↑こなみひでお氏の主張で参照されている記事。感度特異度を90%に設定して適中度(0.9%、3.5%)を出し、以上の結果を踏まえると、この検査はガンを見つけるための検査ではなく、ガンがないことを確認するための検査であるといえます。
と言っている。
これらの意見は、もし感度が本当に86%程度だとしても、それは高く無いので検査として問題であると主張しています。要するに、検査の性能評価に疑義がある上に、もしその数値が合っているとしても問題、と考えている訳ですね。
しかしそれは、誤っています。がん検査の感度が90%付近である事をもってその検査が有用で無いとするのは、検診の議論を短絡して捉えた主張です。
がん検診のプロセス指標
感度とは、特徴を持つ人が陽性になる割合の事です。N-NOSEの感度が86%とは、がんを有する人がその検査をしたら、86%くらいの人が陽性になる、というのを意味します。
これを踏まえ、そのくらいの感度の検査では性能が低いと主張する人たちは、陽性適中度(陽性予測値)に着目します。その指標は、陽性になった人の内、特徴を持つ人の割合です。一見、感度と紛らわしいですが、適中度の分母には特徴を持っていない人がおり、感度の分母は全員が特徴を持っている、というのが違います。適中度は、予測が当たった程度を示す指標という意味で、極めて重要です(感度は、特徴を捉える性能)。
上で挙げた批判者は、感度が86%でも適中度が数%なので問題がある、のように言っています。確かに直観的には、陽性になった100人の内で実際にがんである人が数人しかいないというのでは、あまりにも低いのではないか、となりそうです。
しかし、いま対象としているのは、がんです。それは、1万人や10万人に何人と数えるような疾病であり、とても稀な特徴です。適中度は人口に占める保有者の割合に敏感なので、保有者がそれほど低ければ、適中度はどうやってもそこまで上がっていかない訳です。ですから、がん検査については、
適中度が低くても利用する
事を理解するのが重要です。
がん検診(検診≠検査)の性能管理をおこなう際に、プロセス指標なる指標があります。
上記ページによれば、プロセス指標とは、がん検診の精度管理指標の1つであり、検診が正しく行われているかを評価するためのもの
です。その指標の1つとして陽性適中度(陽性反応適中度)が挙げられています。がん検診は、広く人口に検査をおこなって結果を知らせ、陽性になった人が精密検査を受けて処置され予後を改善させる、という一連のプロセスですので、それらをひっくるめて全体を評価する必要があります。そして、それを評価する指標の1つとして陽性適中度が重視されているのです。
陽性適中度をはじめとしたプロセス指標には、許容値と目標値が定められています。性能を評価する指標なので、これくらいを保っている必要がある、という基準に照らして検討する必要があるからです。では、陽性適中度の許容値・目標値はどのようなものでしょうか。抜粋してみましょう。※陽性適中度は許容値のみ。含む参考値
どうですか。めちゃくちゃ低いと感ぜられたのではありませんか? これは許容値で、これより大きければひとまず良いといった数値です。それにしては低い、と思われるものでしょう。先にも書いたように、がんは保有者割合がとても小さいので、感度を上げても陽性適中度は上がりにくいのです。もっと言えば、非保有者割合が大きいから、陽性適中度を上げるには特異度を尋常で無く高める必要があります。しかし、感度と特異度はカットオフポイント(閾値)によるトレードオフ関係があるので、1次検診で無闇にカットオフポイントを上げて特異度を高くする訳には行きません。
感度86%を見て検査へ批判的な人たちは、陽性適中度が数%である事をその根拠としていますが、実際には、がん検診においては、そのような見かたは当てはまらないのです。これは、我々が日常的直観的に持つ高い・低いという印象に訴えかけて検査性能を検討するという意味で、的を外した主張であると言えます。特に、こなみひでお氏は、全年齢を対象とした計算を採り上げていますが、検診がそんな対象におこなわれるはずがありません。だから参照先では、ハイリスクグループである高齢者に絞った計算もしているのです。
参考資料として、各都道府県において、実際にプロセス指標がどの程度であったかを記録したものを示します(Excelファイルがダウンロード出来る)↓
また、広島県は、プロセス指標を市町村別含めグラフィカルに表現して全国のデータのラインを引いて比較できるようにしています。たいへん解りやすくて良いです↓
ちなみに、許容値の根拠は、【PDF】今後の我が国におけるがん検診事業評価の在り方についてによれば、下記のようです。
許容値は、現在の老人保健事業報告データによる精度管理の優良な地域 70 パーセンタイル(優良なもの上位 70%)の下限(指標によっては上限)の値を参考に設定した。優良地域群のパーセンタイル設定は、各指標値の都道府県別の分布、特に重要な精検受診率で 70 パーセントに外れ値が多く見られることより、分かりやすく全指標に共通して 70 パーセンタイルとした。
J-STARTで見いだされた検査性能
日本でおこなわれた乳がん検診のRCTにJ-STARTがあります。これは、乳がん検診で超音波検診が有効であるかを確かめる研究で、マンモグラフィ単独vsマンモグラフィ+超音波検査を比較するものです。がん検診でRCTがおこなわれる事は稀なので(コストが大きい、倫理的条件が難しい)、当該研究は極めて重要な知見を提供します。そこでは当然、検査の感度・特異度も評価されています。
【PDF】J-STARTの概要を紹介した資料によると感度は、
上記のようです(鉤括弧内は95%信頼区間)。最新の研究で、より感度が高いほうでも93%です。まして、現状用いられているマンモグラフィ単独は、70%行きません。重要なのは、そのような性能の検査であっても有効な検診として用いられている所です。
マンモグラフィ単独法(40~74歳):推奨グレードB 40~74歳を対象として、死亡率減少効果を示す相応な証拠があります。不利益については偽陽性、過剰診断、放射線誘発乳がんの発症の可能性があります。これらの結果から、推奨グレードBとし、対策型検診・任意型検診の実施を勧めます。
検査性能と検診性能は別
いま考えているのは、無症状者に検査をおこなって病気を発見する事です。それを検診といいます。検査はそのプロセスの一部です。検診は、最終的に死亡を回避出来るかなどの結果でもって効果を評価します。そのプロセスは、検査の性能や検診間隔、検診対象の性別や年齢層など、様々の要因が絡んでいます。その結果で効果が認められるのであれば、日常的に低いと思われそうな割合であってもその検査は使える、と看做されるのです。
検診は、
- たくさんの誤陽性(陽性なのに病気が無い)を出す
- たくさんの余剰発見(症状の出ない病気を見つける)を出す
これらの害を生じさせてでも命を救う、という志向です。だから、陽性適中度が上がらなくても検診を実施するのです。
もちろん、それだけの誤陽性や余剰発見を起こしてまで死亡を回避する必要があるのか、といった議論も出来ます。公衆衛生上それが正当化出来るのか、と。費用などコストとの兼ね合いもあるでしょう。しかしそれは、現状の検査性能評価や検診有効性評価の議論を踏まえてこそです。
まとめ
ここまでをまとめると、
- 検査のプロセスに疑義があるのであれば、それは追及すべき
- 検査は検診に組み入れられて活用されるものだから、指標の数値を単純に採り上げて是非を云々出来ない
- 検査性能と検診性能は別の議論
- がんは保有割合が著しく小さいので陽性適中度は上がらない
- 陽性適中度が上がらなくても、最悪のアウトカムである死亡を防げるのであれば、検査の使用は正当化される
このようになるでしょうか。今回、検査の感度を見て批判している所にクローズアップしたのは、それを医療者もおこなっている事を懸念したからです。感度が90%くらいでも高く無い、適中度が数%では役に立たない、のような短絡した意見は、受け取り側が日常的な印象に基づいて納得してしまう可能性があり、検診の議論について誤った認識を形成してしまいかねません。適中度の計算は、COVID-19の検査議論で話題に採り上げられた事もあり、その指標は、以前に比較すれば普及したでしょう。その流れで練習問題的に話に出たりもします。そこでは必ずしも、指標の数値はどのくらいであれば良いかは考慮されません。それは、その検査が何に用いられるかに強く依存します。そして、これまで見てきたように、がん検診では適中度の許容値が相当に低く設定されていたりするのです。そういう事情を注意深く検討する必要があります。
体液生検に対する自分の考え
線虫検査も含めた体液生検(リキッドバイオプシー)を検診に用いる事に関しては、私も以前より検討してきました。参考として、検討した記事に張っておきます。
これら記事において私は、検査性能と検診性能は違う(検査性能が高いからといって検診性能も高いとは限らない)事を主に書いていますが、本記事で書いたような、日常的には低いと思われる数値でも有効な検診として実施されている所については考慮・検討不足でした。誤陽性のインパクトの大きさは害として重要ですが、その害を(集団的に)許容してでも命を救うというプロセスにクローズアップしていれば、なぜ適中度が低いのに実施されるのかといった所にも踏み込んだ考察が出来たのではないかと思います。その意味で不用意でした。