線虫と15のがん

線虫による、がん検査の話です。N-NOSEが主張する実験や論文内容についての疑義は、報道で色々検討されているようなので措いて、あまりアプローチされていない方面も含めて、雑感のようなものを書きます。

N-NOSE(エヌノーズ)|世界初の線虫がん検査 N-NOSER

まず報道の事。N-NOSEに対しては、何年も前から批判的言及がなされてきましたが、そこまで大きく採り上げられたという事も無く、その後も色々な分野に手を広げ、様々のサービスとして展開しています。それに対しての疑義が、報道でスクープとして、ある種センセーショナルに報じられてSNSなどでも盛り上がっている感じです。そういう契機が好ましいものかどうかは、何とも言えない所です。今更かよ、みたいな意見もありますね。

N-NOSEの主張について。N-NOSEは、15種類のがんに線虫が反応する、と主張しています。卵巣がんや膵がんなど、検診の推奨グレードがD(やらないのを推奨する)のものもあります。ところで、15種類のがんに反応するって、具体的にどういう意味ですか?

がん検診の1次検査で最も重要なのは、感度です。これは、COVID-19検査の文脈もあって、ある程度広まった知識かも知れません。意味は、状態を持っている人の内、陽性となる割合(確率)の事です。それを踏まえて、15種類のがんに反応するN-NOSEの感度というのをどう計算しますか?

感度は、状態を持っている人が陽性になる確率です。N-NOSEは、15種類のがんをキャッチ出来ると主張します。であれば、N-NOSEが対象とする状態(condition)は、

15種類のいずれかのがんに罹患している(ただし前臨床期)

状態、と解釈出来ます。これは、人口の内、がん1に罹患している∪がん2に罹患している∪がん3に罹患している…∪がん15に罹患している、という集合です。複数のがんに同時に罹っているのは極めて稀であり無視して良い、という仮定を設ければ、シンプルに、15種類いずれかのがんに罹っている人たちを足して集めた集団、となります。では、その集合が陽性反応を示すという意味での感度をどう測りますか?

もし、各がんで線虫への反応のしかたが異なっているのなら、それぞれのがんについての感度があるはずです。がん1の感度はs1%、がん2の感度はs2%…といった具合に。しかしN-NOSEは、15種類のがんに反応すると謳ってしまっている訳です。

人口において、状態を持つ人の割合の事を、保有割合と言います。当然、がん腫によって保有割合は異なります。年齢によっても性別によっても異なります。たとえば肺がんは、喫煙などがリスク因子なので保有割合に関わります。N-NOSEは15種類のがんが云々と言っているから、ターゲットとする状態は、それぞれの保有割合で存在する罹患者を併せた集団、と言えます。という事は、ある状態について、それを下位の状態に分割する事が出来、それは構成比を持ちます。がんを持つ人において、がん1はc1%で、がん2はc2%で…と。

改めて言うと、各がんに対する線虫の反応のしかたが異なれば、各がんの感度が異なります。そして、がんを持つ人の内、各がんの割合は同じではありません。それはつまり、

それぞれのがんに対する感度の重み付けが異なる

のを意味します。たとえば、ある程度の年齢に到達した男性について、乳がん前立腺がんでは、保有割合が全然違いますよね。乳がんは稀少なので、そもそも保有している人が相当少ない訳です。だから、乳がんに対して感度が低くても影響が無いと言えます。仮に、がんの内で0.1%を占めるものがあるとして、それの感度が低かろうが、他のがんへの感度が高ければ、結果的な感度は高くなり得ます。では今一度書きます。

15種類のがんに反応する

とはどういう事ですか。

  • 15種類いずれかのがんを持つ人が陽性になる確率が高い
  • 15種類いずれのがんに対しても陽性になる確率が高い

このどちらですか? 先ほど書いたように、がんは種類によって罹患率(罹りやすさ)と有病期間(病気を持っている期間)が異なるので、ある時点における保有割合も異なります。そして、がんの中にも割合が高いものもあれば稀少なものもあります。だから、稀少なものへの感度が低い所で、全体的な感度に響いてこない訳です。

しかし、だからと言って15種類それぞれのがんへの感度が高いなどと主張出来るはずがありません。だってそうでしょう。それを主張するには、

15種類のがんに対する性能評価をおこなわなくてはならない

のですから。とすれば、主張は前者、つまり15種類いずれかのがんを持つ人が陽性になる確率が高いと言っているとしか解釈出来ません。しかるにそれだと、それぞれのがんに対する感度の事は何も主張出来ません。それなのに、15種類のがんに反応すると言って良いのですか?

いや、あくまで反応する可能性があると言っているのであって、感度がどうとは主張していない、と返すでしょうか。いやいや、そんな話は通用しません。感度は1次検診において最も重要な指標だからです。一番最初の検査を狭義でスクリーニングと言うように、まず誤陽性をいくらか許容してでも保有者を拾わなくてはなりません。で無いと見逃します。したがって、検診に用いるのに良い検査である事をアピールするのに、感度の高さを提示するのは必須事項です。じっさいN-NOSEは、感度の高さや消化器がん対象のAUCの高さ(感度と特異度を同時に高くする事が出来る指標)を前面に押し出しているではありませんか。

N-NOSEは、15種類のがんで反応が確認されていると謳っていますが同時に、がん種の特定はできませんとも言っています。出来るはずが無いですね。がんの構成比も、各がんに対する感度も判らないのだから、このがんの可能性が高いですよ、などと案内しようがありません。では、N-NOSEで高リスクであると言われたら、いったいどうすれば良いでしょうか。次にどの検査を受けに行けば良いですか? がん統計の罹患率(累積罹患割合)でも調べますか? 成人だと、直腸結腸がんや胃がんの割合が高いですね。じゃあ便潜血検査や胃X線検査を受けましょうか……そんな事をするなら、最初から推奨された検診を受ければ良いのです。検診というのは、年齢や性別、がんの種類などによって、その病気の保有割合や、処置が功を奏するポイントなどが異なってきます。だから、好きな時にいつでも受けて良い、とはなりません。毎年検査すべきか隔年のほうが良いか、なども議論になります。あまり頻回に受けると余剰発見などの害も増えます。それで推奨されているがん検診は、日本では5種類です。検診の論理はかなり複雑なのです。

N-NOSEで陽性(高リスク)判定を受けました、自分は高齢男性だから前立腺がんを受けてみよう…となって前立腺がん検診を受けるとします。高齢だと保有割合が高いので、結果的にがんが見つかる場合もあるでしょう。その時には当然、N-NOSEのおかげと認識するでしょう。検診には余剰発見があります。前立腺がん検診が効果を発揮するかは難しい所です。もし発見が余剰発見だとしても、処置を受けたら、N-NOSEのおかげでがんが治ったと考えます。その検診に意味が無くとも、反実仮想だから、検診しなかった場合はもう判らない訳です。そして、N-NOSEに対する好意的評価が生じます。いわゆる好評のパラドクス(ポピュラリティパラドクス)です。

N-NOSEを受ける人が少ない内は、もし検診の効果が無いとしても、好評のパラドクスによって評判が良くなる可能性があります。これは検診の議論で大きく問題になる所。ただ、まともに精度管理(後で紹介)されていない市販された検査だから、陽性なのに見つからなかった(誤陽性)との意見が増えれば、逆に信用を無くすかも知れません。これは社会的なものなので、どう転がるかは不明です。

N-NOSEは、五大がん検診で見つけられるのは5つのがん種のみと主張します。これはおかしな表現です。推奨される検診が5種類なのだから、見つけられるのが5種類なのは当たり前です。と言うか、

5種類以外を見つけても良いかは解らない

というのがほんとうの所です。それをあたかも、それ以外のものを対象としていないから性能が低い、かのごとく書くのは印象誘導です。じゃあ腎がんを見つけたとして、それが見つけない場合より予後を改善するのですか、という話です。

自治体によって実施されるがん検診は、精度管理と言われる性能評価があります(自治体担当者のためのがん検診精度管理マニュアル:[国立がん研究センター がん情報サービス 医療関係者の方へ])。案内対象の内どのくらいが受検したかとか、がんがどのくらいの割合で見つかったとか、要精検者に占めるがん保有者の割合はどのくらいかとか、そういうのを評価します。検査は、検体の採りかたや集めかたなどでも性能が変化するので、何もせずに品質が一定に保たれる保証など無いのです。まして、市販された検査など、どうやって専門的批判に耐え得る精度管理をおこなうと言うのですか。

とまあ、実験手法や論文の書きかたとは別の観点から見ても、こういう突っ込みどころがあります。そもそも検査検診は異なりますしね。検査の性能が良い事は、検診の有効性を発揮するための重要の条件ではあっても、それがあれば良い、とはなりませんからね。たとえば、エコー検査より圧倒的に高性能な甲状腺がん検査が出来たとして、それがすぐに役立つのか、と考えると良いでしょう。

まとめると、次のようです。

  • 複数のがんに反応するという主張の意味が不明瞭
  • 感度を考えるとして、複数のがんに対する感度をどう測るか
  • がん保有の構成比を考える
  • 超稀少ながんの感度が低くても全体の感度には響かない
  • 各がんの感度を調べていないのに、各種に反応すると主張して良いのか
  • 既存の検診の精度管理に相当する性能評価がおこなわれない
  • 仮に検査の性能が良いとしても、それは検診の性能の保証にはならない

N-NOSE関連の報道がどう動くかは解らないですが、センセーショナルな報じかたなので、やかましいやり取りが飛び交うかも知れません。そういうのに引きずられる事の無いよう、落ち着いて事態を見守りましょう。