HIROTSUバイオサイエンスの言い分
初めに言っておきますが、今から書く文は長いです。元のリリース自体が長くて論点が色々あるので、関心ある部分に絞って言及します。スクープが云々とかセラノスがとか、社員がどうこうといった所には特に興味がありませんし。
まず、検査指標に不案内なかたは、下記ツールを参照ください。
実用化後、N-NOSE の感度は臨床研究時(86.3%)と変わらない
検診の文脈で言えば、母集団とは検診対象の人口を指します。受検者全体ではありません。この時点で、検診を積極的に受ける人に何らかの傾向があればその影響を受けます。たとえば健康者バイアスなる選択バイアスです。もっとも、健康者バイアスがあれば、がんは少なくなるでしょうけれど。また、母集団数なる表現は誤り。母集団の大きさ(サイズ)です。
罹患とは新しく罹る、すなわち発生の事を表すので罹患率は誤り。正確には有病割合(保有割合)です。また、累積罹患率(累積罹患割合。これを疫学でリスクと言います)は期間での発生総数が分子だから、数値は一般に時点での保有割合より高くなります。1年間で風邪に罹った人と今風邪に罹っている人では割合が違うでしょう。ここでは計算の話に合わせるために、ひとまず保有者を60人としておきます。
HIROTSUはこの計算を誤りだと批判して、高リスクの数から受検者の数を修正します。
なぜ高リスク者の割合と人数から分母を割り出しているのか不明ですが(そもそも受検者数は先に把握しておくべきものでしょう)、1665人というのも取り敢えずそうします。HIROTSUは48%と言っていますが、これだと感度は48%では無く47%ですね。そのまま見ると、感度の数値としては低いです。13%より高いとはいえ、これをそのまま受け入れられないのでしょう。
一連の検査においてPET-CTの性能が関わってくるとの主張は正しいです。3段階の連続検査なので。もしPET-CTで誤陰性になれば、その先短期間でがんと診断されないから、最初の検査の感度は低く見積もられます。そこは合っています。だからちゃんとした研究では、検査で陰性になった人でインターバルがんが出るかとか、1年後に検診をしたらがんが見つかったかとか、そういう追跡をして実際を把握する必要があります。一般論としてはそれは正しい話です。
でもそれ、N-NOSEにも言えますね。PET-CTの性能が充分で無いのはそうでしょうけれど、ではN-NOSEで陽性と陰性になった人を長期間追跡しているんですか? N-NOSEで陰性になった人にインターバルがんは出ていないのですか? その先の検診でがんと診断される人は把握しないのですか。PET-CTの性能が低い事は、N-NOSEの性能の高い事を全く保証しません。
感度が303%と言うのは論外です。感度は割合または確率なので、1を超える事はあり得ません。割合は分子が分母の部分集合であるという定義からそう言えます。分母は検査時点でのがん保有者です。もし検査を受けた保有者が17人だと仮定するのなら分母は17。感度を求めようとして1を超えたのなら計算が間違っています。そもそも感度の定義を知らないのでしょう。
PET-CTの感度がどうと言うのなら、N-NOSEでの陽性適中度を新しい保有割合(検査陽性後保有割合:事後確率)としてそこから求める流れとなりますが、それは求まりません。まずN-NOSEの性能を評価しようとしているのだから、N-NOSEの性能を確定させて他の検査性能を測れるはずがありません。だからN-NOSE→PET-CT の検査の結果からは大した事は言えないよね、で終わりです。
先に書きましたが、がんと判っている人を対象にして性能を測るのでは無く無症状集団を対象に検査しているので、このようなかたちでは性能評価は出来ません。言っておきますが、糾弾記事もHIROTSUもどちらも間違っています。これは実世界での検診における検査性能評価だから、まず検査で陽性・陰性の判定をして、それを追跡しなくてはなりません。がん保有の割合を勝手に決めてはなりません。いったい検査時点で100人に1人のがん保有者がいるってどういう集団なのですか。
ちゃんと性能を測るには、検診を継続的におこなって、その間に有症状のがん(インターバルがん)が発生するとか、次回の検診において検査で見つかるとか、そういうのを確かめる必要があります。たとえば、最初の検査で陰性だったのにインターバルがんが発生すれば、それは最初の検査時に既に罹っていた、つまり誤陰性を示唆します。もちろん検診の間に罹った可能性もありますので言い切る事は出来ません。前臨床期の長さなど色々関係してきます。特に誤陰性を数えるのは方法的に難しいのです。定義も複数あります。そういうのが全く考慮されていないので、性能評価など全然出来ていません。ああいう適当な計算をしたものが実験的に見出した感度と同等の性能を持つなどとは絶対に言えません。
これ見よがしに他の検査の性能表を出していますが、他の検査もそれほど高く無いというのは実際に重要です。性能の算出法等でばらつきが出ますし、推奨される検診で使われる検査でもそこまで感度は高くありません。それ自体は重要なので、たとえば一部の人がしているような、感度86%は低いだろう的な指摘は的を外します。問題は、N-NOSEの性能評価自体が全然出来ていない所なのです。他の推奨される検査の性能が思ったほどでは無いとしても、それはN-NOSEの性能の高い事を全く保証しません。
N-NOSE が科学的事実に基づいた技術であることは、論文で実証されてい る。当然がんスクリーニング検査としても、実用化に十分な性能を確保し た上でスタートした検査である
内部での品質管理を徹底しているとかオペレーションを整備しているとか言うのは単なる主張であって、それが充分に機能している事の保証にはなりません。原理となる線虫の性質部分についての基礎的現象に再現性がいくらか認められたとしても、それは技術の実用性が再現・確保されたのを意味しません。だからこそ実世界での性能評価が必要であり、それはなされていません。上述のように、検診というプロセスにおいて検査を使用する前提で、周到にデザインされた研究によって評価する必要があります。様々の条件を統制して実験的に現象が再現されるとしても実世界では通用しない場合があります。生態学的妥当性の問題であり、リアルワールドデータが重要な所以です。
弊社では、バイアスが一切入らない(ブラインド状態にしかならない) 検査を行っている
バイアスが一切入らないなどという主張は不可能です。そもそもバイアスとは、人間の心理的社会的なものだけ指すのではありません。機器の性能その他様々の要因によって生ずる一方向のズレがバイアス(偏り)です。機器の状態や設定や操作や検体の集めかたや保管や記録のしかたなど、あらゆるプロセスにおいてバイアスは生じ得ます。どこでどう入るかの完全な把握は出来ません。把握が出来ないから厄介なのです。バイアスが一切入らないなどと表現する事自体が、科学的技術的工学的に全く誤っています。バイアスの原因を全て解明してそれを完全に防いでいると主張しているのと同じなのですから。
バイアスを人間由来の心理的社会的ものと限定したとしても誤っています。自分たちの方法がそれらを完全に遮蔽出来ていると主張するのは、主張する側の言い分に過ぎません。手順的に遮蔽が可能であればすべきです。しても変わらないのであればすれば良いでしょう。また仮に、運良く過去にバイアスが大きく生じず研究が上手くいったのだとしても、次に上手くいく事は保証されません。遮蔽試験は、どこでバイアスが入るか解らないから意図的に見分けをつかないようにデザインする訳です。自分たちの作ったものはバイアスが入り得ない、だから遮蔽試験をしなくて良いとの主張は通用しません。
当たり前ですが、遮蔽試験はデザイン上で重要な条件という話で、それをした研究があるから即実証されたとはなりません。結局は実世界での性能評価をおこなうべきであるのに変わりありません。もちろん、原理的にがんに線虫が選択的に反応する訳が無かろうと言っているのではありませんので(そういう人もいるだろうが)、きちんとデザインした研究で評価してから実用性云々を主張しましょうという話です。ちなみに、遮蔽試験は遮蔽が破れる場合もあります。バイアスとはそれほど厄介なのです。
実社会ではありえない割合のがん患者の検体を一度に、意図的かつ大量に 提出されたことで標準化変換が働き、正確な判断に支障が出た
一般論として、標的集団によって検査性能の評価値が異なる事はあり得ます。それを検討した論文もありますし、少し古い久道の本でも同様の事が紹介されています。スペクトラム効果として着目されています。
↑P85・86
標的集団が違えば、がんの状態の構成比も異なってくるでしょう。有症状で見つかった人と無症状集団での検査結果は異なって当然とも言えます。指標の算出方法によっても異なります。性能評価したい検査と、診断に使う基準の検査(至適基準)とを同時に検査すれば、その時点での誤陽性等がかなり判ります。これを同時法と言いますが、無症状集団に同時法をおこなうと、がんがあると判っている集団に検査するより感度は低く出ます。無症状時という事は、症状発現後より相対的に罹患からの期間が短いはずですが、その場合には調べたい検査が反応しにくい時期であるのが想定されます。そこに至適基準の検査を一緒におこなうので誤判定が判明しやすいという寸法です。ひとまずそういう話は念頭に置く必要があります。
HIROTSUの主張は、そういう話が関係しているようでもしていないようでもあります。がん患者の検体を大量に分析したら結果が歪むと主張していますが、そもそも実世界の検診目的の検査では、がんの割合自体が解らないので、事前にがん患者の検体が大量に含まれているかを判断しようがありません。年齢性別その他の属性等を考慮して保有割合を推定するという話かも知れませんが、それによって設定等を変化させる必要があるとすれば、ずいぶんと頑健さに欠ける検査と言えます。単純に、タームとやらをどう評価・層別しているのかには興味があります。それが解らないと他者が再現しようがありませんし。それとも独自の技術として秘匿するのでしょうか。
これは先ほど書いた話、つまり標的集団によって検査性能が変化し得るという議論を上手く利用しているとも言えます。要するに、がんの状態の構成比によって性能が変わってくるから、その構成に合わせてカットオフポイント等の設定を変更する必要があるのだと言っている訳です。それを主張する事自体は別に良いと思いますが、研究における条件が増え実証が難しくなりますし、オペレーションが極めて複雑になります。実際、要望を守らない検体が届いてそれを見抜けずに判定したのです。検査というのはそういうオペレーション含めたプロセス全体です。相手は要望に従ってくれなかったのでしょう? その事で結果が歪むとすれば、それをこそバイアスと言うのです。
マススクリーニングは不要に不安を煽るものではない。 早期発見ならがんは治療可能な病気であることは周知の事実
周知の事実ではありません。乳児神経芽細胞腫のマススクリーニングの有効性が認められてなどいません。
がん検診の有効性評価において現状、死亡率を低下させる事は必要条件ですが、観察研究によって死亡率が低かったことをもってそれは実証されません。死亡率を下げるのと死亡率が低いのとは異なります。検診に要求されるのは、死亡率を下げる因果効果です。要因対照、特にRCTをおこなわずに検診の有効性を主張するのは極めて困難です。RCTはリソース的や倫理的の理由でおこなえない場合があるので他の観察研究によって検討をおこないますが(だから検診の有効性議論は激しい)、それを考慮したとしても、神経芽細胞腫マススクリーニングの有効性が認められたなどとは言えません。自分たちの検査にバイアスが入らないなどと嘯きつつ実世界を対象にした研究におけるバイアスに全く無頓着なのは頂けません。
ちなみに、死亡率を低下させる効果があるとしても、それより害が大きければ検診は推奨はされません。がん検診が推奨されるかどうかはNet Benefit(正味の便益)が認められるかにかかっています。もちろん、仮に神経芽細胞腫マススクリーニングにNet Benefitがあるのだとしても、それはN-NOSEによる検診が有効である事を全く保証しません。
N-NOSE は A~E の 5 段階でがんのリスクを示しています。記事中では度々「陽性」と記載がありま すが、N-NOSE では「陽性/陰性」の表現は使用していません。
がんを発見するプロセスの一部であり、高リスクなどと称しており、更に自ら性能評価をおこなったと主張して感度や適中度を測ろうとしているのだから、それは診断学的な陽性概念に他なりません。ユーザーがいだく印象に違いを与える事はあるでしょうが、それを考えるのならたとえば、陽性と表現しない事によって検診の受診が控えられる可能性をも検討すべきでしょう。
こんな所ですかね。色々言い分はあるでしょうが、少なくとも、実世界での検査性能および、当該検査を用いた検診の有効性は全く実証されていません。また、15種類のがんに反応するとの主張に対する批判もありますが、それへの合理的な反論もありません。もしN-NOSEが社会に資する検査であると主張したいのであれば、これらの立証と説明は必須です。再度言いますが、他の検査の性能が低かったり検討が不充分だったりするのはN-NOSEの性能が良い事を全く保証しません。