新型コロナウイルス感染症に対する検査のはなし
はじめに
この記事では、新型コロナウイルス感染症の議論によって注目されるようになった、検査について書きます。
最初に断っておくと、とても長いです。ある程度の事情を把握するには、そのくらいは理解しておくべき、という事の反映とご理解ください。
検査の性能
検査の指標
新型コロナウイルス感染症にまつわる議論の中で、検査の感度や特異度といった指標が注目されるようになってきました。検査は、医療を受ける側の私たちにとっても身近なものですし、いわゆるがん検診のようなものの効果を評価する際にも重要ですので、それに関連する指標を知っておくのは、今回のような感染症の話に限らず、大切な事と思います。
ここでまず、それら検査の指標について、手軽に試す事が出来て、視覚的直感的に把握出来るように作成したツールを紹介します。※見にくい場合には、リンク先を開いてください
性能シミュレータツール
↑指標を直接入力する事によって、人口(100万)に占める割合などを視覚的に把握できます
↑数(例数)を入力する事で、各指標が算出されます。簡単なグラフ表示も出来ます。
- 例数入力版の注意点
- JavaScriptでは、計算の際に少しのズレが出る場合がありますが、その補正をしていません
- 従って、他の言語等で計算した数値とは異なる可能性があります
- グラフや線引部分も目安として見てください
精度について
検査の議論で、色々な指標を含めた性能一般の事が、精度と表現される場合があります。しかしその語は、
- 検査の具体的指標(正しく判定出来た数/人口 正診割合)を表す場合がある
- 深く関連する分野である統計学や誤差論等で、異なる意味(測定のばらつきの度合い、誤差幅)で用いられる場合がある
上記のような理由で多義的であるために、私は用いない事とし、代わりに、検査の性能や品質を使います。
検査の各指標
検査の性能を評価する際に基本となる指標は、
- 保有割合
- 対象とする人口の内、ある特徴を持っている人の割合
- 陽性
- 検査した人が、着目する特徴を持っているだろうと判定する事
- 陰性
- 検査した人が、着目する特徴を持っていないだろうと判定する事
- 感度
- 着目する特徴を持っている人の内、陽性となる人の割合
- 特異度
- 着目する特徴を持っていない人の内、陰性となる人の割合
これらです。そして、この基本的な指標を組み立てて、
- 陽性適中度
- 陽性の人の内、着目する特徴を持つ人の割合
- 陰性適中度
- 陰性の人の内、着目する特徴を持たない人の割合
このような指標が作られます。検査を受ける人にとってはむしろ、判定を受けたとして、実際はどうなのか(適中度)がとても重要であり、適中度は、上記の保有割合に強く依存する指標ですので、意識しておく必要があります。
こういった指標は、表を描いて記号を用いて表し、数値を当てはめて計算して説明される場合がありますが、それだと、指標の名前を憶え切れておらず、指標を記号で表して抽象的にすると、直感的に把握しづらいものがあります。ですから、最初に紹介したツールを、理解の助けになるよう作成しました。
新型コロナウイルス感染症に対する検査の性能
現状、新型コロナウイルス感染症に対してよく用いられる検査は、RT-PCR(逆転写-ポリメラーゼ連鎖反応)法です。
この検査法によって、検査する対象が、新型コロナウイルスを保有しているかどうか、判定されます。
検査性能と品質管理
検査性能の基本指標として、感度や特異度を紹介しました。ここで検査とは、
検体の採取から、RT-PCR法を用いた解析を経て、対象に結果を伝えるまで
の、一連のプロセスを指します。したがって、感度や特異度の性能も、このプロセス全体を加味して評価されます。
重要なのは、このプロセス全体にわたって、検体採取を適切におこなったり、取り違えなどのヒューマンエラーを減らすなどの管理をおこなっていく事です。それを、検査の品質管理(精度管理)と言います。
※品質管理(Quality Control):QCとは、工学方面に関連した専門分野でもあり、臨床検査における品質管理は、当該分野における具体的方法を適用したものとされる場合もありますが、ここでは、より広い意味合いで用いています。
↑検査の品質管理の実際、最初のほうで言及した精度は、ここでも出てくる具体的専門概念です。
http://www.jccls.org/techreport/tentative_guideline.pdf
↑日本臨床検査標準協議会による文書。『遺伝子関連検査 検体品質管理マニュアル』(PDF)。暫定文書時のものなので、参考資料として。検体保存や運搬等の観点から、様々の検査法に関する検体管理を論じています。
感度と誤陰性割合
感度は、保有者が陽性になる割合の意味でした。という事は、それと相補のものとして、保有者なのに陰性になる指標が考えられます。それを、
誤陰性(偽陰性)割合
と言います。新型コロナウイルス保有に対するRT-PCR検査と同様の検査において、保有なのに陰性(非保有であろう)と判定されるのは、
- その人はウイルスを保有しているが、検体を採取する箇所のウイルス量が小さい
- スワブ(綿棒)を適切に挿入出来なかった
- スワブできちんと拭えなかった
- 保存液の影響
- 綿棒の種類の影響
- 検体の取り違え
- 結果の伝え間違い
などの場合が考えられます。
https://www.city.kawaguchi.lg.jp/material/files/group/86/20200430gotuuti.pdf
↑PDF。埼玉県川口市の事例
↑検体取り違えによる誤陰性
↑保存液による誤陰性
https://headlines.yahoo.co.jp/hl?a=20200503-00026141-asahibcv-sociheadlines.yahoo.co.jp
検体採取
上記のような事情がありますので、対象者がウイルスを保有してから経過した時間、ウイルスがある場所、検体採取のやりかたなどによって、保有者が陰性になる可能性は避けられませんし、実例もあります。そのため、日本では検体採取の方法として、
- なるべく、保有初期でもウイルスが多くいると思われる下気道由来の検体(喀痰・気管吸引液)を採取する
- 複数箇所から検体を採取する
などの方法が定められています。
同時に複数の検査をおこなって、1つでも陽性が出れば陽性とする、ようなやりかたを、並行検査と言います。これにより、トータルとしての感度を上げる事が出来ます。
ただし、上記資料内にもあるように、下気道由来の検体採取が難しい場合は、鼻咽頭拭い液による検体で良いとされていますし、必ずしも、理想的な採取はなされていないようです。
↑喀痰は出にくいとの事
↑福岡県における事例。
2020年1月31日~3月4日までに福岡県(北九州市および福岡市を除く)の保健所から当所へ搬入された119検体を対象とした。検体の種別は、咽頭ぬぐい液が42件(35%)、喀痰が38件(32%)、鼻咽頭ぬぐい液33件(28%)、鼻咽頭ぬぐい液・咽頭ぬぐい液混合が3件(3%)、その他3件(3%)であった。
感度の評価
これまでに見たような事情により、実際の感度がどのくらいか、といった評価は難しいですが、それをおこなった研究はいくつかあります。
https://onlinelibrary.wiley.com/doi/abs/10.1002/hed.26213
↑耳鼻咽喉科領域における、検査性能の文献レビュー
https://pubs.rsna.org/doi/10.1148/radiol.2020201343
↑胸部CTとRT-PCRの性能を、メタ解析(複数の研究を総合して検討する)によって評価したもの
色々の研究を参照すると、よくおこなわれる鼻咽頭拭い液採取での感度は、70%くらいとの評価が見られますが、はっきりと、こうだ、と言えるようなものではありません。また、複数採取が可能であれば、並行検査により感度を高める事は可能です。もちろんこれには、リソース等も関わってくる所です。
唾液検査
最近では、鼻咽頭スワブでは無く、唾液採取によって検体を採り検査する事が、注目されています。まだ研究中のようですが、きちんと採れた鼻咽頭拭い液と同等の性能があれば、
- 飛沫による感染のリスクを減らせる
- 検体採取が容易
などのメリットが考えられるので、採用が期待されます。
↑唾液採取による検査の性能を検討。唾液検査自体もですが、ある衛生研究所からの通達
が、検査の実態を知る手がかりとなる、興味深い内容です。
特異度と誤陽性割合
感度と誤陰性の関係と同じく、
特異度は、非保有者が陰性になる割合の意味です。それと相補のものとして、非保有者なのに陽性になる指標が考えられ、それを、
誤陽性(偽陽性)割合
と表現します。誤陽性が発生する理由としては、
などが考えられます。
https://www.city.kawaguchi.lg.jp/material/files/group/86/20200430gotuuti.pdf
↑PDF。埼玉県川口市の事例
↑PDF。神奈川県横浜市の事例
検体取り違えが起こり、そのまま対象者へ結果が伝えられる場合、誤陰性と誤陽性が同時に発生する事になります。
誤陽性の害
実際に非保有なのに陽性と伝えられる場合、強い心理的負担を与えると考えられます。また、誤陽性が伝えられてからどのくらい経って訂正されるか、も重要です。場合によっては火葬後に判明し、心理的社会的な害は強いものでしょう(感染者扱いなので、葬儀や通夜に立ち会えない・おこなわれない)。
確定診断と参照基準
検査をおこなって、それが正しいかを評価するのですから、何らかの手段によって、確定診断がおこなわれる必要があります。そして、その確定が、他の検査性能を測るための基準となります。それを、参照基準(至適基準)と呼びます。
ここで問題が起きます。検査性能を測るためには参照基準が要ります。しかし参照基準は、診断を確定出来る検査の必要があります。となると、参照基準の性能はどうやって測りますか? 実際に保有・非保有が完全に判るのなら、検査は要りませんよね。それが判らないから検査する訳です。このようにして、議論は堂々巡り(循環)します。ここに、検査性能評価の難しさがあります(『ロスマンの疫学 第2版』参照)。
とは言え、何か決めておかないと、性能の評価自体が出来ません。そこで、新型コロナウイルスに関しては、RT-PCR検査の結果陽性を確定診断とし、他の検査性能を評価する参照基準と考えます。
参照基準ですから、定義上は、特異度は1の必要があります。保有していないのに陽性になるのは、確定診断としての性能を下げるからです。しかし、先に例を出したように、コンタミネーションなどにより、実際に誤陽性は発生するので、特異度が1で無い事は判っています。けれど、RT-PCRの方法上、検体に病原体が存在しなければ陽性になりにくい事を鑑みて、
品質管理が適切になされているなら、特異度は1に近い
と評価する事は出来るでしょう。
誤陽性の程度
RT-PCRにおいて誤陽性が発生する原因は、ほぼヒューマンエラー由来と想定されます。これは、
- 適切に品質管理されていれば、そうは起こらない
- 件数が増えてきてヒューマンエラーの可能性が高まれば、起こってくる
この両方を考慮する必要があるのを意味します。検体の分析部分では誤判定が起こりにくいのは原理的に言えるから、検体管理や情報管理上での扱いが適切であれば、誤陽性は低く抑える事が出来るし、リソース補充がきちんとなされなかったり、スタッフの教育や手順遵守が徹底されなければ、ヒューマンエラー由来の誤陽性も起こってくるだろう事も言えます。
それらを鑑みて、誤陽性の程度を評価するのは、相当難しいのが解りますが、ここで、一つの考えかたを示してみます。
たとえば、ある地域において、検査件数を、非保有者のみからなる集団から得た標本と考えて、陽性/標本 の割合から、母集団における割合(つまり特異度)を推定する、といった方法も考えられます。そうすれば、岩手県の例などを見て、特異度がそこまで高く無いなら陽性は何例か出てもおかしく無いのでは? といった推測が出来る訳です。
もちろん実際には、他に色々考えるべき条件(そもそも無作為抽出では無い。母集団をどう設定するか)もあり、こんな単純には行きません。検討には慎重さを要します。
誤陰性評価と参照基準
先に、RT-PCR検査の感度の評価について書きました。しかし、すぐ上で、RT-PCR法は参照基準であるとも説明しました。これは、
となります。なんだか不思議ですが、これは、感度の所で説明した、検体採取の場所や手技などによって性能が違ってくる、の部分が関わります。感染初期や無症状期では陰性だったものが後から陽性になる、などの事例より、その時期におけるRT-PCR検査の感度は高くならない、と評価する訳です。また、同時期におこなった胸部CTの所見で陽性となる事をもって、胸部CTの感度は高いと評価されています(※だからといって、臨床症状などを考えずに最初の検査として胸部CTを用いて良い、とはなりません)。
実際問題への適応や想定
これまで、検査性能の指標の説明をおこない、誤陰性・誤陽性発生の事例などを挙げてきました。しかしここから、実際の検査体制の評価や仮定に基づいての想定をおこなうには、注意を要します。
感度の設定
感度については、先に紹介したように、いくつかの、量的に評価した研究があります。ですので、それを参照しつつ、感度はこれくらいで、と設定しながら、より広い検査対象をとった場合、と想定する事には、それなりに意義があるでしょう。
ただし、数値を固定した想定は、実験的な情況から得られた数値の一般化ですから、必ずしも実態に即するとは言えません。検体採取のやりかた、採る場所、複数検体、など運用のしかたにも左右されます。件数が多くなると品質管理が保てなくなって感度が下がる、かも知れないし、よく検体を採取出来る手技等が周知されて、高まる可能性もあります。
あくまで、情況を理想化・仮想化したシミュレーションである事を、押さえておきましょう。
誤陰性の想定
誤陰性になった人は行動して感染を広める的な意見があります。これは、インフルエンザ迅速診断キットにまつわる議論でも指摘されてきた事(感染初期の感度が高く無い)ですが、ただこれは、心理社会的要因に強く関わるものでもあります。
今ほど感染が広がる前、情報もさほど共有されておらず、検査の性能も知られていなかった時期であれば、インフルエンザと同様の指摘は適切であった可能性があります(私もそのような懸念を持っていました)。 しかるに現在、パンデミックに至り、他国での膨大な死者数の情報も入ってきて、日本における緊急事態宣言も発出された情況です。また、誤陰性や誤陽性などの検査性能に関する指標の情報も、ある程度広まってきています。そういう情況において、誤陰性の人は歩き回って感染を広げるのような見かたは、情況の変化に対する考慮が足りないようにも思えます。
とは言え、一般論として、一次検査(保有者を絞り込むための最初の検査)で感度が高いのは重要です(この病気では無い、との除外診断の性能に関わる)。ですから実際には、渡航歴・接触歴・臨床症状などを同時に考慮し、あらかじめ保有割合を高めておいて、RT-PCR検査をおこないます。そのあたりを考慮しないような、希望者全員や全国民に対し検査すべきだ、といった主張(後で具体例を挙げます)に対する検討をおこなう際には、誤陰性の程度は重要です。なぜなら、超巨大な人口に、臨床症状等を無視して検査すると、人口に占める誤陰性者の割合そのものが大きくなり得るからです。
特異度と誤陽性の設定
既に説明したように、特異度の定量的な評価はとても難しいです。なぜなら、RT-PCRそれ自体が確定診断の方法であり、参照基準であるから。もしコンタミネーションや検体取り違えによる誤陽性が発生しても、それが判明しなければ、誤陽性例として拾えない訳です。ここで紹介したのは、あくまで判明した事例ですので、潜在的な事例含めた誤陽性例の一部です。
特異度の評価が困難な事は、現実問題について検査性能を当てはめて論じる際、不用意に具体的な数値を設定する危険を示します。たとえば、
↑こちらのブログでは、
新型コロナウイルスのPCR検査の特異度が90パーセントだったとします。100人の感染していない人に対して90人を陰性と判断できる検査ということです(実際の特異度はPCRの性質上、もう少し高くなることが予想されます)。
このように、特異度を90パーセント
と設定しています。しかし、そのように設定して良い根拠は示されていません(もう少し高くなる
とはどのくらいでしょうか。なぜ低くしておく必要があるのでしょう)。感染初期におけるRT-PCRの感度であれば、複数回RT-PCRをおこなった結果の陽性を参照基準として想定するのは可能ですが(想定時の注意事項は先述の通り)、RT-PCRの結果は参照基準そのものですから、その特異度を簡単に設定出来ません。また、他の病原体に対するRT-PCRの特異度を、そのまま持ってくる事も出来ません。にも関わらず、90%とか95%などの数値を当てはめて検討するものが、いくつか見られます。
感度設定の所で書きましたが、検査の議論では、より広い対象に検査をおこなう事が検討される場合があり、そこでは、超巨大な人口が想定されます。現状の推定(抗体検査による血清疫学的方法。※ただし研究が適切か評価すべき)では、新型コロナウイルス感染症の保有割合は数%くらいと見られますので、非保有者割合のほうが遥かに大きく、ちょっとした特異度の違いが、人口に占める誤陽性者の割合の見積もりに、強く効いてきます。テストの点数などで、90点も95点も同じくらい良いではないか、といった話とは全然違います。
したがって、特異度を90%や95%と設定して一般への影響を想定する人は、どうしてそう設定出来るかを、きちんと説明出来ねばなりませんし、そうすべきです。
全員検査
これまで言及してきたように、検査の規模をどこまで大きくするか、が議論されます。これは、論者によって色々違いがあるでしょう。たとえば、
- 全国民
- 希望者全員
- 医師等が適応判断した全員
- 保健所が適応判断した全員
- 有症状者に限る
- 重症者に限る
こういったように。ひとまず、検査は必要か不要かといった分けかたは粗すぎる、といった事は共有しておきたい所です。上端と下端は文字通りに極端な主張ですが、実際、上の極端な主張をする人はいます(下の主張については把握していません)。ここで、実例を挙げます。
https://www.kantei.go.jp/jp/singi/it2/dai77/siryou5.pdf
↑PDF。楽天の三木谷社長による(少なくとも記名されている)『日本復活計画』なる文書
ここで挙げたのはいずれも、広く社会に発信する力を持つ人々の主張です。検査といっても、RT-PCR検査や抗体検査が主張され、その意義はもちろん異なりますが(柳井氏は不明。須藤氏は抗体検査)、全国民に検査と言った場合、いずれの検査でも、検査性能の評価とリソースの問題が必ず関わってきますから、注意深く検討すべきでしょう。
各国による検査の用いかた
国によって、検査をどのくらいの規模おこなうか、は違ってきます。日本が少ないのはよく指摘されている所です。
たとえば、ルクセンブルクでは、全国民に検査する計画が立てられました。
ただし、ルクセンブルクの場合には、人口が小さいなどの理由で、リソース的に可能、といった事情があります。ルクセンブルクに限らず、検査をどの規模でおこなうかは、感染拡大対策の方向やリソースの問題、当該感染症への感受性や生活様式など、様々な要因を考慮して決めるべき事ですので、増やすべき/このままで良い/減らすべき といったいずれの論を主張するにしても、どうしてそう言えるのかを、きちんと文献等を参照しながら説明出来なければ、建設的な議論にはならないと思います。
まとめないまとめ
ここまで、新型コロナウイルスの議論に絡めて、検査一般の性能の説明から、当該感染症の検査における誤判定の実例等を見てきました。しかし、私は、検査対象や対策について、これこれするべきだ、といった事は書きませんでした。それをきちんと検討するには、検査性能の実際や医療資源の確保、あるいは、検査する事が、感染拡大防止そのものや予後改善に寄与するのか、などの要因を総合的に参照しながら分析すべきだからです。
とは言え、次のような意見は持っています。
全員検査
まず、検査性能の問題があります。全員検査ですから、分母の人数が超巨大になります。また、保有割合がとても小さい集団に検査をおこなうのを意味しますから、ちょっとした感度や特異度の違いが、結果的な人数に響いてきます。指標の定量的評価は簡単ではありませんが(とりわけ特異度は)、割合が小さくとも、調べる人数そのものが増大するので、人口へのインパクトが大きくなる可能性は考慮しておいて良いと思われます。
また、リソースの面もシビアでしょう。こういう体制が整えば全員検査に意義がある、といった想定が出来たとしても(その想定が重要なのは言うまでも無く)、体制が整わなければ実施しようが無いのですから。また、確定例がすごく増えた場合にどう対応(治療や隔離等)するか、の部分が検討されないままに、一次検査として大規模な検査が計画された場合にも、医療に大きな負担がかかる可能性があります(楽天による、法人向けのRT-PCR検体採取キットの販売が、そのような観点から強く批判されました)。
health.incubation.rakuten.co.jp
現状の検査体制
医療機関が保健所に検査を依頼したが断られた、との事例が報告されています。
もちろん、これらの事例から、実際どのくらい拒否されているか、をすぐに推定は出来ません。しかし、こういう事例が報告される事自体を重く見るべきです。おそらく、保健所が拒否するという場合、リソースが逼迫しているためにそうせざるを得ないとの理由もあるでしょう。その際には選別がおこなわれる訳で、医師の臨床判定等で検査を実施するとの基準が壊れてしまいます。これでは、一定の判定基準によって症例を測る、という測定の面でも性能が損なわれます(名目上の判定以外の基準が混入する)。当然、医療機関と保健所の関係も悪化する危険があるでしょう。また、心理的社会的要因は複雑なので、無意図的に検査適応の閾値を上げるのも懸念します(数値が明確に出る何かを測定してカットオフする、というやりかたでは無いので)。
検査をおこなう場合、適応数より余裕を持たせて資源を確保しておくべきであって、それは政府が一刻も早く対応すべきでしょう。受診して検査適応になって依頼したのに断られる医療者、断られる患者本人、依頼を断らざるを得ない保健所担当者の心理的負担、モチベーションにも大きく関わる所であって、改善しないとどうしようも無い部分です。
立場と説明
このように、現状は全く肯定出来ないし、少なくとも、医師が適応を判断した分は漏れの無いように、絶対に体制を拡充すべきです。かと言って、全国民対象のRT-PCR検査のような主張(挙げたように、主張する人はいます)には賛同出来ません。そのあいだのどこかに設定するのが適切ではないか、と見ています。
リンクを辿れない感染者が増えてきているので、適応を広くして検査数自体も大きくしておかないと、正確な把握も出来なくなる虞があります。捉えられない、じゃあ資源を補おう、では間に合いません。医療機関において、手術等をおこなう前に関わる人に全員検査を実施する、といった主張もありますが、そういったポイント的な対応をどう評価するかは、難しい所です。
今の所で自分が考えられるのはそのくらいです。
ただ、非専門家としては、現在の適応対象にRT-PCR検査をおこなうのが妥当である事(あるいは、広げても有用で無い事)の理論的・文献的な根拠を出来るだけ詳らかに発信して欲しい(もちろん、ここから広げていったほうが良い、と言う場合はその根拠も)、とは思います。