比較対照、無作為化、ブラインドテスト――因子を切り刻む

先日のエントリーのはてブで、takehiko-i-hayashiさんが、

takehiko-i-hayashi なるほど/二重盲検は、むしろ介入の無作為化の「無作為性」を護るために必要という感じかなあと。(キモは当然「無作為化」の方にあるが、非盲検だと無作為割付後にバイアス/交絡が忍びこむ余地が残る) 2012/05/07
はてなブックマーク - takehiko-i-hayashi のブックマーク

このように書いて下さっていました。
代替療法統合医療の話ではしばしば、盲検法について議論が起こります。そこで、ちょっとこの概念の意義について考えてみたいと思います。

まず結論から言うと、私はブラインドテストの意義は、「正確に効果を調べるために“因子を切り分ける”」という所にあると思います。以下、不案内な方が読まれる事も想定して、基本的な部分から詳しく書きます。

今、とある地域に、特定の病気に効くとして伝承されてきた民間療法、「ニャントロ療法」なるものがあるとします。それに着目する人々は、その効果を信じ、是非とも広く普及させたいと考えています。しかし、ただ効くと信じでアピールするだけでは説得力がありません。何か客観的に、「効くか効かないか」というのを確かめられないでしょうか。

効くかどうかを調べる方法として、まず、その療法を沢山の人に実際に行なってみる、というやり方が考えられます。つまり、ニャントロ療法が効くと言われている病気に罹った人を沢山集めてきて、実際に行ない、その変化を見る。
ちょっと考えれば解りますが、これでは不充分です。何故なら、病気というものは、種類によっては、時間が経つ事によって良くなったりするからです。だから、ニャントロ療法を行った→良くなった という変化が見られたとして、それを、「良くなったのはニャントロ療法が効いたからだ」と評価するのは、「早合点」である可能性があります。

次に、「比較」するという観点が考えられます。つまり、病気は何もしなくても良くなる場合があるから、2つの(特定の病気に罹った人の)集団AとBを用意して、その片方には何もせず様子を見、もう一方の集団にはニャントロ療法を行い、その結果と、何もしなかった集団の変化との違いを見て、効くかどうかを確かめる、というやり方。これならば、「何もしなかった」vs「ニャントロ療法を行った」集団との比較が出来、効果が確かめられた。めでたしめでたし……とはなりません。

ここで、ちょっとした用語を導入しましょう。今は、ある病気に何が効くか、という事を考えています。そうすると、その病気に効きそうな色々なものがある、と想定出来ます。何でも構いません。気温でも、時間の経過でも、部屋の色でも。そして、それらのものの事を、「要因」と呼びましょう。要因という言葉は日常的にも目にするものですし、直観的に把握しやすいだろうと思います。

さて、ある病気にニャントロ療法が効くのではないか、と今考えている訳ですが、もちろん、ニャントロ療法も要因の一つです。色々な要因の内、特に影響を及ぼしそうだと着目している要因の事を、ここでは「因子」と呼びます。つまり、ある事の原因となりそうな様々な「要因」の内、特に影響を及ぼすのではないか、と着目して採り上げたものを「因子」と呼ぶ、という事です。
この考え方で言うと、ある病気を改善させるものとして、「ニャントロ療法」という因子の効果を確かめたい、というのが今の問題である、となります。

最初に、病気の人にニャントロ療法を行なって経過を見る事を想定しましたが、この場合には、「時間の経過」という要因が働いている可能性があるので、たとえ結果的に改善されたとしても、それがニャントロ療法の効果と即言う事は出来ない、という論理です。

そして、先程の話に戻ります。単に一つの集団を用意してニャントロ療法を行うだけでは、その影響によって良くなったのか解らない、だから、「何もしない」vs「ニャントロ療法を行う」集団を比較すれば良いのではないか、と考えました。2つの集団を用意して、双方について、「ニャントロ療法を行う/行わない」という風に条件を違えて比較する。これならば、ニャントロ療法の効果のほどが明らかになりそうな気もしますが……
ここで考えるべき点はいくつかあります。

まず一つ目です。今は、複数の集団を用意して、それぞれを、ニャントロ療法という因子のある無しという風に区別して変化を見ようとしています。イメージとしては、次のようになるでしょうか。

このグラフはあくまで、集団について良くなったかどうかを測る事が出来たとして、それを直感的に把握しやすいように単純化して描いたもの、というものとして考えて下さい。
このグラフを一見すると、何もしない事に比較して、ニャントロ療法の方が効いていそうに思えます。

しかし、これだけではそうとは言い切れません。何故かと言うと、ここからニャントロ療法が効くと主張するのは暗に、次のような事を前提しているからです。

先程、何かの原因になりそうな要因が沢山あって、その中で特に着目したものを因子と言う、と書きました。つまり、これらのグラフは、沢山の要因の効果が「絡み合った」結果として描かれている、と言えます。そして、高い方のグラフ、つまり、ニャントロ療法を行った方の結果のグラフが、「ニャントロ療法という因子が効いた」結果のものだと解釈するという事は、「ニャントロ療法以外の諸々の要因の効果が“揃っている”」と前提している訳です。しかし、すぐにそう前提して良い訳ではありません。何故なら、実は着目していなかった他の何らかの要因が大きく効いて、結果的にニャントロ療法を行った集団の方が改善した、という可能性があるからです。仮に、今考えている病気は、過ごしている場所の温度によって状態が大きく左右されるとしてみましょう(病気の話では少々無理矢理な設定ですが)。そして、何もしない集団とニャントロ療法を行った集団とが過ごす場所との温度が違っていた、とします。つまり、実は次のようだったかも知れないのです。

確かにニャントロ療法を行った集団は、何もしなかった集団よりも改善されているけれども、その中身を見てみると、実は温度という要因が効いており、ニャントロ療法の効果は極小だった、という可能性です。
これは、着目した要因、つまり因子以外の要因が揃えられておらず、しかもその内に大きく効くものがあったために、結果的に、ニャントロ療法を行った側が改善した、というのを意味します。
このような事が起こり得るから、単に集団に分けて比較するのでは不足であるのです。それを防ぐためには、あらかじめ、影響を与えそうな要因を揃える、という事が行われます。今の場合だと、生活する場所の温度を揃える、などです(病院なら室温とか)。たとえば、ものの味を評価するという、いわゆる官能試験というものがあります。私が以前、調理学の講義で聞いた所によると、そういう試験の際に、容器の色を統一する場合があるとの事です。これはつまり、容器の色という要因が影響を及ぼす事を考慮して、それをあらかじめ揃えておく訳です。

また、集団に人を割り当てる事を考えます。今は、集団を2つに分けて比較しましたが、もしかすると、それぞれの集団に人を割り当てる過程で、何かの偏りが生ずるやも知れません。人間の身体は複雑で、非常に多くの構成要素が絡み合って成っています。ですから、前もって、どのような要因が関係しそうだ、というのがなかなか解らない場合があります。年齢などは比較的解りやすいですから、それを揃えて比較する、などは出来るでしょうが、必ずしもそのように出来るとは限りません。ですからその場合に、それぞれの集団にバラバラに割り当てる、という方法がとられます。方法としては、なにかしらの作為が入らないようなクジを使って割り当てる、というものです。そのようにする事によって、着目している因子以外の諸々の要因を揃えるように仕向けられます。もちろん、クジ引きで決めたけれども、結果的に何らかの要因が偏ってしまった、というのは起こり得ます。なるだけそれを抑えるように、沢山の人を集めたり、といった事が行われます。
当然、個人個人で違いがありますから、どうしたって、集団の中でバラツキが出ます。それに、調べたい対象全員が調べられる訳ではありません。病気の場合で考えると、調べたい対象は、病気になった人、これからなる人、という無数の人々で、普通は調べ切る事は不可能です。けれど、前もってクジ引きで集団に割り当てる事で、そのバラツキがどのくらいか、全体はどのようになっているか、というのを、数学的に考える事が出来ます(詳しい話は専門書に譲ります。そういうものだ、と考えて下さい)。そして、今のようにしてそれぞれの集団に割り当てる事――割り当てる事を、「割り付け」としましょう――を、「無作為割り付け」と言います。また、無作為化、などとも言います。

このようにして、着目している因子以外の要因の影響を揃える事が出来たとします(ものすごく単純化しています。あくまで仮定として考えて下さい)。そして、次のような結果が出ました。

よし、これで効果のほどが明らかになった……とは言えません。何故か。
細かい違いですが、今出したグラフ、ニャントロ療法に鉤括弧をつけています。ここに含みがあります。
これまで、何もしない集団とニャントロ療法を行う集団を比較する事を考えてきました。そこでは、一方は「何もされない」のに対し、もう一方は、「何かの療法を受けている」という違いがあります。という事はもしかすると、「何かの療法を受けている」と考える事自体が、人間の身体にも影響を及ぼす可能性があります。次のようにです。

つまり、「ニャントロ療法そのもの」が効かなくても、「ニャントロ療法を受けているという心理」が身体に好影響を及ぼしている、という事があり得るのです。
このような心理的な作用は、医療の世界ではいわゆる「プラセボ効果」として知られています。プラセボとは偽物の薬の事で、効かないと解っているものを薬と称して与えたら、実際に状態が改善される、という現象です。
私達は今、「ニャントロ療法は効くか」を調べたい訳ですね。これを、調べたいものに「特異的な」効果、と表現しましょう。特異的、つまり、それ特有の、といった所です。ある療法なり方法なりの効果があると言いたいのだから、「それを受けているという心理」による改善があっても、それだけでは療法自体の、つまり療法に「特異的な」効果とは言えません。何かされている、という心理は、色々なものに共通して働くものだからです。
これは要するに、「ニャントロ療法」という因子が、実はまだ分解する余地があった事を意味します。そして、その分けられたものが、無視出来ない作用を与える場合がある*1

従って、効くと言いたいためには、療法全体から、「療法を受けているという心理」という要因を切り出して揃える必要があります。それにはどうすれば良いでしょうか。
それを確かめる方法が、ブラインドテストです(盲検法とも言われます)。薬の試験の例で言うと、確かめたい薬と区別のつかない、しかし効かない事は判っている物(偽薬:プラセボ)を用意し、片方の集団に与えるのです。そうすれば、薬を与えられたと思う心理、という要因を揃えられます。

こうです。しかし、薬自体の効果、という所にクエスチョンマークをつけています。これはどういう事でしょう。
今は、偽薬と本物とを与え、心理的な作用を揃えれば、薬そのものの効果、つまり薬に特異的な効果が解るのではないか、と考えました。要するに、「与えられる側」の心理に配慮したやり方です。
ですが、療法、医療には、人対人、という関係があります。与えられる人がいれば、当然、「与える」人もいます。与える側が、どちらに偽物が与えられ、どちらに本物が与えられるか、を知っていた場合、その心理が、与える側の色々な要因に作用して、結果的に違いが出る、という可能性があります。たとえば、条件を知っている事によって、ケアの仕方に偏りが出るかも知れません。当然これは、「そうしよう」という意識的なものとは限らず、無意識的なレベルの行動が影響してしまう場合も考えられます。つまりこのようです。

そこで今度は、「与える側」の要因も揃えます。つまり、与える側も、自分が対応する人がどちらの集団に属するのかを知らない、という風に仕向ける訳です。そして、「与える側」「与えられる側」の双方がブラインドされる事となります。これを、「ダブルブラインドテスト二重盲検法)」と言います。

こうして、単純に比較しただけでは解らない、療法や薬の効果を、ようやく見出す事が出来ました。
私達は、原因となりそうだと見ているものを因子として採り上げ、それがもたらす効果を知りたいと考えました。そして、それを与える/与えない という条件で2つに分け、それらの結果の違いを評価しようとした。しかし、薬とか療法とかを与える、という因子の変化は、それ「そのもの」以外の要因をも一緒に変化させる可能性がある。それが、何かを与えられたという事に付随する心理的な作用で、プラセボ効果と言われるものなどです。
ですから、確かめたい因子の現象を、より細かく切って分解し、切り離した心理的な作用についても揃えるのが重要となる訳です。そして、それを揃えるために、「そっくりだが効果が無いと判っている」ものを片方に与える、という方法、つまりブラインドテストが考えられた。
けれどそれだけだと、「与える側」の心理を揃える事が出来ません。自分が対応する人がどういう集団に属するか知っていると、その情報が、心理や行動に何らかの影響を及ぼす可能性があります。だから、与える側に対しても知らせないようにする。そうして、与える側と与えられる側との両方に教えないようにして、心理的な影響を揃える方法を、ダブルブラインドテストと言うのでした。
しかしこれは、あくまで理解を助けるために、ごく単純化してイメージを作ったものです。現実にはもっと複雑で、そうそう理想通りにいくとは限りません。
たとえば、ブラインドテストの所で偽薬(プラセボ)を与えると言いました。それは、見た目や味では区別がつかないが効かないと判っている物です。
今回はニャントロ療法の効果を知りたいと考えてきましたが、もしこのニャントロ療法が、体操法などだったらどうでしょうか。「区別出来ないが効かない」というものはどのように設定出来るでしょう。なかなか容易ではありませんね。その療法が、何か物体を与える、というのも、たとえば薬を飲む、という事であれば、比較的、「偽物」の設定は考えやすいですが、体操や手技(マッサージなど)などは難しい。
たとえば鍼治療の場合には、鍼を打つというやり方そのものの効果について、激しく議論が戦わされてきています。ここでは、偽薬にあたるやり方が、本当に「区別がつかないが効かないもの」なのかどうか、の部分が争点になっています。鍼の研究では、偽鍼と言われる、「刺されたように感ずるが実は鍼は刺さらず引っ込む」という構造の道具が考案されています*2。これによって、受ける側が解らない、というブラインドテストが可能になりました。しかしこの場合、打つ側は、どちらが偽物かは判っています。その部分が揃っていないではないか、という議論も起こります。また、研究対象を3つに分けて、次のような結果が出たとしましょう。

これを見ると、偽鍼、本物の鍼ともに、何もしない集団より明らかに改善しているようです(他の要因は上手く無作為化されて揃える事が出来た、と仮定しましょう)。けれど、偽鍼と本物とに違いは見られません。この結果から、偽物と本物とに差が無いのだから、本物の鍼を打った結果良くなったのは、「鍼を打たれた」という、与えられた側の心理的な作用によるものだ、という解釈が出来ます。つまり、「鍼は効かない(鍼に特異的な効果は無い)」という見方。

しかし、鍼治療を支持する側は、(当然の事ながら、と言うか)その解釈に賛同しません。その人達の解釈は、「偽鍼が偽物となっていない」という見方です。これはどういう事かと言うと、偽鍼というのは、打たれた時に、皮膚に鍼が刺さらずに引っ込む、という構造ですが、その打たれた時の刺激自体が何らかの作用を及ぼしているのではないか、という主張なのです。模式的に表すと次のようになるでしょう。

また、これはシングルブラインドなので、打つ側が鍼と偽鍼を知っている事による偏りも混入する可能性があります。
この辺りは議論を呼ぶ所です。偽物が偽物として機能していない、という主張をする人は、より厳密に切り分けて評価出来るよう、受ける側の刺激はほぼ無く、かつ、打つ側が本物の鍼を打っているように感じられるような(つまり区別がつかない)ダブルブラインド用の鍼によって評価するべきだ、と言います(実際に発明されている)。確かに、理論的に正確に考えてみれば、言い分には一理ありますから、ここの所は慎重な考察が必要でしょう*3

このように、分野によっては独特の難しさがあります。また、○○療法と一口に言っても、その中は流派が分かれており、方法にもバリエーションがある事もあります。その時に、「何の効果を調べたいか」という部分を上手く切り分けられるかが重要です。鍼で言えば、打つ場所や深さ、順序などに色々の体系があるでしょう。その内どの部分を対象にして調べるか、という観点があります。
場合によっては、倫理的に実験が出来ないものもあります。たとえば、何かが悪い影響を与えるであろう、というものを確かめたい時に、集団にそれを与える訳にはいきません。

こうなりそうな場合が想定されるケースです。そういう時には、既にそれを使ったりしていた人々を集めて調査したり、前もって調べる集団を決めておいて、興味を持っているものを使ったり行ったりした人々はどうなったか、と観察する、といった方法が考えられます。ただその場合、無作為に集団を割り振る事が難しいので、思わぬ偏りが出る可能性があります。ですから、因果関係をよりはっきりさせたい時には、実験的な研究の方が証拠としては強いものとして評価されます。もちろん、他の研究に意味が無いという事はありません。様々な証拠を総合的に検討します。ただ、理論的には、ある因子をターゲットにして他の要因を無作為化によって揃えて評価するやり方が強力、というのを押さえる必要があります。そして、療法などに関しては、その因子自体をさらに切り分けて検討するのが重要であり、それをするための方法としてブラインドテストなどがある、という事です。

再び念を押しておくと、ここまで書いてきた事は、実際の現象や研究の過程を直観的に把握出来るよう、細かい部分をある程度単純化して論じたものです。本来は、効果を調べる研究というのは、実に様々な方法が考えられており、また、社会的な問題の制約も受けて理想的な研究が出来ない場合があります(コストの問題や倫理的問題)。
しかし、ここで書いたような大まかな論理は、ある療法の「効果」、もっと詳しく言えば、ある療法「そのものの」効果、つまり特異的な効果を確かめる、といった場合に押さえておく必要がある部分ですので、敢えて厳密さを犠牲にして、イメージがしやすいように図解も用いてみました。これが、多少でも理解の助けになれば、と思います。

――――――

※注意事項※
「要因」や「因子」は実験計画法の用語で、私はここで、要因を、原因になりそうな諸々の変数、因子を、要因の中で特に着目して操作の対象とするもの、というような意味合いで使いました。分野的に厳密な定義や他の用法はあると思いますが、必ずしもそれを正確に踏まえてはいませんし、所々使い方がぶれていると思います。そこはご了承下さい。

*1:余談ですが、この意味で言えば、統合医療の支持者の一部が出す、色々な心理的・社会的に複雑な要因が絡み合って出来ているものなのだ、という主張は正しいのです。もちろんそれは、「分解してしまえばその療法に特有な部分の効果は無い」という可能性を抱え込む事になりかねません

*2:偽物の鍼(シャム鍼などと言う)にも、皮膚に刺さるもの、刺さらないもの、先を加工したものなど、色々あるようです

*3:まだ議論の続いている分野です。詳しくは、『代替医療のトリック』や、鍼療法に関連する学会の文書等を参考にして下さい