フェイスマスクとCOVID-19に関する議論は、医学界におけるより広範な方法論的議論を反映している
Arguments about face masks and Covid-19 reflect broader methodologic debates within medical science

強調オフ

EBM・RCTマスク因果論・統計学

サイトのご利用には利用規約への同意が必要です

pubmed.ncbi.nlm.nih.gov/33725291

2021;36(2):143-147.

2021年3月16日オンライン公開 doi: 10.1007/s10654-021-00735-7

pmcid: pmc7961168

PMID:33725291

 

概要

COVID-19において、フェイスマスクほど論争になった問題はないだろう。最も論争的な科学的論争は、「科学的証拠はない」と主張する人々、つまりランダム化比較試験(RCT)がないことを主張する人々と、証拠を総合して考えると、「フェイスカバーは命を救うことを科学が裏付けている」と主張する人々の間で行われている。かつては、ある特定の要因が、外来性であれ内因性であれ、特定の病気を引き起こす可能性があるかどうか、またその大きさはどの程度かを決めるには、合理的に説得力のある証拠をすべて考慮しなければならないというのが「当たり前」のことであった。しかし、この考え方は、科学的にも政治的にも否定されつつある。科学的な課題としては、ランダム化比較試験(RCT)を科学的なゴールドスタンダードとして重視し、RCTから得られた証拠やRCTに酷似した観察研究を優先するという方法論がある。政治的な課題としては、規制委員会や諮問委員会による検討から疫学的証拠を排除するよう求める様々な利害関係者によるものであった。

キーワード 疫学、方法論、エビデンスシンセシス、因果推論、因果性

はじめに

COVID-19において、フェイスマスクほど論争が絶えない問題はないだろう。その利点と欠点は、政治的にも科学的にも果てしなく議論される。最も論争的な科学的論争は、「科学的証拠はない」と主張する人々、つまり実際にはランダム化比較試験(RCT)がないことを意味する人々と、確かに単一の決定的な研究はないが、証拠を合わせて考えると、「フェイスカバーは命を救うことを科学が支持している」と主張する人々との間で行われている[]。後者のアプローチでは、パラシュートが命を救うというRCTの証拠はないが]、人間が高所から落下する際の知識に基づく強い直感はあると主張する。

かつては、ある特定の要因が、外来性であれ内因性であれ、特定の疾患を引き起こす可能性があるかどうか、またその大きさはどの程度かを判断するには、数種類の疫学研究、臨床研究、実験室研究、時には社会経済的研究など、あらゆる合理的に説得力のある証拠を考慮しなければならないというのが「当たり前」のことであった。このアプローチは、ますます挑戦的なものになってきている。科学的な挑戦は、ランダム化比較試験(RCT)を科学的なゴールドスタンダードとして重視する方法論から生じている。しかし、その議論の形式は時代とともに変化している。特に、(例えばコクラン共同計画]やEvidence-Based Medicine]によって)RCTと観察研究を区別していた初期の段階と、「標的試験」を模倣する意図でRCTパラダイムを用いて行われた観察研究(例えば因果推論法])とその他の観察研究]を区別している最近の動きとを区別することができる。

政治的な挑戦は、「科学におけるより大きな説明責任」を求める声を巧みに利用した、様々な利害関係者からもたらされた]。これは特に、喫煙や肺がんから気候変動の現実に至るまで、一連の科学的発見に異議を唱えてきた反規制的な「既得権益」によって動機づけられてきた]。最近では、こうした圧力から、規制・諮問委員会による検討から疫学的証拠を排除し、規制基準を弱めるよう求める声が上がっている]。例えば、最近任命されたEPAクリーンエア科学諮問委員会の委員は、「EPAが伝統的に因果関係を推論するために用いてきた証拠の重み付けに頼るのではなく、(クリーンエア科学諮問委員会は)…『操作的因果関係』を用いた研究に頼りたがっている」と主張した。これは、因果関係を評価するために許容される証拠を、因果関係推論統計手法を使用して分析された介入に関するRCTまたは観察研究の結果に制限するものである]。同様の見解は、現在の英国政府の高いレベルでも表明されている]。

エビデンスの統合

エビデンスの統合には、観察研究および/またはRCTの知見のシステマティックレビューまたは正式なメタアナリシスが含まれるが、通常、動物実験や実験科学などの他のタイプのエビデンスも含まれる。因果関係を判断するためのいくつかの重要な考慮事項は、1965年にBradford Hillによって提案された]。強さ、一貫性、特異性、時間性、生物学的勾配、妥当性、一貫性、実験、および類似性である。ブラッドフォード・ヒルは、これらは基準ではなく考慮事項であり、因果関係を推論するために単一の考慮事項は不可欠ではないが、利用可能な証拠の統合のための枠組みを提供することを強調している。1972年以降、国際がん研究機関(IARC)のモノグラフは、発がん性に関して様々な曝露を分類するために、ヒト、動物、機序研究からの証拠を組み合わせる体系的アプローチのモデルを示している。

このようなアプローチでは、因果関係の推論には様々な証拠の統合が必要であり、単一の研究で決定的なものはなく]、ランダム化試験ですらない。実際、多くの重要な問題はRCTでは研究できず(環境、職業上の影響だけでなく、医学療法の長期的な有害作用を考えてみてほしい)、すべてのRCTがうまく行われているわけではなく、その有無の解釈には判断も伴う。

最近改めて注目されているエビデンス合成の統合的な考え方は、「三角測量」と呼ばれている]。これは、仮想的な偏りが異なる方向にあると思われる研究および集団を比較することにより、様々な潜在的偏りを探索するものである。観察された関連性に関して研究が一致する傾向がある場合、特に異なる潜在的なバイアスが反対方向にある場合、これは因果関係の解釈を支持するものである。重要なことは、これは1つの全体的な推定値に到達するために類似した研究を見つけ組み合わせることを目的とする標準的なメタアナリシスとは対照的に、三角測量では、仮説上のバイアスの強さを評価できるように、バイアスが異なり、異なる方向にあると考えられる異なる研究タイプおよび異なる集団を特定することに重点を置いていることである。

三角測量法には、クロスコンテキスト比較、異なる対照群の使用、自然実験、兄弟内比較、自然実験、道具変数(IV)分析、メンデルランダム化(MR)、曝露陰性対照、結果陰性対照が含まれる。RCTに基づかない他の方法としては、母集団比較、差の差、回帰不連続性試験などがある]。もちろん、ある特定の研究が他の研究よりも重要視されることもあるが、これは非常に話題や状況に依存するものである。

したがって、エビデンスの三角測量など、従来のエビデンス合成のアプローチは、関連するすべてのエビデンスが考慮される、多元的で包括的なものである。例えば、発がん性に関するIARCモノグラフでは、ヒトのデータに次いで、実験室および動物実験がますます重要な役割を果たすようになっている]。

RCTの優位性と「因果関係の推論」に関する理論をスコアリングシステムに置き換えることから生じる課題

RCTがゴールドスタンダードであるという議論の両局面において、エビデンスのスコアリングシステムが開発されたのである。

「根拠に基づく医療(Evidence-Based Medicine)」運動から生まれた古い考え方は、医療上の意思決定においてRCTを優先し、RCTを頂点とする象徴的な「証拠のピラミッド」の中に、観察的コホート研究が大きな距離をおいて続き、他の種類の観察的研究はさらに距離をおいて続くというものだった。この考え方は、GRADEのような採点システムに結実しており、実際には完全にRCTを対象としている。GRADEは、「逆交絡」の証拠がある場合、または効果が大きい場合にのみ観察研究を「格上げ」する]。このピラミッドは、例えばベネフィットの小さい薬物など、ある種の医学的判断には有用かもしれない。しかし、他の種類の医学的・公衆衛生的知識については、これがいかに失敗しているかが繰り返し議論されてきた]。

最近の論争の一つ]は、加工肉と赤肉に関する研究の分析である。これは、GRADE基準を用いて、事実上すべての観察研究のエビデンスを除外し、2つの介入研究のみを残した。しかし、これらの介入研究は、追跡期間が短く、異なる食習慣の人々の間の差が不確実であるため、むしろ議論の余地がある関連性であった]。一方、IARCモノグラフのワーキンググループは、利用可能な全てのエビデンスを検討し、加工肉については説得力があり、赤身肉についても可能性が高いと結論づけた]。証拠統合のための統合的アプローチでは、すべての研究には潜在的な限界があるが、それぞれの限界と他の研究または他の種類の証拠によって克服できるかどうかを注意深く見て判断することが重要である。

近年、「因果推論」理論は、RCTがヒトにおける曝露と転帰を含む研究のゴールドスタンダードであるという考えに基づいて、観察研究の中で区別することをますます奨励している。したがって、RCTを実施できない場合、次善の選択肢は、RCTモデルを忠実に模倣した観察研究を実施することである]。このため、ROBINS-IやROBINS-Eのような新しいスコアリングシステムが生まれたのである,]。私たちは、この「RCTを模倣したアプローチ」は疫学研究を「事象」または介入に限定し、他の種類の証拠、例えば時間的傾向や生態学的比較は証拠統合に重要な貢献をする可能性があることを無視したものであると、他]で論じている。より具体的には、観察研究にRCTのような枠組みを要求する採点システムは、曝露開始以降に追跡されていない事象/介入を格下げしてしまうのである。他では、なぜ後者が喫煙、労働、環境衛生に関する長期疫学研究を先験的に格下げするのかが議論されている,]。さらに、因果推論理論は、多くの有用なエビデンスを除外する(または強く格下げする)だけでなく、社会的不平等を減らすための社会への介入や、気候変動に必要な地球への介入を想定できないため、「政治的に保守的」である]。

それにもかかわらず、RCTパラダイムは近年、疫学理論においてますます優勢になっている]。このアプローチの頂点(見方によっては直下点)は、個々の研究を評価し、それらがRCTであるかどうかによって点数をつける、または仮想のRCTの「ゴールドスタンダード」と比較して点数をつけるために使われる採点システムの開発であった。このような採点システムでは、多くの熟考された観察研究が「質が低い」と採点され、他の研究と合わせて検討すると非常に示唆に富むものであっても、事実上検討対象から除外される結果となる。現在のCOVID-19の流行がその例である。流行の拡大を抑えるためのすべての行動は、この特殊なタイプのウイルス感染に関する(部分的であることは認めるが)理解、ウイルスゲノムに関する洞察、感染数および感染率の観測データのモデル化、地域または国の行動間の比較に基づいている。

既得権益層からの挑戦

例えば、異なるデザイン、異なる集団で行われた研究の結果を比較するとき、あるいは疫学的、臨床的、動物的、機構的な証拠を比較し、統合するときなどである。RCTの結果を受け入れるか否かの判断には、主観的な判断も同様に重要な役割を果たす。

Bradford Hillに代表されるような統合的考察や、現在IARCが定期的に使用している考察は、様々なタイプのエビデンスをどのように統合するかという強力な指針となるものである。もちろん、意思決定のプロセスは、問題の緊急性(例えばCOVID-19)、および誤った決定が個人と公衆衛生に及ぼす影響によって異なるかもしれない]。しかしながら、規制委員会の決定が異議を唱えられたり、同じ証拠に基づいて異なる委員会が異なる結論に達することがますます一般的になっている状況では、これらの考慮事項がその一翼を担っている。このため、規制機関は法的な挑戦を受ける可能性があり、これは、規制事項に関して既得権益者の代表がより多くなる結果となった最近の政治的展開によって、さらに高まっている]。その結果、そのような規制機関は、訴訟から身を守るために、より透明性の高い意思決定プロセスを望むのは理解できるところである。したがって、(どんなに単純化されていても)明確な規則を持つことは、必然的に判断を伴う標準的な科学的意思決定プロセスと比較して、政治的・法的により便利だと考えられるかもしれない]。

法律や既得権益をなだめるために、RCTタイプのエビデンスがゴールドスタンダードであり、その他の観察的エビデンスは妥当性があるとしても疑わしいと明確に主張する方法論が用意されているため、簡単に解決できるように見える。さらに、ヒトを対象とした臨床および疫学研究をこの基準で採点するためのツール(GRADE、ROBINS-Iなど)が容易に利用できるようになった。このような採点システムは、客観的であるかのように見えるが、少なくとも規制当局がどのように決定されたかをより透明性をもって報告できるように、明確な「証跡」を提供するものである。

先日紹介したEPAクリーンエア科学諮問委員会に任命された人物の言葉がそれを物語っている。それは、数値的な証拠を介入研究または因果関係推論統計手法を用いた分析に限定する理論を好む]。

このような展開の憂慮すべき点にもかかわらず、現代の因果推論理論と既得権益者によるエビデンス合成への影響力の試みに直接的な関連があると主張しているわけではないことを強調したい。しかし、両者とも「許容できる証拠」をRCTである研究、あるいはRCTを忠実に模倣した観察研究に限定する傾向を互いに強めているのだ。個々の研究から得られる他のすべての関連する証拠(三角測量、時間的傾向、動物実験、メカニズム研究)は、このパラダイムに適合せず、そのような研究は拒否されるか、無視されるほど低いスコアとなる]。

どうすればいいのだろうか?

COVID-19は、9カ月の間に「通常の科学」の「早送り版」を提供した。そこでは、迅速に決定を下す必要があり、人命に関わり、完璧な試験を待つことはできない。このことは、標準的なRCTが重要でないということではなく、それどころか、デキサメタゾン、クロロキン、ワクチンの試験がその重要な役割を示している。しかし、流行病の抑制については、試験ができない、あるいは必要とされない多くの重要な問題があることを意味しているのだ。その一例が、RCTやRCTに類似した観察研究ではなく、洞察とモデリングに基づいて、感染の連鎖を断ち切るためのバリア手段とスクリーニングの累積効果の受容であり、それがマウスマスクであろうと迅速検査であろうと、です]。

Savitzら]は、バイアスのリスク評価は、最も影響力のあるバイアスの原因(少数)を特定し、各研究がそれぞれの潜在的バイアスにどれだけ効果的に対処したかで分類し、次に、仮説上の各バイアス源の感受性に関連して研究間で結果が異なるかどうかを決定することに焦点を当てるべきと提唱している。例えば、被曝の非差別的誤分類(これは通常、帰無仮説へのバイアスを生じる)がいくつかの研究で問題になっていると思われるが、これらの研究がすべて同様の正の所見をもたらし、被曝の誤分類がより少ない他の研究がさらに強い正の所見をもたらすとすれば、被曝の誤分類が前者の研究の所見を説明するとは思われない。

RCTのパラダイムに依拠したGRADEやROBINS-Iのようなアルゴリズムに基づく手法は、エビデンスの統合に使用できる手法のツールキットの一部に過ぎない。慎重に使用すれば、特定の曝露と結果の関連についての研究で起こりうる偏りを評価するのに役立つかもしれない。例えば、残存交絡の発生、方向、強さについて研究をグループ化することができれば、三角測量やSavitzら]が提唱するアプローチに有用な知識ベースを提供することができるかもしれない。しかし、これらのスコアが個々の研究を評価するために不適切に使用され、そのスコアに基づいて標準的な観察的証拠を拒否する場合、これらのアルゴリズムベースのシステムは、科学と公衆の健康の両方に対してかなりの損害を与える可能性がある。

謝辞

Anton Pottegårdには、本論文の以前のバージョンについて詳細かつ批評的な読解をいただいたことに感謝する。これらの結果につながる研究は、英国医学研究評議会(MR/P02386X/1)、および欧州連合第7次枠組み計画(FP7/2007-2013)/ERC助成契約番号668954に基づく欧州研究評議会から資金援助を受けている。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー