無作為化試験に失望する5つの理由

Contents

背景
限界
まとめ

Five good reasons to be disappointed with randomized trials

pubmed.ncbi.nlm.nih.gov/30935322/

チャド・E・クック &チャールズ・A・ティグペン

www.welcometothejungle.com/en/articles/bias-hawthorne-effect-productivity

背景

無作為化比較試験（RCT）は、非常に高いレベルのエビデンスを示すことが認められており、エビデンスに基づくピラミッドの頂点に近い憧れの位置を占めている[1]。この論説の著者は2人とも、小規模から大規模なRCTに参加した経験があり、この形式の研究デザインの必要性を支持している。しかし、臨床家や一部の研究者が無作為化比較試験を神格化することほど、私たちを悩ませるものはない。確かにRCTは、グループ間の介入の有効性と効果を検証するのに役立つ。基本的には、2つ以上のユニークなグループ間でどの治療介入が優れているかを特定することである [2]。さらに、RCTはバイアスと交絡を減らすために必要であり、因果関係の推論が得られると考えられている[3]。しかし（これだけは強調できないが)RCTの注目すべき限界を理解している人は少なく、これらの限界が臨床にどのような影響を与えるかを推定できる人はさらに少ないというのが私たちの印象である。このような誤解に関する私たちの経験から、RCTの限界、特に整形外科環境での臨床に影響を与える可能性のある限界について、いくつか（信じてください、もっとある）の概要を説明することにした。

限界

理由1：正しい質問-間違ったデザイン

よく耳にするのは、ある研究結果がRCTではなかったことを理由に、その研究結果を軽視することである。RCTは研究デザインの一形態であり、このデザインがすべての研究ニーズに適しているわけではないことを理解する必要がある。

例えば、診断精度の研究は、症例ベースのケースコントロールデザインを用いて分析するのが最適である。

希少疾病の研究にはケースコントロールデザインが最適である。

予測分析を行う場合は、プロスペクティブコホートデザインが最適である[2]。

異なるデータソース間のパターンや効果を調べる場合は、システマティックレビューやメタアナリシスが選択される。

また 2004年に発表された影響力のある論文では、RCTにおける有害事象の報告を改善するよう求めているが[4,5]、有害事象の有病率を真に理解するためには、RCTは最も適切な研究デザインではない[6]。観察的ケースコホートデザインは、専用のケアプロセスに関連した有害事象の母集団、有病率、下流への影響をよりよく反映する [7]。

理由2：限界患者

RCTの限界として最もよく知られているのは、外的妥当性であろう。外的妥当性とは、あなたの研究で得られた結論が、他の場所、他の時間にいる他の人にも当てはまる度合いのことである。RCTでは、研究条件や集団と、所見が推測される条件や集団との間には、避けられない格差がある[8]。一般的な前提として、知見はすべての患者集団、治療環境、文化に移植可能であると考えられている。この「どこかで通用する」[9]という概念は、「投影された現実性」と定義される。

交絡変数を「コントロール」し、研究の検出力を高めるために、診断上一様な患者の均質なサンプルが含まれているが、実際の臨床現場の人口統計や複雑さを表しているわけではない。平均的な患者は、与えられた治療に反応する場合もあれば、しない場合もあるため、これらの単純でない患者は「限界患者」と呼ばれている[10-12]。残念なことに、内的妥当性の向上（および交絡バイアスのコントロール）のためにRCTで必要とされる要件の多くは、現実世界の環境とは密接に一致しない人工的な類似した設定をもたらす [13]。外的妥当性と内的妥当性が並存しているにもかかわらず、同様の介入と参加者を対象とした多くのRCTや観察デザインでは、同様の結果が得られている[14]。RCTはしばしば非常に高価であるため、著者は同様の知見を（低コストで）確認するために、異なるデザイン、代替のデータソース、独自の方法論的アプローチを推奨している [15]。

理由3: 混合治療効果

RCTにおいて、あるグループが他のグループよりも良い結果を報告したからといって、より良い結果を出したグループの介入が、そのグループまたは将来のグループのすべての個人に有効であることを意味するわけではない [13]。たしかに、2つのグループ間で差が見つかった場合、アウトカムの改善に関連する介入は、確かに（テストされたグループに対して）より高い有効性を持つかもしれない。それにもかかわらず、ほとんどの研究が示すように、両グループの一部の個人は改善し、両グループの一部の個人は改善しない。RCTは、一方のグループと他方のグループでより多くの人が改善したかどうか、つまり「誰が」（どちらのグループが）利益を得たかを示す機能しかない。誰かがなぜ改善したのかは、RCTの特性ではない。

誰かが「なぜ」改善したのかを判断するには、因果的媒介設計が必要である。因果的媒介分析では、なぜその介入で成果がより効果的だったのかを説明できる潜在的な経路を特定する[16]。因果的媒介分析では、治療変数とアウトカム変数の間の因果経路にある中間変数の役割を理解することができ、臨床家は媒介変数と主要（介入）変数の両方に的を絞って適用することができる。さらに、すべての患者が同じような状態の介入の組み合わせに適しているとは限らない。したがって、効果的な平均治療効果を示す単一の治療アプローチとは対照的に、効果的な治療ミックスを決定することで、より臨床的に有用な情報が得られる可能性がある[17-19]。悲しいことに、因果関係の仲介デザインはRCTの二次分析であることが多いのであるが、RCT単独ではそのような情報は得られない。

理由4．治療のフィデリティ（忠実性）

介入の忠実性とは、無作為化試験で使用される臨床介入の信頼性と妥当性のことである[20]。言い換えれば、フィデリティは、関心のある状態に対する介入の適用性、介入が適切に行われているかどうか（適用、用量、および強度)および介入が臨床実践において介入が行われる方法を適切に表しているかどうかを反映している。興味深いことに、過去の研究では、介入の忠実性は一貫して実行されていないか、報告されていないか、またはその両方であることがわかっている[21]。残念ながら、RCTにはコストがかかるため、一般的にフィデリティは犠牲にされている。実用的な無作為化試験（幅広い日常的な臨床実践における介入の有効性を検証するためにデザインされた試験）でさえ、行動や運動に基づく介入の適用においては、忠実性が限られているという罪悪感がある[20]。

理由5: 測定されないバイアス

無作為化後の経験とは、個人の同意と治療群のいずれかへの無作為化の直後の期間をいう [22] 。無作為化は、予期せぬエラー、グループ間の差異、交絡特性を減らすために用いられる。無作為化後の経験（「無作為化の後に起こること」）は、バイアスが顕著な役割を果たす可能性がある期間でもある。忠実さと前述の項目以外に、無作為化後の経験には5つの主要な考慮事項がある。

ホーソン効果とは、実験的または観察的研究における研究対象者、管理者、臨床家の行動の変化のことである[23]。

患者は治療法に関して特定の信念や期待を持ち、それが結果に影響を与えることが示されている[24]。割り付けられた治療群が患者の信念や期待と一致しない場合、治療効果は抑えられる可能性が高い。

Personal equipoise（個人的均衡）とは、臨床家が2つ以上の治療法の中から選択するための十分な根拠を持たない場合や、治療法が患者にもたらす全体的な有益性や有害性について真に不確かな場合に存在するものである [25]。

投与方法バイアスは、アウトカムの収集方法（研究参加者からどのようにアウトカムを収集したか）が臨床家と研究対象者の間で汚染されている場合に存在する[26]。

最後に，汚染バイアスは，試験の一方のグループのメンバーが，他方のグループに提供された治療を受けたり，介入にさらされたりした場合に生じる．

ホーソン効果と個人の公平性の影響を補強するために、以下の例を示す。まず、提供者、医療サービスのパターン、職業の比較は、特にホーソン効果の影響を受けやすい研究対象である。これらの研究では、バイアスをコントロールするために無作為化が行われるが、臨床家は正式な研究で評価されていることを知っているので、行動が変化する可能性が高い。例えば、オピオイドの悪影響を検討している試験で、あなたが処方医であれば、オピオイドの処方を減らすことになるだろう。特定の介入に対する個人的な平衡感覚は、無意識のうちに好みの治療法の結果を改善させる。例えば、臨床家が特定の治療法を好んだ無作為化試験では、（2群間で無作為化されていたにもかかわらず)その好みが結果に影響し、好みを支持する結果となった [27,28] 。

まとめ

無作為化比較試験は、グループ間の介入の有効性と効果を検証するのに有用である [2]。しかし、その限界を理解することは、臨床実践に外挿する前に不可欠である。診断、アウトカムの妥当性、およびその他の重要な研究課題を理解するためには、他の研究デザインが必要である。RCTに登録された参加者は、研究が設計された全人口を適切に代表している場合もあれば、そうでない場合もある。無作為化比較試験では、治療の効果を集団レベルで評価し、なぜその介入によってアウトカムがより効果的になったのかを説明しない[9]。提供されたケアは、臨床現場で適切に提供されているものを反映している場合もあれば、そうでない場合もある。そして最後に、偏った無作為化後の経験は、最初の無作為化では保護されない。試験のこの段階でも、慎重なコントロールが必要である。

2024年4月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30