無作為化試験と医学における証拠 DeatonとCartwrightについての解説

強調オフ

EBM・RCT

サイトのご利用には利用規約への同意が必要です

Randomized trials and evidence in medicine: A commentary on Deaton and Cartwright

pubmed.ncbi.nlm.nih.gov/29685451/

ジョン・コンカト、ラルフ・I・ホーウィッツ

受信日:2018年2月2日

受理日:2018年4月10日

Concato, J., Horwitz, R.I., Commentary: Randomized trials and evidence in medicine, Social Science & Medicine (2018), doi: 10.1016/j.socscimed.2018.04.010.

はじめに

DeatonとCartwright(2018)は、「Understanding and misunderstandi ng randomized controlled trials(ランダム化比較試験の理解と誤解)」というエッセイで、医学や社会科学におけるランダム化比較試験(RCT)について、広範かつ詳細な議論を行っている。概念的な議論と実例を組み合わせて、彼らは介入の平均治療効果(ATE)に関してRCTがどのような情報を提供し、何を提供しないのかを説明し、RCTの結果を政策決定や臨床治療の決定にどのように利用するかについて説明している。著者らのメッセージは、「一般市民や時には研究者が、他の調査方法よりもRCTを信用しすぎている」というものである。

観察研究と無作為化研究の両方のデザインを用いて患者指向の研究を行う医学界の臨床研究者として、我々はこのメッセージに同意し、以前にもコメントしている(Horwitz, 1996; Feinstein and Horwitz, 1997; Concato and Horwitz, 2004; Concato, 2012; Concato, 2013; Horwitz and Singer 2017)他の著者(Shahar 1997; Sehon and Stanley, 2003; Chakravarty and Fries, 2006; Worrall, 2007; Rawlins, 2008; Borgerson, 2009; Frieden, 2017)と同様に、21世紀における誇張されたステータスaについてコメントしてきた。この文脈で、簡単な歴史的概観の後、彼らの論文が医療の実践における研究エビデンスの生成と適用にどのように関連しているかについての議論を提供する。

歴史的概観

医療において治療効果を評価する際、RCTはしばしば「ゴールド・スタンダード」と呼ばれ、観察研究は通常あまり信用されていないことを考えると、医療におけるRCTの隆盛を簡単に振り返ることは有益である。例えば、医学界で初めて発表されたRCTとしてよく挙げられるのが、結核のストレプトマイシン治療に関する英国医学研究評議会の研究で、1948年に報告された(Medical Research Council, 1948)。あまり注目されていないが、米国の退役軍人省が行った観察研究でも、1948年に結核に対するストレプトマイシンの有効性が報告されており(Barnwell, 1948)同様の結果が得られている。

RCTが普及したのは1950年代で、抗生物質や降圧剤などの新薬を市場に投入する際の製薬メーカーの主張を評価するためという理由もあった(Anonymous, 1956)。それまでほとんど規制されていなかった環境が一変したのは、1962年に米国議会が食品医薬品化粧品法(Food, Drug, and Cosmetic Act)のケフォーバー・ハリス修正条項を制定したときであった(Greene and Podolsky, 2012)。この法律は、つわりの治療のために妊娠中の女性に投与されたサリドマイドが、死産や先天性欠損症のパンデミックと関連していたことが一因となっている(Kim and Scialli, 2011)。1970年代に入ると、米国食品医薬品局(FDA)は、Kefauver-Harris修正案を解釈して、新しい医薬品の承認にRCTを必要とするようになり、1980年代には、ゴールドスタンダードという言葉がRCTに適用されるようになった(Jones and Podolsky, 2015)。このようにRCTが好まれるようになったのは、治療法の無作為割り付け、二重盲検法、「ハード」(死亡率や主要な罹患率)エンドポイントの重視など、一連の方法論上の利点が推定されたことが主な理由である。

RCTを因果推論を評価するための方法論と考えることは、広く普及しているEBM(Evidence-based Medicine)運動の方法論的なバックボーンを含む、広い範囲に及ぶ。1992年に正式に提案されたEBMは、「個々の患者の治療に関する意思決定に現在の最良のエビデンスを適用する」という立派な目標を掲げている(Evidence-Based Medicine Working Group, 1992)。しかし、重要なことは、EBMの実際の実践では、RCTまたは個々の試験のメタアナリシスを最高の研究エビデンスとし、観察研究を下位の役割とする、研究デザインの階層化を提唱していることである(図1参照)。 歴史的には見落とされがちだが、EBMの出現は技術の進歩に助けられた。研究報告を電子的に遠隔操作することで、膨大な情報のアーカイブに簡単にアクセスできるようになり、印刷された出版物を持って物理的な図書館に行く必要がなくなった。)

広く普及したにもかかわらず、EBMは、臨床科学者にも、実際に働いている医師にも、普遍的に受け入れられたわけではなく、現在もそうである(Fava, 2017)。皮肉なことに、初期のRCT支持者は、「対照試験が(研究を行う)唯一の方法であると信じることは、振り子が大きく振れすぎたのではなく、フックから外れてしまったことを意味する」と警告していた(Hill, 1966)。その後の意見としては、「EBMの提唱者は、あらゆる形態のエビデンスの貢献を認めているが、異なるソースに付けられた価値が異なるために、解釈、統合、外挿の伝統的なプロセスを省略して、ナイーブで単純な試みを行っている。」また、「意思決定者は、無作為化対照試験から得られたものか、観察研究から得られたものかにかかわらず、入手可能なすべての証拠を評価・査定する必要があり、それぞれの長所と短所を理解する必要がある」(Rawl ins, 2008)とされている。それにもかかわらず、健康関連の意思決定のためのエビデンスに関する最近のレビューで指摘されているように、「現在のエビデンス評価システムはRCTに偏っており、非RCTデータの検討が不十分になる可能性がある」(Frieden, 2017)。

RCTに偏っていることを説明するために、過去25年間に開発された40種類以上のシステムの中から、あるエビデンス評価システムの詳細を説明する(Horwitz and Singer, 2017)。GRADE(Grading of Recommendations Assessment, Development and Evaluation)システム(Guyatt er al 2008)は、高、中、低、非常に低いという尺度で、無作為化試験には高品質の評価を、観察研究には低品質の評価を自動的に付与する。さらに,バイアスの危険性が非常に高い場合は2段階引き下げ,危険性が5倍になった場合は2段階引き上げるなど,様々な理由で1段階または2段階の「引き下げ」または「引き上げ」が行われる可能性がある(Guyatt er al 2011)。このように、未検証のアップグレードやダウングレードの手順(それ自体が変動しやすい)が、個々の研究の質と関連性に関する全体的な判断に置き換えられている。

エビデンスの構築 – RCT

エビデンスの生成に関して、RCTの強みは相当なものであるが、Deaton and Cartwright(2018)は多くの限界を効果的に指摘している。特に医学研究を検討すると、研究デザインに関する先験的な仮定がなされると、RCTのいくつかの限界が見落とされることが多い(Concato, 2013);表を参照。第一に、RCTの矛盾した結果について、認知的不協和が存在する。つまり、試験の矛盾した結果は認められることがあるが、それに伴う「ゴールドスタンダード」の意味合いは見過ごされる。例えば、30年以上前に、36の臨床テーマを扱った200以上のRCTを対象に、各テーマにおける試験間の意見の相違が、支持的な所見、曖昧な所見、非支持的な所見という形で記録された(Horwitz, 1987)。最近では、前立腺特異抗原(PSA)による前立腺がんスクリーニングを検討した2つの著名なRCTが報告されたが、いずれも結果は不一致であった。欧州で実施された試験(Schroder et al 2009)ではこのようなスクリーニングの有益性が示唆されたのに対し、米国で実施された試験(Andriole et al 2009)では示唆されず、PSAスクリーニングの有効性に関する議論が続いている(Kim and Andriole 2015)が、主にこの2つの試験の詳細のみに焦点が当てられている。注目すべきは、現在のEBMの時代には観察データが除外されることが多く 2008年に米国予防サービスタスクフォースが前立腺がんのスクリーニングに関して出した声明などに反映されている。「2002年のUSPSTFのレビューでは症例対照研究が検討されていたが(中略)非ランダム化研究に固有の交絡因子の可能性を避けるために、今回のエビデンスの更新ではこれらの研究タイプを除外した」(Lin et al 2008)。

第二に、メタアナリシスとRCTの結果は、どちらのアプローチも強力な研究デザインと見なされているにもかかわらず、しばしば意見が異なる。Deaton and Cartwright(2018)は、合計40の主要または副次的なアウトカム変数を含む報告を調べたところ、大規模なRCTの結果は、同じテーマに関する過去のメタアナリシスによって3分の1以上の確率で予測されなかったことに言及している(LeLorier, 1997)。また、15件のRCTを対象としたメタアナリシスでは、非侵襲的換気が急性心原性肺水腫の治療に有効であると報告されている(Masip et al 2005)。しかし、その後に行われた大規模なRCTでは、同じ病気に対して同じ治療を行ってもアウトカムは改善しないことがわかった(Gray er al)。 エビデンスの活用の項で述べているが、正確に「誰が」参加者として登録されたのか、また、主要な介入以外に「何が」行われたのかは、RCTの結果に影響を与える重要な問題であるが、しばしば無視される。

第三に、RCTが外的妥当性(一般化可能性)を持つか持たないかという二元的な概念は不適切である。DeatonとCarwrightが挙げた問題のあるシナリオに加えて、医学文献の他の例でも問題点が浮き彫りになっている。心血管疾患に焦点を当てたRCTの評価(Coca er al 2006)では、ほとんどの試験で腎疾患患者が除外されていたり、参加者の腎機能の範囲が報告されていなかったりした。RCTの中でも特別な地位を占める大規模でシンプルな試験を考えると、対象となる被験者や介入方法は、やはり試験ごとに異なる可能性がある。例えば、慢性閉塞性肺疾患の治療にチオトロピウムを使用している患者では、心血管リスクが増加することが示唆されていたが、大規模(n=6,000)なRCTでは、この薬剤の安全性が確認された(Tashkin er al 2008)。その後のコメントでは、高リスクの患者が試験から除外されていたなどの問題を考慮することなく、「チオトロピウムに関するこれまでで最大かつ最長の無作為化試験」(Michele er al 2010)を信頼している。これらの例は、RCTを信頼しすぎるあまり、各研究が徹底的で体系的な評価を受けるべきであるという事実を無視していることを裏付けている。

エビデンスの生成 – 観察研究

観察研究には限界があるが(例えば、様々なバイアスの可能性)その限界はしばしば誇張される。概念的には、患者の特性(例:重症度、併存する病気、治療への適性)が正確に特定・測定され、適切に分析されれば、既知の交絡因子は軽減される。また、臨床医は、自分が知らない未知の要因に基づいて治療法を選択することができず、バイアスがかかる可能性も低くなる。統計学の観点からは、傾向スコア法や道具変数分析などのアプローチは魔法のような技術ではなく、無作為化が必須条件ではないという意味で、RCTの「代用」と表現するのは残念なことである。むしろ、科学的な問題としては、a) どのような要因が曝露や転帰に関係するのか(すなわち交絡因子)b) 研究課題を解決するために適切で正確なデータが得られるのか、c) 研究では追跡調査による損失や割り当てられた治療法の変更を回避したのか、あるいは分析で考慮したのか、d) 関心のある関連性を推定するにはどのような統計的手法が適切なのか、e) 患者を治療する臨床医がその結果をどのように利用できるのか、といった点が挙げられる。

観察研究の強みとして、少なくとも3つの特性が認められるべきである。第一に、方法論的戦略は観察研究の妥当性を高めることができ、また実際に高めている。早くも1990年には、観察研究は、対象となる試験に適格性基準を合わせ、治療の「ゼロタイム」を設定し、交絡因子を考慮し、説得力のある分析を行うことで、RCTと同様の結果を得ることができると報告されている(Horwitz er al)。 同様に、症例対照研究を実施する際に、最適な対照群をどのように組み立てるかについても検討されている(Grimes and Schulz, 2005)。

第二に、RCTと観察研究を系統的に比較したところ、よくデザインされた観察研究の要約結果は、ランダム化試験の要約結果と一致することがわかった(Concato et al 2000)。他の研究でも同様に、「どちらの方法でも一貫して大きな効果は得られない」(McKee et al 1999)、「観察研究の結果は、RCTで得られた結果よりも一貫して優れているわけでも、質的に異なるわけでもない」(Benson and Hartz, 2000)、「観察研究は、RCTに用いられるのと同じ厳密な基準を用いて実施することができる」(Ligthelm et al 2007)とされている。もちろん、RCTが本質的に正しいと考えられているならば、観察研究がRCTと異なる個々の事例は、既存の態度を補強するために逸話的に利用できるが、一致した所見を伴うシナリオは見過ごされる。

第三に、観察研究デザインを用いて評価された治療法は、安全で効果的であることが判明しており、現在も臨床的に使用されている。DeatonとCartwright(2018)は、体外式膜酸素供給(ECMO)のRCTに関する倫理的な懸念について述べており、そのような懸念の根拠は、観察的証拠によって治療の有益性がすでに確認されていたことであった。別の話題では、ある報告書(Tsimberidou et al 2009)によると、31種類のがん治療薬がRCTによるエビデンスなしにFDAに承認されており、そのうち30種類はまだ完全に承認されている。これらの薬は、「長期的な安全性と有効性の安心できる記録」を持っていると説明されている(Tsimberidou er al 2009)。

エビデンスの適用-現代の問題点

エビデンスの解釈と適用に注目すると、Deaton and Cartwright(2018)による評価が特に適切である。これらの著者が明確に述べているように、RCTの結果が偶然にも真実に近いものであった場合、言及されている真実は試験サンプルのみのものであると考えられる。医学文献には、その点を示す例がたくさんある。例えば、Randomized Aldactone Evaluation Study (Pitt et al 1999)の結果が発表された後、「ブレイクスルー臨床試験の結果を、試験から除外されたであろう多くの患者を含むリスクの高い患者に適用した」ことに基づいて、集団レベルでの罹患率と死亡率の増加が記録された(Juurlink et al 2004)。

別の問題として、医学におけるRCTの技術的側面はますます多様化し、時には複雑になっている。適応設計、中間解析、複合アウトカムなどは、遭遇するバリエーションのほんの一部である(Friedman er al)。 これらのアプローチは具体的な利益をもたらすが、RCTの実施と解釈はそれに応じて確実に複雑になっている。逆に、RCTを過度に賞賛すると、このカテゴリーのエビデンスへの信頼に助けられて、設計が不十分であったり、分析が不適切であったりする単純な試験が行われることもある。例えば、小規模なRCT(Mingrone et al 2012)では、2型糖尿病のコントロールのために、2種類の肥満手術(2群各20名)と従来の内科的治療(20名)を比較した。しかし、内科的治療だけでは糖尿病が寛解しないことを踏まえ、著者らは先験的に統計的検出力を計算する際に、内科的治療の寛解率を無意味に設定(15%を選択)した。そして、臨床試験のデータを分析したところ、糖尿病が自然に治癒したとは認められなかったため、「内科的治療群に寛解がなかったので、内科的治療群で脱落した2人の患者に寛解があったと仮定して、より保守的にリスク比を算出した」と判断した。つまり、片方の群の参加者の10%(20人中2人)は、糖尿病が治癒したと仮定されていたのである。このように指定されたのは、彼らが試験から脱落したからだけではなく、一流の医学雑誌に掲載されるために無作為化試験デザインを望んだことに起因するのかもしれない。

RCT(および観察研究)は、デザイン、実施、および分析の面で常に改善される可能性がある。しかし、試験自体が本質的に優れているとみなされたり(Pocock and Elbourne, 2000)エビデンスに基づく医療に対する批判が核心的な懸念に対処せずにそらされたりすると(Ioannidis, 2017)RCTとEBMをめぐる議論は意味のある進歩がないまま、表面的なレベルで続くことになる。本号のDeatonとCartwright(2018)のエッセイが、より徹底した思慮深い議論を促すことを期待している。

エビデンスの応用-メディシンベースのエビデンス

歴史的な観点に戻り、DeatonとCartwright(2018)が言及した注意点を踏まえれば、RCTは患者群における治療の平均的な利益の推定値を生み出すことに成功していた。逆に、RCTは「それぞれが特徴的な生物学的および伝記学的(すなわち、人生経験)プロフィールを持つ特定の患者に所定の治療を行った場合、どのような結果になる可能性が高いかという開業医の疑問に答える」ことに失敗していた(Horwitz and Singer, 2017)。RCTは今後も非常に価値のあるものであるが、研究デザインに関する研究実践の変化や、新しいタイプのデータに焦点を当てることが望まれている。様々な著者(Knottnerus and Dinart, 1997; Concato, 2012; Horwitz et al 2017a)は、このアプローチを医薬品ベースのエビデンス(MBE)と呼んでいる。

MBEの重要な特徴は、研究の生成と臨床ケアへの適用の両方に関わる患者、介入、およびアウトカムの詳細な特徴付けである。研究を行う際には、RCTと観察研究から得られた不一致な知見を調整し、Deaton and Cartwright(2018)が支持したエビデンスの「累積プログラム」をMBEアプローチでサポートすることができる。例えば、MBEの具体的な応用例として、「誰がどこで患者になったのか、何を何のために治療したのか、いつどのようにアウトカムを評価したのかという臨床的に重要な問題に重点を置き、妥当性と一般化可能性の評価を一緒に考え、正確性と表現する」ことが説明されている(Concato, 2012)。また、ホルモン補充療法と心血管疾患を評価する際、観察研究の「間違い」をRCTが修正するという神話が否定され、「観察研究とRCTは一致している」という適切な報告がなされている(Vandenbroucke, 2009)。

将来的に研究成果を適用する際には、MBEは、患者の臨床経過の複数の時点で臨床治療に役立つエビデンスに基づいて、医師が治療を調整する必要がある場合も含めて、医療を個人化するのに役立つ。このようなエビデンスを得るために、MBEは、生物学的・生理学的要因、社会的・行動的特徴、職業・環境条件など、各患者の長期にわたる強固で反復的な測定を評価する必要がある。そして、これらの領域の測定値を組み合わせて、経時的な変化のプロファイル、すなわち「軌跡」という観点から類似した患者のグループを作ることができる。簡単な例として、単一の因子のみを含む、代謝コントロールの5つの異なるパターン(単一の要約的な測定値ではなく)が、その後の血管イベントや死亡に関連する糖尿病患者の間で特定された(Laiteerapong er al)。

研究者は、患者のまとまったグループで治療的介入を評価しようとする研究プロトコルを作成する際に、軌跡に関するデータを考慮することができる。同様に、臨床医は、多次元的な縦断的プロファイル(アクセス可能になれば)を含む情報のアーカイブを検索して、プロファイルがグループの1つとして集められた患者と一致する個々の患者の管理を決定するのに役立てることができる。このような取り組みは現在、十分に活用されていないが、例が出てきている(Wivel er al 2017)。このアプローチの概念的枠組みを図2に示すが、個々の患者は、関連するドメインや変数にわたるプロファイルによって特徴づけられる。例えば、全体的なベースラインの状態が似ている2人の患者は、開始した治療に反応して、時間の経過とともに軌道が改善または悪化するという点で異なる可能性がある。重要なのは、この文脈ではRCTは治療をどのように開始するかを重視するのに対し、観察分析は経時的な変化や社会的要因を評価するのに適しているということである(Horwitz er al)。

現在、天気予報が「ビッグデータ」を利用して短期および長期の予測を大幅に改善しているのと同様に、治療への反応を含めた医学的な予測(予知)の方法も大幅に改善することができる。このアプローチは、20年以上前に「臨床の現実とその固有の困難さを無視せずに包含する研究」というシンプルな言葉で表現されたMedicine-based Evidenceの概念を発展させたものである(Knottnerus and Dinart, 1997)。前述のように、RCTは無作為化された時点での治療の有益性を評価するものであるが、介入を修正するアダプティブデザイン(Friedman er al 2015)を用いたとしても、臨床医学の重要な新しい進歩として浮上しつつある個別化医療のエビデンスベースを構築するには、試験だけでは十分ではない。また、このエッセイの範囲外ではあるが、ゲノム情報はエビデンスの適用を決定する上でより関連性が高くなると考えられ、データのプライバシーに関する懸念や新たな倫理的問題が発生する可能性がある。

結論

DeatonとCartwright(2018)は、RCTからエビデンスを生成し、対応する結果を医療行為における意思決定だけでなく、政策決定にも適用するための、より合理的なアプローチの枠組みを提供した。患者志向の研究における因果関係の評価は、RCTと観察研究の両方の長所と限界を認識する必要がある。RCTやEBMは多くの点で成功しているが、臨床家が個々の患者を治療する際に必要なエビデンスを提供することはできない。医療に基づいたエビデンスのアプローチが必要なのである。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー