ゴールドスタンダードの評価 RCTの歴史から得た教訓

強調オフ

EBM・RCT科学哲学、医学研究・不正

サイトのご利用には利用規約への同意が必要です

Assessing the Gold Standard — Lessons from the History of RCTs

過去70年以上にわたり、無作為化比較試験(RCT)は医学の知識と実践を再構築していた。偏りを減らし、臨床実験の精度を高めることを目的とした20世紀半ばの臨床研究者や統計学者によって普及したRCTは、しばしばその役割を十分に果たしてきた。

しかし、過去70年の間に、この新しい “ゴールドスタンダード RCT”の多くの限界が明らかになった。 RCTの科学的・政治的な歴史は、医学と疾病の複雑さ、医学知識の生産と流通を形作る経済的・政治的な力についての教訓を与えてくれる。

RCTsの台頭

医師や医学研究者は何千年もの間、症例報告、症例シリーズ、公開デモンストレーション、証言、臨床推論、そして時には臨床試験を用いて治療的介入を評価しようと試みてきた。19世紀後半に医学における科学の役割が拡大するにつれ、医師たちは臨床研究をより厳密に行うようになった。

20世紀初頭までに、革新者たちは、盲検化、試験群への代替割り付け、統計解析など、バイアスを排除するための多くの臨床試験技術を導入した。1,2 英国の疫学者オースティン・ブラッドフォード・ヒルが1940年代にRCT法を正式に発表したとき、彼はこれらの初期の戦略の多くを基礎にした。ヒルの研究は、第二次世界大戦中から戦後にかけての英国の共同研究への投資とも重なっていた。

例えば、医学研究評議会(Medical Research Council)は、RCTをサポートすることができる新たに拡張されたインフラストラクチャを提供した。

3 RCTは当初、評価はまちまちであった。一部の批評家は、有望な新規介入を対照群から差し控えることの倫理性を心配していた。試験者は、RCTは新しい介入が対照群に与えられた標準的なケアよりも優れているかどうかを判断することができると反論した。4 また、1950年代に出現した抗生物質、抗高血圧薬、抗精神病薬などの新薬の氾濫について、メーカーの主張を評価するためにRCTが緊急に必要であると主張する者もいた5,6。

5,6 1956年に『ジャーナル』の論説者が警告したように、「医師は、純粋にメーカーの証拠に基づいて、あるいはメーカーに提供された証言に基づいて薬を受け入れることに特に注意すべきである。

医師は、信頼できる観察者によって作成され、解釈された、明確で偏りのない、十分に研究され、適切に管理された証拠を要求すべきである。7 RCTの支持者は、ますます不支持者を打ち負かすようになった。間もなく、米国国立衛生研究所をはじめとする政府機関が英国に加わり、RCTに資金を提供するようになった(図1)。しかし、これらの学術界や政府の外では、当初、RCTに対する支持は弱かった。製薬会社は、専門家の証言や症例報告を頼りにして、より広範な製品の主張を行うことができるのに、RCTにリソースと時間を割くことに消極的であった3。

1961年、何千人もの妊婦に投与されていたサリドマイドが、死産とフォコメリアの国際的なパンデミックの原因であることが明らかになったとき、この規制のないシステムの不安定さが悲劇的に明らかになった。これを受けて、米国議会は1962年にケフォーバー・ハリス改正食品医薬品化粧品法を制定し、「十分に管理された十分な調査」で新薬の有効性が証明されることを義務付けた。

8 1970年までに、食品医薬品局(FDA)はこの改正を、新薬の承認にはRCTが必要であると解釈した9。これらの要件と戦後の米国製薬産業の成長が相まって、米国がRCTの第一人者として台頭してきたのである(図2)3。

欧州経済共同体理事会、日本政府、そして多くの国の規制機関も、すぐに同様の規制を実施した。そのうちに、各国の規制当局が協力して臨床研究の国際基準を確立し、RCT の体系化が進んだ10。その結果、規制を遵守し、競争の激しい市場で新薬の適応症の承認を得るために、製薬業界はRCTの主要なスポンサーとなった。

1990 年代には、政府や学術医学に代わって製薬産業が RCT の主要なスポンサーとなった(図 1)。一方、臨床疫学者は、医療をより合理的なものにするための最良の手段としてRCTを推進した。11,12 1980年代初頭までには、RCTは医学知識の金字塔と呼ばれていた。13 その後数十年の間にエビデンスに基づいた医療が脚光を浴びるようになると、方法論的な階層が出現し、症例報告が一番下に、RCTが一番上になるようになった。

ゴールドスタンダードではなかった

しかし、RCTが医学知識の生産を独占したことはない。医学文献をざっと見てみると、症例シリーズや症例報告を含む旧来の方法が依然として価値あるものであることがわかる。14-16 観察研究の新しい方法が続々と登場している。例えば、大規模な患者データベースを使用して、日常診療の場で様々な治療結果に関する比較有効性データを比較的効率的に作成することができる。17,18 医師は経験的データに加えて生理学的根拠にも依存し続けている。冠動脈形成術とそれに続くステントは,成功したRCTのおかげではなく,技術の直感的な論理と血管造影によって提供された説得力のある視覚的証拠のおかげで注目を浴びるようになった。

19 RCTが医薬品研究の標準となったとしても、臨床研究者はそれを医学の他の分野に適用するのに苦労してきた。精神科医は心理療法のRCTを数多く実施してきたが、批評家たちは、このような長期的で高度に個別化された介入をそのような方法で評価することは不適切であり、時には不可能であると主張してきた20。 いくつかの主要な心理療法臨床試験は、方法論的な懸念によって損なわれている。21,22 さらに、RCTは心理療法よりも向精神薬の方が実施可能であるため、向精神薬のエビデンスベースは不釣り合いなほど強固なものになっている。このような違いは製薬会社にも利益をもたらしているが、精神科医療への包括的でないアプローチの使用にも寄与しているかもしれない。3,23

外科的RCTも同様の合併症に直面している。外科医は1950年代にRCTの実施を開始した。例えば、狭心症の治療のための乳腺内大動脈結紮術の有効性を試験するために偽の対照を使用した。24 しかし、1960~70年代にはより多くの外科的RCTが行われるようになったため、外科医はその限界を認識するようになった:患者ごとに固有の病理学的所見があり、外科医ごとにスキルが異なり、手術ごとに麻酔、投薬前投薬、手術アプローチ、器具、術後のケアについて数え切れないほどの選択が必要であり、これらすべてが臨床試験が必要とする標準化に反していた。25 大手術にはシャムコントロールを用いることができず、盲検化試験の機会が限られていた。

このような懸念は、冠動脈バイパス移植術(CABG)のRCTについての議論の中で演じられた。CABGの最初の主要なRCTで、慢性安定狭心症患者のほとんどがCABGによる生存利益を得られなかったことが明らかになったとき、26,27の批評家たちは、参加者があまりにも健康的で、外科医があまりにも経験が浅く、手術による死亡率が高すぎて、統計解析が疑わしいと主張した28,29著名な外科医たちは、RCTは手術には不適切であると主張した30。そのような高い科学的地位と受容性は、ほぼ宗教的な神聖化を与えられている。. . . もし独占的に頼りにされるならば、それらは危険であるかもしれない。

長く続いている、おそらく解決の難しい懸念の一つは、RCTの時間枠とイノベーションの速いペースとの間に矛盾があることである。1976年にCABGをどのように評価するのが最善かを議論する中で、外科医たちは「十分な期間にわたって十分なデータが蓄積されたところで、手術技術が向上したり、治療法が変更されたり、あるいはその両方が行われ、結論が適用されなくなってしまった」と不満を口にしていた。”32 大規模なRCTでは、患者の登録、追跡調査、分析に何年もかかることが多い。急速に進化している治療法の場合、RCTの結果が発表される前に時代遅れのように思われていた。2007年にCOURAGE(Clinical Outcomes Utilizing Revascularization and Aggressive Drug Evaluation)試験で冠動脈形成術の有効性について期待はずれの結果が示されたとき33,この治療法の支持者は、この試験で試験されたベアメタルステントが新しい薬剤溶出ステントに置き換えられたため、この結果はもはや関連性がないと主張した34。34 このように、あらゆる技術革新の優越性を前提とする論理は、進化生物学における「レッドクイーン」効果に似た、継続的な技術革新に追いつくのに苦労する臨床試験者の環境を作り出している。35

十分に実施されたRCTでさえ、医療行為に影響を与えることができなかったことがある。1960年代後半には、入念に設計された大学グループ糖尿病プログラム試験で、抗糖尿病薬トルブタミドと心血管死亡率の増加が関連していた。しかし、この試験の実施と解釈に関する論争が10年以上も続いたため、トルブタミドの処方は逆説的に増加した。36,37 同様のシナリオが起こったのは、2002年に公費で実施されたALLHAT(Antihypertensive and Lipid-Lowering Treatment to Prevent Heart Attack Trial)で、ジェネリックのチアジド系利尿薬が、高血圧の治療において、新しい高価なカルシウムチャネル遮断薬やアンジオテンシン変換酵素阻害薬と同等の効果があることが明らかになったときである。これらの知見が製薬メーカーや懐疑的な医師によって争われたため、新しい抗高血圧薬の売上は利尿薬の売上を上回るペースで伸びた38。別の2002年のRCT(偽手術対照試験)では、慢性変形性膝関節症に対する関節鏡下デブリッジメントの有用性を示さず、従来の常識を覆した。39 多くの整形外科医はこの結果を否定し、所見が繰り返し確認されたにもかかわらず、手術を継続した。40

一方で、RCTの結果は事実として受け入れられたが、後になって外部からの妥当性に欠けることが判明したものもある。RCT には、適切な包含基準の確立から介入の標準化、最も関連性の高いアウトカムの決定に至るまで、課題がある。これらの限界は研究者に他の方法を追求するよう促しているが、それにも限界があった。

社会的・倫理的な懸念は、いくつかのRCTの正当性にも挑戦してきた。AIDS危機は1980年代後半に多くの緊張を浮き彫りにした。RCTが抗レトロウイルス薬の承認を遅らせることに苛立っていた患者は、試験が完了する前にアクセスを要求した41 。臨床医は医師としての役割と科学者としての役割の間で葛藤を感じていた42 。批評家たちは、基準が緩められたことで科学的厳しさが損なわれ、製薬業界が推進するリスクの高い規制緩和のアジェンダを助長していると心配していた。

1990年代には、発展途上国で実施されたHIV感染症治療のRCTをめぐって倫理的な論争が勃発した。特に、ヨーロッパや北米では非倫理的とみなされるプラセボ対照薬を使用することが、一部の国の医療水準の低さから正当化されるのかどうかについて、43,44 ジャーナルの編集者Marcia Angellは、規定されたRCTの実施に「隷属的に固執する」ことが「倫理原則からの後退」を引き起こすと非難した。

社会学者のSteven Epsteinが指摘するように、RCTは「信頼性、リスク、信頼の交渉のための重要な場」となっていた。RCT が医療、社会、政治的文脈の中で行われるとき、RCT は「論争を解決するのではなく、むしろ論争を反映させ、推進することができる」46 歴史家のハリー・マークスは、RCT は単に科学的技術としてだけでなく、社会的事象としても理解されなければならないと論じた。

知識生産の経済学と地理学

RCTはまた,無意識のうちに医学的知識の生産者を制限してきた。症例報告が治療効果の有効性を示す有効な証拠となっていた場合には,臨床経験に基づいて一人の医師が臨床を変えるような論文を書くことができた。しかし、RCTには相当な支援を受けた共同研究が必要であった。時が経つにつれ、RCTは大規模な官僚的・企業的企業となり、研究デザイン、患者ケア、記録管理、倫理審査、統計解析のための高額なインフラを必要とするようになった。その結果、研究が他の場所で実施されている場合でも、治験のスポンサーは北米、西欧、または東アジアの出身者であることが多い。その結果、RCTは先進国地域の利益を不均衡に反映している48 。同時に、政策立案者は最近、21世紀治療法などの規制法の変更を提案しており、効率性の向上という名目で医薬品承認におけるRCTの役割を縮小することになっている。

さらに、試験コストが高いこともあり、研究者とその資金提供者は、前向きな試験結果を得ることに大きな関心を持っている。さらに、1990年代までには、医学的知識を損なうために、ネガティブな結果よりもポジティブな結果の方が頻繁に発表される傾向があることが明らかになった。規制当局や雑誌編集者はこれらの問題に対応して、RCT の透明性を向上させるための取り組みを行い、財務的利益相反の開示や、ネガティブな試験が簡単に消えてしまわないように、すべての臨床試験の登録を義務付けるようになった51-53。また、CRO は、研究に適した条件が整った中所得国で、これまで治療を受けたことのない被験者を海外で探すようになった。各国は現在、規制上、臨床上、公衆衛生上のプロファイルが理想的な試験条件を提供していることを 製薬業界やCROに納得させるために競争している。結核、マラリア、その他の低所得地域の疫病は、あまり注目されていない。グローバルな知識生産における産業の役割の増大は現代のRCTが公衆衛生にどの程度貢献しているかについて、倫理的・政策的に深い疑問を投げかけている。

RCTsの過去・現在・未来

21世紀に入る頃には、RCTは治療のエビデンスのゴールドスタンダードとしての地位を獲得していたが、その限界は十分に立証されていた。医師は、RCTよりも早く、あるいは費用がかからない知識生産の代替方法を追求し続けており、RCTでは不可能な疑問に答えることができると主張している。しかし、医学を超えて、RCTはますます模倣され、理想化されている。保健政策の研究者は、オレゴン州のメディケイド実験のように、無作為化が実施されたり、不用意に無作為化が行われたりするような稀な状況を探している56 。開発エコノミストは、RCT を新しい実験的アプローチの中心に置き、「無作為化試験が 20 世紀の医療に革命をもたらしたように、21 世紀の社会政策に革命をもたらす可能性がある」と宣言している57 。例えば、エコノミストのAngus Deatonは、RCTは「他のエビデンスを自動的に切り捨てることはできず、エビデンスの階層の中で特別な位置を占めているわけでもなく、他の方法が「ソフト」であるのに対し、RCTを「ハード」と呼ぶのは意味がない」と主張している58。

臨床研究者は、政府の資金援助を受け、FDAの規制によって権限を与えられたRCTを利用して、臨床研究の理論と実践を前進させてきた。批評家はRCTの欠陥を発見するのが上手になってきており、臨床研究者はRCTのデザインをより警戒しなければならなくなってきている。歴史的な観点から見ると、RCTは単一で安定した技術ではなく、医師が臨床研究を改訂し、洗練させていく中で進化してきたアプローチである。

RCTが医学的論争を解決するための唯一の権威ある仲裁人であるという考えは、より現実的なアプローチへの道を歩むようになった。実験家は、メタアナリシスから、多数の多様な患者を容易に参加させることができる対照登録研究に至るまで、新しい知識生産の方法を模索し続けている。観察的手法はRCTを補完するものと考えられており、新しい形態のサーベイランスは電子カルテ内のデータ収集の構造にRCTを組み込むことができる。RCT は現在では、有効性の判定や治療市場の規制に使用される広範な調査ツールの一部に過ぎない。この状態は、最近の個別化医療や精密医療への移行に伴い、今後も進化していく可能性がある。医療が個々の患者の固有の病態や共存する状態に焦点を当てるようになるにつれ、RCTで得られた一般化されたデータの適用可能性が、より一層精査されるようになるだろう。

われわれは、RCTの歴史の中で重要なポイントにいることに気がついた。もともと研究の偏りを減らすために設計されたRCTは、利害が対立する場となり、慎重な精査が必要である。製薬会社や機器メーカーは、新しい集団に製品を販売するためのデータを追求している。RCT は、科学的、政治的、経済的発展を同時に表す歴史的な存在として、両方の目的を果たす。この複雑な歴史を理解することで、RCTをより批判的かつ効果的に評価することが可能になる。今後、グローバルヘルス研究におけるより広範な不平等におけるRCTの役割を考えると、将来の臨床試験が医学と世界の公衆衛生にとって真の意味を持つ問題に取り組むことをどのようにして確実にすることができるのだろうか。RCT の歴史的に不確定な側面を管理することは、信頼性の高い有用な医学研究を推進するために働く学術研究者、産業界の研究者、政府関係者の役割と責任を問う基本的な試練となるであろう。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー