Contents

Why all randomised controlled trials produce biased results

Why all randomised controlled trials produce biased results

pubmed.ncbi.nlm.nih.gov/30122065/

2018年11月

アレクサンダー・クラウス

要旨

背景

無作為化比較試験（RCT）は、公衆衛生や社会政策に情報を提供するための最良の研究方法であると一般的に考えられている。通常、RCTは、強い仮定、バイアス、限界がなく、治療の有効性の最も厳密な証拠を提供するものと考えられている。

目的

本研究は、世界で最も引用されている10件のRCT研究を評価することで、その仮説を検証した最初の研究である。

データソース。Scopus（査読付きジャーナルの最大のデータベース）を検索して、どのジャーナルでも最も引用数の多い10件のRCT研究を特定した。

結果

この研究では、政策に影響を与えたこれらの世界的なRCT研究が、結果に影響を与える参加者の背景特性が試験グループ間でうまく分散していないこと、試験では主な報告結果に寄与する別の要因が無視されていること、他の多くの問題点の中でも特に、試験が部分的にしか盲検化されていないか、盲検化されていないことが多いことを示すことで、偏った結果を生み出していることを示している。本研究はまた、臨床試験の設計、実施、分析の際に生じる、既存の研究ではまだ十分に議論されていない多くの新規かつ重要な仮定、バイアス、限界も明らかにしている。

結論

研究者や政策立案者は、臨床試験におけるより広範な仮定、バイアス、限界をよりよく認識する必要がある。ジャーナルは、研究者に研究の概要を説明することを要求し始める必要がある。さらに、RCTを他の研究方法と併用することで、より効果的に活用する必要がある。

キーメッセージ

RCTは、様々な強い仮定、バイアス、限界に直面しており、そのすべてがまだ文献で十分に議論されていない。
本研究では、世界で最も引用されている10のRCTを評価し、より一般的に、試験は必然的にバイアスが生じることを示している。
試験には、無作為化、盲検化、コントロール、治療の実施、参加者のモニタリングなどの複雑なプロセスが含まれている。- 試験には、ランダム化、盲検化、コントロール、治療法の実施、参加者のモニタリングなど、複雑なプロセスが含まれており、さまざまなレベルで多くの決定とステップを必要とし、結果に独自の仮定とバイアスの程度をもたらす。

キーワード

無作為化比較試験、RCT、再現性の危機、複製の危機、バイアス、統計的バイアス、エビデンスに基づく医療、エビデンスに基づく実践、結果の再現性、臨床医学、研究デザイン

序論

ある治療法がどれだけ効果を発揮するかは、私たちの生活に大きな影響を与える。しかし、治療を受けるかどうかを決める前に、一般的にはどの程度の効果があるのかを知りたいものである。無作為化比較試験（RCT）は一般的に、ある治療法が有効であるかどうかを検証するために、人々を治療群と対照群に無作為に配分して実施される。医学[1-4]、心理学[5]、経済学[6,7]のような分野の研究者は、この方法が医療、社会、政策の決定を適切に伝える唯一の信頼できる手段であり、他の方法を評価するための究極のベンチマークであり、非ランダム化法が受ける強い理論的仮定、方法論的バイアス、研究者の影響を排除している（あるいは可能な限り排除している）としばしば主張している。

この研究では、無作為化実験が強い仮定、バイアス、制限なしにある治療の効果を推定するという仮説を評価する。この仮説を評価するために、世界で最も引用されている10のRCT研究を分析した。その中には、脳卒中[8]、インスリン治療を受けている重症患者[9]、乳がんと化学療法[10]、エストロゲンと閉経後[11]、大腸がん[12]、コレステロールと冠動脈性心疾患に関する2つの試験[13,14]、糖尿病に関する3つの試験[15-17]など、非常に影響力のある無作為化試験が含まれている。これらの試験は一般医学、生物学、神経学の分野に関連しているが、ここで概説された洞察は、心理学、神経科学、経済学、とりわけ農業を含むあらゆる分野のRCTを使用している研究者や実務家にとっても有用である。

どのような試験でも、募集した人の何割かはどのような試験にも参加を拒否するので（サンプルバイアスにつながる)、どのような試験でも一般的に様々な試験者の部分的な盲検化または盲検化されていないことがある程度発生する（選択バイアスにつながる)。

参加者は一般的にどのような試験でも異なる時間の長さと異なる投与量で治療を受けるので（これは測定バイアスにつながる)他の問題の中でバイアスの程度が発生している。

ここで評価された最も引用された10のRCTは、このような一般的な問題に悩まされている。参加者の背景特性が試験群間でうまく配分されていないことが多く、参加者が試験群間で入れ替わっていることがあり、試験では主な報告結果に寄与する代替因子が無視されていることが多いなど、他の問題もある。

これらの問題のいくつかは、試験では避けることができず、結果や結論の頑健性に影響を与える。本研究はそれによってRCTの方法論的バイアスと限界に関する文献[1,18-25]に貢献しており、RCTの多くのメタアナリシスでは、無作為化、二重盲検、脱落者、離脱者を含む共通の評価基準を用いて、試験が異なるバイアスに直面していることが示されている[20,21,26]。バイアスを減らすためには、臨床試験報告ガイドライン[1,18]が重要であるが、これらは大幅に改善される必要がある。

試験の質に関する重大な懸念は、一般的な方法論的問題を報告している試験が一部の試験に限られていることである。これらの問題が試験結果にどのように影響するかを説明している試験はさらに少ない。また、そのような問題をすべて報告し、それらが試験結果にどのように影響を与えたかを説明している試験は存在しない。

この状況をさらに悪化させているのは、これらがより一般的に知られている問題の一部に過ぎないということである。本研究の主な貢献は、RCTが直面している重要な仮定、バイアス、限界のより大きなセットを概説することであり、これらはまだすべての試験研究では十分に議論されていない。

無作為化実験の限界をよりよく理解することは、研究、政策、実践にとって非常に重要である。試験は、多くが治療を受けた人の状態を改善するのに役立つが、すべての試験は、それらの推定結果に少なくともある程度のバイアスを持っており、時には強い因果関係を確立するために誤って主張している。同時に、強く偏った臨床試験の中には、未だに開業医や政策立案者に情報を提供するために使用されているものもあり、その結果、治療を受けた患者に害を及ぼす可能性がある。

はっきりさせておきたいのは、特定のRCTを孤立させたり批判したりすることではない。治療の平均的な効果についてしっかりとした結論を出すためのRCT法の能力を矮小化したり、単純化しすぎたりしてはいけないということを強調したいのである。そのような結論に到達することができるのは、研究者がそれぞれの仮定とバイアスを次々と（本研究で概説されているように）通過し、これらの仮定を満たし、可能な限りこれらのバイアスを削減しようとする体系的な努力をしている場合のみであるー彼らができないものを報告しながら。

方法

本研究では、最も引用された10件のRCT研究のうちの1件であるという単一の基準を用いて試験を選択した。2016年6月までのどの雑誌でも世界で最も多くの被引用数を持つ10の試験は、Scopus（査読付きジャーナルの最大のデータベース）で “randomised controlled trial”、”randomized controlled trial”、”RCT “という用語を検索することで同定された。これらの試験（それぞれ6500以上の引用がある）がスクリーニングされ、それぞれが無作為化対照試験であるという適格要件を満たしている。試験の選択戦略と最も引用された10試験の詳細については、付録の図A1と表1を参照されたい。

本研究では、試験の一般的な評価基準（無作為化、二重盲検化、脱落者、離脱者 [20,21,26]など）を適用し、拡張する一方で、試験を実施する際に現れるより広い範囲の仮定、バイアス、限界を用いてRCTを評価している。これらの仮定、バイアス、制限のために私が作成した用語は斜体で配置されている。研究の構造に関しては、仮定、バイアス、限界は、デザイン、次に実施、続いてRCTの分析で発生する順序で、一緒に議論されている。

結果と考察

RCTの設計における仮定、バイアス、限界

まず、既存の研究ではまだ十分に議論されていないRCTの制約として、無作為化が可能なのは、我々が興味を持っている問題の一部のセット、すなわち、個人レベルでの単純治療という試験の限界に対してのみであるということが挙げられる。

例えば、身体的・精神的に全体的に良好な健康、長寿、公衆衛生機関の機能、あるいは一般的には、その他の複雑で大規模な現象（うつ病から社会不安まで）を形成するものなど、多くの複雑な科学的な問題については、無作為化はほとんど不可能である。

遺伝学、免疫学、行動、精神状態、人間の能力、規範、慣行に関連するテーマは、一般的に無作為化の対象にはならない。このようなトピックのための同等のカウンターファクターを持たないことが、しばしば無作為化ができない理由である。

この方法は、まれな疾患の治療法、単発的な介入（医療制度改革など)効果が遅れている介入（長期的な疾患の治療法など）を研究する際に制約を受ける。臨床試験は、別の文脈や政策設定の中で、どのようにして所望の結果を達成するかという疑問に答えることに制限がある。このような理由から、この方法では、医学の一般的な理解を全面的に改善することはできない。しかし、よく実施されたRCTが最も有用な場合は、匿名化されたサンプルを用いて、既知の交絡因子がほとんどないと仮定した単一の単純な治療法の平均的な有効性を評価する場合である – 公表されたRCTが示唆しているように。

しかし、平均寿命を延ばす方法を理解したり、公衆衛生機関をより効果的にする方法を理解したりする場合など、医療の現実を反映した複数の複雑な治療法や結果を同時に行うことが多い場合には、RCTを常に容易に実施することはできない。

研究者は、RCTを唯一の信頼できる研究デザインと考えているならば、そのため、定量化可能な治療結果のスキーマ（これについては後述する）に適合する個人レベルでの単純な治療に関連した選択された質問のみに主に焦点を当てることになるだろう。

このような研究は、特定の方法が研究する質問の種類や範囲に影響を与え、他の方法（縦断的観察研究や制度分析など）を用いて研究されている他の重要な問題（例えば、平均寿命の延長や公衆衛生機関の改善など）を無視することになる。

RCTが直面しているもう一つの制約は、後に治療をスケールアップすることを目的とする場合、試験の初期サンプルは、理想的には無作為に生成され、一般集団から代表的に選ばれる必要があるということである。表1に示すように、これらの主要な試験の中には、無作為化の前にどのように初期サンプルを選択したかについての情報を提供していないものもあれば[8,10]、「患者記録」を使用したとのみ記載しているもの[13]や、「29のセンターで募集した」とのみ記載しているもの[15]もあるが、そのようなセンターや参加している開業医の質、多様性、場所、センターの選択方法、そのセンターが治療する傾向のある患者のタイプなど、重要な情報は提供されていない。このことは、これらのRCTに使用されたデータの代表性についての詳細がわからないことを意味している。さらに、Shepherdら[14]によるコレステロールに関する試験は英国の1地区で、Van Den Bergheら[9]によるインスリン療法に関する試験はベルギーの1つの集中治療室で実施されたものであるが、いずれも後に広く治療をスケールアップすることを目的としている。

RCT の基本的かつ強力な前提として、（一旦サンプルが選択されると）「良好な無作為化を達成する」という前提がある。ランダム化が不十分な場合、つまり、試験群間の転帰に影響を与える参加者の背景特性の分布が不十分な場合 [27]、これら10の主要なRCTのうちいくつかの結果の頑健性の程度に疑問が生じる。

脳卒中に関する試験 [8] では、脳卒中発症後3ヵ月後の死亡率が治療群で17%、プラセボ群で21%であったと報告しているが、この差は治療によるものである。しかし、ベースラインデータは、脳卒中と死亡率の転帰に強く影響する他の因子が等しく割り付けられていないことを示している：本治療を受けた群（プラセボ群と比較して）では、うっ血性心不全の可能性が3%低く、脳卒中の前に喫煙していた可能性が8%低く、アスピリン療法を受けていた可能性が14%高く、黒人に比べて白人である可能性が3%高く、以前に脳卒中を発症したことがあり、生存していた可能性が3%高かった。これらの因子がこの試験の主要な転帰を促進している可能性がある。しかし、この研究では、この非常に貧弱なベースライン配分については明示的に議論されていない。

乳がん試験 [10] では、治療参加者（化学療法を受けている）の73%が試験前に補助化学療法を受けていたのに対し、対照参加者（化学療法のみを受けている）の63%は試験前に補助化学療法を受けていた。化学療法への反応は、すでに化学療法を受けた人と初めて化学療法を受けた人では相対的に異なるため、研究治療が単独で結果を形成していたと主張することは困難である。

同様に、大腸がん試験 [12] の推定された主な結果、すなわち、治療を受けた者の生存期間が4.5ヵ月延長したという結果は、対照群の4%以上がすでにアジュバント化学療法を受けていたことを考えると、確定的な結果とは考えられない。

また、DCC [15]による糖尿病試験の結果は、主要介入群の男性が5%少なく、喫煙者が2%多く、神経損傷を受ける可能性が3%高いことによって偏っていなかったとは考えにくい。

研究者の中には、「それは研究デザインの問題かもしれない」と答える人もいるかもしれない。しかし、ポイントは、これら10のRCTのすべてがサンプルを無作為化していることであり、無作為化だけでは均衡のとれた分布は保証されないことを示している。重要な不均衡がある限り、治療群と対照群の間の異なる結果を単に治療の有効性を反映していると解釈することはできない。したがって、研究者は、より大きなサンプルや層別無作為化などをうまく利用することで、既知の不均衡の程度、つまり偏った結果をよりよく減らす必要がある。

試験で起こりうるもう一つの制約は、結果に代替的に影響を及ぼすことが知られているすべての関連する背景因子（ただし一部のみ）のベースラインデータを収集していない場合、すなわちベースラインデータの不完全な制限である。例えば、世界をリードする個々のRCTでは、シンバスタチンと呼ばれるコレステロール低下薬[13]やプラバスタチンと呼ばれる薬剤[14]を服用することで心臓病が減少したこと、糖尿病の集中治療でインスリン依存性糖尿病の合併症が減少したこと[15]、ベバシズマブと呼ばれる治療法を服用することで大腸がん患者の生存期間が増加したこと[12]などが報告されている。

しかし、これらの試験はベースラインデータを収集しておらず、体力、運動、ストレス、その他の主要転帰に影響を与え、結果にバイアスをかける可能性のある代替因子の患者間の差を評価していない。「RCTの利点は、結果に影響を与えるすべての要因を知る必要がないことである」という一般的な主張は、無作為化は治療によるものであることを保証すべきであるが、それは保持されておらず、影響を与える要因の均等なバランスを回避することはできない。

試験群間で背景となる影響因子のバランスのとれた分布をより確実にし、同じ期間にわたってそれを行い、他の可能性のある交絡因子を減らすために、我々は一般的に、経済学や心理学のような分野では、試験を実施する前に、サンプル全体を同時に無作為化する。このアプローチは、糖尿病や高コレステロールなどの一般的な健康状態、運動量の増加などのライフスタイルの選択、閉経後の女性のホルモン使用などの治療法を試験した10件のうち6件の試験など、医療分野の関連する試験でも実施することができる。

関連する試験のためにサンプルを無作為化した後、試験群間で測定可能な影響因子の違いを観察し、例えば、同じサンプルを複数回（試験を実施する前に)これらの因子がより均等に分布するまで再無作為化した場合、試験結果は、それにもかかわらず、一度だけ無作為化しただけの結果であることがわかる。サンプルの（再）無作為化のたびに試験結果は同じではないことがわかる。

さらに、選択バイアスを低減し、完全に盲検化された試験のためには、実験者や患者だけでなく、データ収集者、医師、評価者、その他の誰もが群の割り付けを知らないことが（無作為化を超えて）重要である。しかし、これらの10のRCTでは、試験期間中のこれらの主要な試験関係者の盲検化の状況について、明確な詳細が示されていない。

表1に示すように、これら10の試験のうちいくつかは二重盲検化されていない[9,10,12]一方で、最初は二重盲検化されていたが、後に部分的に盲検化されていない[11,15,17]試験もあれば、片側の試験では部分的にしか盲検化されていない[16]試験もあり、これは関連するケースでは（しばしば避けられないが）盲検化されていないバイアスを反映している。

例えば、Van Den Bergheらによる試験[9]では、インスリンの投与量を変更するには参加者のグルコースレベルをモニターする必要があり、盲検化された試験を実施することは不可能である。エストロゲンの試験 [11] では、副作用の管理を可能にするために参加者の40%が盲検化されていない。Knowlerらによる糖尿病試験[17]では、臨床結果が設定した閾値を超え、治療法を変更する必要がある場合には、参加者の盲検化を解除した（その割合は示されていないが）。SSSSG [13] の試験では、プラセボ患者の中には、実際のコレステロール低下治療を受けるために試験薬の投与を中止した患者もいたが、これは、試験外で参加者自身がコレステロール値を確認することで、治療配分が盲検化されていない場合があることを示している。このような盲検化に関連した問題は、しばしば予期せぬことではあるが、研究ではより明確に議論される必要があり、特にそれが結果にどの程度のバイアスを与えるのかについて議論される必要がある。

無作為化と盲検化以外にも、もう一つの制約として、臨床試験が数百人規模の試験であることが多いため、ロバストな結果を得るには制約が多すぎて、サンプルバイアスが小さくなることが多いということが挙げられる。

上位10のRCTのうち、乳がん試験[10]の2つの別々の部分のサンプルサイズは281人と188人であり、脳卒中試験[8]の2つの部分のサンプルサイズは291人と333人である。このような小規模試験では、時に厳格な除外基準や無作為化の不備と相まって、しばしば背景にある影響因子の重要なアンバランスが生じ、結果にバイアスがかかることがある（これら2つの試験で先に示されたように）[21]。

小規模試験では、効果の大きさが小さい場合、精度の低い推定値に関連した他の問題に直面することがある。例えば、総参加者数624人の脳卒中試験[8]では、脳卒中の3ヵ月後の時点で、プラセボ群64人に対して治療群54人が死亡しており、主要アウトカムは10人の死亡の差に過ぎない。全体として、推定結果の信頼性を高めるためには、研究者は、異なる研究間で大きな効果を推定する大規模なサンプル（可能であれば、異なる背景特性を持つ幅広い範囲の異なるグループにまたがる数千のオブザベーション）を理想的に必要とする。これはさらに理想的には、1つの試験内で異なる治療法を互いに比較するより多くの研究と組み合わせて、（関連する場合には）複数の組み合わせた治療法を単独で試験することになるだろう。(i)、(i + ii)、(i + ii + iii)、(i + ii + iii + iv)]。

既存の研究ではまだ議論されていないRCTが直面しているもう一つの問題は、量的変数の制限である。すなわち、実験モデル内に収まる厳密に定義された結果変数を作成し、相関性や因果関係の主張を可能にすることができる特定の現象についてのみ試験が可能であるということである。

最も引用されている10のRCTは、このように、すべてが厳密な量的結果変数を使用している。いくつかのRCTでは、参加者が死亡したかどうかの二値治療変数（1または0）を使用している[9,12,13]。

しかし、この二値変数は、参加者が治療を受けている間の生活の質を知覚する複数の方法を無視する可能性がある。例えば、大腸がん試験 [12] では、主要アウトカムは治療を受けた患者の平均生存期間が4.5ヵ月延長したことであるが、グレード3または4の有害事象を受ける可能性が11%高く、そのような有害事象のために入院する可能性が5%高く、高血圧を経験する可能性が14%高かった。しかし、これらの有害事象の変数はあくまでもプロキシであり、患者のQOLや痛みのレベルを完全に把握しているわけではなく、その性質上、定量的な分析を直接行うことはできない。試験で捉えられた変数だけを用いても、数ヵ月長く生きていた参加者が、より強く、より長く苦しんでいた参加者が、後になって治療を受けなかった方が良かったかどうかについての重要な情報は得られていない。

量的変数の制限のもう一つの例は、Knowlerらによる糖尿病試験[17]では、週に少なくとも150分の身体活動の目標として治療を設定していることである。それにもかかわらず、この治療法では、150分の運動の効果に影響を与える要因、すなわち、試験に参加する前の参加者の体力レベルや、特定の年齢、性別、体重などによって異なるレベルの身体活動に対する生理的ニーズに必然的に変化する要因が無視されている。このように明確な定量的変数は（RCT法の特徴であることが多いであるが)患者の異質なニーズや開業医の判断を反映していない。実際、ほとんどの医療現象（うつ病、がん、全身の健康、医療規範、病院の収容力など）は、自然に二値化されているわけではなく、無作為化や統計分析では修正可能なものではない（この問題は他の統計手法にも影響を与え、その意味合いは研究で議論される必要がある）。

RCTの実施における仮定、バイアス、限界

既存の研究ではまだ十分に議論されていない臨床試験を実施する際の仮定として、「すべての条件が完全に満たされている」という仮定がある。

化学療法であれコレステロール治療薬であれ、治療法が有効であるためには、患者が十分な栄養と健康状態にあること、適切な投与量を服用する際のコンプライアンスが十分に高いこと、治療を行うコミュニティ・クリニックの質が低くないこと、効果的に治療を行うための訓練を受けた経験豊富な施術者がいること、実施をモニタリングし評価するための保健サービスの制度的な能力が十分であること、その他多くの問題の中で十分であること、などが必要である。

基本的な前提として、これらやその他の前提条件（原因）がすべて、すべての参加者にとって完全に満たされていることが前提となっている。サンプルが大規模であっても、これらの要因がすべて存在し、試験群間でバランスが取れていることを保証することは、そのような要因が既知ではあるが観察不可能な場合や未知の場合があるため、困難である。このような前提条件がどの程度満たされているかのばらつきは、異なるグループの人々の間で平均的な治療効果にばらつき（バイアス）をもたらす。治療の有効性と結果の有用性を高めるためには、研究者は、試験を設計するときや試験から外挿するときに、このようなより広い文脈に焦点を当てる必要がある。

表1. 世界で最も引用された10のRCTの研究デザイン

表1.世界中で最も引用されている10のRCTの研究デザイン
	報告された研究							報告された参加者
トライアル	最初のサンプル選択	適格基準	除外基準	拒否率	ランダム化された層別化	二重盲検	いいえ。治療群と対照群の間の参加者の割合	不適合率（実施中）	中退率	収集されたデータの複数の時点を報告	エンドラインで評価された背景特性	いくつかの悪影響を報告しました（プラスだけでなく）	主な結果に影響を与える代替要因について議論	研究結果の「外部妥当性」の報告された程度	報告された研究の仮定、バイアスおよび制限	サンプルサイズ	引用-
インスリン依存性糖尿病[ 15 ]	いいえ^{私はありません}	はい	番号	番号	各臨床センターの介入コホートによる	部分的にⁱⁱⁱ	番号	番号	<1％	はい	番号	はい	番号	はい	番号	1441	16,279
集中的な血糖コントロールと2型糖尿病[ 16 ]	はい	はい	はい	いいえⁱⁱ	理想的な体重で、2種類の治療で一部の患者	部分的に^iv	番号	番号	4％	はい	番号	はい	番号	番号	番号	3867	13,788
エストロゲンと閉経後[ 11 ]	部分的に	はい	はい	95％	臨床センターおよび年齢層別	部分的にⁱⁱⁱ	番号	番号	42％	はい	番号	はい	番号	はい	部分的に	16,608	10,792
コレステロールと冠状動脈性心臓病[ 13 ]	いいえ^{私はありません}	はい	はい	8％	臨床センターおよび以前の心筋梗塞による	はい	番号	5％が薬の服用をやめました	12％	はい	番号	はい	番号	番号	番号	4444	9659
2型糖尿病とライフスタイルの介入[ 17 ]	はい	はい	はい	いいえⁱⁱ	臨床センター別	部分的にⁱⁱⁱ	番号	72％が投与量の80％以上を服用しました	8％	はい	番号	はい	番号	はい	部分的に	3234	9581
結腸直腸がん[ 12 ]	いいえ^{私はありません}	はい	はい	番号	臨床センター別、ベースライン治療反応状態、疾患の場所、およびいいえ。転移部位の	番号	番号	73％が意図した投与量を摂取しました	部分的に（悪影響のために8％）	はい	番号	はい	番号	番号	番号	813	7025
急性虚血性脳卒中[ 8 ]	番号	はい	はい	いいえⁱⁱ	臨床センターおよび脳卒中から治療までの時間	はい	番号	90〜93％（±5）が意図した投与量を摂取した	いいえⁱⁱ	はい	番号	はい	番号	番号	番号	291および333	6839
コレステロールと冠状動脈性心臓病[ 14 ]	はい	はい	はい	≥49％ⁱ	臨床センターおよび募集時期別	部分的に^v	番号	いいえ^{私はありません}	30％	はい	番号	はい	番号	部分的に	番号	6595	6624
病気の患者のためのインスリン[ 9 ]	はい	はい	はい	いいえⁱⁱ	重大な病気の種類別	番号	番号	番号	番号	na ^vi	番号	番号	番号	はい	いいえ^{私はありません}	1548	6582
乳がんと化学療法[ 10 ]	番号	はい	はい	番号	提供された情報が不十分	番号	番号	92％が投与量の80％以上を服用しました	部分的に（心不全のため8％）	はい	番号	はい	番号	番号	番号	469	6533

これらの主要な 10 の RCT では、最初に募集した人が参加を拒否したこと、被験者が試験群間で入れ替わったこと、実際の投与量のばらつき、被験者のデータ欠落などに関連する問題を通じて、実施中にある程度の統計的バイアスが発生している。表1は、募集後に参加を拒否した人の割合が報告されたいくつかの試験では、対象サンプルの大きな割合を占めることがあったことを示している。エストロゲン試験[11]のためにスクリーニングされたすべての女性の中で、試験に同意を提供したのは5%のみであった（そして子宮摘出術は報告されていない）。これは、時間があり、意欲があり、有用であると考え、参加することに限られたリスクを考慮し、治療に対する需要が高い可能性がある人々の間で選択バイアスがあることを示唆している。このような少数の患者のうち、88%が無作為に試験に割り付けられた。試験の実施中に、治療群の42%が薬物の服用を中止した。全参加者のうち4%が不明なバイタルステータス（データ欠落）を有し、3%が死亡した。服用を拒否した人、データが見つからない人などのためにサンプルが少なくなっているため、“平均的な参加者 “の数が少ないのではないかと思われる。「平均的な参加者」は失われているのではなく、強く異なる可能性のある参加者が失われている可能性が高い。エストロゲン試験の結果を解釈する上での制約は、プラセボ参加者の11%が治療群に渡ったことである。患者が試験に慣れてきたら、グループ間での切り替えを決定するには、結果にもたらす統計的バイアスの観点だけでなく、患者の当面の健康と生活の観点からも理解する必要がある。

2つのコレステロール試験のうちの1つ[14]では、参加希望者の51%が最初のスクリーニングに参加したが、その後、参加希望者の4%のみが試験に無作為に割り付けられ、その後、約30%の参加者が脱落したことが報告されている。別のコレステロール試験[13]では、参加資格のある人の8%が参加に同意しなかったが、12%が副作用だけでなく、継続を嫌がるために薬を中止した。これらのRCTのいくつかの試験では、非同意も発生している。糖尿病試験の一つ[17]では、治療群の参加者が規定量の80%以上を服用している割合は72%であった。

大腸がん試験[12]では、治療群の73%がいずれかの薬剤を意図した量を服用していた。これらの試験や他の試験では、参加者のかなりの割合で治療コンプライアンスのレベルが異なる（表1参照）ため、参加者間での転帰の推定にばらつき（バイアス）が生じる可能性がある（intention-to-treat分析を用いた場合でも、プロトコルごとの分析を用いた場合でも）。また、これらの試験のいくつかは、脱落率に関する完全なデータを提供していない（表1）。その中には脳卒中試験 [8] があり、アウトカムデータが欠落しているすべての参加者に対して、「可能な限り最悪のスコアが割り当てられた」。この仮定が正しいとは考えられない。全体として、参加者の拒否、グループ間の切り替え、データの欠落などに対処するために研究者がどのような決定を下すかは、方法論的に難しい問題を提起し、研究者が試験研究で率直に議論する必要がある結果のバイアスの程度をさらに高めている。

RCTの分析における仮定、バイアス、限界

試験実施後の結果を評価する際に、RCTは、既存の研究ではまだ十分に議論されていない独特の期間評価バイアスに直面している。すなわち、結果に関する相関性や因果関係の主張は、多くの試験では、研究者がベースラインとエンドラインのデータポイントを収集するタイミングを選択することで、別の平均的な結果ではなく、1つの平均的な結果を評価するという機能を持っているということである。例えばSSSGの試験 [13] では、コレステロール低下薬の効果は平均して約1年後に始まったようで、その後減少したと報告されている。治療法は一般的に、戻りが減少する（または増加する）レベルが異なる。このように、治療を評価する時期（毎月、四半期、1年、数）によって、推定結果にばらつきが生じることは一般的に避けられない。2つ以上の（またはそれ以上の）評価ポイントは同じではないので、ほとんどの試験では、評価の軌跡と経時的な遅れの理解を深めるために、常に複数のタイムポイントで評価する必要がある（この問題は他の統計的手法にも影響するが）。

これら10のRCTのうち半数の試験では、試験デザインによっては、追跡期間の合計が常に同一ではなく、一部の参加者では2～3倍長くなっていた（平均的な結果のみが報告されている）[11,13,15-17]。しかし、異なる期間の長さや服用量の違いは、試験参加者間で異なる効果をもたらし、測定バイアスにつながる。例えば、乳がんと化学療法を対象とした試験[10]では、一次治療群の参加者は1週間から127週間（平均40週間）の間で試験に参加し、服用された用量は1から98（平均36用量）の間であった。

RCTを評価する際になされたもう一つの強力な仮定として、これまで議論されてこなかったものに、背景形質が不変であるという仮定がある。試験期間が長ければ長いほど、これらの影響が重要になることが多い。しかし、これらの影響は短期間の試験でも重要だ。例えば、対照群に共通の治療が行われているか、あるいは全く行われていない場合、治療群の3%の人が、より迅速に状態を改善するために、追加の運動やより良い栄養補給などの他の治療と試験済みの薬物治療を組み合わせることを決定したが、運動や栄養のレベルについてはベースラインのデータのみを収集し、エンドラインのデータは収集しなかった場合、試験済みの薬物治療のみが転帰を促進しているかどうかはわからない。エンドラインの参加者が、ベースライン時と同じ背景条件と診療所の特徴を持っていることを確認できない限り、「治療を受けたからこそアウトカムが得られた」と主張することはできない。この問題は、10のRCTすべてに当てはまるが、エンドラインのデータは含まれていない。

もう一つの制約は、試験は一般的に平均効果のみを評価するように設計されていることである。しかし、一部または大多数が治療の影響を受けていなくても、少数派が大きな影響を受けていても、平均的な効果がプラスになることがある。

これらのトップ10のRCTのほとんどは、より広い集団で治療を使用することを目的としており、結果が試験外の人々にどのように適用されるかを十分に評価していない[28]（表1） – すなわち、外挿の限界である。しかし、いくつかはこの情報を部分的に報告している。例えば、Shepherdらによる試験[14]では、その結果は「高コレステロール血症の典型的な中年男性に適用できる」と述べている。しかし、スコットランド西部（試験が実施された地域）の人々の特定のライフスタイル、栄養、その他の特徴、および参加している診療所の能力を考慮すると、その結果がスコットランド西部の特定の小集団の典型的な男性にのみ適用されるかどうかは示されていない。Van Den Bergheらによる試験 [9] では、参加者は1つの外科用集中治療室でインスリン治療を受けるために選択された。このことは、医療用集中治療室にいる人、またはサンプルにない疾患を持つ人（著者は認めている）だけでなく、人口統計学的または臨床的特徴が異なる人にも結果を適用できないことを意味している。Knowlerらによる糖尿病試験 [17] は、他の上位10試験と比較して、この試験の適用可能性について最も詳細に述べており、以下のことを認めている。「以前の予防研究の結果を一般化することの妥当性は不確かである。なぜなら、社会的、経済的、文化的な力が食事や運動などに影響を及ぼすからだ。」この試験の著者は、この結果は米国の人口の約3%に適用される可能性があると述べている。しかし一般的に、研究者がその結果が誰に適用される可能性があるかについて、試験の文脈の外で明示的に議論しない場合、実務家は誰に適用されるかを正確に把握していない。

治療効果の報告にも最良の結果バイアスが存在することがあり、資金提供者や学術誌は無視できる結果や否定的な結果を受け入れる可能性が低くなることがある。これらの10の試験のうち、研究者は治療効果の副作用の代替説明（治療以外の）の可能性を示すことがある（例えば、大腸がんの試験 [12]）。しかし、これら10件の試験では、上記で概説した不均衡な背景特徴のような、主要な（治療）転帰をも形成する他の測定可能または測定不可能な交絡因子については、明示的には論じていない（表1）。これらの試験のうち1件（エストロゲン試験[11]）だけが負の主治療効果を有していた。Van Den Bergheらによる試験[9]では、インスリン療法の副作用は議論されていないが、その利点の広範なリストが報告されているにすぎない。

臨床試験を評価する上でのもう一つの制約は、資金提供者が発表された結果に内在的な関心を持ち、資金提供者のバイアスにつながる可能性があることである。これは多くの臨床試験のシステマティックレビュー[29,30]で示されている。最も引用された10件のRCTのうち、7件はバイオ製薬会社が資金を提供していた。大腸がん試験[12]は、バイオ製薬会社のジェネンテック社が資金を提供して設計したもので、データの収集と分析を行ったが、研究者はコンサルティング、講演、研究のために会社から支払いを受けていた。これは乳がんの試験でも同様であった[10]。しかし、医薬品供給者は、商業的利益のために、試験のデザイン、実施、分析に独立して関与することは理想的ではない。

試験の治療効果を解釈する際に生じる関連する制約は、プラセボのみまたは従来の治療のみの制約に関連している。10件の試験のうち4件は、試験中の治療法をプラセボのみと比較している [8,11,13,14] が、関連するケースでは、試験された治療法が現在の治療法や従来の治療法とどのように直接比較されているかがわからないため、政策の情報提供がより困難になることがある。10の試験のうち5つの試験では、従来の治療法[9,10,12,15,16]とのみ治療法を比較している（プラセボとの併用はしていない）が、報告されている治療法の有益性は、従来の治療法群の予後の悪さに起因することがある。これらの試験のうち、プラセボと比較して、試験された治療法と従来の治療法の相対的な有益性を評価するために設計されたのは、1つの試験のみである[17]。

RCTの実施には、他にも多くのバイアスや制約が生じることがある。これらは、標準誤差の計算（表1が示すように、10の試験群間の参加者数はすべての試験で不均等である)プラセボ効果[31]、サンプルサイズの決定方法のばらつき、同じ試験のために異なる集計者がデータを収集する方法、および無作為割付けシーケンスを作成するために使用される方法のばらつきに及ぶ。統計データや結果の分析、解釈、報告における違い、試験開始後のデザインや方法の変更（除外基準、サブグループ分析（および関連する事後データマイニング）の実施など）[32]、倫理的制約[33]、予算的制約、その他多くのことが挙げられる。

RCTが直面している仮定、バイアス、制限の組み合わせ

試験の設計、実施、分析において生じる様々な仮定とバイアスを一緒に引き出すことで（図1)RCTの結果の信頼性を評価しようとすることができる。これは、それぞれの仮定を満たし、それぞれのバイアスをどの程度低減できるかにかかっている-これは研究者が試験を改善する方法でもある。

図1. RCTにおける仮定、バイアス、限界の概要

（すなわち、臨床試験を改善するには、これらのバイアスを減らし、可能な限り仮定を満たすことが必要です）。出典。仮定とバイアスと限界の概要

注：任意の仮定、バイアスまたは制限に関する詳細については、研究全体の各セクション　このリストは網羅的ではない。

しかし、常にこの仮定のセットを満たし、このバイアスのセットを最小化することは可能であろうか？これらの主要なRCTを評価する場合、答えは肯定的ではないように思われる。研究の質問と目的を選択し、変数を作成し、サンプルを選択し、無作為化し、盲検化し、コントロールする方法から、治療を実施し、参加者をモニターし、データを収集し、データ分析を行い、結果を解釈し、これらのステップの前、間、後に他のすべてを行う方法に至るまで、試験の結果の基礎となる仮定とバイアスの程度は、各段階で増加する可能性がある。最終的には、私たちの結果は、私たちが行った仮定やバイアス以上に正確なものにはならない。一般論として、これらのうちのどれがより重要であるかを語ることはできない。それは、与えられた試験でのみ評価でき、各仮定が満たされ、各バイアスがどの程度低減されているかに依存する。

我々はさらにRCTを、メリットもある他の方法と併用する必要がある。新しい治療法がサンプルの一部の参加者に有効であることが試験で示唆された場合、例えばその後の観察研究は、治療法のより広範な副作用、異なる年齢、場所、その他の特徴を持つ人々への効果の分布、特に、日常の施設で日常的にサービスを提供している人々が、平均的な試験参加者と同等の結果を得ることができるかどうかについての洞察を提供するために重要であることがよくある。実験室内外での単一のケーススタディや方法は、後の実験の基礎となり、RCTを用いた後の評価を可能にするための重要な第一歩である。さらに、医学界の最も重要な洞察を得るために、歴史的・観察的な方法が用いられ、ほとんどの外科手術、抗生物質やアスピリンから、天然痘の予防接種、麻酔、骨折した骨の固定化、癌を誘発する喫煙など、他の多くの例の中から、RCTが後に必要とされない（そして時に不可能な）こともあった[23]。

結論

無作為化実験では、治療の有効性を特定するために、単に実験を無作為化するだけでは不十分である。無作為化実験には多くの決定と複雑なステップが必要であり、無作為化の前、中、後にそれぞれの仮定とバイアスの程度をもたらす。このレンズを通して見ると、再現性の危機はまた、科学的プロセスが多くの主体（試験設計者、全参加者、データ収集者、実践者/医師、試験統計学者など）が関与する複雑な人間のプロセスであり、試験の設計、実施、分析を行う際に多くのステップで多くの決定を行い、このプロセスではある程度のバイアスが必然的に発生することによって説明できる。試験がある程度のバイアスに直面するということは、実際に試験を実施するためのトレードオフである。そして、あるバイアスに対処することは、時には別のバイアスを導入することを意味することもある（例えば、サンプルをより異質なものにすることは、試験後の結果の有用性を向上させるのに役立つが、試験の推定結果の信頼性を低下させることもある）。

その場合、私たちは常に判断を下さなければならない：偏った研究の結果は、私たちの意思決定に情報を提供するのに十分なものなのか？多くの場合、そうである。しかし、その判断は一般的に、その結果が実際にどの程度有用であるか、また、同じ方法を用いた他の研究や、場合によっては他の方法を用いた他の研究と比較した場合のロバスト性のレベルに依存する。しかし、単一の研究が政策や意思決定のための唯一の権威ある情報源となるべきではない。しかし、一般的には、研究者が体系的に研究を行い、可能な限り各バイアスを低減し、各仮定を満たすことを目指せば、RCT のインパクトはより大きくなるであろう（図 1 に概説）。より広い意味では、研究者が RCT を改善するための教訓は何であろうか？

ジャーナルは、研究者が試験を実施する上で直面した「研究の仮定、バイアス、限界」についての研究の中で、表を追加した独立したセクションを含めることを要求し始めなければならない。各試験は、それによって、 CONSORTガイドラインに記載されている情報を別の表に含めなければならないが、これを大幅に拡張して、無作為化前に参加を拒否した参加者のシェア、特徴、無作為化前に参加を拒否した参加者の理由、完全な用量を服用しなかった、データが不足しているなどの未報告の情報、すべての主要な試験担当者の盲検化状況、主要なアウトカムに影響を及ぼす可能性のある代替（バックグラウンド）要因、本研究を通して議論されているより広範な問題についての情報も必要とするようにしなければならない（図1）。また、エンドラインデータ（ベースラインデータだけではなく）を含む参加者の背景特性と診療所の特徴、参加者のより広範な背景影響因子を含む「結果の適用可能性」に関するより詳細な情報、初期サンプルの正確な作成方法（参加資格基準と診療所の場所だけではなく）と試験結果が明示的に適用される可能性のある人に関するステップバイステップの情報も含める必要がある。これら10のRCTでは、このような重要な情報や特定の仮定、バイアス、限界（表1）がすべて議論されているわけではなく、また、これらの試験のほとんどは、標準化された国際ガイドラインが合意された後に発表されているにもかかわらず、すでにCONSORTガイドラインに記載されているすべての情報が含まれているわけではない[1]。このように、この研究は、研究報告のガイドラインを十分に理解していなかったり、最小ロバスト試験のガイドラインを十分に遵守していなかったりするなど、より広範な問題を浮き彫りにしている。また、最低限の品質基準に適合しておらず、バイアスのかかった結果が得られている多くの注目されている研究が、なぜ高い評価を受け続けているのかという重要な問題も提起している。一方で、このことは、このような仮定、バイアス、限界の大きなセットを反映するために、 CONSORTガイドラインを大幅に拡張しなければならないことを示している。もしジャーナルがこれらの追加の表や情報を要求し始めれば（例えば、文字数制限のためオンラインの補足付録として)研究者はデザイン、実施、評価において試験が直面している問題をより良く検出し、軽減することができるようになり、RCTの改善に役立つことであろう。研究におけるこの本質的な情報がなければ、読者は試験の妥当性や結論を十分に評価することができない。研究者の中には、ここで概説されているバイアスの多くをすでに知っているかもしれないと答える人もいるかもしれない。しかし、そうでなければ、これらの影響力のあるRCTのすべてが、これらのバイアスのいくつかによって、これほどまでに苦しむことはないだろうからである。

研究者は、それぞれの方法が治療の異なる側面についての洞察を提供することができるので、さらに優れた方法を組み合わせる必要がある。これらの方法は、RCT、観察研究、歴史的対照試験から、豊富な単一症例や専門家のコンセンサスに至るまで多岐にわたる。研究者の中には、「たとえバイアスがかかっていても、RCTは他の方法よりも信頼性が高いのではないか」と反論する人もいるかもしれない。私たちが興味を持っているほとんどの質問については、RCT は（上記で概説したように）適用できないため、より信頼性が高いとは言えない。他の方法（観察研究など）は、無作為化を適用できない多くの疑問には必要であるが、時として、試験の設計、結果の解釈と妥当性の確認、治療が有効である可能性のあるより広い条件についての更なる洞察を提供するためにも必要である（前述の理由の中で）。このように、異なる方法は、理解を深める上で補完的（ライバルではなく）なものである。

最後に、無作為化は必ずしもベースラインですべてを均等にするわけではなく、背景にある影響因子のエンドラインの不均衡をコントロールすることはできない。しかし、研究者は試験群間で重要な背景因子のバランスのとれた分布を確保し、エンドラインデータを収集することで試験中の背景因子の変化をコントロールする努力をする必要がある。研究者が、例えばベースラインとエンドラインで参加者の分布を系統的に確認することよりも、コインをひっくり返すことの方が科学的な厳密さと理解に近いという信念を持ち続けるならば、コンピュータベースの無作為化の名の下に科学的な理解が損なわれることになるだろう。

2024年4月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30