大規模無作為化試験-臨床研究への誤ったアプローチ

強調オフ

EBM・RCT

サイトのご利用には利用規約への同意が必要です

Large-scale randomised trials – a misguided approach to clinical research

pubmed.ncbi.nlm.nih.gov/15617882/

James Penston

Scunthorpe General Hospital, Cliff Gardens, Scunthorpe, North Lincolnshire DN15 7BH, UK (スカンスロープ総合病院、コンサルタント医師/消化器病専門家)

2004年9月21日受領 2004年9月21日受理

要約

大規模無作為化試験は、世界中の何百万人もの患者の臨床管理に影響を与えており、治療法を決定する上で最も信頼できる証拠の源であると信じられている。しかし、大規模無作為化試験は、このような称賛に本当に値するのだろうか?

これらの研究を実施する決定は、治療の差が小さいことが予想され、したがって、統計的有意性を得るためには多数の患者が必要であることを意味する。このように治療効果の差が小さいのは、対象に関する知識が限られているため、結果に関して患者の同質的なクラスを形成することができないことが直接の原因である。実際、募集された患者の大部分は、治療にかかわらず結果が得られないという意味で冗長であり、したがって、問題となっている薬剤の有効性の試験に参加することはできなかった。

従来の考え方では、無作為化によって、試験集団の不均一性に起因する問題を十分に解決することができる。しかし、大規模無作為化試験で用いられている因果関係に対する統計的アプローチは、日常の談話や科学的手法に特徴的な因果推論の基本的な特徴を無視しており、内部妥当性に対する多くの潜在的な障害を脇に置いたとしても、信頼できる一般論を提供することはできない。さらに、大規模無作為化試験の結果は、独立した検証を受けることができない。一般的な慢性疾患の長期的な治療から得られる莫大な利益を考えると、研究不正を検出するための満足のいく方法がないことは憂慮すべきことである。

大規模無作為化試験に基づいて治療を受けた患者のうち、何らかの利益を得たのは5%未満である。大規模無作為化試験に基づいて治療を受けた患者のうち、何の利益も得られなかった人は5%未満である。このような研究の外的妥当性が疑われるため、患者のコミュニティ全体に対する治療の利益に基づく議論は弱くなるが、いずれにしても個々の患者の治療を促進するために利用することはできない。興味深いことに、患者に利益の大きさに関する詳細な情報を提供すると、ほとんどの患者が治療を拒否する。このようなわずかな治療効果が個々の患者さんにとって意味があるかどうかは議論の余地があるため、これは驚くべきことではない。

大規模無作為化試験は、臨床研究の金字塔とされている。これはもちろん、大規模無作為化試験の方法論に重大な欠陥があることを示す健全な議論に、強力な既得権者、特に製薬業界が反論していることを反映しているに過ぎない。しかし、遅かれ早かれ、常識が優先されるべきである。

はじめに

大規模無作為化試験は、世界中の何百万人もの患者の臨床管理に影響を与えている。例えば,米国では,スタチン系薬剤だけで人口の5%以上が服用しているが,これはすべてこれらの試験結果に基づいている[1]。そして、王室大学のガイドライン、国立臨床能力評価機構(National Institute of Clinical Excellence)のプロアナウンス、NSFの判決がどんどん増えていくにつれ、米国では、これらの研究結果のみを根拠に、無期限の薬物療法を受ける人が増えてきている。

大規模無作為化試験は、医学研究の「ゴールドスタンダード」であると私たちは常に言われている。その結果は臨床ガイドラインのエビデンス階層の頂点に位置し、薬物療法の有効性を検証する最も信頼できる手段として君臨している。このような研究への忠誠心が広く浸透しているため、批判はほとんど影響を与えない[2-6]。大規模な研究では、個々の患者にはほとんど関係のない小さな治療効果しか得られず、些細な効果を誇張したいという欲求は尽きることがないまま、バンドワゴンは進む

現在、医学研究に関する論争は毎日のように行われており、その多くは新たに発表された大規模無作為化試験に起因している。しかし、このような論争は、特定の研究の詳細に焦点を当てる傾向があるが、方法論自体には異議が唱えられることはない。今こそ、臨床研究の旗印に何か根本的な問題があるのではないかと問いかけるべきではないだろうか。

サイレントマジョリティー

すべての大規模無作為化試験は、その対象に関する知識の限界を暗黙のうちに認めている。多くの意味で、これはこれらの研究に関連するすべての問題が発生する種となる。

大規模無作為化試験は、有効成分とプラセボの間、あるいは2つ以上の競合薬の間で予想される小さな絶対的差に統計的有意性を与えるために選択される。このわずかな差は、通常、対照群の患者のうち少数の患者にのみ転帰が発生し、さもなければ転帰が発生したであろう患者のうち一部の患者にのみ薬が効いたという結果になる。

大規模な試験を行うということは、それ自体が、均質な研究集団、すなわち、無治療のままであればすべての患者が転帰を発症するであろう患者集団を特定するのに十分な知識がないことを示している。代わりに、研究集団は常に異質なものであり、結果の発生を決定する要因、すなわち関連変数の点で患者が異なる。ほとんどの場合、これらは未知である。その結果、大規模無作為化試験に採用されたほとんどの患者は、治療を受けても結果が得られないという意味で冗長であり、したがって、調査中の薬剤の評価には貢献しない。もしリンゴが腐るのを防ぐための新しい技術を研究しているのであれば、研究対象のリンゴの大部分がワックスの模造品であるような状況は避けた方が良いであろう。

研究に関係のない患者を集めることは、研究対象となる現象を明確に把握できなくなり、問題を混乱させるだけである。例えば、治療を受けなければ死んでしまうような患者さんに新薬を投与した場合の効果を知りたい。しかし、このサブグループは研究集団の中に隠れていて、後になってプラセボグループのデータを分析したときに初めて明らかになる。実際、このようなことがなく、最初からサブグループを特定できるのであれば、大規模な研究は必要なく、無作為化も必要ない。しかし、これらのサブグループ、特に治療に関係なく生存しているサイレントマジョリティについては、ほとんど考慮されていない。むしろ、研究集団は全体として捉えられ、サブグループは統合され、その違いはリスクという曖昧な概念の下に隠蔽され、全員が必要性に関わらず治療を受けることになり、製薬会社は大満足する。逆説的に言えば、多数の患者が採用されたことは、客観的に見てもその弱さを証明しているが、これらの研究の強みとして宣伝されている。

大量の患者と無作為化の両方を必要とすることを説明し、科学と多くの臨床研究との間の隔たりを知らせ、大規模無作為化試験の不確かな基盤を提供するのは、健全な背景知識の欠如である。

無作為化の目的は、関連する変数をプラセボ群と実薬群との間で等しく配分することである[7]。しかし,これは話の一部にすぎない.試験開始時に関連変数が等しく分布しているだけでは不十分であり、試験期間中も等しく分布していなければならず、解析中に無作為化が中断されてはならない[8]。これらの条件が満たされていれば、関連変数に関して両群間の唯一の差は、一方がプラセボを投与され、他方が有効な治療を受けることであると結論づけることができる。

十分な無作為化を行うためには、治験責任医師が次に募集される患者の治療計画を知らないことが必要である。割り付けの秘匿に失敗すると、試験開始時に両群が一致しない可能性が残る。しかし、この問題が回避されたとしても、グループ間の差が単に偶然の結果として生じる可能性がある。ベースラインの不均衡は、通常はわずかな程度であるが、絶対的な治療法の差が非常に小さいメガトライアルでは重要となる可能性がある[9,10]。試験が進行すると、例えば、患者の管理方法に群間で差がある場合など、均等に分布していない新たな関連変数が導入された場合には、無作為化が阻害される可能性がある。このような問題は、治療法が隠されている場合には起こりにくい。しかし、二重盲検法にはよく知られた限界があり、不均等に配分された関連変数の導入を防ぐことはできないし、他の役割として、結果の評価におけるバイアスを防ぐこともできない。最後に、無作為化はデータ解析の段階で、脱落者や辞退者の不適切な取り扱いにより中断される可能性がある。しかしながら、これらの方法論的側面に関連する欠陥が無作為化試験の文献では一般的であることを示唆する証拠が数多くある[8]。

しかし,欠陥があることが知られている臨床試験はさておき,すべてが正常に見える場合でも,欠陥が存在しないという保証はない。これらの研究は複雑で、さまざまな場所から収集された膨大な量のデータがあるため、すべてのエラーを除外することは困難である。さらに、大規模試験の場合、これらの欠陥は、報告された治療効果に大きな影響を与えるためには、試験集団のごく一部に影響を与えるだけでよいのだ。

無作為化が成功したと仮定すると、関連する変数がグループ間で均等に分布していることを知ることができるかもしれない。しかし、これらの関連変数のすべてが何であるか、どのように特定するか、また、これらの変数の観点から研究グループがより広い患者集団とどのように関連しているかはわからない。大規模無作為化試験は、それ自体が目的で行われるのではなく、その結果を将来的に他の患者に適用することができるという点に価値がある。しかし、そのためには知識が必要であり、それこそがこれらの試験では提供されないものなのである。無作為化によって達成されるのは、無知が平等に共有されているということである。

欠けている成分

臨床試験の目的は、科学の実験の場合と同様に、原因となる関係を特定することである[8]。無作為化は、因果関係を推論するための準備と考えることができる。無作為化プロセスが成功すれば、2つのグループ間の唯一の違いが治療法の違いであるという状況が作り出される。研究の内的妥当性が推定される場合、つまり、関連する変数の点で両群が等しくマッチしている場合、統計的に有意であれば、結果の差は治療に因果関係があると論理的に導かれるように思われる。しかし、通常の因果関係の概念には、臨床試験の場においても、統計的な差に関する論理的な暗示以上のものがある。

科学、特に、何世紀にもわたって大きな進歩を遂げてきた物理科学とその関連分野は、健全な背景知識と理論から始まる[8]。この文脈では,実験は,関連する変数の点で互いに似ている対象物に対して行われ,影響は,原因がない場合ではなく,原因がある場合に観察される.類似性と規則性というこれらの特性は、信頼できる因果推論の基礎であり[8,11,12]、科学の一般化に自信を持つことができる理由を説明している。これらの一般化は、調査対象となる現象のあらゆる状況に適用可能な普遍的なものであり、個々の状況における正確な予測を可能にし、信頼できる行動基盤を提供するものである。

しかし、因果関係の推論を成功させるための要素は、大規模な無作為化された3つの実験には欠けている。類似性は明らかに見られず、代わりに患者の不均一な集団が存在するだけである。規則性も欠けている。つまり、調査対象となっている現象-非現象の繰り返しの事例が観察されていない。実際、個々の事例は観察されておらず、治療と転帰の間に直接観察されるリンクもない。それどころか、因果関係は治療群間の気づかれない差に還元され、その存在は統計的分析によって明らかにされる。グループ間の数値的な差を観察することはできても、統計的有意性の宣言がなければ何の意味もない。このように、因果関係の判断は、直接観察の場から、統計の世界に移される。ここに問題がある。

日常の臨床現場では、スタチンを投与された患者が心血管イベントで入院する例が多く見られる。このような患者さんでは、明らかに治療は成功していない。一方、スタチンを服用している患者が心血管障害を発症していない場合、治療が成功したとは言えない。なぜならば、治療を行わなくても良好な状態を維持できた可能性が高いからである。このように、治療の失敗は身近なところにあり、成功はどこにも見当たらない。これらの観察結果は、結果に異議を唱えるものではなく、完全に一致している。しかし、これらの観察結果は、大規模臨床試験について多くのことを語っており、特に、薬剤と臨床結果の間の因果関係がやや弱いことを示している。

因果関係の推論は、私たちを取り巻く世界の現象に関わるものである。私たちは、実際に応用できる一般論、つまり個々の事例で信頼できる予測を行うために、因果関係を求める。しかし、大規模無作為化試験では、因果関係が弱くなり、大規模な集団に関する曖昧な一般論になってしまうのは明らかである。

無作為化試験の文脈において、統計的に有意な差があれば、因果関係の存在を主張するのに十分なのだろうか?科学とは全く異なる因果関係の概念であることを認識し、その結果を理解していれば、そのように考えることができるだろう。

意味、重要性、関連性 母集団

統計データはクラスに関連しており、大規模無作為化試験に基づいた薬剤の使用を支持する最も強力な論拠は、その薬剤が広く処方されることで、より広い集団の患者における結果の頻度が大幅に減少するというものである。しかし、この議論は、研究の外的妥当性、言い換えれば、研究結果がより広範な患者集団に適用可能であると結論づける根拠に大きく依存している。しかし、選択基準は、必然的に研究に参加する人としない人の間に違いをもたらし、研究に参加する特定の状況は、日常的な臨床診療の過程で優勢であると想定することはできない[4,5,8]。実際、臨床試験の結果がより多くの患者に適用できるという仮定には根拠がないことが報告されている[8]。

試験に採用された患者と除外された患者との間には常に差があることを考えると、もちろん参加者が無作為に選ばれたのでなければ、大規模試験の外的妥当性には疑問が残る。いずれにしても、たとえ外的妥当性が十分に立証されていたとしても、個人に治療法を処方するかどうかの決定は、より広い集団の利益に基づくものではあり得ない。

個人

大規模無作為化試験の方法論、特に因果関係を推論するための統計的アプローチは、その結果を個々の患者に適用する際にはかなりの困難を伴う [4,5,8]。

大規模試験の結果に基づいて,「もしこの患者がこの薬を飲んでいたら,その人は助かっていただろう」とか,「もしこの患者がこの薬を飲んでいなかったら,その人は助からなかっただろう」と言うことはできない。このように、従来の科学や日常生活における因果関係の概念に欠かせない仮定法や反事実的な条件式がサポートされていないことは、統計的アプローチの限界を示している。特に、個々の患者を対象とした研究の結論がいかに遠いものであるかを示している。この問題は、結果が大多数の患者に当てはまるという確率論に頼って解決することはできない。例えば、薬を投与しなければ死んでいた患者のほとんどが生き延びるということはあり得ない。

大規模無作為化試験は、その性質上、治療効果が小さい。現在、心血管疾患の予防のために使用されている多くの薬剤では、何年も薬を飲み続けて効果が得られた患者は5%未満である[1,8,13]。したがって、以下のような状況になると考えられる。
大規模無作為化試験 95%以上の患者が何の利益も得ずに薬を服用しており、大半の患者は治療に関係なく転帰を発症しないことから、ほとんどの患者がこれらの薬を不必要に服用していることになる。

重要な点は、絶対的な治療効果の差はごくわずかであり、このような結果がいかなる患者の治療をも正当化するかどうかは議論の余地があるということだ。例えば、その患者が、積極的な治療を行わなければ結果が得られないグループに属していたとしても、治療による利益が得られない可能性の方がはるかに高い。このような状況下では、患者が長期治療を拒否することは完全に合理的であり、実際にそのようになっているという証拠がある。

今日では、医師は、患者が自分の管理に関する決定に参加できるように十分な情報を提供することが奨励されている[13-16]。当然のことながら、患者は、絶対に必要な治療でない限り、薬を飲むことを好まず [14,15,17]、大規模無作為化試験で得られるわずかな利益を知らされても、長期治療を受け入れたくないと考えるのは当然のことかもしれない [14,18,19]。例えば、最近の研究では、4分の3の患者が、5年間の有益性が5%未満であれば、予防的な心血管治療薬を服用しないと報告している[20]。このような結果は、患者の嗜好と慢性疾患の管理に関する現行のガイドラインとの間に矛盾があることを示している[14,18,19,21]。しかし、これらはすべて予測可能なことである。臨床研究に没頭している人には説得力のあるデータに見えるかもしれないが、一般の人がこのような情報を疑ってかかるのも無理はない。

曖昧な意味

近年、大規模臨床試験の普及と統計学者の影響により、治療の効果をリスクの低減で表現する傾向が強まっている。これにより、リスクを伝えることの難しさが認識され、そのような情報を説明するための改良された方法が推進されてきた[13,22-24]。しかし,一般的には,リスクの理解に関する問題は,数学的能力の限界という観点から取り上げられてきた。仮に大規模無作為化試験の結果を考えてみると,患者の5年後の死亡率がプラセボ群では8%であったのに対し,実薬群では6%であり,その結果は統計的に有意であった。このようなデータをもとに、5年間の死亡リスクが2%減少したということは、どのような意味を持つのであろうか。この質問には、通常、この割合を「100分の2」や「50分の1」といった別の数学的表現に変換したり、データを簡略化した絵で表現したりして答える。しかし、これらの説明は、パーセンテージの意味を理解していないことが問題である場合にのみ有効である。

しかし、2%のリスク低減の意味については、個々の患者に対するこの推定値の価値、重要性、または妥当性に関する別の解釈が可能だ[5,8]。そして、この問題は、治療に関する患者の意思決定を左右するため、より重要な問題であることは間違いない。しかし、ここには問題がある。自分の病気の5年後の死亡率が6%であることを知らされた患者を考えてみよう。この言葉が患者さんにとってどのような意味を持つかは、患者さんの反応、つまり何を言い、何をするかで決まると思う。しかし、どのような反応であっても、もし彼が死亡率が8%であると言われていたら、何か違っただろうかと考えるのは適切なことではない。2つのエスティメイトに対する彼の反応に違いがあるとはとても思えない。そもそも、その違いをどうやって証明するのか。また、死亡率が6%と言われても8%と言われても差がないのであれば、治療によって死亡率が8%から6%になったと言われる意味はあるのだろうか。

もちろん、重要なのは差の大きさではなく、結果の減少であり、それだけで治療を受け入れる決定を支持するのに十分であると主張することもできる。しかし、この主張は、リスクの減少がどんなに小さくても治療を支持することに同意しなければ維持できない。しかし、死亡率が0.8%から0.6%に減少したからといって、長期的な投薬を正当化すると考える人はほとんどいないであろう。リスクの減少は、その減少の大きさを考慮することなく、それだけで治療を支持することはできない。しかし、そうであるならば、小さな治療差の意味という問題に立ち戻らざるを得ず、そのような小さな治療差が個々の患者さんにとってどのような意味を持つと言えるのか、決して明確ではない。

大規模無作為化試験の方法論が正しいと仮定しても、報告された利益は些細なものであり、はっきり言って無意味である。いずれにしても、これらの研究の方法論が健全であることを証明する必要がある。

信念の問題

大規模無作為化試験の方法論が健全であることをどのようにして知ることができるか?この種の特定の研究の結果が有効であることをどうやって知ることができるであろうか?このような疑問を科学に投げかけることを想像してみてほしい。科学的手法の成功は、私たちの周りのいたるところで見られる。例えば、飛行機を作ったり、安全に離着陸させるためには、膨大な数の一般論が信頼できるものでなければならない。そして、ある一般論の場合は、個々の事例で検証し、その有効性を示すことができる。これは科学的な最先端の行動であり、普遍的な一般化を確実に行う方法論の能力を示す紛れもない証拠である。

しかし、大規模無作為化試験の方法論が有効であるという証拠はどこにあるのであろうか?また、その結果が信頼できるものであると、どうやって確信できるのであろうか。これらの研究が科学とは異なるものであることを考えると[4,5,8]、独立してその有効性を証明しなければならない。しかし,具体的にはどのようにしてそれを達成すればよいのであろうか。患者を治療した個々の事例を参照し、その結果が大規模試験の結果と一致していることを観察することではできない。また、わずかな違いを確認するのに必要な数を確保できないため、日常的な臨床診療の過程で患者グループを観察することもできない。

科学的方法の重要な特徴であり、あらゆる科学的進歩の妥当性を最終的に決定する複製は、元の実験条件の正確な再現を可能にする材料と方法の事前の明確な定義に依存しており、その結果、他の人が初期の発見の妥当性を検証することができる [8]。しかし,大規模無作為化試験の場合,必然的に不正確な記述が必要となるため,再現することはできない。他の類似した研究についてはどうであろうか?確かに、元の知見を確認できるかもしれない。しかし、ある研究が過去の研究と矛盾する場合、後者の著者は、2つの研究の状況が異なるため、元の研究の結果がより最近の発見によって無効になることはないと主張する。そして,ある研究が他の研究に反論できないのであれば,他の研究を確認することもできない。なぜなら,反論された研究に対する論拠は,確認された研究にも同様に適用されるからだ[25,26]。また,同様のことが成立するため,大規模臨床試験の結果を確認するために,医薬品の普及に関連した疫学研究を利用できるという議論も成り立たない。

大規模無作為化試験の方法論に関する多くの疑問を考えると、その結果の独立した確認がないことは実質的な弱点である。これは、結果の妥当性を受け入れることは、単に信じることの問題でしかないということだ。これでは、エビデンスに基づく医療はどうなるのであろうか。

しかし,確証がないということは,結果の妥当性に疑問を残すだけでなく,研究不正の発見を妨げることにもなる[8].大規模無作為化試験は,通常,一般的な慢性疾患に関するものであり,したがって,何百万人もの患者の長期的な治療を伴うものである.そのため,成功した医薬品から得られる潜在的な利益は莫大なものとなる.これらの試験は、結果に利害関係のある企業、すなわち製薬会社が資金を提供することが多い。製薬会社は、研究機関や研究者を選び、その多くが製薬会社と金銭的なつながりを持っており、データの収集や分析を行うこともある。結果に疑問を投げかけるような臨床観察もなく、再現性にも問題がないため、データは揺るぎないものとなっている。動機、機会、そして研究不正が発見されないという保証-サイバー専門家はこのような状況を不正のための肥沃な土壌と見なすかもしれないが、それ以外の人は少なくともこの可能性について懸念すべきである[8]。

大規模無作為化試験の黄昏の世界

約40年前、Bradford Hillは、臨床的妥当性を犠牲にして統計に魅了されることを警告した[27]。残念なことに,医学界はその忠告に耳を傾けていない。そのため、結果が望ましい統計的有意性のレベルに達しないと、より大規模な試験を求める声が聞こえるが、期待されたベネフィットは沈黙のうちに無に帰してしまう。臨床研究者は、不毛な海を漁った後、何度も網の目を小さくして、最後にはプランクトンを捕らえて凱旋する漁師のようなものだ。ここが重要なポイントである。大規模無作為化試験の結果が大げさに賞賛されていても、個々の患者の生活にはほとんど変化がない。

私たちは、大規模無作為化試験の黄昏の世界へと誘われ、治療効果の単なる影のようなものに囲まれている。それは、欠陥のある、疑似科学的な方法論の世界であり、統計的に不完全な霧でぼやけていて、疑わしい主張が存在しない状態になっているのである。

大規模無作為化試験では、その有効性に異議を唱えるための有効な手段が存在しない。このような世界は、これまで医学界に多くの真の革新をもたらしてきた科学者や臨床研究者よりも、ヤブ医者や偽医者に適しているのである。

もちろん、このような批判は、大規模無作為化試験の方法論に洗脳されている人々や、大学の研究部門から製薬業界まで、そのような研究の結果に既得権を持つ人々、さらには、エビデンスに基づく医療の構造を守りたい人々には受け入れられないであろう [3,8]。しかし,患者の利益を第一に考える人,希少な医療資源の浪費を避けたい人,医学研究の完全性を維持し,最新の「奇跡の治療法」に関する絶え間ない論争から解放されたい人は,大規模無作為化試験に夢中になっている現在の状況を再評価する時期が来ていることに同意するであろう。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー