身体疾患に対する治療法の無作為化比較試験における除外率:システマティックレビュー

強調オフ

EBM・RCT

サイトのご利用には利用規約への同意が必要です

Exclusion rates in randomized controlled trials of treatments for physical conditions: a systematic review

pubmed.ncbi.nlm.nih.gov/32102686/

公開日:2020年2月26日

Jinzhang He, Daniel R. Morales & Bruce Guthrie
Trials volume 21, Article number: 228 (2020) Cite this article

概要

背景

無作為化比較試験(RCT)の一般化は、除外基準の影響がほとんど定量化されていないため、不確実な場合がある。本研究の目的は、身体的健康状態を有する臨床集団のうち、その状態に対する治療法のRCTで除外される人の割合を調べた研究を系統的にレビューすることであった。

方法

MedlineとEmbaseを開始から 2018年2月11日まで検索した。2人の査読者が、スクリーニング、フルテキストレビュー、データ抽出、Risk-of-Bias評価を独立して行った。主要評価項目は、調査した各試験から除外されたであろう臨床集団の患者の割合とした。サブグループ解析では、集団設定、発表日、資金源による除外を検討した。

結果

タイトル/要旨(20,754件)がスクリーニングされ、31の身体疾患の治療に関する305の試験から除外された率を報告した50の研究が含まれた。試験の除外率の推定値は0%から100%で、除外率の中央値は77.1%だった(四分位範囲55.5%から89.0%)。高血圧症83.0%、2型糖尿病81.7%、慢性閉塞性肺疾患84.3%、喘息96.0%など、一般的な慢性疾患を対象とした試験の除外率の中央値は高かった。最も一般的に適用された除外基準は、年齢、併存疾患、共同処方に関するもので、寿命や機能的状態に関するより暗黙的な基準は一般的に検討されなかった。除外基準を評価した臨床集団の性質や試験の資金源によって、除外基準が異なるという証拠はなかった。また、最近の試験と古い試験を比較しても、除外率に統計的に有意な変化は見られなかった。

結論

身体疾患の治療法に関する試験の大半は、治療対象となる疾患を持つ患者の大部分を除外していた。調査した試験のほぼ4分の1が90%以上の患者を除外し、半数以上の試験が少なくとも4分の3の患者を除外し、5つの試験のうち4つが少なくとも半分の患者を除外した。ほとんどの試験が適格基準の一部しか適用していないため、除外率は過小評価されている可能性が高いという限界がある。人口の高齢化と多臓器不全の増加を考えると、高齢者や併存疾患のある人を試験から除外することは、ますます受け入れがたいものとなっている。

背景

無作為化比較試験(RCT)は、治療法の有効性を評価するためのゴールドスタンダードな方法である。なぜなら、RCTはよくデザインされており、バイアスや交絡を最小限に抑えることができるからである。RCTは、バイアスや交絡を最小限に抑えることができるため、内的妥当性が高く、研究対象となった試験集団において結果が真実であることを確信することができる。しかし、試験集団は高度に選択されていることが多く、その結果が臨床現場のすべての患者に当てはまるかどうかが不確かであるという意味で、RCTの証拠の一般化可能性が弱くなる可能性がある[1, 2]。RCTからの除外が正当化される場合もある(例えば、ある人が薬にアレルギーがある場合など)。しかし、Van Spallらは、1994年から 2006年の間に影響力の大きい一般医学雑誌に掲載された臨床試験の84.1%は、患者の除外基準の正当性が不十分であったと推定している[3]。

多くの研究では、治療効果を測定する様々なブレイクスルーRCTは、その多くがガイドラインの推奨を支え、規制当局の意思決定に影響を与えているが、治療を受けている状態の人々の大部分を除外していることが示されている[4, 5]。高齢者、女性、併存疾患のある人や共同処方を受けている人は、明らかに試験から除外されている[3, 6, 7]。新しい試験では、女性や高齢者がより多く参加していることを示す証拠がいくつかあるが、幅広い人口と比較すると、依然として十分ではない[7]。このような除外のパターンは、現在および将来の臨床現場の現実を表していない。どのような慢性疾患であっても、ほとんどの人は併存症を抱えており、高齢者では多臓器不全が当たり前になっている[8, 9]。そのため、日常診療においてガイドラインで推奨されている治療は、RCTのエビデンスから大幅に外挿する必要があることが多く[10, 11]、厳格なRCTの適格性基準は、日常診療で見られる臨床集団とは大きく異なる試験集団をもたらすことになる[12, 13]。

厳格なRCT適格性基準が、RCTから得られたエビデンスを一般化する際に引き起こす問題はよく知られている[14, 15]。しかし,異なる条件で治療効果を評価した試験で,臨床現場で見られ,治療されている患者がどの程度除外されているかは不明である。本研究の目的は、慢性的な身体疾患を持つ人のうち、その疾患の治療に関するRCTで除外される人の割合を推定した研究のシステマティックレビューを行い、除外率が疾患ごと、臨床集団ごと、時系列でどのように変化するかを検討することであった。

方法

検索方法

MedlineおよびEmbaseデータベースを 2018年2月11日まで検索し、身体疾患を持つ「臨床」集団の中で、その疾患に対する治療を目的とした1つ以上の試験から除外されたであろう人々の割合を比較したすべての研究について、システマティックレビューを実施した。検索戦略の詳細はAdditional file 1に記載されている。

対象となる基準

定義された臨床集団の中で、慢性的な身体疾患を持つ人々のうち、その疾患に対する個々の患者の治療(薬物療法、手術、その他の非薬理学的介入を含む)に関する1つ以上の選択されたRCTに適格であったであろう人々の割合を明示的に調べた発表された研究を対象とした。対象となる臨床集団は、その設定やサンプリング方法に制限はなく、プライマリーケアやスペシャリストケアの臨床現場で診察を受けている非選択的な患者、臨床・研究登録の患者、またはこれらの現場で特定・募集された研究コホートのいずれでも可能であった。ただし、特定の試験からの除外を検討するために使用した臨床集団の適切性は、バイアスのリスク評価の一環として検討された。

除外基準

精神疾患を対象とした試験の適格性を検討した研究、英語で発表されていない研究、試験に適格な患者の割合を明示的に報告していない研究、または利用可能なデータから適格な患者の割合を算出できない研究(例:基礎となる臨床集団における除外を検討せずに、リクルートした患者とリクルートしていない患者を比較した研究)仮想の試験の適格性を検討した研究、または単一の試験の実際の除外基準を使用せずに、複数の試験の共通の除外基準を適用した研究を除外した。また、非常に小さな臨床集団における除外率の推定値は不正確である可能性が高いため、100人未満の患者を含む臨床集団で適格性を算出した研究も除外した。

研究の選択

すべてのタイトルと要旨を2人の審査員が独立して審査し、フルテキストレビューを行う論文を特定した。全文レビューとデータ抽出は,公表されているプロトコル[16]に基づいて2名の査読者が独立して行い,意見の相違があった場合には,合意を得るために話し合いで解決した。

データ抽出と品質評価

データ抽出は最低2名の査読者が行い,必要に応じて3名目の査読者を加え,意見の相違は話し合いで解決して合意に達した。各研究で抽出されたデータには、対象となる疾患と比較対象となる臨床集団の説明が含まれていた。これには、臨床集団データセットの目的(臨床登録データや電子カルテデータなど)医療現場と場所、臨床集団の募集または特定の日付、臨床集団の規模、臨床集団を定義するために使用した診断基準などが含まれていた。これらのデータは、臨床集団の全体的な妥当性に関するバイアスの評価を行うために使用された。各研究で検討された基礎的な試験について抽出されたデータには、検討された試験の選択の理由、試験における介入または治療の種類、除外率を推定するために各臨床集団に適用された(または適用されなかった)試験の適格性基準、および試験の資金源(製薬会社と非製薬会社)が含まれていた。

抽出された主要な結果は、調査された各試験で除外されたであろう臨床集団の患者の割合と、この割合の95%信頼区間(CI)の報告であった(著者からの報告がない場合は計算された)。

リスクオブバイアスの評価
調査した研究の種類を評価するためのRisk-of-Biasツールは公表されていない。そこで,事前に規定した3つのRisk-of-Bias基準を作成し,それを2人の審査官が独立して評価した。

1)レビューした論文がどのように試験を選択したか。試験選択のための系統的なアプローチ(例:系統的な文献検索)や、試験選択の正当性が明確に述べられているかどうか、またその正当性が適切であると判断されるかどうかを評価した。試験の選択理由が明確に述べられており、正当性があると判断された場合は、バイアスのリスクが低いと判断し、そうでない場合は、バイアスのリスクが高いと判断した。

2)臨床試験と臨床集団の組み合わせの妥当性 各試験と臨床集団の組み合わせの適切性は、臨床集団が、試験で評価された治療が意図された、あるいは適した集団をどれだけ適切に表現しているかという点で評価された。例えば、長期治療として使用されるβ遮断薬やアンジオテンシン変換酵素阻害薬の試験には、心不全患者のプライマリーケアの集団が適切であり[4]、一方、急性期の逆流性心不全の治療に関する試験には、救急部の集団が適切である[17]。臨床集団が,試験の治療が意図されている,あるいは適応されている実世界の集団を代表していると判断された場合には,偏りのリスクが低いとされ,臨床集団が,試験の治療が意図されている,あるいは適応されている実世界の集団を代表していないと判断された場合には,偏りのリスクが高いとされ,評価のための情報が不十分であった場合には,偏りのリスクが不明であるとされた。

3)審査する試験の適格性基準の選択。試験の適格性基準の選択は、記載された基準を適用した場合と適用しなかった場合との関係で評価した。述べられた基準に関連して評価された試験適格性基準の選択について、重要または共通の基準がすべて適用されたことが明確に述べられている研究は、バイアスのリスクが低いと判断され、そうでない研究はバイアスのリスクが高いと判断された。

データの統合と分析

いくつかの試験は、複数の臨床集団で評価された。このような場合、除外された患者の割合を最も保守的に見積もるために、患者の割合が最も少ない臨床試験と臨床集団のペアを選択して解析を行った。残りの臨床試験対について、主要な結果(各試験で除外された臨床集団の推定割合)の全体の中央値、範囲、四分位範囲を算出し、条件グループ(心血管疾患、糖尿病、呼吸器疾患、癌、関節リウマチ(RA)ヒト免疫不全ウイルス(HIV)その他の疾患)と個々の条件について繰り返した。さらに、線形回帰法を用いて、各試験で除外された割合の未調整および調整済みの違いを、臨床集団がプライマリケアから募集されたか専門家から募集されたか、試験が公的資金で実施されたか企業資金で実施されたか、試験の発表日(発表日の四分位にグループ分けされ、各グループで同数の試験が実施された)に関連して調べた。1994年~1999年 2000年~2003,2004年~2011,2012年~2018年)およびバイアスのリスク評価(バイアスのリスクが低いvs.バイアスのリスクが高いor不明瞭)を行った。

試験結果

研究の特徴

検索の結果、21,885件の論文が同定され、さらに含まれる研究の参考文献の調査など、他の情報源から18件が同定された。重複していない文書(20,754件)をスクリーニングし、222件のフルテキスト論文を調べた。57の異なる臨床集団における試験の適格性を検討した50の研究が含まれた(図1)。調査された臨床集団のうち20は、プライマリケアまたはコミュニティのサンプルで、電子的な臨床データセットに由来するものが7,臨床登録が3,研究登録が5,調査に由来するものが5であった。調査した臨床集団のうち37人は専門家のサンプルであった。様々な種類のレコードレビューから得られたものが19件、臨床登録が4件、研究登録が14件であった。対象となった50件の研究と57の参照臨床集団すべての特徴を補足表S1に示した。この50件の研究は、305件の試験で除外されたであろう基準臨床集団の割合に関するデータを提供した。これらの研究で検討されたすべての試験の特徴を補足表S2,S3,S4,S5,S6,S7,S8,S9,S10,S11,S12,S13,S14,S15,S16に示した。50件の研究で検討された試験のうち、81件(26.6%)が1994~1999年、78件(25.6%)が2000~2003,75件(24.6%)が2004~2011,67件(22.0%)が2012~2018年に発表された。75件(24.6%)の試験は公的資金によるもので、203件(66.6%)は産業界によるもので、27件(8.9%)は資金源を記録していなかった。収録された研究では、31の身体疾患(心血管疾患7,糖尿病3,呼吸器疾患3,がん8種類、RA、HIV感染症、その他8つの疾患)を対象に試験除外を検討しており(表1)試行されている治療法にはかなりの異質性があった(補足表S2)。調査した試験では、RA(51試験、16.7%)慢性閉塞性肺疾患(COPD)(51試験、16.7%)HIV感染(31試験、10.2%)心不全(25試験、8.2%)高血圧(22試験、7.2%)の治療法を評価するものが最も多かった。

図1 識別、スクリーニング、適格性評価のフロー図

figure1

表1 研究対象となった疾患別に除外された臨床集団の割合
試行回数 除外されたパーセンテージの中央値(除外された範囲)a
すべての条件 305 77.1(0.0から100.0)
心血管疾患 81 74.7(1.6〜98.8)
 心不全 25 65.0(18.8〜92.0)
 高血圧 22 83.0(1.6〜98.8)
 脳卒中/一過性脳虚血発作 21 83.6(33.2から98.4)
 心房細動 4 34.9(32.3から41.2)
 冠状動脈性心臓病 4 53.1(2.8から84.5)
 一次予防のための脂質低下 4 85.9(69.7から89.1)
 心筋梗塞の二次予防 1 76.8
糖尿病 16 88.1(29.8から99.0)
 2型糖尿病 7 81.7(49.3から96.5)
 糖尿病性潰瘍 7 93.3(29.8から99.0)
 1型糖尿病 2 91.6(87.5から95.6)
呼吸器疾患 78 89.4(42.4から100.0)
 COPD 51 84.3(42.4から100.0)
 喘息 17 96.0(64.0〜100.0)
 気管支拡張症 10 80.1(49.0〜93.0)
24 56.6(13.6から81.2)
 乳癌 12 56.6(28.9から81.2)
 肺癌 3 71.4(65.4から71.9)
 腎がん 3 13.6(13.6から48.5)
 結腸直腸がん 2 66.7(65.7から67.6)
 膀胱がん 1 45.3
 胃癌 1 41.3
 リンパ腫 1 70.4
 前立腺がん 1 57.1
関節リウマチ 51 84.0(56.0から98.7)
HIV感染 32 42.0(0.0〜67.6)
その他の条件 23 58.3(23.7から88.9)
 静脈血栓塞栓症の予防 9 41.5(23.7から78.8)
 静脈性潰瘍 7 83.6(58.3から88.9)
 脳損傷 2 40.5(35.9から45.0)
 褥瘡 1 34.7
 アルツハイマー病 1 86.5
 線維筋痛症 1 52.1
 過敏性腸症候群 1 73.1
 切開ヘルニア 1 62.5
  1. 略語COPD慢性閉塞性肺疾患、HIVヒト免疫不全ウイルス
  2. a試験と臨床の母集団の比較が1つしかない場合、報告された数値はその比較の値である。2つある場合、報告される中央値は2つの中間値である。

試験から除外された臨床対象者の割合

305件の臨床試験において、除外された患者の割合の中央値は77.1%(範囲0~100%)であり、HIV臨床試験の中央値42.0%から呼吸器臨床試験の中央値89.4%まで様々であった(表1,図2)。除外された患者数が25%未満の試験は16件(5.2%)のみで、75%以上の試験は159件(52.1%)であった。単一条件では、心房細動を対象とした試験で除外された患者数が最も少なく(中央値34.9%、範囲32.3〜41.2%)喘息を対象とした試験では除外された患者数が最も多かった(中央値96.0%、範囲64.0〜100%)。注目すべきは、最も一般的な慢性疾患の除外率が高く、高血圧症83.0%、一次予防における脂質低下薬85.9%、2型糖尿病81.7%、COPD 84.3%、喘息96.0%などであった。

図2 調査対象となった臨床集団で除外された割合が高い順にランキングされた試験

 

除外率を推定するために研究で使用された組み入れ基準と除外基準

174件(57.4%)の試験では、臨床集団における除外率を決定するために、どのような適格性基準を用いたかが明示されていた。最も多く報告された除外率を決定するための適格基準は、142試験(報告された試験の81.4%)で疾患の重症度であり、重症度の高い患者やコントロールが不十分な患者を選択することが最も多かった。併存疾患は、119試験(68.4%)で除外率を決定するために使用されたと報告されている。通常は除外基準として使用されるが(117試験[67.2%])時には組み入れ基準として使用されることもある(14試験[8.0%]、例えば、糖尿病と心房細動の試験では、心血管疾患のリスクが高い患者を選択するために使用された)。年齢は、86件(49.4%)の試験で、臨床集団における除外率を決定するために使用されたと報告された。最も多かったのは、適格性の上限年齢を使用したもので、56件(32.2%)の試験では、限られた余命や治療に従えないなどの他の基準を使用していた。

疾患の種類による違い

HIVの試験では、さまざまな疾患の中で除外される患者の割合が最も低かった(平均38.4%、95%CI 31.4~45.5)(表2)。調整前の解析では、HIV試験と比較して他のすべての疾患で統計的に有意に除外率が高く、がん試験では15.6%、心血管試験では31.8%、呼吸器試験では36.6%、RA試験では44.6%、糖尿病試験では42.4%の患者が除外されていた。他のすべての変数で調整すると、HIV試験と比較して、異なる条件の試験で除外された患者の割合に有意な差があり、がん試験では20.4%(95%CI 8.8~48.4)心血管試験では34.0%(95%CI 24.0~44.0)呼吸器試験では43.1%(95%CI 31.9~54.4)RA試験では43.9%(95%CI 33.4~54.4)糖尿病試験では46.8%(95%CI 31.1~62.6)多くの患者が除外されたという結果になった。

表2 試験の特徴による除外率
変数(試行回数) 未調整係数(95%CI)a P 調整済み係数(95%CI)a P
状態
 HIV感染(n  = 32) 参照 参照
 がん(n  = 24) 15.6(5.0〜26.2) <0.001 20.4(8.8〜32.0) <0.001
 心血管(n  = 81) 31.8(23.8から39.7) 0.003 34.0(24.0から44.0) <0.001
 呼吸器(n  = 78) 36.6(27.8から45.3) <0.001 43.1(31.9から54.2) <0.001
 関節リウマチ(n  = 51) 44.6(36.9から52.2) <0.001 43.9(33.4から54.4) <0.001
 糖尿病(n  = 16) 42.4(28.2から56.7) <0.001 46.8(31.1から62.6) <0.001
 その他の条件(n  = 23) 19.5(9.2から29.8) <0.001 25.0(12.2から37.8) <0.001
治験資金源b
 パブリック(n  = 75) 参照 参照
 業界(n  = 203) 15.7(9.6から21.7) <0.001 −4.7(−11.0〜1.6) 0.1
臨床集団設定の比較
 プライマリケア(n  = 198) 参照 参照
 スペシャリストケア(n  = 107) −6.2(−11.7〜−0.6) 0.03 −3.0(−9.0〜3.0) 0.3
試用版の発行年
 1994–1999(n  = 81) 参照 参照
 2000〜2003(n  = 78) −4.0(−11.4〜3.3) 0.28 −4.7(−10.8〜1.4) 0.1
 2004〜2011(n  = 75) − 1.1(−8.6〜6.3) 0.76 − 6.2(-13.1〜0.7) 0.08
 2012〜2018(n  = 71) −0.3(−7.4〜7.9) 0.95 −6.5(−13.8〜0.7) 0.08
バイアスのリスク
 低(n  = 126) 参照 参照
 高/不明確(n  = 179) 17.2(12.2から22.2) <0.001 9.2(3.5から14.8) 0.002
  1. 略語CI信頼区間、HIVヒト免疫不全ウイルス
  2. a係数は、参照と比較した各カテゴリの除外のパーセンテージポイントの差として解釈される
  3. b27件の試験で資金源が報告されなかった

資金源、臨床集団、試験の発表日によるばらつき

公的資金で実施された試験では、平均58.2%の患者が除外され(95%CI 52.3~64.1)業界資金で実施された試験では、調整前の解析で15.7%(95%CI 9.6~21.7)多く除外されていたが、調整後には統計的に有意な差は認められなかった(差-4.7%、95%CI -11.0~1.6)。臨床集団がプライマリケアで募集された研究では、平均72.2%(95%CI 69.0~75.5)が除外された。未調整の分析では、臨床集団が専門家の医療機関で募集された研究では、除外された患者数が6.2%(95%CI -11.7~-0.6)多かったが、調整後には統計的に有意な差はなかった(差-3.0%、95%CI -9.0~3.0)。1994~1999年に発表された試験では、平均して71.0%の患者が除外されていた(95%CI 65.6~76.5)。これは、調整前の解析では、それ以降の期間でも変わらなかった。調整後の解析では、最近になって除外された人が少なくなったことで推定差が大きくなったが、差は有意ではないままであった(2012~2018年の差を1194~1999年の差と比較すると-6.5%(95%CI -13.8~0.7,P = 0.08))。

バイアスのリスク

バイアスのリスク評価では、試験除外率の推定値のうち126件(41.3%)がバイアスの低リスク、104件(34.1%)が高リスク、75件(24.6%)が不明確と評価された。バイアスのリスクが高いと判断された主な要因は、比較に用いられた臨床集団が治験対象の治療法に適していないと判断されたことであった(補足表S17およびS18)。バイアスのリスクが低い比較試験は、除外率が有意に低かった(表2)。低リスクの研究では、平均して59.9%(95%CI 55.7~64.1)の患者が除外され、バイアスのリスクが高い/不明瞭と評価された研究では、17.2%多くの患者が除外された(95%CI 12.2~22.2)。他の特性を調整した結果、バイアスのリスクが高い/不明と評価された試験では、9.2%多くの患者が除外された(95%CI 3.5~14.8)。

複数の臨床集団で除外率が推定された試験

38件の試験が2つ以上の臨床集団で検討され(表3)30件がRAの治療に関する試験であった。9つのRA試験の除外率は、それぞれ3つの臨床集団で推定されたが[18]、残りの21試験の除外率は2つの臨床集団で推定された[19]。3つの臨床集団で検討された9つの試験では、推定除外率は、RAIN(Rheumatoid Arthritis Investigators’ Network)データベース(中央値89.6%、範囲74.7~91.6%)およびNational Register for Biologic Treatmentコホート(中央値80.0%、範囲56.0~92.4%)と比較して、VARA(Veterans’ Affairs Rheumatoid Arthritis)コホートではすべての比較対象で高かった。残りの21試験では、すべての比較対象における推定除外率は、VARA(中央値97.4%、範囲72.7~99.1%)の方がRAIN(中央値89.0%、範囲64.9~93.5%)よりも高かった。このような違いは、登録機関ごとに収集されるデータの違いや、対象となる臨床集団の違い(例えば、VARAは男性退役軍人が多いのに対し、RAINはリウマチクリニックに通う患者の中からあまり選ばれていない集団)から予想される[20]。他の疾患(心房細動、心不全、急性心筋梗塞、COPD)に対する治療法を複数の臨床集団で検討した試験では、その差はより多様で、時に大きくなるが、バイアスのリスクや臨床集団の性質に関連して説明できる一貫したパターンはなかった(表3)。

表3 同一の試験を複数の臨床集団で実施した場合の知見の一貫性

 

考察

エビデンスのまとめ

本研究では、身体疾患の治療に関する305の臨床試験において、臨床集団における推定除外率を調べた。調査した試験のほぼ4分の1が90%以上の患者を除外し、半数以上の試験が75%以上の患者を除外し、5つの試験のうち4つが50%以上の患者を除外していた。除外率は研究対象となる疾患によって異なるが、除外率を評価するためにプライマリケアとスペシャリストケアの臨床集団を用いた研究や、公的資金と産業界の資金を得て実施された試験では、除外率に差はなかった。また、除外率が時系列で変化しているという強い証拠はなかった。3分の1の研究はバイアスのリスクが高かったが、これは使用した臨床集団が調査した試験に適していなかったことが主な理由であり、さらに4分の1の研究はバイアスのリスクが不明確であった。除外率が低かったのはバイアスのリスクが低い研究で、除外率の中央値は60.8%であったが、バイアスのリスクが低い研究の3分の2は50%以上、3分の1は75%以上の患者を除外していた。

強みと限界

本研究の強みは、感度を最大限に高めるために意図的に幅広い検索戦略を用いて、基礎となる文献を特定して調査するという体系的なアプローチにある。しかし、調査した文献の性質と、そのような研究の明確な報告基準がないことから、いくつかの研究が特定されなかった可能性がある。このような状況にもかかわらず、57の臨床集団における305の試験の推定除外率が含まれていた。重要な観察点は、調査した研究がさまざまな点で異質であったことである。対象とした研究は、比較する試験の選択方法、臨床集団の選択、適用した試験の除外基準などが異なっていた。除外率のばらつきの一部は、このような選択を反映していると思われるが、対象となった研究では、このような選択が必ずしも明確ではなかった。これは、このような研究を実施するための明確な基準がないことと関係があるかもしれない。さらに、一般的な疾患に対する不正確な推定値を避けるために、患者数が100人未満の比較を除外したことも限界である(実際には、結果的に2件の研究しか除外されなかった)。最後に、対象とした研究のほとんどは、対象基準の一部のみを適用している。最も一般的なのは、年齢、併存疾患、共同処方であるが、これらは電子カルテや臨床・研究登録から抽出したコード化されたデータに容易に適用できるためである。これは、電子カルテや臨床・研究登録から抽出されたコード化されたデータに容易に適用できるからである。検討されていない明示的な基準や、臨床試験の募集には研究者による暗黙的な基準(虚弱体質の有無や、個人が臨床試験の手順を守る可能性があると思われるかどうかなど)の適用も含まれるため、真の除外率はここで報告されているよりもさらに高い可能性がある。

他の文献との比較

除外基準や組み入れ基準は、臨床試験の発表では必ずしも明確に報告されていない。例えば、一流誌に掲載された255件のがんのRCTの56%は、プロトコルに記載された適格性基準と結果を報告する論文に記載された適格性基準との間に不一致があり、これらの不一致の96.7%は、試験の対象者が実際よりも広かったことを示唆している[21]。Van Spallらは、1994年から 2006年にインパクトのある雑誌に掲載されたRCTを調査したところ、調査した283件の試験の大部分で、共同罹患率、年齢、共同処方が除外基準として用いられており、通常は明確な正当性はなかった[3]。また、影響力の大きい4つの一般医学雑誌に掲載された4341本のRCTを対象とした研究では、29%が対象年齢の上限を設定していたが、明示的に正当化されることはほとんどなかった。年齢上限を設けた試験の割合は1998年から 2015年の間に幾分減少したものの、時間経過による絶対的な変化は小さく[22] 2012年に発表されたRCTのうち、高齢者を対象に特別に実施されたものはわずか7%であった[23]。2014年にClinicalTrials.govに登録された10の一般的な疾患に対する319の進行中のRCTのうち、79%が一般的な併存疾患を持つ患者を除外していた[24]。個々の疾患における試験の研究でも、同様の結果が得られている。2010~2012年に発表された心血管疾患の二次予防に関するRCT112件のうち、適用された除外基準を正当化したのは1件のみであった[25]。2型糖尿病のRCTでは、3分の2が対象年齢の上限を設けており、4分の3がさまざまな併存疾患を除外しており、高齢者を対象としたRCTは440件中1.4%しかなかった[26]。しかし、この文献では、我々がここで行ったように、組み入れ基準と除外基準が適格性に与える影響を定量化していない。

政策、実践、研究への影響

試験からの患者の除外が問題となるのは、除外基準が治療の効果修飾因子である場合のみであり [27] 、つまり、治療の有益性または有害性(またはその両方)が、除外された者と除外された者とで系統的に異なる場合である。このレビューでは、臨床試験のエビデンスは通常、治療によって改善が期待されるアウトカムのリスクが高くなるように選択され(例えば、心血管リスクの高い患者を選択的に含めることによって)副作用のリスクが低くなるように選択される(例えば、併存疾患、共同処方、虚弱体質の患者を選択的に除外することによって)狭い集団から得られることがわかった。

そのため、ガイドライン作成者、薬事規制当局、臨床医のすべてが、有益性と有害性がもっともらしく異なる可能性のある除外された臨床集団にRCTの結果を外挿するという問題に直面している。単純な外挿には、治療の有益性と有害性が対象となる集団と除外される集団で同様であるという仮定が必要である [28]。これはしばしば合理的であるが、そのような仮定が常に正しいとは限らない。例えば、慢性腎臓病の末期腎不全(ESRD)を予防するためにアンジオテンシン変換酵素阻害剤を約3年間使用する場合、試験から得られた推定治療必要数(NNT)は9~25である。臨床集団におけるESRDを予防するための推定NNTは、試験集団で観察されたよりもESRDのベースラインリスクが低く、競合する死亡率のリスクが高いため、100を超えている[29]。また、治療による副作用や有害性は、通常、虚弱体質やポリファーマシーのある人で高くなり[30]、年齢とともに増加する。例えば、75歳以上の患者が脳血管イベント後にアスピリンを使用すると、若年層の患者と比較して、致命的な出血が5倍に増加する[31]。このように、治療効果が試験と臨床の集団で類似していても、全体的な純利益は異なる可能性がある。

内的妥当性に注意を払うことで、臨床試験のエビデンスとそのシステマティック・シンセシスの質は向上したが、一般化可能性と適用可能性については、通常、あまり明確に考慮されていない[32]。システマティックレビューでは、エビデンスの適用性について常に議論すべきであるという推奨にもかかわらず、実際に議論しているのはわずかである[34]。高度に選択された集団を対象とした有効性試験には依然として明確な役割があるが、そのような試験を選択することは、除外された集団では正味の利益が異なる可能性があるという懸念を、試験担当者が事実上宣言することでもある。治療法の安全性と有効性についてほとんど知られていない場合、初期段階の臨床試験の適格性基準をより厳しくすることは適切かもしれないが、後続の試験ではより多様な集団を登録する(または初期の有効性の結果に応じてより広範な集団を含むように適応的に登録する)ことで、恩恵を受ける可能性のあるすべての患者に対する治療法の効果をより深く理解することができる。この点について、米国食品医薬品局は、がん臨床試験の適格性基準の近代化に関する提言を検討している[35]。さらに、実世界でのエビデンスを生成することを目的とした強固な方法は、臨床試験からのエビデンスを補強するのに役立つかもしれない。

臨床医、システマティックレビュー担当者、ガイドライン作成者、および医薬品規制当局による適用性の判断を容易にするために、ジャーナルおよび登録機関は、試験担当者が除外基準を明示的に報告し、正当化することを要求し、スクリーニング時に除外された人のデータを報告すべきであり(ただし、多くの除外は正式な適格性スクリーニングの前に行われる)理想的には、試験集団がリクルートされた臨床集団とどのように比較されるかを報告すべきである。人口の高齢化により、ほとんどの疾患において、多臓器不全やポリファーマシーを有する高齢者が臨床治療を受ける人口に占める割合が増加することを意味するからである[8, 36]。

エビデンスの適用性の評価は、システマティックレビューやガイドライン作成時に明示的に報告されるべきである。エビデンスの外挿は避けられないが、臨床集団の狭い部分から得られた臨床試験のエビデンスに基づいて、ある疾患を持つすべての患者に勧告を行う場合には、明示的に正当化されるべきである。あるいは、ガイドライン作成者は、試験集団と臨床集団の違いを考慮して、より微妙な、あるいは層別化された推奨を行うことを検討してもよい[28, 37]。したがって、ガイドライン作成は、臨床集団が試験集団とどのように異なるかを記述した疫学データをより多く利用することで、適用性に関するエビデンスに基づいて行われる必要がある。このことは、薬事規制にも関連しており、臨床試験集団と実世界の集団の違いをよりよく理解することは、承認後の安全性試験のデザインを含め、リスクを最小化する計画に役立つ可能性がある。

最後に、本レビューでは、除外に関する大量のエビデンスが発見されたものの、そのエビデンスの質は様々であった。今後、この分野の研究では、検証する試験の選択を明確にし、ランドマーク試験や高品質のガイドラインに引用されている試験を優先すべきである。なぜなら、これらの試験は最も明確に診療基準を定めているからである。適格性の検討に使用した臨床集団を明確に記述し、検討対象の試験における除外率の測定に適していることを正当化すべきである。除外に関する研究では、適用されたすべての適格性基準と適用されなかったすべての基準を報告し、このことが知見の解釈に与える影響を議論すべきである。

結論

調査対象となった身体疾患を持つほとんどの人は、その疾患に対する治療法のほとんどの試験から除外されることになる。これは最も一般的な理由で、試験では高齢者や重大な併存疾患のある人や共同処方のある人は除外される。人口の高齢化、多重罹患の増加、ポリファーマシーの増加により、治療効果のエビデンスが、臨床現場で実際に治療を受けている人々とより一致することが不可欠になっている。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー