エビデンスに基づいた個別化医療:異質な治療効果への予測的アプローチ

強調オフ

統合医療・ホーリズム・個別化医療

サイトのご利用には利用規約への同意が必要です

Personalized evidence based medicine: predictive approaches to heterogeneous treatment effects

www.ncbi.nlm.nih.gov/pmc/articles/PMC6889830/

オンラインで公開2018年12月10日

要旨

臨床試験からのエビデンスを用いて個々の患者の意思決定をサポートすることは、「参照クラス予測」の一形態である:個人に対する暗黙の予測は、代替療法で治療された「類似した」患者の参照クラスの転帰に基づいて行われる。

エビデンスに基づいた医療は一般的に、治験に参加する資格のある患者の幅広い参照クラスを強調してきた。しかし、試験に参加する患者は(臨床現場でも)互いに多くの点で異なるため、関心のある結果や利益の可能性に影響を及ぼす可能性がある。

様々な形態の個別化医療の中心的な目標は、より個別化された臨床的意思決定を支援するために、より患者に特化した効果推定値を得るために参照クラスを狭くすることである。この論文では、従来の(一度に一変数の)サブグループ分析の限界と同様に、転帰リスクと治療効果の不均一性(HTE)の予測に関する基本的な概念的な問題をレビューする。

また、「リスクモデリング」に基づく分析(主要アウトカムのリスクや重篤な治療関連の有害性のリスクによって試験集団を層別化するなど)や「効果モデリング」に基づく分析(相対効果の修飾因子を組み込む)を含む、治療効果の「予測的」不均一性分析のためのいくつかの回帰ベースのアプローチについても議論する。これらのアプローチを臨床例を用いて説明し、それぞれの強みと脆弱性について議論する。

はじめに

無作為化臨床試験(RCT)の方法を公式化した疫学者であるオースティン・ブラッドフォード・ヒルは、1960年代に、RCTは平均的にはより良い治療法を決定することはできても、「特定の患者にこの特定の薬剤を投与したときに、最も可能性の高い結果は何かという医師の疑問には答えられない」と指摘している1。

カーネマンらは、単一の症例を予測するための2つの異なるアプロー チ、すなわち「内側からの視点」「外側からの視点」を説明している23 。これは、臨床経験や専門家の判断を重視する「伝統的な」医師が優先する見解であり、私たちが生活のほぼすべての場面で自発的に採用している見解である。対照的に、外部の見解は、類似した症例のグループ(「参照クラス」)を明示的に特定し、潜在的に重要な特定事項を無視して予測を行うもので、参照クラスは予測の統計的根拠となる。これは “参照クラス予測 “と呼ばれている。

 

エビデンスに基づく医療(EBM)の大前提は、ヒルの主張が(少なくとも部分的には)間違っていたという認識である。RCTは個人の臨床的意思決定を導くために使用することができる。このことを強調するために、RCTは因果関係を確立するためのツールから、個々の患者における参照クラス予測を通じた予測のためのツールへと再構成されたのである。

現在では、医学をはじめとする様々な分野で、内観に基づく予測は(「専門家」であっても)あらゆる認知バイアスの影響を受けやすく、非個人的なデータを優先することで一般的に意思決定が改善されるというエビデンスが豊富に存在している2 4 。

 

とはいえ、Hill氏の見解が部分的には正しかったことは容易に認識できる。肯定的なRCTの結果は、登録された患者の少なくとも一部が介入の恩恵を受けたという証拠を提供しているに過ぎない。論理的には、治療法が患者によって全く異なる効果をもたらすことがある場合、この知識が個人の意思決定に与える影響は不明である(試験に参加する資格のある人であっても)。

例えば、急性虚血性脳卒中における血栓溶解療法は、機能的転帰(再疎通を介して)を改善するが、機能的転帰(脳内出血を介して)を悪化させる可能性がある;アンジオテンシン変換酵素阻害薬は、腎不全の進行を防ぐことができるが、患者によっては腎不全を引き起こす可能性がある。抗高血圧薬は重篤な心臓イベントを予防するが、それを引き起こすこともある;ビスフォスフォネート系薬剤は骨粗鬆症による骨折を予防するが、それを引き起こすこともある5;症候性頸動脈狭窄症に対する頸動脈内膜切除術は脳卒中を予防するが、それを引き起こすこともある。 6 さらに、個々の患者には、転帰の可能性や治療の有益性や有害性に影響を及ぼす可能性のある多くの特徴がある。したがって、臨床医の仕事である特定の患者に対する最良の治療法を決定することは、平均的な最良の治療法を決定することとは大きく異なる。

 

そのため、治療効果が患者によってどのように変化するかを理解すること、すなわち治療効果の異質性(HTE)と呼ばれる概念への関心が高まっている。この概念は、個別化医療(または精密医療)と比較効果研究の両方のアジェンダの中心となっている。HTE は治療効果の方向性や大きさにおける非ランダムな変動として定義されており、その効果は臨床結果を用いて測定されている7 。

 

この論文では、臨床的意思決定のためのHTE分析の最も本質的な目標である、代替治療の下での転帰の予測に焦点を当てている。この論文では、臨床的な意思決定のための最も重要な目標である、患者個人における代替治療の結果の予測に焦点を当てている。このような研究では、研究者の研究者は、研究者の研究者としての能力を最大限に発揮できるように、研究者の能力を最大限に発揮できるように、研究者の能力を最大限に発揮できるように、研究者の能力を最大限に発揮できるように、研究者の能力を最大限に発揮できるようにすることが重要である。そして、予測のための “予測 “回帰に基づいたいくつかの異なるアプローチ。

情報源と選択基準

このナラティブレビューは、14名の技術専門家パネルとエビデンスレビュー委員会の両方からなる大規模なプロジェクトの背景を提供した。このような研究は、研究者の研究者が、研究者の研究者としての能力を最大限に発揮できるようにするために必要なものである。HTEの予測アプローチに関連する新たな方法については、技術専門家パネルが推薦した論文と、エビデンスレビュー委員会による2つのターゲットを絞ったシステマティック検索も使用した。その目的は、RCTにおけるHTE予測分析のためのコンセンサスに基づいた方法論的勧告を発見し、HTE予測分析のための回帰ベースのアプローチを評価する方法論的論文を特定することであった。

主要な検索語は、「治療効果の異質性」、「治療効果」、「回帰」、「統計モデル」、「無作為化比較試験」(トピックとして)「精密医療」であった。これらの検索語を適切なブール演算子を使用して組み合わせ、2851件の要旨を得て、これを手作業で検索した。エビデンスレビュー委員会は注釈付き書誌を作成した(補足表1参照)。

概念的背景

HTE予測分析の目的は、各患者の治療効果の予測と意思決定を向上させることである911 が、この事業には根本的な限界があることを認識している。13 14 15 実際、決定論的な枠組みの下では(つまり、患者の転帰が事前の原因や条件に よって完全に決定されていると考えられる場合)完全な知識があれば、個人の「真のリスク」 は、死亡などの二元的転帰に対して0か1であり、リスク予測は患者の本質的な特性というよりも、 知識の限界を定量化したものと考えるべきである。個人の「真の」リスク(つまり、基本的に確率的な宇宙)が存在することを認めたとしても、この真のリスクは直接測定することができない。その代わりに、ある個人のリスクは、他の「類似した」患者のグループにおける転帰の頻度を調べることによって推定される。しかし、実際には類似性は常に多くの異なる方法で定義される可能性があるため(後述するように)その人のリスクは一般的に一意に決定されることはなく、むしろ「モデルに依存する」特性である14。

個々の患者における治療効果の予測は、転帰の予測よりもさらに困難である。なぜなら、個人レベルでの治療効果は、レトロスペクティブにおいても本質的に観察不可能であり、同一人物において2つの相反する治療条件の下での転帰を同時に把握することはできないからである。このように、治療効果を予測し、治療効果を予測するモデルを評価することは、アウトカムリスクを予測することとは根本的に異なる(そしてそれ以上に難しい)。

したがって、リスクも治療効果の予測も、関心のある個人が類似しているグループ(参照クラス)に患者を割り当てることに依存しなければならない。しかし、類似性はどのように定義できるのであろうか?数学者のJohn Vennは1876年に、「すべての単一の事物や事象は、その中で観察可能な性質や属性を不特定多数持っており、したがって、物事の異なるクラスの不特定多数に属すると考えられる」と指摘している16。この「参照クラス問題」は他の分野でも多くの議論の対象となっているが、EBMの文献では意外にもほとんど注目されていない。

参照クラス問題に対するEBMのアプローチは、一般的にRCT集団の広範な参照クラスを強調することであった。Guyattらの古典的な『User’s Guide to the Medical Literature II』には次のように述べられている。「患者がすべての包含基準を満たし、除外基準のいずれにも違反していなければ、その結果が適用可能であることはほとんど疑問の余地がない」と述べている17。

基準クラスの問題に対するもう一つのアプローチは、この用語を最初に生み出した理論家であるライヒェンバッハによって提案された。彼は「信頼できる統計量がコンパイルできる最も狭い参照クラス」19への較正を推奨したが、わずか10の二値特性でのマッチングでは1000以上の異なるサブグループが生じる(そして20の二値特性では100万以上のサブグループが生じる)。このように、このアプローチはサンプル数が少ないという問題によって制限されており、参照クラスの問題は解決されないままである。各症例のユニークさが、医療が「臨床的直感」に依存した即興的な「内観」事業になってしまう理由だ必要なのは、関連する患者の特徴を優先する原則的な方法だ。

適切な参照クラスの選択は、個人の転帰(または治療効果)を予測するためにグループエビデンスを使用する際の中心的な問題である。20 個人を類似(ただし非同一)の患者のグループにマッピングするには、それが試験全体の包含基準であろうと、より狭い分類スキームであろうと、常に(暗黙的または明示的に)モデルまたはスキームを必要とする。この記事では、より個別化された治療効果の推定値を導き出すために使用される3つの広範な分析アプローチをレビューする:従来の(1変数ずつ)サブグループ分析、リスクベースのサブグループ分析(またはリスクモデリング)治療効果のモデリングである。

従来のサブグループ分析

HTE分析の最も一般的なアプローチは、ベースラインで定義された 単一の特徴(例えば、男性と女性、高齢者と若年者)に基づいて患者を連続的に 分割し、治療効果が各属性のレベルで変化するかどうかを連続的に試 験することである。21 22 23 24 25 26 27 28 29 30 31 32 33 34 それでも、サブグループは依然として日常的に報告されており、多くの場合、森林プロットの形で報告されている(図1)。これらの分析とその限界を理解することは、予測的 HTE 分析を理解するための中心的なものである。

このように、このような研究では、研究者の研究者は、その研究者の研究者としての能力を最大限に発揮することができると考えられる。

図1 サブグループに対するPCIと薬物療法の主要アウトカムのHR(黒四角)と95%信頼区間(横線)を示す

いくつかの変数(例えば、年齢と性別の質的相互作用)で治療効果に臨床的に有意な差があると思われるにもかかわらず、治療とサブグループ化変数の間には統計的に有意な相互作用は認められず、”臨床的に有意なサブグループ間での効果の一貫性 “が示された。観察された効果の不均一性が明らかに臨床的に重要であることと、統計的有意性の欠如との間の不一致は、ほとんどの試験に典型的に見られる相互作用効果の統計力が非常に低いことを反映している。

(B) DANAMI-2試験では、一次血管形成術と線溶療法に無作為に割り付けられた1572例の患者において、死亡、再梗塞、脳卒中の無効化という主要複合エンドポイントについて、すべてのサブグループで「効果の一貫性」が示された36。これらの一変量解析では効果が類似していたにもかかわらず、TIMI(死亡率)リスクスコアを用いたリスク層別解析37では、死亡リスクが低い患者はリスクが高い患者に比べて、特に臨床的に重要な絶対的リスク差スケールでは効果が低いことが示された。実際、死亡率の転帰については、リスクが最も低い患者の4分の3の患者ではわずかに有害な傾向が見られ、死亡率が高いと分類された4分の1の患者では非常に大きな有益性が見られた(図5参照)。このフォレストプロットで説明したような従来のサブグループ解析では、患者を1つの変数ごとに定義されたグループに連続的に分割すると、各解析では、同時に多くの変数で互いに異なる個々の患者間の不均一性を著しく過小評価してしまうため、このような臨床的に重要な差異を見逃してしまうことがある。これらの分析はまた、臨床的に評価するための最も重要な尺度であるリスク差尺度における治療効果のばらつきを不明瞭にしている。

略語

ACE:アンジオテンシン変換酵素;DANAMI-2:Danish Multicenter Randomized Study on Fibrinolytic Therapy Versus Acute Coronary Angioplasty in Acute Myocardial Infarction;LAD:左前下行;MI:心筋梗塞;OAT:Occluded Artery Trial;PCI:経皮的冠動脈インターベンション。


正のサブグループ解析のほとんどが偽である理由

HTEを評価するための適切な統計的方法は、ベースライン変数のレベル間のコント ラストイン効果を相互作用の統計的検定で検定することであることがしばしば強調されている38 39 40 41 これは通常、サブグループ化変数のレベル間の相対リスク(またはオッズ比やハザード比)を比較し、効果修正の疫学的概念に対応している。よくある間違いは、各サブグループ内での治療効果の別々の検定に基づいて異質性を主張することである22 23 。例えば、あるグループ(例えば男性)ではP値が統計的有意性に達し、別のグループ(例えば女性)では統計的有意性に達しない場合である。

しかし、相互作用検定を行うことが推奨されている方法に従っている場合でも、「統計的に有意な」サブグループ効果の信頼性は慎重に検討されるべきである。最近のいくつかのメタ疫学研究では、その後の研究で検証されているものは非常に少ないことが示されている24 42 43 109のトピックの性別治療別相互作用の最近の実証的評価では、統計的に有意な性別治療別相互作用を示したのはわずか8件(7%)であった42 。24 誤解を招くような正のサブグループ分析のよく知られた例としては、心筋梗塞患者に対するアスピリンの効果に対する占星術のサインの影響だけでなく44 、はるかにもっともらしく、したがってより有害な結果(例えば、アスピリンは女性の二次的な脳卒中予防には効果がない45 、βブロッカーは下壁心筋梗塞には効果がない)が挙げられる22 46 。

完全にバランスのとれたサブグループであっても、同様の大きさの相互作用効果(例えば、主効果のオッズ比に等しい相対オッズ比)の検出力を得るためには、少なくとも4倍のサンプルサイズが必要である。別の言い方をすれば、これらの相互作用効果の検出力は、完全にバランスのとれたサブグループ(例えば、男性と女性)の場合、主治療効果に対して80%の検出力を持つ試験では約30%であり38 47 、バランスのとれていないサブグループやより小さな効果の場合はより低いと予想されている。さらに、サブグループ解析は一般的にコストがかからないと考えられているため、RCTの主効果(通常、妥当な成功確率がなければ実施されない)よりもはるかに前のエビデンスが少ない状態で、変数間で乱立して実施されることが多い。予想される真の効果の割合が低いことと検出力が低いことの組み合わせにより、「統計的に有意な」効果の中で誤った発見の割合が高いことが説明されている(図2)。このように、サブグループ分析は一般的に、信頼性の高い誤発見の生成に不可欠な条件を提供している。すなわち、弱い理論とノイズの多いデータ、すなわち、検出力の低いデータベースで複数の仮説を検定する探索分析である48 50 。これら2つの懸念事項は、従来のサブグループ分析だけでなく、個々の患者に対する効果を推定するための多変量予測モデルをどのように開発するのが最善かを検討する際にも重要であり、この記事の焦点となる。

図2 正のサブグループ効果のほとんどが偽または過大評価される理由

サブグループ分析の信頼性の低さは、主要な治療効果を検出するために80%または90%の検出力を持つように設計された無作為化臨床試験で交互作用検定を実施した場合、一般的には弱い検出力を持つという事実と、動機の乏しい複数のサブグループが評価されるのが一般的であるという事実に起因していることがよく知られている48 。この「真の効果」の有病率は、以前のメタ疫学研究を模して選択された。42 相互作用効果を検出する力を30%と仮定すると、38 47 これらの真の効果のうちの少数(1.5/5=30%)だけが統計的に有意な効果を示すと予想される。一方、αが0.05(P値閾値)の場合、帰無変数の5%(黒で示されている)も統計的に有意であると予想される(5/95=4.8%)。このように、P値<0.05の結果のうちの少数(青のしきい値の右側に位置する効果推定値の1.5/6.3)だけが、真のサブグループ効果を表する。より高い事前確率を持つ変数のみが検定された場合、偽発見率ははるかに低くなる。右側の分布は、事前確率25%の「確認分析」を示する。ここでは、P値<0.05(7.5/11.3)のサブグループの約3分の2が真の効果を表すと予想される。その場合でも、誇張された効果が優先的に識別されるため、サブグループ効果は一般的に過大評価される。この効果の誇張は、仮説検定の統計的アプローチ(例えば、バイオマーカー発見のための)が効果推定と組み合わされたときに生じるため、「検定バイアス」と呼ばれている49。


「効果の一貫性」の主張がしばしば誤解を招く理由

図1に示された結果と同様の結果(試験したサブグループ相互作用効果のいずれも統計的有意性に達しなかった)は、しばしば “効果の一貫性 “の主張の根拠となる。しかし、試験は通常、サブグループ分析のためのパワーが不足しているため、有意な相互作用を見つけることができないことは予想されるべきだ。例えば、図1A(Occluded Artery Trial35)は、大規模な試験であっても、男女間、若年者と高齢者間の効果の臨床的に有意な差が統計的に有意でない場合があることを示しており、また、これらの効果の点推定値が質的に異なる場合(ある層では害があり、別の層では有益である)であっても、統計的に有意でない場合があることを示している。さらに、結果が「臨床的に重要なサブグループ」間で非常に一貫しているように見える場合でも(デンマークの多施設無作為化試験「急性心筋梗塞におけるフィブリノライド療法と急性冠動脈血管形成術に関する研究」(Danish Multicenter Randomized Study on Fibrinolytic Therapy Versus Acute Coronary Angioplasty in Acute Myocardial Infarction:DANAMI-2 trial; fig 1B)ヌルサブグループ分析は、ベネフィットとハザードのトレードオフがすべての試験参加者間で同様である可能性が高いことや、全体的な治療効果が被験者間で同様に適用されることを示唆しているわけではない。実際、個別化医療の核心的な前提は、人レベルでは、HTEはユビキタスであるということでだ(恩恵を受ける患者と受けない患者がおり、これは完全にランダムではない)1352 。実際、DANAMI-2試験では、リスクモデリングアプローチを適用した際に、臨床的に重要なHTEが特定された。

従来のサブグループ解析がHTE予測解析の目的と矛盾する理由

従来のサブグループ分析では、”相対効果の修正 “が検出されることがある。これは、治療が特に効果的であったり効果がなかったりする条件についての理論を伝えるのに役立つ。しかし、このアプローチは、すべての患者が複数の異なるサブグループに属しており、それぞれが異なる推論をもたらす可能性があるという参照クラスの問題に直接対処するものではない。例えば、閉塞動脈試験(図1A)で示された年齢と性別の両方のサブグループ効果が完全に信頼できると仮定しても、若い女性(または年配の男性)に最適な治療法は不明であろう。患者は不特定多数の属性を持ち、したがって不特定多数の異なる参照クラスに属することができるので、特定可能なクラスの数だけ、与えられた患者の確率(ひいては推定可能な治療効果)が存在する。

これは、高血圧が一般的に相対尺度(例えば、オッズ比や相対リスク)でテストされ(提示される) 絶対的なリスク差(RD)尺度(またはその逆の尺度、治療に必要な数(NNT))が臨床的な意思決定に最も重要な尺度であるのに対し、従来のサブグループ分析の臨床的意思決定への応用はさらに複雑であるからである13 54 55 56 文献では「予測因子」(相対効果修飾因子)と「予後因子」の区別が強調されることがあるが、この区別はいささか人為的であり、 明確にするのと同様に混乱を招く可能性がある。なぜなら、予後因子は、効果が臨床的に重要な絶対尺度で考慮される場合には「予後的」(つまり、効果修飾)であり、予後因子は典型的には臨床的解釈を複雑にする「予後的」効果を有するからである。ARDは転帰リスクと相対的な治療効果の両方の産物であるため、臨床的な意思決定のためには、予後効果と予測効果は同時に考慮されるべきである(図3)。このように、相対尺度で統計的に有意な不均一性が存在しても、必ずしも臨床的に重要な HTE を意味するわけではなく、常に ARD 尺度で評価されるべきだ(図 3)。実際、予後モデルはしばしば臨床的に重要なHTEを明らかにすることができる。また、予後因子は相対効果修飾因子よりもはるかにモデル化が容易である。

図3

治療のターゲティングのためのマーカーの価値は、転帰リスクと相対的な治療効果の両方に対する影響力に依存する。x軸に沿った領域は予後効果を定量化し、y軸に沿った領域は相対的な効果の修正(「予測的」効果と呼ばれることもある)を定量化する。臨床的に有意な効果の尺度(絶対的なリスク差または治療に必要な数(NNT))は等高線図で描かれている。全体の試験における平均効果は、大きな赤い点で示されており、異なる方法でサブグループ(より小さい黒と白の点で示される)に分解することができる。純粋な予後マーカー(患者のサブグループを水平方向に分散させる)と純粋な相対効果修飾(「予測的」)マーカー(患者のサブグループを垂直方向に分散させる)の両方が、絶対的な有益性の程度が異なる患者グループを識別するのに役立つ。散布の非対称性は、リスクの通常の非正規分布を表している(ここでは対数正規分布として示され、低リスクで利益の少ない患者の数が多い)。一般的に、「予測的」マーカーは予後マーカーよりも同定が困難である。これは、効果修飾因子に関する信頼できる情報が通常は乏しく、治療効果の相互作用を調べる力が予後効果よりも実質的に低いためである。しかしながら、因子はしばしば予後効果と相対的効果修飾の両方を有しており、これらの効果は「相乗的」(相対的リスクの減少と転帰リスクは正の相関関係にある)または「拮抗的」(相対的リスクの減少と転帰リスクは負の相関関係にある)でありうる。治療選択に最も有用な因子は、絶対リスク差がその因子の値の関数として最も変化する因子である(ここでは、「相乗的」な例)。これは、リスク差尺度上での治療の有益性の改善された識別に相当する。対立効果のある因子では、相対的な治療効果が最も大きい患者は、逆説的に絶対的な尺度では利益が最も少ないことに注意してほしい。意思決定分析の観点からは、マーカーの臨床的価値は、治療負担(患者の嗜好、副作用、およびコストを考慮した上での)に依存する意思決定上重要なしきい値を越えて患者を分散させる能力によって決定される。これらの決定閾値は、以下の等高線で表される。


サブグループ分析のためのガイダンスの限界

サブグループの分析、報告、解釈に関するガイダンスには、一般的に次のような主要な推奨事項が含まれている13: サブグループは事前に完全に定義されていること(データの浚渫を防ぐため)数を限定していること(または多 様性を補正していること、またはその両方)臨床的推論または過去の経験的研究に基づいていること、 期待される(および事前に指定された)方向性を持っていること9 22,相互作用に関する正式なテストでサポートされていること、十分に報告され、慎重に解釈されていること21。22 30 57 58 59 また、サブグループ分析のタイプ(探索的(見ていて楽しい)または確認的(実行可能な可能性がある)など)を特定すべきであると推奨されている9 56 60 更なる改良として、正のサブグループ効果の信頼性を評価するのに役立つ尺度の開発がある。

このガイダンスでは、サブグループの中心的なジレンマの一つの側面である、偽陽性のサブグループのリスク を丁寧に扱っているが、もう一つの側面である、登録基準を満たすすべての患者にサマリー結果を 過度に一般化するリスクはほとんど無視されている。HTEの潜在的な重要性はますます認識されてきているが、34 62 63 64 65 66 試験者、査読者、規制当局は、どのサブグループ分析が日常的に行われるべきか、期待されるべきか、そして結果が完全かつ透明性を持って報告されると考えられるために必要なものかについてのガイダンスをほとんど持っていない。

異種治療効果の予測アプローチ

HTE の予測的アプローチは、一度に一変数だけのサブグループ分析の限界を改善することを目的としている。予測的 HTE 解析の目的は、治療の利点や有害性に影響を与える複数の変数を考慮に入れたときに、2 つ以上の治療法のうちどれが個々の患者にとって最善であるかを予測するために使用できるモデルを開発することである。このタイプの分析を2つのサブカテゴリーに分ける。

これにより、結果(通常は主要な研究結果)のリスクを予測する多変量モデル(外部または 内部で開発されたもの)が、リスクグループにまたがって治療効果を調べることができるように、試験の患者をバラ バラバラにするために適用される。

第二に、治療効果モデリング(または「効果モデリング」):治療効果(すなわち、2 つの代替治療条件の下での転帰リスクの差)を予測するために、試験データに直接モデルを作成する予 測的 HTE 分析のアプローチである。リスクモデリングとは異なり、このようなモデルは治療割付けのための項を組み込み、共変量の相互作用項による治療を含めることを可能にしている。

リスクモデリング

我々は以前に、リスクモデリングのためのフレームワークを提案したことがあるが、このフレームワークでは、一次試験のアウトカムに対するリスク層を越えた相対的および絶対的な治療効果の報告を優先しており、これらは日常的に報告されるべきであることを示唆している56 。治療効果を修飾するかもしれない、あるいはしないかもしれない他の変数とは異なり、アウトカムリスクは治療効果の数学的決定因子である。表1は治療効果のいくつかの異なる尺度の定義を示している。これらの指標はすべて対照群の転帰率(対照イベント率;CER)に依存しており、これはそれ自体が転帰リスクの観察可能な代理である。リスクが因子の組み合わせによって記述されている場合、転帰リスクは一般的に試験集団内で大きく変化するため67 、予測モデルで分解すると、CERもまた試験集団全体で変化する。臨床試験でヌル効果がある場合を除き、CERが母集団全体で変化すると、一般的にARDは変化する(図3)。数学的には、リスクが母集団全体で変化しても、治療効果の指標は(せいぜい)1つしか一貫性を保つことができない。

表1 治療効果は数学的にコントロールイベント率に依存する*

メジャー / 定義

  • 絶対的なリスクの違い / CER-EER
  • 相対的なリスク低減  / 1-(EER/CER)
  • オッズ比  / EER/(1-ER)÷CER/(1-CER)

*CER:対照イベント率、EER:実験的イベント率。


図4は、治療前の臨床的変数と心電図的変数に基づいたST上昇型心筋梗塞患者1058人の30日間の死亡リスク推定値を示している69。重篤な治療関連の害をもたらすリスクがある介入については、そのような死亡リスクの異なる患者では利益と害のトレードオフが異なることを医師は知っている(そして単純な代数で確認している)。しかし、これらの患者を一つの臨床試験に集約し、全体的な要約結果を強調するのが研究では一般的であり、それによってリスクカテゴリー間の治療効果の違いが臨床的に重要であるかどうかが不明瞭になっている。したがって、リスク群間の転帰率と治療効果の両方が記載されていなければ、試験結果の開示は不完全であるというのが我々の見解である。

図4

死亡リスクの分布。この分布は、米国の28の病院でST上昇型心筋梗塞に対する再灌流療法を受けた1058人の患者の予測死亡リスクを、リスクが最も低い(0番目のセンタイル)から最も高い(100番目のセンタイル)まで表示したものである。死亡リスクは、個々の患者の臨床的・心電図的変数と有効なロジスティック回帰式を用いて計算されている68 。しかし、約4分の3の患者のリスクは平均リスクよりも低く、典型的な(中央値の)リスク患者のリスクは平均リスクの約半分である。リスクが最も低い患者の4分の1は30日死亡の確率が1%しかないため、経皮的冠動脈インターベンションのような侵襲的な処置を行っても、これらの患者の死亡リスクがこれ以上低下する可能性は低い。しかし、最もリスクの高い4分の1の患者には有益な可能性がある。従来の臨床試験では、リスクが大きく異なるこれらの患者は、有益性と有害性のトレードオフが大きく異なっていても、1つの全体的な集団に集約される。このようなリスク分布は、リスクを記述するために合理的に優れた多変量予測モデルが利用可能な場合、転帰率の低い試験の典型的な傾向である67。


図4は、よく観察されるもう一つの特性を示している67 72 – 予測リスクの分布が偏っていることで、死亡リスクは約75%の患者で平均リスクよりも低い。死亡リスクが高いのは、最もリスクの高い患者の影響力の強い4分の1の患者である。リスク分布に偏りがある場合、試験の要約結果に見られる治療の全体的な有益性は、典型的なリスクにある患者であっても(特に治療に関連した害がある場合)有益性や有益性と害のトレードオフを反映していない場合がある。

RCTにおける患者のリスク分布を理解することは、予測されたサブグループ効果の情報を提供するのに役立つ。例えば、治療に関連した重大な害のリスクが小さい、効果的である可能性のある侵襲的手技(経皮的冠動脈インターベンション;PCIなど)の使用を考慮した場合、図4に示されているように、利益と害のトレードオフはリスク分布の間で大きく異なることが予想される。このように、DANAMI-2試験(図1B)の従来のサブグループ解析(ST上昇型心筋梗塞(STEMI)患者を対象にPCIと内科的治療を比較した)では「効果の一貫性」があったにもかかわらず、TIMI(心筋梗塞における血栓溶解療法)スコア(図5A)を用いて死亡リスク別に層別化したところ、臨床的に重要なHTEが出現した。非STEMI/不安定狭心症患者に対して侵襲的アプローチと非侵襲的アプローチを比較したRITA-3試験のデータを用いて、内部的に導出されたモデルを用いてリスク層別解析を行ったところ、同様の結果が得られた(図5B)。

図5 侵襲的冠動脈治療は、高リスク群ではST上昇MI(DANAMI-2)患者の死亡率を改善するが、低リスク群では改善しないことを示す解析結果

このパターンは非ST上昇MI(RITA-3)における死亡率または再梗塞についても同様であることが示された。(A) DANAMI-2試験では、ST上昇型心筋梗塞患者における内科的治療に対する侵襲的手技(PCI)が試験された。B)RITA-3試験では、非ST上昇型MI/不安定狭心症患者を対象に、侵襲的手技を内科的治療と比較した。各試験のイベント発生率(上段プロット)ハザード比(中段プロット)絶対リスク低減率(下段プロット)を示し、平均的な効果を点線で示した。DANAMI-2試験(N=1527)では、リスク別に層別化したポストホックサブグループ解析により、低リスク(TIMIスコア0~4)の患者の約75%が死亡率の改善を受けていないことが示された。ハイリスク(TIMIスコア≧5)の患者では、侵襲的手技の恩恵を大きく受けてた(死亡率の絶対的な減少率は約10%)。TIMIリスクスコアと治療効果の間の交互作用(ハザード比スケール)は統計的に有意であった(P<0.008)。これらの効果は、従来の(一変量解析)サブグループ解析では、すべてのサブグループに渡って「効果の一貫性」が見られたにもかかわらず、そのような効果が見られた。RITA-3試験(N=1810)では、4ヵ月後の死亡または非致死的MIのアウトカムについて、内部的に導出されたリスクモデルを用いて解析したところ、治療の相互作用によって同様のリスクが示された。主要転帰における絶対的リスクの減少は、最もリスクの高い患者の8分の1で非常に顕著であったが、最もリスクの低い患者の半数では効果は認められなかった。DANAMI-2:Danish Multicenter Randomized Study on Fibrinolytic Therapy Versus Acute Coronary Angioplasty in Acute Myocardial Infarction;MI:心筋梗塞;OAT:Occluded Artery Trial;PCI:経皮的冠動脈インターベンション;RITA-3:Randomized Intervention Trial of unstable Angina 3.


これらの試験で観察されたパターンは、決して珍しいものではない。むしろ、リスク分布は、転帰の有病率と予測モデルの識別性能に基づいて、予測可能なパターンに適合しているように思われる67 。他にも、高リスクの小集団における効果が、多くの典型的な患者や低リスクの患者における有益性(および有害性さえも)の欠如を不明瞭にしている例として、STEMIにおけるより集中的な血栓溶解療法とより集中的でない血栓溶解療法、73 敗血症に対する活性化プロテインC(https://s3-us-west-2.amazonaws.com/drugbank/fda_labels/DB00055.pdf?1265922807 74 急性冠症候群におけるエノキサパリンまたはチロフィバン、75 76 77 非弁膜症性心房細動における脳卒中予防のための抗凝固療法、78 79 クロストリジウム・ディフィシル感染症の再発予防のためのフィダクソマイシン対バンコマイシン、その他多数。

このように、リスクモデルがいかにして ARD スケールでの重要な変化だけでなく、相対スケールでの統計的に有意な HTE をもたらしうるかを図 5 の例で示している。この相互作用は多くの理由で現れる可能性があるが、治療に関連した害が知られていて、それが一次転帰に反映されている場合には、治療に関連した害の程度が同程度であれば、低リスクの患者では利益を上回る(または実質的に減る)が、高リスクの患者ではそれがないため、期待されるべきである53 66 。このような研究は、糖尿病予防プログラム(DPP)試験では、生活習慣改善プログラムとメ トホルミン薬物療法の両方を、通常の治療と比較して試験している。この試験では、一方の介入(生活習慣の改善)では統計的に有意な相対効果の変化が示されたが、他方の介入(メトホルミン)では示されなかったという興味深い事例がある(図6)。

図6

プレ糖尿病の高リスク患者は、同質な相対的治療効果(ライフスタイル)と異質な相対的治療効果(メトホルミン)の両方を有する介入から、低リスク患者よりも多くの利益を得ることができる。Diabetes Prevention Program試験では、糖尿病予備群の患者における糖尿病予防のための3つのアプローチが比較された。(1)厳格な生活習慣改善プログラム、(2)メトホルミン治療、(3)通常のケア。A)グラフは、糖尿病発症の転帰について、(A)生活習慣の改善と通常のケア、(B)メトホルミンと通常のケアのイベント発生率、ハザード比、リスク差を示している。また、糖尿病患者を糖尿病リスクで層別化した場合の治療効果は、ハザード比の尺度では、生活習慣の改善では一様であったが、メトホルミンでは強く異質であった(Pintervention <0.001)。それにもかかわらず、治療効果をリスク差スケールで表現すると、リスク層間で同様のHTEが認められた。この解析は、リスク群間で転帰率が劇的に異なる場合、比例スケールでのHTEに対する帰無仮説検定の臨床的価値が限定的であることを示している。HTEの臨床的意義は、糖尿病予防戦略の利点を治療負担と比較して評価できるような絶対スケールで評価する必要がある。このように、糖尿病の治療効果を決定するものとしてのリスクの重要性は、リスクグループ間で劇的に変化している。

 


絶対的な利益の決定要因としてのリスクの重要性は広く受け入れられている。この概念は、特に冠動脈疾患予防のための脂質低下治療の推奨アプローチの中で、ガイドラインにも取り入れられている。

90 91 92 RCT のリスクに基づく分析では、この仮定を検討することができる。
外部から導き出された適用可能なモデルがあれば、特に十分に検証され、臨床的に受け入れられている場合には、実践への翻訳が可能となるが、上記の例の多くは、内部で開発されたリスクモデルを使用していた。これらのリスクモデルは、治療法の割り付けを「盲検化」した試験データに基づいて作成されたものである。優れたモデリングの実践(独立変数ごとのイベント数の多さや、以前の文献に基づくリスク変数の事前選択など)が守られている限り、RCTデータから直接導き出されたモデルは、リスク層内の「正直な」(内部的に有効な)治療効果の推定値を提供する51。93 研究者の中には、リスクのみをモデル化するために対照群を使用することを推奨する者もいるが、94 95 96 このアプローチは、2つの試験群のモデル適合性に差を生じさせ、リスク層間の治療効果推定値に偏りを生じさせ、HTEを誇張する可能性がある。このバイアスを緩和するために、様々なクロスバリデーション手法が提案されている98 。しかしながら、予測転帰リスクと比較して ARD の規模が小さいことを考えると、対照群では非常に控えめなオーバーフィットであっても、治療効果の推定値にかなりのバイアスがかかる可能性がある。

しかし、ARDの規模が予測転帰リスクと比較して小規模であることを考えると、対照群では非常に小 さなオーバーフィットであっても、治療効果の推定値に大きなバイアスがかかることがある。このように、臨床的に重要なHTEが試験中のリスク層にまたがって発見されたことは、外部的に有効なモデルを実装するための重要な 推し進めとなる。外部的妥当性はRCTの結果に対する一般的な懸念であり、リスクモデルを用いてサブグループ化された結果に限定されるものではないことに留意すべきである。

リスクの他の次元:治療に関連した害の不均一性

治療負担が転帰リスクで定義された層間で一定ではない可能性があるため、治療関連の有害性がリスク層間で異なるかどうかを検討することも重要である。リスクの2つの次元が高度に相関している場合(高リスクの患者が治療関連の有害事象の最大のリスクも有している場合)治療に好ましい患者と好ましくない患者を分離することはより困難になる99 100 したがって、利益と害のトレードオフの解釈を容易にするために、重要な治療関連の有害事象は、主要な転帰と同じレベルで(つまり、リスク層のそれぞれで)集計して報告されるべきである。

図7は、治療関連の有害事象(ピオグリタゾンの場合は骨折、長期コースと短期コースの二重抗血小板療法の場合は出血)について内部リスクモデルで層別化した患者における有益性と有害事象のトレードオフの臨床的に重要な変動を示した2つの最近の分析を示している。これらの解析は非常に有益であるが、有害事象が対照群ではまれである場合には、差動的なオーバーフィットが生じる可能性があり、モデル検証の重要性が強調されている。

図7

治療に関連した有害事象のリスクでサブグループを層別化すると、ベネフィット・ハザードのトレードオフは大きく変化する。

A)IRIS試験では、ピオグリタゾンは虚血性脳卒中とインスリン抵抗性を有する患者において、再発イベント(脳卒中またはMI)のリスクを減少させることが示された(RR=0.76)が、骨折のリスクは増加した。5年後の骨折リスクの増分は4.9%(13.6%対8.8%;HR1.53)であった。患者を8つの変数からなる単純なリスクスコアを用いて骨折のリスクで層別化したところ、骨折のリスクが低い患者100人にピオグリタゾンを5年間投与した場合、ピオグリタゾンに関連した骨折は2~3人であったのに対し、リスクが高い患者100人には6~7人であった102 。このように、骨折1件あたりに予防された虚血性イベントの数は、骨折リスクの低い群では2件、リスクの高い群では0.5件であった。重篤な骨折(入院または手術を必要とする骨折)のみを考慮した場合、ピオグリタゾンは骨折リスクの低い群では重篤な骨折1件あたり6件の虚血性イベントを予防したが、リスクの高い群では約1件のイベントしか予防できなかった。治療の有害性と有益性の両方の比例尺度で効果が一貫していたにもかかわらず、層間での有益性と有害性のトレードオフにおけるこれらの臨床的に重要な違いが現れた。

B)同様に、患者を単純な5変数のリスクスコアを用いて出血リスクで層別化した場合、経皮的冠動脈インターベンション後のDAPT(アスピリン+クロピドグレルまたはチカグレラー)の長期投与は、出血リスクの低い患者では非常に良好な害-便益のトレードオフが得られたが、リスクの高い患者では得られなかった103。

 


これは最終的にはエビデンスの個別化の目標であるが、異なるモデルからの予測値を算術的に組み合わせることは、予測値の較正に関連した重大な課題であり、ここでは議論の範囲を超えている。最後に、主要転帰は治療反応性の原因を有する転帰と治療反応性のない(または競合する)原因を有する転帰の複合体であることがあるため、治療反応性の原因に起因する転帰の割合を予測する指標によって試験集団を層別化することも有用であろう。106 107 例えば、植え込み型除細動器は、心臓突然死のリスクがポンプ不全による死亡のリスクよりも高い患者では、より有益であるかもしれない108;脳卒中およびPFOの患者のうち、別のオカルトメカニズムではなくPFOが原因の脳卒中を発症する可能性が高い患者のサブセットでは、PFO閉鎖はより有益であるかもしれない109 110;敗血症の原因がグラム陽性ではなくグラム陰性のリスクが高い敗血症患者では、抗エンドトキシン特異的治療はより有益であるかもしれない。重要な競合イベントのリスクを推定する予測モデルによる患者の層別化も、状況によっては有益であるかもしれない。

治療効果のモデル化

予後モデリングに基づくサブグループ化は、従来のサブグループ分析よりも利点があるが、アウトカムリスクは最適な分類スキームとは言えないかもしれない。RCTデータ上で開発された予測モデルは、治療の割り付けに「盲検化」されていないため、治療ごとの共変量相互作用項を含めることで相対的な効果の変化を捉えることができる可能性がある。これは(相対的効果と絶対的効果の両方)治療効果を決定する上で重要であり、治療選択を最適化する上で非常に重要である。111 実際、層別化・個別化医療へのアプローチは、相対的尺度での効果修飾因子の発見にのみ焦点を当ててきた112 。例えば、予測有益性(治療による予測転帰リスク-治療なしの予測転帰リスク)で層別化すると、急性心筋梗塞の発症が非常に早い低リスクの患者は、発症が遅い高リスクの患者よりも治療上有利であると層別化することができる。

しかし、試験自体のモデル化に基づいて選択された相対効果修飾因子(治療相互作用項)を予測モデルに組み込むことには特別な課題がある。予測モデルに含めるための「統計的に有意な」相対効果修飾因子の選択は、多くの点で1変数ずつのサブグループ分析と同じであり、「偽陽性」や誇張された効果(証言バイアス49や他の形態のオーバーフィットによる)につながる脆弱性(弱い理論やノイズの多いデータ)が多く存在する。効果修正のより正確なモデル化に必要な相互作用項あたりのイベント数は、主な予後効果に必要な数よりも何倍も多く、十分に研究されていない「統計的に有意な」相互作用を選択するためにナイーブ回帰を用いた「治療効果」予測モデルは、信頼性が低く、誇張され、影響力の強い相互作用項のために、層内効果の誤解を招く推定値を提供することが予想される114 115 。オーバーフィットに対する脆弱性により、このアプローチは、完全に効果のない治療法であっても、誤ったサブグループ効果を発見しやすい。

それにもかかわらず、治療法選択のさらなる個別化は、よく確立されていない治療効果修飾因子の発見に依存することが多い。1つの有望なアプローチは、先験的な臨床推論に基づいて相対的効果修飾因子であると予想される変数のセットを選択し、含まれていると思われるすべての相互作用項について(適切な自由度で)有意性のためのオムニバス検定を使用することだ。この全体検定の結果が統計的に有意であれば、すべての相互作用がモデルに含まれ、そうでなければ何も含まれない。交互作用項は依然としてオーバーフィットしやすいので、このプロセスは、モデルの複雑さに基づいてモデル係数を縮小し、新しい集団内での絶対的な治療効果のより良い予測を得るために、ペナルティ付き回帰法(投げ縄回帰、116 117 リッジ回帰、118 119 または弾性ネット正則化回帰など)120 121 と組み合わせるべきである。別の方法として、治療の割り当てに「盲目的」にモデルを開発する場合、変数とモデルの選択(つまり、参照クラスまたはサブグループ化スキームを定義する)と層間の治療効果の推定には、別のデータセットを使用するべきである。効果修飾因子(バイオマーカー)の発見と治療効果の推定を組み合わせた手法には、機械学習アプローチと回帰ベースの手法122 123 124 125 126 127 128 129 130 131(追加の例については補足表1を参照)を含む研究の関心が高まっているが、臨床応用はまだ限定的である121 。

8つの変数が予後変数と効果修飾因子(治療相互作用の用語)の両方として使用され、2つの再灌流戦略(冠動脈バイパスグラフト手術(CABG)とPCI)の下での非急性冠動脈疾患患者の転帰を予測するスコアとなっている。全体的な試験ではCABGの実質的な有益性が示されたが(主要アウトカムはPCIで17.8%だったのがCABGで12.4%に減少した;P=0.002)132 SYNTAXスコアIIによる予測有益性による層別化では、集団全体を対象としたCABGの有益性は、最も治療に有利な患者の4分の1にターゲットを絞ることで大部分が達成される可能性があり、ほとんどの患者で開胸手術に関連した実質的な外傷や罹患率を回避できる可能性があることが示されている。

図8

 

SYNTAXスコアIIは、非急性冠動脈疾患患者をCABGとPCIの死亡リスクに基づいて層別化したもので、意思決定の指針として有用である。SYNTAX試験では、12ヵ月後の主要な心臓・脳血管障害イベントの発生率はPCI群(17.8%)がCABG群(12.4%、P=0.002)に比べて有意に高く、未治療の三枝冠動脈疾患または左主冠動脈疾患を有する患者にはCABGが望ましい治療法であることが確認された132。SYNTAXスコアIIは、SYNTAX(Synergy Between Percutaneous Coronary Intervention With Taxus and Cardiac Surgery)試験(N=1800)にCox比例ハザードモデルを適用して開発された。このモデルには8つの予測因子が含まれている:先に開発された解剖学的SYNTAXスコア、年齢、クレアチニンクリアランス、左室駆出率、保護されていない左主冠動脈疾患の存在、末梢血管疾患、女性の性、およびCOPD、さらにこれらの変数のそれぞれとの治療相互作用項である。グラフは、(A)イベント率、(B)ハザード比、および(C)CABGとPCIの絶対的リスク低減を示している。他の図に示した例とは異なり、患者は予測リスクではなく予測利益(PCIによる転帰リスク-CABGによる転帰リスク)で層別化されているため、イベント率は四半期間で単調に増加していない。横の破線で示された全体的な結果は、CABGが有利な傾向を示している。しかし、患者を予測利益で層別化すると、治療に好ましくない患者の4分の1が特定され(8つの相互作用項でPinteraction=0.0037)利益が最も高い患者の4分の1に大部分が限定されている。SYNTAXスコアIIは転帰の予測には有効性が確認されているが、有益性の予測にはまだ有効性が確認されていない。CABG:冠動脈バイパスグラフト手術;COPD:慢性閉塞性肺疾患;PCI:経皮的冠動脈インターベンション。


治療効果を予測するモデルの評価

通常のアウトカム識別のための指標(例えば、c-statistic)やキャリブレーションを用いてベネフィットを推定することを目的とした予測モデルを評価しても、モデルがベネフィットを予測するためにどの程度の性能を発揮するのか、すなわち2つの代替戦略を用いた場合のアウトカムリスクの差についての情報は得られない。134 個々の患者の転帰とは異なり、個々の患者の治療効果(つまり、誰が得をして誰が得をしないか)は、患者が無作為に割り付けられた両方の事実上の治療を同時に受けていないため、本質的に観察不可能である。

最近では、転帰リスクモデルにおける差別性の測定に一般的に使用されるc-統計量が、治療効果の予測を評価するために適応されている136 。これらの「有益性の傾向」が類似している患者のペアを、対照群と実験群の結果を比較することにより、「観察された有益性」に従って3つのカテゴリーに分類することができる-有益性(1,0)効果なし(1,1または0,0)または害(0,1)-ここで、1は悪い結果を表し,0は良い結果を表しており、c-統計量は、モデルがこの三項対立の「結果」に基づいて患者のペアをどの程度識別しているかを評価する。 “136 このアプローチでは、予測モデルの変数に条件付きで、2つの治療法の下での転帰の分布に相関がないと仮定している;この強い仮定は、「c-for-benefit」統計量の一般的に低い値をもたらす。同様に、潜在的なアウトカムの枠組みを用いた治療法選択マーカーに対して、モデルベースのROC(受信機動作特性)測定が提案されているが、このアプローチはモデル予測が正しいという仮定に依存している137。

最終的に、モデルの有用性は、層内治療効果を正確に予測し、誠実な推定値を提供する能力だけでなく、意思決定を改善する能力にも依存する。これは、特定の意思決定閾値、すなわち、治療の負担、有害性、およびコストを完全にバランスさせるリスク分布に対するモデルの性能に依存する。予測モデルの臨床的有用性を評価するために決定曲線解析138 が提案されており、臨床試験で高熱病を予測するモデルを評価するために応用されてきた。

予測的HTE分析のための観察データの使用

観察データはHTEの予測分析に大きな魅力を持っている。特に、何百万人もの患者の電子カルテや請求書を収録した大規模なデータベースが利用可能になってきたことで、単一のRCTやプールされたRCTをはるかに超えた統計的な力が得られるようになった142 143 。このような場合、研究者は、研究者の研究者が、その研究者の研究者の研究者としての役割を果たすことができる。また、HTE分析では、混同を取り除くために必要な仮定が各層内で満たされている必要があり、これは全体的な平均的な治療効果の推定よりも厳しい要件である。疾患別の交絡は別として、ルーチンケアから収集された大規模な観察データは、しばしばデータの欠落や誤分類に悩まされている。145 146 147 それにもかかわらず、観察データの使用は、RCTでさえもサブグループ分析を弱体化させている信頼性の問題というよく知られた問題をさらに悪化させ、複雑化させる可能性がある。

結論

RCTの肯定的な結果は、試験に含まれる少なくとも一部の患者に介入が有効であることを示す強力な証拠となるが、臨床家は、患者の複数の特徴がどのように組み合わされて、その患者の潜在的な治療効果、すなわち治療を行った場合と行わなかった場合の転帰リスクの差に影響を与えるのかを理解する必要がある。全体の結果を絶対リスクに応じて分解することで、より有益な情報が得られ、より患者に特化したベネフィットの効果推定のためのより狭い参照クラスが得られ、より患者に特化した意思決定をサポートすることができる。絶対リスクモデルの日常的な使用は、大規模な第III相試験では通常可能だ。ジャーナル編集者、資金提供者、研究コミュニティはこれらの分析を主張すべきである。治療効果を直接モデル化するために考案された新しい統計的アプローチは、統計的なオーバーフィット、誤発見、新しい患者集団での偏った予測の可能性が高いものの、さらなる利点(「利益の差別化」を高める)を提供する可能性がある。これらのアプローチは、より多くの研究を行う価値がある。

148 この記事で取り上げた問題に関連する未解決の研究課題のうち、いくつかを「今後の研究のための質問」の欄にリストアップした。さらに、以下のような研究も必要である。

  • 臨床予測の実践への統合を改善する149
  • 診療ガイドラインの個別化の理解を深める
  • 報告ガイドラインの策定または延長150
  • データプーリングを促進するための新しいデータ所有モデルの確立151
  • このように、臨床研究のインフラを再構築して、HTEを決定するのに十分なパワーを持った大規模な臨床統合試験を支援するか、あるいは、信頼性の高いHTEの決定のために観察データが十分に偏りがなくなると予測する能力を開発するか、あるいはその両方を開発する必要がある。

最近の多くの組織的・技術的な進歩により、この進化が可能になるはずである。

Hill氏が指摘したように、個人のレベルでは、正しい判断は基本的に臨床試験の結果によって決定されるものではない。振り返ってみても、個々の患者にとって正しい決定がなされたかどうかは、通常はわからない。したがって、予測の目標は各患者の意思決定を改善することであるが、逆説的であるが、これは他の介入と同様に、より正確な予測が集団レベルでの転帰を改善するかどうかを調べることによってのみ評価することができる。これらのアプローチの経験が増えるにつれ、方法論やエビデンスの基準の強化に加えて、これらのより柔軟な(操作可能な)方法が集団の転帰を改善する可能性を実際に実現するための実証的研究が必要になるだろう。

用語集

効果の修正

これは、転帰に対する治療または曝露の効果の大きさが第三の変数(例えば、患者の特徴)のレベルに依存する場合に起こる。効果修飾の存在下では、全体的な効果推定値の使用は不適切である。

治療効果の不均一性(HTE)

臨床結果を用いて測定される治療効果の方向性または大きさの非ランダム変動。HTEは基本的にスケールに依存する概念であり、したがって、明確にするために、スケールは一般的に指定されるべきである。この用語は、オッズ比や相対リスクの変化のような相対尺度での変動のみを記述するために使用されることに注意すべきである。

臨床的に重要なHTE

これは、患者のサブグループ間のリスク差の変動が、治療負担(治療関連の有害性とコストを含 む)に依存する、意思決定上重要な閾値を超えている場合に起こる。一般的には絶対尺度で評価される。

予測HTE分析

予測HTE分析の主な目的は、複数の関連する変数を考慮に入れることで、2つ以上の治療法のどちらが個人にとってより良いかを予測するために使用できるモデルを開発することである。

リスクモデリングのアプローチ

予測 HTE 解析のアプローチでは、結果(通常は主要な研究結果)のリスクを予測する多変量モデルを適用して、試験中の患者をバラバラにし、治療効果のリスクに基づく変動を検討する。

外部リスクモデルと内因性/内部リスクモデルの比較

このような研究では、患者がどのようにして治療効果を評価しているのかを知ることが重要である。内部リスクモデルは、試験母集団から直接開発される。

治療効果モデル化アプローチ

予測HTE分析のためのアプローチで、無作為化試験データに直接モデルを作成して治療効果(2つの代替治療条件の下での転帰リスクの差)を予測する。リスクモデリングとは異なり、モデルは治療法の割り当てのための項を組み込み、共変量の相互作用項による治療法を含めることを可能にしている。

純利益: 利益と害を同じ尺度に置く意思決定分析的尺度

これは,介入に関連する利益と害の相対値に基づいて為替レートを指定することによって達成される.交換率は、患者がモデル結果に対して陽性か陰性か、または(試験分析に適用する場合)治療が好ましいか好ましくないかを決定する確率のしきい値に関連している。

オーバーフィット

予測値が研究対象のサンプル外の新しい被験者に一般化しない状況。オーバーフィットは、モデルが導出された限られたデータサンプルの特殊性または「ノイズ」に適合しすぎて、モデルの妥当性を脅かす場合に発生する。

Penalized regression(罰則付き回帰)

共変量に割り当てられた係数がモデルの複雑さのためにペナルティを課す、オーバーフィットを防ぐために開発された回帰手法のセット。ペナルティ付き回帰は,収縮または正則化と呼ばれることもある.ペナルティ付き回帰の例としては, lasso,ridge,および elastic net regularization がある.

予測因子(Predictive factors)

治療効果の修正をもたらす患者の特徴で、相対尺度の統計的相互作用項を用いて評価されることが多い。一般的に、予測因子は予後因子よりも実質的に同定が困難である。これは、それらの効果に関するより限られた事前情報と、相互作用を検定するのに必要なより大きな統計力を考慮しているからである。

予後因子

関心のある転帰のリスクに影響を与える患者の特徴。これらの因子はまた、絶対的利益の程度が異なる患者群を識別するのに役立つ。1つの特徴が予測因子と予後因子の両方である場合もある。

参照クラス(Reference class)

類似した症例のグループで、関心のある個々の患者の予測を行うために使用される。参照クラス問題」とは、個人が多くの異なる潜在的に関連する属性を持っているため、類似性は不特定多数の異なる方法で定義できるという事実を指す。

証言バイアス

平均して、新しく発見された真(非ヌル)の関連性の効果量が本質的に増大するという事実を指す。検定バイアスは、関連付けを発見する過程で、またはモデルのために変数を選択する過程で統計的しきい値を使用することから生じる。インフレーションは、関連付けが正とみなされる(またはモデルに含まれる)ために統計的有意性のある閾値を通過しなければならず、研究の検出力が最適ではない場合に予想される。この問題は “勝者の呪い “とも呼ばれている。

この記事の作成に患者がどのように関与したか

患者の視点から治療効果の異質性の重要性を洞察するために、3つの患者参加型研究ネットワーク(PPRN)の患者ステークホルダーの代表者と90分間のウェビナーを使ったグループ考察を3回行った。AR-POWER(AR-POWER)HEALTH eHeart Alliance、iConquerMSの3つの患者主導型研究ネットワーク(PPRN)の代表者と患者ステークホルダーの代表者との90分間のグループ考察を行った。

今後の研究のための質問

  • 複数の重要なアウトカムまたはリスク次元(例えば、主要アウトカムのリスクと治療関連の害のリスク)を共同で予測するにはどうすればよいか?
  • 相対効果修飾因子が治療効果モデルに含めるのに十分な信頼性があるかどうかをどのように判断するか?
  • 機械学習技術は、治療効果を予測するために従来の統計的アプローチよりも明確な利点があるか?もしそうであるならば、どのような条件で?
  • 新しい無作為化試験がない場合、どのようにモデルを更新し、再調整することができるか?
  • どのような条件下で、観察的なビッグデータソースは、治療効果分析の信頼性の高い予測的不均一性の基盤を提供できるか?
この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー