因果関係を評価した観察研究で医療の意思決定に役立つ　米国胸部外科学会公式リサーチステートメント

Contents

要旨
概要
はじめに
方法
- アドホック委員会への参加者
- エビデンスのレビューと議論
結果
おわりに

Informing Healthcare Decisions with Observational Research Assessing Causal Effect. An Official American Thoracic Society Research Statement

www.ncbi.nlm.nih.gov/pmc/articles/PMC7781125/

オンラインで2021年1月1日に公開

www.bruegel.org/2014/01/blogs-review-the-popularity-of-randomized-control-trials/

要旨

根拠

医療における意思決定は、知識と推論に基づいて行われ、多くの場合、臨床診療ガイドラインの推奨事項、個人の嗜好、個人の目標を考慮して、患者や家族との会話を共有しながら行われる。観察研究は、ガイドライン、意思決定、および政策に役立つ貴重な知識を提供することができる。

目的

米国胸部外科学会（ATS）は、肺、重症患者、および睡眠医学における臨床上の意思決定を行う上で、無作為化比較試験（RCT）と並んで観察研究が果たす役割を明確にするための研究声明を作成するために、学際的なアドホック委員会を設置した。

方法

委員会は、因果関係を評価する観察研究の長所、RCTをどのように補完するか、観察研究の質に影響を与える要因、観察研究に対する認識、そして最後に、観察研究をATSの臨床診療ガイドラインに取り入れるための実用性について検討した。

測定方法と主な結果

観察研究には、RCTと同様に長所と短所がある。観察研究は、代表的で多様な患者集団においてエビデンスを得ることができる。ATS臨床診療ガイドラインの作成や医療上の意思決定においては、以下のような場合に、質の高い観察研究を求めるべきである。1）RCTが見つからない、またはRCTが低質または超低質と評価されている（置き換え)2）RCTが間接性、不正確性、矛盾のために中程度の質であり、観察研究がRCTのエビデンスが格下げされた理由を緩和している（補完)または3）ガイドライン委員会が意思決定に不可欠と考えるアウトカムのエビデンスをRCTが提供していない（例, 希少性や長期性のあるアウトカム、「順当」）。)

結論

観察研究は、臨床実践ガイドラインを作成する際や、臨床決定を行う際に考慮されるべきである。

キーワード：観察研究，診療ガイドライン，エビデンス統合

概要

医療における意思決定は、知識と推論に基づいて行われ、多くの場合、個人の嗜好や目標を考慮して、患者や家族との会話を共有しながら行われる。一般的に、無作為化比較試験（RCT）は、介入がアウトカムに及ぼす因果関係を推論するのに最適な試験デザインであると考えられている。しかし、観察研究もまた、多くの点でRCTを補完する貴重な情報を提供することができる。この研究声明は、米国胸部疾患協会（ATS）のアドホックで多様な学際的委員会の作業を要約したもので、肺、重症患者、および睡眠医学における臨床および政策決定に情報を提供する上で、RCTに加えて観察研究の役割を推奨するものである。本声明では、診療ガイドラインを作成する際の観察研究の役割に特に焦点を当てている。

観察研究には、強みと限界がある。観察研究の強みの多くは、RCTの強みを補完するものである。観察研究は外的妥当性が強く、RCTは内的妥当性が強い傾向がある。
観察研究は、より多くの代表的な患者を実際の環境下で研究することにより、様々な背景や環境の患者に関する知識を深めることができる。
質を評価する際には、観察研究であることを理由に研究を否定するのではなく、個々の観察研究の長所を考慮する必要がある。
臨床実践ガイドラインを作成する際に GRADE（Grading of Recommendations Assessment, Development and Evaluation）の枠組みを用いるという ATS の方針に沿って、以下のような場合には観察研究をガイドラインの作成に含めるべきである。

- ガイドライン委員会が必須と考えるアウトカムのエビデンスがRCTでは得られない場合（例：倫理的に問題があると考えられる、あるいは実施が不可能である)観察研究のエビデンスを求めるべきである。
- RCTの質が低い、または非常に低いと評価された場合、RCTのエビデンスを「代替」するために、観察的なエビデンスを求めるべきである。
- RCTのエビデンスが間接性、不正確性、または矛盾のために中程度の質と評価された場合は、RCTのエビデンスを「補完」するために観察研究を求めるべきである。
- 希少性や長期的なアウトカムなど、ガイドライン委員会が意思決定に不可欠と考えるアウトカムについて、RCTが最良のエビデンスを提供しない場合は、RCTの「後続」として観察研究を求めるべきである。

はじめに

「Respiratory Health Association（呼吸器健康協会）は、患者サービスおよびアドボカシー団体として、無作為化臨床試験において、女性や特定のサブ集団（少数民族、社会経済的資源の少ない人々など）が組織的に過少評価されていることを認識しています。この状況を改善する必要がありますが、観察研究の利用を増やすことで、すべての人口層の患者のために、組織的な過少評価に対処することができます」

-Respiratory Health Association社長兼最高経営責任者Joel J. Africk

医療における意思決定は、知識と推論に基づいて行われ、多くの場合、患者さんやご家族との会話の中で、個々の好みや目標を考慮しながら行われる。診療ガイドラインは、病気の予防、診断、管理、ひいては健康増進のための最適な行動を推奨するために、構造化されたエビデンスを用いて医療に関する臨床判断を行う。また、政策やプログラムにもエビデンスが活用され、患者さんに最善のケアを提供している。

RCTは、測定された特性と測定されていない交絡特性がランダムに分布しているため、一般的に、介入がアウトカムに及ぼす因果関係を推論するのに最適な試験デザインと考えられている（表1）。有効性RCTでは、比較的均質な集団を登録し、厳格に遵守された試験プロトコルを用いて介入を行うことが求められる。したがって、有効性試験で観察された治療効果は、実際の臨床環境では見られない可能性がある(1)。このような背景から、日常の医療現場で治療を受けている人々に近い集団を対象に、医療の選択肢を評価する実用的RCT（EffectivenessまたはPractical RCT）とも呼ばれ、実際の医療現場での介入の有効性を評価することを目的としている）への関心が高まっている。しかし、倫理的な問題やその他の要因（例えば、時間やその他のリソースの不足）により、RCTデザインでは実現不可能な臨床上の問題もある。さらに、RCTは完了するまでに長い時間がかかり、希少な結果や長期的な結果に焦点を当てていない場合もある。また、様々な要因が臨床試験への参加を制限する可能性がある。例えば、臨床試験に関する知識、参加することによる負担や個人的な利益の認識、利他主義の度合い、安全性や効果の低い治療法に割り振られることへの懸念、医療従事者への信頼、交通手段や医療機関へのアクセスなどが挙げられ、これらは社会経済的な資源によって異なる可能性がある（2-9）。最後に、RCTから得られるエビデンスは、バイアス（例：追跡調査の完了率が低い、出版バイアス)一般化可能性の欠如、不正確さ、エビデンスの一貫性のために、非常に低い、低い、または中程度の質しかないかもしれない。このような場合には、適切にデザインされた観察研究から得られるエビデンスが、エビデンスギャップを埋めるのに役立つ。

表1　因果関係を検討するRCTおよび観察研究の潜在的な長所と短所

RCTの強み	観察研究の強み
測定された交絡因子と測定されていない交絡因子のランダムな分布により、バイアスが減少する	研究参加者と実践環境に関して、より高いレベルの一般化可能性/外的妥当性を備えた結果を生み出す
RCTの盲検化により、パフォーマンスバイアスと評価バイアスが最小限に抑えられる	多様な患者集団を捉えることができる
一般的に理解しやすい	エクイポイズが不明確な場合に、臨床上の質問を研究し、介入研究に関連する潜在的な害を減らすことができる
医学界に受け入れられた	まれな結果や長期間のフォローアップが必要な結果の研究に適している
	意図された治療効果の観察研究を実施するために頻繁に使用されるデータソースには、通常、非常に多数の患者が含まれ、ほとんどのRCTで達成されるよりも多くのパワーを提供し、治療効果の不均一性の評価を可能にする
	多くの場合、実施に必要な時間や費用が少なくて済みます
	ランダム化が不可能な状況で実施できる
	後ろ向き研究では、研究されていることの認識による行動の変化が少ない

RCTの制限	観察研究の限界
最適な条件下で世話をされる選択された集団の募集のため、および/または多くの場合、現実の状況を反映していないため、一般化の可能性は限られている	測定されていない交絡または他のバイアスを制御するのが難しい
平衡状態にない臨床的質問を研究することは非倫理的です	多くの場合、欠測データや誤分類エラーに対して脆弱であり、患者から報告された結果を提供せず、因果関係を確立するために必要なデータの質が低いか、データが不足している可能性がある二次データソースを使用する
完了するまでに長い時間がかかる	医学界に常に受け入れられているわけではない
多くの場合高価
まれな疾患、まれな結果、および長期のフォローアップが難しい
インフォームドコンセントの必要性、および厳格な除外基準は外部の有効性を制限する可能性がある
研究意識による行動の変化（ホーソン効果）

略語の定義 RCT=無作為化比較試験

RCTとは対照的に、観察研究（または「非実験的」または「非無作為化」）とは、通常、日常的な医療行為の中で、対象となる結果について個人を観察する研究である。研究者は患者を異なる治療法に積極的に割り当てることはしないが、このような研究でも因果効果を推定することができる。「用量反応」が観察される場合や、効果推定値を減少させることが予想される妥当な残余交絡がある場合は、因果推論の有力な証拠となる(10)。Hill基準は、観察された関連性が因果関係にあるかどうかを判断する際にも用いられる(11)。既存のデータ（請求データなど）を用いて治療法の有効性を比較する観察研究は、一般的にRCTよりも短期間で完了することができる。したがって、観察研究には限界がないわけではないが、RCTの欠点を補完することができる。また、観察研究は、より多様な患者集団や医療現場を対象としていることが多いため、十分に実施されたRCTではほとんど得られない一般化が可能である。米国食品医薬品局（Food and Drug Administration）や欧州医薬品庁（European Medicines Agency）のような組織は、規制に関する意思決定をサポートするために、実世界のデータを用いた集団ベースの観察研究を行っている。

この研究論文の目的は、肺・重症患者・睡眠医療における臨床上の意思決定に観察研究とRCTを利用する方法を説明することであり、特に診療ガイドラインを作成する際の観察研究の役割とその組み入れに焦点を当てている。観察法は様々な質問（記述的、予測的の両方）に答えるために適用できるが、この研究声明では、介入（治療）の効果について因果関係を推論する目的でデザインされた観察研究に焦点を当てている。また、研究対象となる特定の研究課題を解決するために収集されたものではない、既存および／または二次的なデータ（過去にさかのぼって、または将来に向かって得られたデータ）を使用する研究にも主に焦点を当てている。これには、介入の効果を比較する研究（「比較効果研究」と呼ばれる）も含まれる。今回の研究発表では、観察研究の長所と短所、観察研究の質を評価する方法、観察研究と実用的なRCTとの整合性について検討する。これにより、臨床実践ガイドラインに観察研究を取り入れるための実践的な推奨事項の背景が明らかになる。このドキュメントは、エビデンスを統合する人、あるいは統合されたエビデンスを使用し、その統合がどのように情報提供されているかに関心のある人を対象としている。

方法

アドホック委員会への参加者

特別委員会には、肺、重症患者、および睡眠医学の臨床的専門知識を有する性別および職業的背景の異なるATSメンバーおよび非メンバーに加えて、観察研究の研究デザイン、RCT、プラグマティックな対照試験、臨床実践ガイドライン、質の向上、集団保健、行動医療、疫学、医療サービス研究、患者中心のケア、比較効果研究、実施科学、生物統計学的手法、および医療経済学の専門知識を有する個人が参加した。また、介護士の方も参加された。意思決定者2名からコメントをいただいた。知的・金銭的な利害関係を含む潜在的な利益相反は，ATSの方針と手順に従って開示・管理された。

エビデンスのレビューと議論

委員会の参加者は、以下の分野に焦点を当てたワーキンググループに分けられた。1）観察研究の強みとRCTをどのように補完するか、特に多様性と健康の公平性にどのように対処するか、2）観察研究に対する認識、最後に3）医学的意思決定のためのエビデンスの統合、特にATS臨床実践ガイドラインに観察研究を取り入れることの実際、に焦点を当てたワーキンググループに分かれた。

参加者には、ワーキンググループ内での議論を促進するために、対象となる文献検索の記事が提供された。2018年2月から5月にかけて、各ワーキンググループは、カリフォルニア州サンディエゴで開催されたATS国際会議中の2018年5月19日に行われた対面式の会議で、文献を要約し、さらなる議論のための暫定的な結論と推奨事項を策定することを課題とした。会議では、共同議長がワーキンググループによる議論を主導した。会議中、参加者は、プラグマティックRCTが観察研究といくつかの類似した特徴を共有しているため、その有用性についての簡単な議論を最終声明に含めるべきだと考えた。会議の後、電話会議でアイデアを練るための議論が続けられた。

研究ステートメントのドラフトが作成され、修正され、さらなるフィードバックを得るために委員会の全メンバーに配布された。さらに電話会議を行い、委員の間でコンセンサスが得られるまで提案を取り入れた。また、政策担当者2名にもコメントを求めた。修正したドラフトをATSに提出した。報告書はピアレビューを受けて修正され、最終決定の前にすべての委員がレビューを行った。研究声明の最終版がATS理事会に提出され、承認された。

結果

観察研究の長所と短所

観察研究は、一般的に実施にかかる時間と費用が少ないだけでなく、表1に示すように多くの強みがある(12)。質の高いエビデンスが得られる可能性がある。観察研究は、患者や医療従事者の経験や試験が実施された条件の代表性に懸念がある場合（例えば、介入が厳格に実施された場合や研究コホートが疾患集団を代表していない場合)有効性や実用的なRCTから得られるエビデンスを補完することができる。観察研究は、学術的な環境や地域社会を含む広範な実世界の診療環境で治療を受けた膨大な数の患者の経験を取り入れることができる。観察研究は、平等性の欠如や、有害性や潜在的な有益性のリスクに対する一般的な制約や考え方のために、RCTで研究することが倫理的に困難な介入を評価するためにも使用することができる。さらに、遺伝子マーカーに関する質問のように、研究者がコントロールできない質問にも対応できる。最後に、多くの観察研究に典型的な大規模なサンプルサイズと長期の追跡期間は、臨床実践ガイドラインの推奨に影響を与える可能性のある、有害作用や後に現れた有益性/危険性のような稀な曝露や結果を特定するために必要な時間と統計的検出力を提供する。

観察研究にはまた、認識すべき重要な限界がある（表1）。まず、無作為化を行わない場合、介入を受けた人と受けていない人を含む比較群は、対象とするアウトカムに関連する方法で異なる可能性がある。治療を受けた人と受けていない人の間の観察された差を調整する方法は存在するが、観察されていない差や測定されていない交絡因子を考慮することは困難である（道具変数分析やメンデルスラー無作為化などの方法では不可能ではないが）(12, 13)。また、観察研究では、交絡がない場合でも、効果推定値に偽りを生じさせるような方法で、研究に参加する患者や曝露分類を選択することがある。交絡によらないバイアスの一般的な例としては、対象となる被曝の影響に基づいて研究に参加することで生じる collider-stratification バイアス、被曝前の時間を不適切に分類することで生じる immortal time バイアス、効果メディエーターに対する意図しない条件付けなどが挙げられる（14, 15）。すべての潜在的交絡因子を同定、測定、調整し、すべての選択バイアスを考慮しなければならないため、観察研究はRCTデザインよりもバイアスの影響を受けやすい。第二に、大規模な観察研究の多くは、研究目的で収集されたものではない二次データに依存している。このようなデータは、肺機能やその他の検査結果など、患者の特徴や、症状や生活の質などの患者が報告するアウトカムを特定するのに役立つ、望ましい詳細な臨床情報を含んでいない可能性がある。このため、この種の研究では、誤分類（詳細情報がないために信頼性の高い測定ができない変数を研究者が分類しようとした場合)測定されない交絡、患者にとって最も関連性のない結果に基づく結論などが起こりやすいと考えられる。

観察研究には、RCTの長所と短所を補完する傾向がある。例えば、上述したように、質の高い観察研究は外的妥当性が高くなる可能性がある一方で、RCTは内的妥当性が高くなる傾向がある。その他の補完的な特徴を表1に示する。このように、臨床判断の根拠となる最良の医学的証拠とは、両方のデザインにおいて最高の質であると判断されたものである。

多様性と健康の公平性

観察研究では、積極的な参加が求められず、研究倫理委員会からインフォームド・コンセントの放棄を得ることができるため、代表的で多様な患者集団が含まれる可能性が高い。観察研究では、より大規模で代表的なサンプルを用いて、性別、人種・民族、併存疾患、治療へのアドヒアランス、医療へのアクセスなど、様々なレベルでの治療効果の不均一性を調べることができる。このような情報は、健康上の不公平をもたらす要因を理解し、克服するために不可欠である。

観察研究とは対照的に、RCTでは、調査対象となる疾患に罹患している集団を代表していない参加者が含まれることがよくある。喘息患者の約6%（16)慢性閉塞性肺疾患患者の約27%（17,18）が、これらの領域における現代のRCTの適格基準を満たしているという研究結果がある。最近のシステマティックレビューでは、喘息の罹患率や死亡率が高いアフリカ系アメリカ人は、喘息治療薬のアドヒアランスを評価するRCTに十分に参加していないことが明らかになった(19)。厳格な適格基準(20-22)、潜在的な参加者やその代理決定者への連絡の困難さ、時間や労力の面での参加者の負担の大きさ、研究に対する信念、インフォームド・コンセントの必要性(23)など、人々がRCTにリクルートされ参加することを妨げる障壁は、マイノリティ、社会経済的地位の低い患者、精神疾患やその他の合併症を持つ患者に不均衡な影響を与える傾向がある(24)。また、臨床試験に参加する医療従事者へのアクセスが制限されていることや、構造的な人種差別や研究上の不正行為により、人々が医療機関に対して不信感を抱くようになっていることも、社会的に受け入れられていないグループの研究への参加を妨げている（25）。RCTの実施においては、このような障害を克服するように努力しなければならないが、観察研究であれば、社会的弱者の参加に対するこのような障害を克服できる可能性がある。

観察研究の質

観察研究の弱点は、厳密な研究デザインと因果関係図の使用によって軽減することができる。交絡を減らし、因果推論を強化する観察研究の手法は、過去15年間に大きく発展し、知識のある研究者であれば実施可能である（12, 26, 27）。その一つが、無作為化試験のデザイン原則を観察研究のデザインと分析に適用する「target trial emulation」である。これは、研究者が不必要なバイアスを特定して回避するのに役立ち、観察研究で行うべきトレードオフを明確にする手段となることが示されている（28, 29）。さらに、質の高い観察研究とRCTの結果は、多くの場合、変わらないという報告もある（30-32）。研究の質を評価する際には、観察研究であることを理由に研究を否定するのではなく、それぞれの観察研究の長所を考慮する必要がある。Newcastle-Ottawa ScaleやROBINS-I（Risk of Bias in Non-Randomized Studies-of Interventions）など、因果推論を目的とした研究を含む観察研究の質を評価するツールがある（26）。Newcastle-Ottawa Scaleは観察研究の質を評価するために開発されたもので（http://www.ohri.ca/programs/clinical_epidemiology/oxford.asp)ROBINS-Iツールは観察研究のバイアスのリスクに対処するために開発されたものである。その他のガイドも存在する。

観察研究にまつわる一般的な認識

観察研究は科学界で理解され、受け入れられるようになってきているが、臨床医の間ではその妥当性に対する不信感が残っており、エビデンスの統合や臨床上の意思決定の際に観察研究の結果を除外したり、割り引いたりすることにつながっている（33）。このような不信感は、一部の観察研究には当てはまるかもしれないが、一部の人には絶対的なものと受け取られている一般論によって持続している。表2は、観察研究にまつわるいくつかの認識をまとめたものである。

表2 医学界の一部の人々による観察研究を取り巻く認識と一般化

知覚/一般化	現実	追加コメント
研究の質は、観察研究が常にRCTと比較して質が劣る「エビデンスの階層」によって決定することができる。	研究デザインは、研究の質を決定する唯一の要因である。	従来のエビデンスの階層は、研究デザイン（GRADEなど）やその他の要因を考慮したより正確なフレームワークによって更新された。
研究の質は、観察研究が常にRCTと比較して質が劣る「エビデンスの階層」によって決定することができる。	研究デザインは、研究の質を決定する唯一の要因である。	さまざまな研究デザインは、医学のさまざまな側面を研究するのに適している。
観察研究では、因果関係を特定することはできない。	観察研究によって示された最小限のバイアスのリスクの関連は、因果関係をサポートする。	研究の種類に関係なく、研究が因果効果をどれだけうまく確立するかを決定するための方法が利用可能である。たとえば、GRADEは、大きな効果量、「用量反応」勾配がある場合、および/またはすべてのもっともらしい残留交絡が見かけの関連性を過小評価する結果となる場合、観察研究が因果関係をサポートすることを認識している（10）。
ランダム化が発生しないため、測定されていない交絡は観察研究の解釈可能性を制限する。	交絡は、注意深い研究デザインと適切な分析によって最小限に抑えることができ、感度分析によってさらに対処することができる。	研究デザインの質を評価することは、さまざまなタイプのバイアスについてそれらを精査することを意味する。感度分析は、バイアスが存在する場合にバイアスの可能性に対処する方法を提供する（12）。
同様の研究の質問に対処する観察研究とRCTからの矛盾する結果は、観察研究の質が低いことを証明している。	観察研究と同様の研究質問に対処するRCTの違いは、一般に、研究対象の患者のタイプの違い、研究変数の定義、研究設定（理想的な条件と実際の条件）など、研究デザイン以外の要因によって説明される（28）。	RCTと観察研究の間の不一致率は、同じ研究質問に取り組む異なるRCT間の不一致率よりも大きくはない（12 – 14）。
RCTとは異なり、観察研究は、関心のある結果を生み出すために操作することができる。	観察研究とRCTを操作することができる。研究者は、分析を開始する前に研究プロトコルを提出することをお勧めする（たとえば、clinicaltrials.govまたは欧州医薬品医薬品安全性センターネットワーク）。	観察研究における研究手順の信頼性と事前仕様を確保するためのツールの開発は、RCTの開発に遅れをとっているが、これらのツールは観察研究に存在する。たとえば、STROBEステートメントとRECORDステートメントは、観察研究の報告の完全性を評価するためのツールである（41）。
ランダム化のため、RCTにはバイアスがない。	RCTには多くのバイアスがある。	RCTの考えられるバイアスには、選択バイアス、パフォーマンスバイアス、検出バイアス、摩擦バイアス、報告バイアスなどがある（42）。

略語の定義 GRADE = Grading of Recommendations Assessment, Development and Evaluation、RECORD = Reporting of Studies Conducted Using Observational Routinely-Collected Health Data、RCT = Randomized Controlled Trial、STROBE = Strengthening the Reporting of Observational Studies in Epidemiology（疫学における観察研究の報告の強化）。

実践的RCT

Pragmatic RCTは、従来の有効性を検証するRCTと観察研究の中間に位置する。この試験デザインでは、試験結果が日常的な臨床環境で観察される結果に近いものになるようにデザインを決定することが優先される(34)。このようなデザイン決定には、日常診療で収集されたデータに依存する適格性基準、臨床実践に組み込まれた研究、介入方法の柔軟性などが含まれる。実用的なRCTは実世界の状況を反映しようとするものであるが、実用的な試験デザインを採用した研究では、インフォームドコンセントやその他の形での積極的な患者の参加（例：研究のアンケートに答えること）を必要とすることが多く、研究結果の実世界の臨床集団への適用性が制限される可能性がある。観察研究もまた、実世界の条件で介入を評価することができる。観察研究がうまくいけば、より多くの人を対象とすることができるため、実用的なRCTではできない外的妥当性に取り組むことができる可能性がある。

観察研究を臨床実践ガイドラインに取り入れる際の推奨事項

全米医学アカデミーによると、臨床実践ガイドラインは、システマティックレビューによって特定された入手可能な最善のエビデンスに基づいて勧告を行っている（35）。何百万人もの人々のケアに影響を与える臨床ガイドラインには、最もよく知られているケアのエビデンスを反映させることが不可欠である。エビデンスの統合に観察研究を適切に含めることは、これに貢献する。

現在、多くのガイドライングループは、最良のエビデンスを特定するために段階的なアプローチを採用している。RCTが特定され、「十分な」または「適切な」質であると判断された場合、それらのRCTは推奨事項に使用される。何をもって十分な質とするかは、ガイドラインパネルの判断に委ねられている。RCTが見つからない場合や、入手可能なRCTの質が十分でないと判断された場合は、観察研究が求められる。十分な質を有する観察研究は、まず推奨の情報として用いられる。観察研究が特定されない場合、または利用可能な観察研究の質が不十分であると判断される場合には、間接的な証拠が求められる。最後に、十分な間接的証拠が存在しない場合には、推奨を行わないか、非対照研究や専門家の意見（すなわち、臨床的な知識や経験）を用いて推奨を行うことになる。時間と労力を節約できるこの段階的なアプローチは、観察研究が日常的に検討されるのではなく、必要に応じてのみ検討されることを意味する。

実践ガイドラインに観察研究を含めるこの「必要に応じて」というアプローチは、実用的で効率的ではあるが、患者のケアに情報を提供するために、エビデンスの全体像が利用されないことが多いことを意味する。また、他のガイドライン作成者のアプローチが異なると、異なる研究が選択されることになり、効果の推定値に一貫性がなく、ガイドライン間で異なる推奨がなされることになる。観察研究の使用については、より統一され、広く受け入れられるアプローチが望まれる。

2005,ATSはGRADE（36）アプローチを採用した。GRADEは、エビデンスの評価と要約、および勧告の策定、記述、評価のためのダイナミックなパラダイムである（37）。GRADEは、世界保健機関（WHO)コクラン共同計画（Cochrane Collaboration)米国内科学会（American College of Physicians)およびその他のガイドライン作成機関にも支持されている（http://gradeworkinggroup.org）。GRADEでは、すべての研究デザインの質が変化する可能性があるため、研究タイプが研究の質の唯一の指標ではないことを認識している。GRADEでは、研究デザインを用いてエビデンスの質について最初の仮説を立て、次にエビデンス群の質のアップグレード（例：効果の大きさ、用量反応の勾配、反対の効果に寄与するもっともらしい交絡因子）またはエビデンス群の質のダウングレード（例：バイアスのリスク、間接性、矛盾、不正確さ、出版バイアス）を正当化する基準を提供する。

GRADEワーキンググループは、臨床実践ガイドラインの作成における観察研究の使用に関するガイダンスを作成している（10, 38, 39）。ガイドラインの作成に観察研究を含めるためのアルゴリズムを図1に示す。

図1 観察研究を医学的意思決定に含めるためのアルゴリズム

GRADE = Grading of Recommendations Assessment, Development and Evaluationの略。

観察研究は、RCTよりも質の高いエビデンスを提供することができる。RCTが見つからない場合や、RCTの質が低いまたは非常に低いと評価された場合には、観察研究が求められる。この場合、観察研究のエビデンスはRCTのエビデンスの代わりになったり、その質がRCTのエビデンスを上回ったりすることがあるため、「代替」エビデンスとみなされる（38）。中等度の質のRCTエビデンスが存在する場合には、中等度の質の評価の正当性を検討すべきである。間接性、不正確性、不整合などの問題により、RCTのエビデンスが高品質から中等度の品質に格下げされた場合には、観察研究が求められることがある;この場合、観察研究のエビデンスは追加的な情報を提供することから「補完的」であると考えられる。

「間接性」とは、ガイドラインパネルが提示した質問事項とは異なる患者集団、介入、比較対象、アウトカムを研究が含んでいる状況を指す(36)。間接性は、一般化可能性の欠如という意味で使われることが多い。例えば、ガイドライン委員会が高齢者の予防接種について質問したにもかかわらず、関連するすべての研究が若いボランティアを対象としていた場合、母集団の間接性が存在することになる。不正確さ（Imprecision）とは、推定された効果の信頼区間（CI）が広すぎて、ガイドライン委員会の質問に明確に答えられないこと（CIの両端で臨床判断が異なること）を示す。例えば、ある薬剤を使用するためには5%の死亡率低下が必要であるとガイドライン委員会が先験的に決定し、その薬剤が7%の死亡率低下をもたらすと研究が推定し、95%CIが3-11%であった場合、CIの一方の端ではその薬剤を使用し、他方の端では使用しないことになるため、不正確さが存在することになる。効果の方向性や大きさが研究によって異なる場合、不一致が存在する。この判断は主観的なものであっても、I2統計や異質性のP値を用いてもよい。間接性、不正確性、矛盾は、エビデンスを高品質から中程度の品質にダウングレードさせる原因であり、これらは観察エビデンスによって克服される可能性のある限界であるため、補完的なエビデンスを求める必要がある。例として、RCTが間接性によって制限されている場合、ガイドラインの質問に直接対応する観察研究が見つかる可能性があり、RCTが不正確さによって制限されている場合、狭いCIを持つ大規模な観察研究が見つかる可能性があり、RCTが矛盾によって制限されている場合、複数の一貫性のある観察研究が見つかる可能性があることを考えてみてほしい。対照的に、これは議論の余地があるが、GRADEによれば観察研究にもバイアスのリスクがあるため、観察研究がバイアスのリスクのあるRCTを克服できるかどうかはあまり確かではない。

最後に、ガイドライン委員会が意思決定に不可欠と考えるアウトカムについて、RCTでは最良のエビデンスが得られないと推測される場合、例えば、希少なアウトカムや長期的なアウトカムが重要と判断される場合などに、観察研究が求められることがある。このような場合、必要な情報がRCTからは得られないため、観察研究から得なければならないという理由で、観察研究のエビデンスは「逐次的」とみなされる。逐次的エビデンスと置換的エビデンスはよく混同される。一般的には、代替エビデンスとは、RCTエビデンスがない、あるいはRCTエビデンスが非常に乏しいために求められる観察研究のことであり、逐次エビデンスとは、十分な質のRCTエビデンスは存在するものの、RCTエビデンスが不完全であったり、情報としては狭すぎたりするために求められるものである。例えば、あるガイドライン委員会が喘息に対する気管支鏡による介入を取り上げている場合、短期的なアウトカムを報告した高品質または中品質のRCTが存在するかもしれないが、ガイドライン委員会はRCTで報告されていない長期的なアウトカムにも関心があるかもしれず、そのために逐次的なエビデンスとして観察研究を求めるかもしれない。

ガイドライン委員会が意思決定に不可欠と考えるアウトカム（すなわち、重要なアウトカム）を検討したRCTエビデンスが高品質と評価された場合には、観察的エビデンスは不要である（すなわち、逐次的なエビデンスの代替、補完、提供のための観察的エビデンスは不要である）。

推奨事項の再評価

臨床ガイドラインやエビデンスの統合において、観察研究のエビデンスをいつ統合するかについての我々の推奨は評価されるべきであり、その利点（例えば、観察研究のエビデンスがどのくらいの頻度でガイドラインの推奨を変えるかなど）がわかった時点で更新されるべきである。これらの評価では、GRADEアプローチの進化や、観察研究の検索と同定、その質のレビューと評価、および組み入れの妥当性についての決定に必要な追加のリソースを考慮する必要がある。

おわりに

観察研究は、患者のケア、プログラム、および政策の指針となる医学的決定を行う上で重要である。その重要性は、個別化医療の指針となる知識を求めたり、意思決定者が実世界のデータや実世界の証拠を求めるようになったり(40)、電子カルテなどから得られる豊富なデータソースが充実したり、RCTが高価になったり、多様性や健康の公平性への取り組みを強化したりするにつれて、ますます高まっていくと思われる。質の高い臨床実践ガイドラインは、世界中の何百万人もの人々の健康アウトカムを改善するために、エビデンスを統合し、推奨を行う上で重要な役割を果たしている。最も強力な医学的エビデンスは、多くの場合、観察研究とRCTの両方に裏付けられている。したがって、観察研究と無作為化研究の両方が、意思決定に必要な情報を提供し、患者さんの健康を最大限に高めるための鍵となる。