外的妥当性、一般性、適用性、直接性:簡単なプライマー

強調オフ

EBM・RCT

サイトのご利用には利用規約への同意が必要です

External validity, generalisability, applicability and directness: a brief primer

ebm.bmj.com/content/23/1/17.long

 2018年1月25日

要旨

外的妥当性とは、ある研究の結果を、その研究に登録された患者以外の患者にも使用できるかどうかという疑問に答えようとする概念である。外的妥当性は,一般性と適用性という2つのユニークな概念からなる。あるサンプルから得られた結果を、そのサンプルが抽出された母集団にまで拡大することに関心がある場合、問題は一般化可能性の一つである。一方,研究参加者から得られた推論を,任意の集団に属する特定の患者の治療に使用することが問題となる場合,問題は適用性である。臨床家、ガイドライン作成者、政策立案者は、一般性については悩まないが、適用性については悩むことが多い。ある集団への適用性が低いと判断された場合、間接性のために裏付けとなるエビデンスの確実性が低くなる。

はじめに

研究エビデンスを実務に活用する際の中心的な問題は、研究参加者にとっての真実(内的妥当性)が、他の人々にとっても真実であること(外的妥当性)をどれだけ確信できるかということである。調査研究者にとって、サンプルの研究は、サンプルが抽出された母集団についての主張を生み出すものである。臨床現場では、臨床試験の結果を、試験参加者を抽出した母集団に限定して適用することが重要であることはほとんどない。むしろ、最も一般的な状況は、臨床試験の結果を、関連する特性において臨床試験の集団と十分に類似していると考えられる他の集団に適用することである。これらは外的妥当性の問題であり、一般性、適用性、移転性、代表性、直接性(generalisability, applicability, transferability, representativeness, directness)などの用語で説明されることが多い。これらの用語は、異なる基本的な概念を示している。この簡単な入門書では、外的妥当性という概念の一部である2つのユニークな基礎概念について説明する。これらの2つの概念を意味論を超えて説明し、これらの概念がエビデンスに対する我々の確信(エビデンスの質またはエビデンスの確実性とも呼ばれる)に与える影響を説明することを目的としている1。

一般性と適用性

サンプルから得られた結果をどれだけ自信を持ってサンプルが抽出された母集団に拡大できるかが問題となる場合、問題は一般性の問題である。この統計学的概念はサンプリング理論に関連しており、調査サンプルのサイズと代表性を調べることで評価することができる2 3 国勢調査や十分な規模の無作為抽出サンプルは、一般性を最適化するはずである。

研究参加者から得られた推論を、どのような集団から集められた患者の治療にどれだけ自信を持って用いることができるかが問題となる場合、問題は適用性である。この概念は、予後や転帰に影響を与える点で2つの集団がどれだけ類似しているかを判断することで評価できる。重要な要素としては、臨床的特性、精神社会経済的特性、医療従事者や医療システムの特性などの医療的要素が挙げられる。

無作為抽出は、より一般化しやすい結果をもたらすが、臨床試験ではほとんど使用されない。臨床試験の参加者は、既知の集団から抽出されることはほとんどなく、無作為に選択されることもほとんどない。臨床試験担当者は便利なサンプルを募り、患者はボランティアで参加する(介入の割り当てが無作為に行われる場合も同様)。

そのため、一般性の評価は、臨床試験よりも調査の方が容易である。逆に、臨床医、ガイドライン作成者、政策立案者が苦労するのは、一般性ではなく、適用性である。母集団のごく一部に適用される狭い適格基準は、結果の適用可能性を狭めるが、この適用基準に密接に適合する人には、結果は非常によく適用される。この最も極端な例は、試験結果が試験参加者に非常によく当てはまるn-of-1試験である。臨床試験に一般性を求めると、臨床家は臨床試験で得られた研究成果を患者の治療に使用してはならないことになる。これは、愚かで無駄なことである。臨床家が臨床試験の結果を自分の患者に適用できると判断するのは、臨床における治療効果(有益性と有害性)が、臨床試験で観察された治療効果と類似していることが期待されると判断しているのである。そうでない限り、つまり、試験の状況と臨床の状況の間に間接性がある限り、彼らはこのエビデンスから得られる効果の推定値の患者への適用性に対する確信を減らさなければならない。

間接性による効果の推定値の信頼性の低下は、バイアスや不正確さなど、エビデンスの質に悪影響を与える(低下させる)他の要因の影響に似ている。4 エビデンスの確実性を記述するGRADEアプローチでは、試験状況と臨床状況の間の違いは、めったに重要ではないにしても、ほぼ常に予想されるものであるため、(直接性ではなく)間接性という用語を用いている。

図1 一般性と適用性の概念。

図2 一般性,適用性,間接性をどのように評価するかを示したもの

表1 一般性、適用性、間接性を示す例

エビデンスを求めている患者

鎌状赤血球腎症による腎障害を心配している鎌状赤血球症の若い男性。

心筋梗塞で死ぬことを心配している、コントロール不良の2型糖尿病と心臓病の既往歴を持つ中年男性。

試験

ヘモグロビンSSのホモ接合体で,持続的な微量アルブミン尿があり,正常血圧で,高血圧や心臓・腎臓・肝臓・全身疾患の証拠がなく,妊娠しておらず,抗炎症薬を服用していない18歳以上の患者を対象に,カプトプリルとプラセボを比較。アウトカムは、微量アルブミン尿と血圧であった。

一般性

サンプルサイズが小さく(患者数22名)患者が便宜的に選ばれたと思われることから、一般性は低い。

2 型糖尿病と心疾患を有する 7020 名の患者を対象としたエンパグリフロジンとプラセボの比較試験で、薬剤未使用または安定した治療を受けており、体格指数 45 以下、推定糸球体濾過速度 30 mL/min 以上、糖化ヘモグロビン 7~10%8。

42カ国の590施設で登録された7020名の患者という大規模なサンプル(登録のためにスクリーニングされた全患者の61%)のため、十分である。登録のための患者の選択方法は不明である。

適用性

鎌状赤血球症患者のほとんどが除外基準の一部を満たしているため、除外基準が制限されていることと、代用的なアウトカムが用いられていることから、適用性は低い。

除外基準が厳しすぎず、患者にとって重要なアウトカム(心筋梗塞、脳卒中、心血管死、心不全による入院、全死因)であるため、適切である。

間接性

重大な間接性 重大な間接性なし

 

考察

外的妥当性はいくつかの概念を含む構成要素であるため、目的に応じて具体的な用語を使用するのが良いであろう。一般性の中心的な関心事は代表性であり、これらの用語は、母集団を対象とした調査研究やその他の観察研究で使用するのが最適である。適用性の中心的な関心事は類似性または直接性であり、これらの用語は、臨床医が研究集団を治療することはめったになく、ガイドライン作成者は臨床研究に登録された狭い範囲で選択されたグループ以外の集団にもケアを推奨しなければならないため、エビデンスに基づくケアに最もよく用いられる。適用性の高い研究とは、意思決定を行う患者に類似した集団を対象とし、その環境で実施可能な介入を行い、患者に関連するアウトカムを測定するものである。

研究デザインに基づいて、一般性や適用性を予測することができる。しかし、例外も少なくない。動物実験は一般性や適用性に乏しいと考えられる。ケースシリーズや症例報告は一般性に乏しいが、場合によっては応用性に優れている(すなわち、特定の患者の特性に適合している)ことがある。対照的なサンプルを対象とした縦断的研究は、(無作為または連続したサンプルを対象とした研究と比較して)一般性に限界があるが、無作為化試験から除外されることが多い患者(高齢者や併存疾患を有する患者など)を対象とした場合には、良好な適用性を示す可能性がある。

研究結果は交絡によるバイアスのリスクが高いが、特定の患者集団への適用性が高い場合もある。逆に、バイアスのリスクが低い、よくできた研究では、治療効果を高め、その害を減らす要因に基づいて高度に選択された患者を対象としているため、その特定の集団については信頼できる結果が得られるが、通常の患者集団に適用するには不安が残る。一般化可能な研究であっても、適用性が低い場合がある。良い例は、厳格な組み入れ基準を持つ集団からの厳密なサンプリング(すなわち、よくできた無作為抽出)を行った研究である(結果を臨床に適用することは難しい)。

ガイドライン作成者およびエビデンスに基づく実務者は、結果が十分に間接的であるために、その結果が対象となる臨床集団において同様の効果をもたらすという確信を減らす必要があるかどうかを判断するために、一連のエビデンスの適用性を考慮すべきである。研究エビデンスで報告された効果に対する信頼性を低下させる理由には、研究結果の内的妥当性に対するいわゆる脅威も含まれる。これらの脅威は、バイアスのリスクを高め、推定値の精度を低下させる。意思決定者にとって最適なシナリオ5 6は、バイアスリスクの低いエビデンスを提供する実用的な無作為化試験があり、それに加えて適用性の高い補完的な観察研究が裏付けられている場合である。このような研究は、重要な背景情報や実施情報を提供することができる。

 

参考文献

1. Hultcrantz M, Rind D, Akl EA, er al)。 The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4-13.

2. Dekkers OM, von Elm E, Algra A, er al)。 How to assess the external validity of therapeutic trials: a conceptual approach. Int J Epidemiol 2010;39:89-94.

3. Fernandez-Hermida JR, Calafat A, Becoña E, er al)。 若年層におけるアルコール誤用の家族ベースの普遍的な予防の研究における外的妥当性を評価するための一般化可能性、適用可能性、予測可能性(GAP)の評価:無作為化対照試験のシステマティックな方法論的レビュー. Addiction 2012;107:1570-9.

4. Guyatt GH, Oxman AD, Kunz R, er al)。 GRADEガイドライン: 8. エビデンスの質を評価する–間接性。J Clin Epidemiol 2011;64:1303-10.

5. Rothman KJ, Gallacher JE, Hatch EE. Why representativeness should be avoided. Int J Epidemiol 2013;42:1012-4.

6. Tabak LA, Mirels L, Monte LD, er al)。 Isolation and characterization of a mucin-glycoprotein from rat submandibular glands. Arch Biochem Biophys 1985;242:383-92.

7. Foucan L, Bourhis V, Bangou J, er al)。 鎌状赤血球貧血を有する正常血圧の成人における微量アルブミン尿に対するカプトプリルの無作為化試験。Am J Med 1998;104:339-42.

8. Zinman B, Wanner C, Lachin JM, er al)。 Empagliflozin, Cardiovascular Outcomes, and Mortality in Type 2 Diabetes. N Engl J Med 2015;373:2117-28.

外的妥当性、一般性、適用性、直接性:簡単なプライマー

Mohammad H Murad、Abdulrahman Katabi、Raed Benkhadra、Victor M Montori

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー