疫学における因果関係の評価：因果関係思考の発展を取り入れたBradford Hillの再検討

Contents

概要
はじめに
因果関係評価のアプローチ
Bradford Hillの視点との比較
考察と結論

Assessing causality in epidemiology: revisiting Bradford Hill to incorporate developments in causal thinking

pubmed.ncbi.nlm.nih.gov/33324996/

2020年12月16日

概要

疫学において因果関係を評価するためには、Bradford Hill（BH）の9つの視点（基準と呼ばれることもある）がよく用いられる。しかし、その後、因果関係の考え方は発展し、最も著名な3つのアプローチは、潜在的なアウトカムの枠組みを暗黙的または明示的に構築している。

有向性非循環グラフ（DAG) 十分な構成要素を持つ原因モデル（SCCモデル、「因果関係のパイ」とも呼ばれる)および推奨・評価・発展・評価の等級付け（GRADE）手法である。

本論文では、これらのアプローチがBH視点とどのように関連しているかを探り、因果関係の評価を改善するための示唆を考察している。上記の3つのアプローチを、それぞれのBH視点にマッピングした。アプローチとBH視点には重複が見られ、BH視点が永続的に重要であることを強調した。アプローチをマッピングすることで、各視点の理論的裏付けが明らかになり、その視点が関連する条件が明確になった。比較の結果、関連性の強さ（もっともらしい交絡の分析を含む)時間性、妥当性（媒介と相互作用を明確にするために、それぞれDAGまたはSCCモデルによってコード化される)実験（研究デザインが交換性に与える影響を含む）という4つの視点で共通性が確認された。

一貫性は、効果量の異なる集団への移植性や、効果量の説明できない不整合（統計的異質性）を考慮することで、より有用に運用できるかもしれない。

特異性はめったに起こらないので、暴露や結果を偽装すること（すなわち、陰性コントロール）の方が有用である。

用量反応関係の存在は、交絡から生じやすいため、広く認識されているよりも少ないかもしれない。

コヒーレンスとアナロジーの有用性は限られていることがわかった。本研究は、因果関係評価を向上させるために、BH視点をより明確にする必要性を浮き彫りにした。

はじめに

因果関係の評価は、集団の健康を改善するための政策や実践に役立つ可能性があるため、疫学にとって基本的なものである。疫学研究の第一人者であるSir Austin Bradford Hillは、因果関係評価の目的は、「目の前の一連の事実を説明する他の方法…原因と結果と同等かそれ以上の可能性を持つ他の答え」があるかどうかを理解することであると示唆している[1]。因果関係の評価は、関係の基礎となる「一連の事実」を調べるために、一連の証拠または単一の研究に適用することができる。Bradford Hillは、そのような一連の事実を明らかにした。一般的にはBradford Hill criteriaと呼ばれているが、彼はこれらを「視点」と表現し、チェックリストとしてではなく、因果関係を評価するための考慮事項として使用することを強調した。そのため、私たちはこれらを「BH 視点」と呼んでいる[2]。

ブラッドフォード・ヒルが最初にビューポイントを紹介して以来、疫学における因果関係の考え方は、潜在的アウトカムの枠組みを取り入れることが多くなった[3,4,5,6,7,8]。非公式には、潜在的結果の枠組みは、真の因果効果とは、個人が曝露されたときに観察された結果と、個人が曝露されなかった場合に観察されなかった潜在的結果との間の差であり、他のすべての条件は同じであると仮定している[6]。個人の観察されていない潜在的な結果を知ることはできないので、研究者はしばしば曝露群と非曝露群の結果を比較する [6]。潜在的アウトカムの枠組みを適用すると、研究者はこれらのグループ間の交換可能性、すなわち、非曝露グループが曝露グループと同じアウトカムのリスクを有するかどうかを検討することになる [6]。実際には、これはグループが比較可能かどうかを検討することを意味する。研究者は、グループが交換可能であれば、観察された効果が真の因果効果に等しいことをより確信できるかもしれない[9]。

ここでは、潜在的アウトカムの枠組みを暗黙的または明示的に取り入れているものの、その運用方法が異なる3つのアプローチに注目している[4, 10, 11, 12]。まず、有向非環状グラフ（DAG）は、対象となる変数間の相互関係についての仮定を明確にするのに役立ち、したがって、有効な因果推論の脅威となる。

SCC（Sufficient-component cause）モデルは、因果関係の多因子性を強調し、異なる曝露がどのように相互作用して結果を生み出すかに注目する。

最後に、GRADE（Grading of Recommendations, Assessment, Development and Evaluation）手法は、エビデンス（曝露と転帰の間に因果関係があるかどうかを評価するために利用できる既存の研究）に基づいて因果関係の確実性を評価するための体系的なアプローチである。疫学者は、このようなアプローチを組み合わせることで、因果関係の評価を改善できると提案している[7, 13, 14, 15]。

これらの潜在的アウトカムフレームワークの各アプローチの強みを生かすために、これらのアプローチがどの程度重複しているのか、あるいは補完し合っているのかを比較した。SCCモデルとDAGにおける潜在的アウトカムフレームワークを比較した文献は限られており[4, 5, 11]、BH視点とGRADEを比較した研究も1件ある[10]。BH視点は、各視点の理論と応用を批判的に考察するために再検討されているが[2, 16, 17, 18, 19, 20]、DAGやSCCモデルと比較する試みは確認されていない。前者は、疫学におけるDAGの影響力が高まっていることを考えると、特に重要である[21]。

我々の主な目的は以下の通りである。1）3つの潜在的アウトカムフレームワークアプローチ（以下、単に「アプローチ」と呼ぶ）において、それぞれのBH視点がどのように考慮されているか、また、2）BH視点の基礎理論をどの程度解明しているかを検証することである。BH視点は、疫学において影響力を持っているため、この比較の基礎となっている[19, 20, 22]。さらに、BH視点は因果関係の評価において最も関連性の高い考慮事項を説明するという点で、文献上の合意が得られている[17]。比較を容易にするために、各BH視点のDAGとSCCモデルを作成し、各BH視点を各GRADEドメインにマッピングした。各アプローチの要素を説明するために、アルコール摂取と活動性結核を例にしている。結核菌（Mycobacterium tuberculosis：MTB）は、結核の原因菌である。MTBは潜伏性結核の原因となり、免疫力の低い人では活動性結核になる可能性がある[23]。アルコールを摂取すると、免疫力が低下し、活動性TBになるという仮説が立てられている[24]。この例は意図的に単純化されており、実際のシナリオを反映していない可能性がある。

では、BH視点と、比較対象となる3つのアプローチの主な特徴をまとめている。我々の目的は、各アプローチの詳細な説明や批判的な評価をすることではなく、因果推論へのアプローチとしての共通点と相違点を紹介することである。続いて、9つのBH視点を3つのアプローチと比較し、因果関係を評価する際の理論的な意味合いを批判的に考察する。最後に、主要な発見を要約し、因果関係評価が今後どのように行われるべきかについて暫定的な提案を行い、今後の研究のためのいくつかの領域を記する。

因果関係評価のアプローチ

ブラッドフォード・ヒルの視点

Bradford Hillによる9つの視点の説明は、表1にまとめられている。これらは、「因果関係を認める前に従わなければならない確固たる証拠のルール」ではなく、観察された関連性が因果関係以外によるものかどうかを検討する際に留意すべき特徴を意図している[1]。現在の実務では、BH視点は、1つのエビデンスや1つの経験的研究に対して、一緒に適用されたり、別々に適用されたりしている。

表1 Bradford Hillの視点と説明の引用文

観点	ブラッドフォードヒルからの説明的な引用[ 1 ]
連想の強さ	「しかし、[喫煙者の間で]肺がんの顕著な過剰を他の環境用語で説明するには、喫煙と喫煙量に密接に関連しているため、そのような特徴を簡単に検出できる生活の特徴が必要である。」p。296
一貫性	「したがって、私たちは、元の証拠に反論するために、異なる調査の異なる結果を確かに保持することはできないという、いくぶん逆説的な立場を持っている。それでも、まったく同じ形式の調査からの同じ結果が、元の証拠を常に大幅に強化するわけではない。私自身、まったく異なる方法で、たとえば前向きに、そして遡及的に到達した同様の結果にかなりの重点を置く。」p。296〜297
特異性	「ここにあるように、[ニッケル精製業者として働くことと癌との間の]関連が特定の労働者と特定の部位および病気の種類に限定され、仕事と他の死のモードとの間に関連がない場合、それは明らかに因果関係を支持する強い議論。ただし、特性[特異性]の重要性を強調しすぎてはならない。」p。297
テンポラリティ	「カートと馬はどれですか？これは、特に発達の遅い病気に関連するかもしれない質問　」p。297
用量反応	「たとえば、肺がんによる死亡率は、毎日喫煙するタバコの数に比例して上昇するという事実は、喫煙者の死亡率が非喫煙者よりも高いという単純な証拠に非常に大きな影響を与える。」p。298
妥当性	「しかし、これは私たちが要求できないと私が確信している機能である。生物学的にもっともらしいものは、その日の生物学的知識に依存する。」p。298
コヒーレンス	「一方、私たちのデータの因果関係の解釈は、病気の自然史と生物学の一般的に知られている事実と深刻に矛盾するべきではない。」p。298
実験	「時折、実験的または半実験的な証拠に訴えることが可能である。たとえば、関連が観察されたため、何らかの予防措置が取られる。それは実際に防止する？ワークショップのほこりが減り、潤滑油が交換され、人はタバコを吸うのをやめる。関連するイベントの頻度は影響を受けるか？ここで、因果関係の仮説に対する最も強力な支持が明らかになるかもしれない。」p。298〜299
類推	「状況によっては、類推によって判断するのが公正であろう。私たちの前にあるサリドマイドと風疹の影響により、妊娠中の別の薬や別のウイルス性疾患について、わずかではあるが同様の証拠を受け入れる準備ができているはずである。」p。299

有向非環状グラフ

DAGは、曝露と結果の間の推定される因果関係を示す図である [6]。DAGには、問題となっている関係にバイアスをかける可能性のある変数が含まれており、その展開はトピックの背景知識に基づいている[25]。DAGの詳細な説明は、他の文献にある[5, 6, 25, 26, 27]。DAGは、一般的に1つの研究に適用されるが、エビデンス全体に適用することも提案されている[62]。

以下の簡略化したDAG（図1）は、曝露とアウトカムであるアルコール消費と活動性TBの間の経路をそれぞれ示している。アルコール摂取は、例えば、個人の免疫系を低下させることにより、活動性TBを引き起こす可能性がある（メディエーターは示していない）[23]。過密状態は交絡変数であり、アルコール消費とactive-TBの両方を引き起こす。もし、アルコール消費量が活動性TBに因果関係がない（つまり、DAGでこれらの2つの変数の間にエッジがない）場合でも、データ上では、共通の原因である過密状態により、これらの間に関連性が観察される[4, 25, 28, 29]。このように、活動性結核に対するアルコール消費量の偏りのない推定値を得るためには、変数を四角で囲んで、過密状態を条件とする必要がある。因果関係を正確に表すDAGを用いて適切な変数を条件とすれば、調査者は交換可能性に自信を持ち、真の因果効果を推定することができる[9, 30]。

図1　飲酒と原爆症との関係を表す有向非環状グラフ

交絡変数である過密状態は、曝露と転帰の両方に影響を与えるため、条件付けする必要があり、過密状態を太い四角で囲んで示している

十分な成分の原因（SCC）モデル

SCCモデル（因果パイとも呼ばれる）は、因果関係の多要素性を円グラフで表したものである[31]。SCCモデルでは、発生した結果に寄与する各変数を因果関係のある構成要素として捉えており[32]、構成要素の様々な組み合わせが目的の結果をもたらす可能性がある。それぞれの「完全なパイ」の構成要素を合わせれば、結果を生み出すのに十分である。必要な構成要素とは、それがなければ結果が発生しないものである[33]。例えば、MTBは結核の必要な（しかし不十分な）構成要素であり、したがって、結核のすべての因果関係のパイの構成要素となる（しかし、因果関係のパイの唯一の構成要素として特徴づけられることはない）。SCCモデルの起源は、Mackieの因果関係の定義に遡ることができる。これは、原因が「結果に対してそれ自体が不必要だが十分である条件の、不十分だが必要な部分」であり得るという、INUS因果関係の考え方を導入したものである[34] p.45。

因果関係のパイは、因果関係のメカニズムや因果関係の構成要素の相互作用を理解するのに有効である[33]。表2は、2つの異なる集団（集団1と集団2）に対する4つのパイ（S1,S2,S3,S4）を示しており、これは活動性結核の発症に対する選択された原因成分（アルコール、過密、未知の要因）の可能な組み合わせを表している。

表2 2つの集団間の各十分因果関係の原因モデルと対応する有病率およびリスク比（RR)

2：アルコール消費量	3：過密	ポピュレーション1				人口2
		十分な原因ごとの結果の有病率				十分な原因ごとの結果の有病率
		4：アクティブTB	5：非アクティブ-TB	6：活動性結核のリスク	7：リスク比（RR）	8：アクティブTB	9：非アクティブ-TB	10：活動性結核のリスク	11：リスク比（RR）
0	0	20	80	0.2	参照グループ	20	80	0.2	参照グループ
1	0	60	40	0.6 0.6	3.0	60	40	0.6 0.6	3.0
0	1	70	30	0.7	3.5	40	60	0.4	2.0
1	1	90	10	0.9	4.5	90	10	0.9	4.5

各原因パイの有病率は母集団ごとに異なり、その結果、RRは母集団ごとに異なる。
各SCCモデルに対応するUの異なる添え字で示されているように、未知の要因はコンポーネントの組み合わせごとに異なる場合がある。400人の仮想データセットでは、AとOが測定され、Uは測定されない。原因となるパイは1列目にある（ラベルを参照）。2列目と3列目は、測定された各因果要素に個人がさらされたかどうかを示する（AとO、A = 1は、対応するSCCモデルで表された個人がさらされたことを示する）。母集団1の4列目と5列目、および母集団2の8列目と9列目は、アクティブTBを開発した（T = 1）および開発しなかった（T = 0)それぞれ。母集団1の列4と5,および母集団2の列8と9の合計は、各母集団の各原因パイにさらされた個人の総数である。最後に、母集団1の列7と母集団2の列11は、S ₁を参照グループとして使用して計算された各パイのリスク比（RR）である。

GRADEの方法論

GRADEは、システマティックレビュー、ガイドライン作成、エビデンスに基づく勧告において、エビデンスの確実性を評価するために最も広く採用されている手法である[35]。確実性は、GRADE作業部会によって「効果の推定値が正しいと確信できる程度」と定義されている[10, 36, 37, 38]。確実性は、個々の研究のバイアスのリスクを評価することと、研究全体の評価の両方に基づいている[35]。GRADEでは通常、無作為化対照試験（RCT）から得られたエビデンスは、非無作為化試験（NRS）から得られたエビデンスよりも高いレベルの確実性を提供すると考えられているが、その適切性については批判されている[39]。確実性は、異なるGRADEドメイン（表3に要約）に応じて変更されることがある。大きな関連性、用量反応関係、妥当な交絡の調整は確実性を高める。

表3 GRADEによる初期の確実性レベルは、無作為化対照試験（RCT）と非無作為化試験（NRS）で異なる

初期の確実性レベルに対応する証拠の種類	確実性のレベル	確実性のレベルの定義
ランダム化比較試験（RCT）	高（4プラス：⊕⊕⊕⊕）	真の効果は、効果の推定値に近いと確信している。
	中程度（3つ以上：⊕⊕⊕○）	効果の見積もりにはある程度自信がある。実際の効果は効果の見積もりに近い可能性があるが、大幅に異なる可能性がある。
非ランダム化研究（NRS）	低（2プラス：⊕⊕○○）	効果の見積もりに対する信頼は限られている。実際の効果は、効果の見積もりとは大幅に異なる場合がある。
	非常に低い（1プラス：⊕○○○）	効果の推定値にはほとんど自信がない。実際の効果は、効果の推定値とは大幅に異なる可能性がある。
確実性のレベルを（観察証拠のために）ダウングレードまたはアップグレードする可能性のあるドメイン
ダウングレード	大きな効果 +1大きい +2非常に大きい	用量反応 +1勾配の証拠	すべてのもっともらしい残留交絡は次のようになる： +1は実証された効果を減少させる+1 は効果が観察されなかった場合、偽の効果を示唆する
アップグレード	バイアスのリスク -1深刻 -2非常に深刻	矛盾 -1深刻 -2非常に深刻	間接性 -1深刻 -2非常に深刻	不正確 -1深刻 -2非常に深刻	出版バイアス -1可能性が高い-2非常に可能性が高い

確実性のレベルは、推定された効果が真の因果効果に近いという研究者の信頼を示している。GRADEは、確実性のレベルをアップグレードまたはダウングレードする可能性のあるドメインを提供する。[ 38 ]の表に基づく
直接性、矛盾、不正確さ、出版バイアスに関する懸念は、確実性を低下させる可能性がある。直接性とは、研究の証拠が関心のある研究の質問にどれほど密接に関連しているかを指し、さまざまな研究集団（子供ではなく大人にのみ焦点を当てた利用可能な証拠など）または代理結果の使用が「間接性」の例である。不一致は、十分に説明できない研究間の効果量の違いを反映している（メタアナリシスの高レベルの不均一性によって特定されることがよくある）。効果の推定値の信頼区間が広い場合、不正確さが発生する。肯定的または刺激的な結果のある研究が、大きな関連性のない研究よりも出版される可能性が高い場合、出版バイアスが生じる可能性がある。

Bradford Hillの視点との比較

表4は、BH視点と潜在的なアウトカムフレームワークのアプローチの間で重複する要素をまとめたもので、後続の文章で詳細を説明している。

表4 各因果関係評価アプローチによるブラッドフォード・ヒル（BH）の各視点の利用のまとめ BH視点、有向性非環状グラフ（DAG)十分な要素を持つ原因モデル、GRADE手法。因果関係評価アプローチの比較分析による。

	連想の強さ	一貫性	特異性	テンポラリティ	用量反応	妥当性	コヒーレンス	実験	類推
ブラッドフォードヒルの視点	ばく露と結果との強い関連性は、因果関係以外の原因による関連性が低いことを示している	さまざまな設定または母集団での関連の一貫した観察は、因果関係以外の理由で関連が発生する可能性が低いことを示している	特異性（1対1の関係）の証拠は、代替変数（交絡）が原因で関連が発生する可能性が低いことを示しているが、特異性がなくても因果関係が損なわれることはない。	因果関係の議論を行うには一時性が必要であるが、特に潜伏期間のある曝露では、必ずしも明確であるとは限らない。	関連性の強さと同様に、用量反応関係の証拠は、交絡が原因で関連性が低い可能性があることを示している	因果関係以外の関連についてのもっともらしい説明を批判的に評価することは、因果関係の議論を強化するかもしれない	コヒーレンスは、因果関係に関する仮定が既存の理論にどの程度適合しているかによって決まる。	実験で観察された関連性は、関連性が因果関係以外の原因によるものではないという最も強力な証拠を提供する	類似の曝露と結果の間の関連は、同様の因果メカニズムを示し、因果関係の議論を強化する可能性がある
有向非巡回グラフ	DAGは、もっともらしい交絡変数の明確化を促進するバイアス分析を容易にする。DAGは関連のサイズを表すことはできないが、測定されていない残留交絡の程度と影響を考慮するために使用できる。	DAGとSCCモデルは、効果推定値の可搬性を解明するためのフレームワークを提供する。輸送性は、異なる設定での交絡構造によって、または異なる設定の特性が露出と相互作用する場合に影響を受ける可能性がある。これは、因果関係の説明を作成するのに役立つ場合がある。これにより、因果関係の信頼性が高まる可能性がある。	DAGを使用して特異性を明確にすることはできないが、改ざんの結果（つまり、交絡しない限り曝露ともっともらしく関連付けることができない結果）または改ざんの曝露（反対）を特定するために使用できる。曝露/結果と改ざん変数の間に関係がないことは、残留または測定されていない交絡を調べるために使用され、したがって因果関係の信頼性を高める	DAGSは、一時性を損なう可能性のある逆因果律の可能性を明確にするために使用できる	DAGを使用して、関係の調査に関連する交絡変数を明確にすることができる。交絡変数の数が多いと、因果推論における用量反応関係の関連性が損なわれる可能性がある	SCCモデルとDAGは、因果関係の背後にある仮定を明確にし、証拠と関係の妥当性を検討しやすくする。	DAGとSCCモデルは、コヒーレンスを検討するのに役立ちません	DAGを使用して、自然実験などの特定の研究デザインにおける曝露がランダム曝露に類似している程度を明確にすることができる。	DAGとSCCモデルは、それらの評価において類似の関係を考慮していないが、類似の関係は、図にエンコードされた仮定と理論の開発の一部である可能性がある。
十分なコンポーネントの原因モデル	SCCモデルは、参照グループの結果の有病率が観察された関連性に与える影響を視覚的に理解するのに役立つ		因果関係の要素が結果を生み出すために必要かつ十分である場合、特異性が生じる。SSCの多因子性は、特異性の希少性を示している	時間は十分な原因の構成要素である可能性がある。観察されている結果に寄与する潜在期間を示する	SCCモデルの未知の測定されていない変数は、用量反応関係を理解する上でのそれらの有用性を制限する			未知の変数はSCCモデル間で異なる可能性があるため、比較グループ間の交換可能性を検討するための有用性は限られている。
GRADE方法論	GRADEは、大規模な関連と見なされる可能性のあるものについてのガイダンスを提供する。一連の証拠全体で大きな効果量が観察された場合、NRSをアップグレードする	GRADEの方法論は、ブラッドフォードヒルによって説明されているように、一貫した効果の推定値は、同じバイアスが原因である可能性があるため、因果関係に自信がない可能性があることを強調している。むしろ、説明のつかない不一致（不均一な効果量）は、結果に対する曝露の影響についての信頼を低下させる	GRADEは、間接性と誤って混同されている可能性があるが、特異性を考慮していない。	結果が記録される前に参加者が暴露されたことを証明する証拠（RCTなど）は、そうでない証拠よりも高く評価される	GRADEは、用量反応勾配が存在する場合、NRSをアップグレードすることを提案する。これは、強い効果に加えて、残留交絡による効果の可能性が低いことを示しているためである。	もっともらしい交絡を調整するためのGRADEアップグレード、ただし関係のもっともらしさはない	コヒーレンスは間接性と誤って混同されている可能性があるが、GRADEはコヒーレンスを考慮していない	非実験的研究よりも高い評価を受けた実験的研究からの証拠	類似の結果に対する曝露の影響の証拠は、証拠の格下げを防ぐ可能性があるが、これは、ブラッドフォードヒルが説明した類似性ではなく、代理の結果の適用可能性と関係がある。

一貫性

Bradford Hillは、異なる環境下で観察された一貫した推定値は、効果が偶然や偏りによるものである可能性を減少させると主張した [1]。3つのアプローチを比較すると、研究間の効果量の違いは、因果構造の違い、変数の相互作用、または関連する研究のバイアスに起因する可能性があることが示される。

伝達可能性とは、ある状況下での因果効果が、異なる集団や研究デザインなどの異なる状況下での因果効果を推論するために使用できる程度のことである[44]。研究者はDAGを使って、因果構造の違いがどのように異なる観察された効果量を説明するかを理解することができる。例えば、アルコール摂取によるTB活性化への因果効果が、HIVのベースラインリスクが高い対象集団に外挿できるかどうかを理解したい場合がある（図2に表現）。言い換えれば、対象集団における効果の大きさの違いが、HIVが免疫力を低下させることでアルコール摂取によるTB活性化効果を修正することによるものかどうかを理解することである[45, 46]。対象集団がHIVのある層に曝されている（つまりHIVのリスクが高い）ことを表すために，HIVの周りには四角が付けられている[44, 46]．もし、あるレベルのアルコール消費量におけるTB活性の可能性が集団間で同等であれば、TB活性に対するアルコールの推定効果は輸送可能であり、観察された統計的不均一性は、HIVリスクがTB活性に対するアルコールの効果を修飾しているためと考えられる[46]。

図2

図2は、HIVのリスクが高いことで変化している。この対象者と、図1に示したHIVリスクの低い対象者との間で効果推定値を比較する際には、この点を考慮する必要がある。

ベースラインのHIVリスクが高い対象者の有向非環状グラフ（DAG）。HIVのベースラインリスクが高いということは、HIVが条件付けられていることを意味し、HIVを四角で囲んで示している。この集団におけるアルコール摂取が活動性TBに与える影響は、以下のように推定される。

研究者はSCCモデルを用いて、変数の相互作用の違いを理解し、それが集団間で観察された効果量の違いを説明できるかどうかを判断することができる[44, 47, 48, 49]。例えば、表2の集団1の個人のRRが集団2に移植できるかどうかを理解したい場合がある。表2によると、過密状態のみにさらされた場合（S3）のTB活性化のRRは、集団1よりも集団2の方が低い。すなわち、アルコールを摂取しない場合のTB活性化に対する過密状態の影響は、集団間で異なる。S3の未知の要因が集団間で異なるのかもしれない。しかし、他の原因パイではRRが同じであることから、S3の有病率やRRが異なる理由は、未知の因子や過密状態が集団間で異なる相互作用をしているためであると研究者は考えることができ、その場合、効果の大きさを集団1から集団2に運ぶことはできない。

GRADEでは、説明できない矛盾（典型的には、統計的不均一性）は、異なる状況下での曝露の影響の可能性についての信頼性が低いことを示唆している。GRADEでは、Bradford Hillが提案したように、一貫した効果推定値ではなく、説明のつかない不整合を考慮することで、異なる状況下での一貫した推定値が同じバイアスにさらされる可能性があり、必ずしも因果関係の信頼性が高まるわけではないことを強調している[50]。

特異性

Bradford Hillによると、曝露が問題となっている結果と関連しており、他には関連していない場合、また結果が問題となっている曝露と関連しており、他には関連していない場合、関係は特異的であるとしている。彼は、非特異的な関係であっても因果関係が損なわれることはないと強調した。特異性は、感染症における因果関係を評価するためのロバート・コッホの仮定に由来するが、疫学ではまれであり、通常は曝露状態に基づいて転帰が定義される場合に生じる（例えば、結核は結核菌の存在によって定義される）[17, 51, 52]。比較の結果、複数の因果関係（1つの曝露が多くの結果に影響を与え、1つの結果が多くの曝露によって影響を受ける）が、疫学的実践において特異性を直接適用することの有用性を制限していることが浮き彫りになったが、この概念を関連する「改竄」の考えに拡張することで、その有用性が向上する可能性がある。

図1のDAGは、活性TBがアルコール摂取と過密状態という少なくとも2つの曝露によって引き起こされることから、非特異的な関係を示している[53]。アルコール摂取は、がん、心血管疾患、傷害など、他の多くの結果を引き起こす可能性があるため、この関係も非特異的である[54]。このことは、図1のDAGには示されていない。なぜなら、DAGは通常、関心のある関係に関連する主要な変数（すなわち、曝露、アウトカム、潜在的な交絡因子）を含むからである[55]。これは、DAGが特定の関係性を示すために使用されない理由でもある。ある変数がDAGから除外されるのは、それが関心事ではないからであり、DAGに示された関係性が特異的だからではない。

特異性の重要な理由の1つは、複数の因果関係があると、観察された関連が交絡のためである可能性が高くなることである。DAGは、特異性の証拠を求めるのではなく、偽装（または陰性対照）の結果や曝露を特定し評価するために使用することができる。偽装結果は、結果から独立しており、交絡変数を介してのみ曝露と関連することが期待される[56]。研究者が交絡変数を正確に条件付けすれば、偽装アウトカムに対する曝露の効果を観察することはできないだろう。

仮説上の偽装結果は、アタマジラミである（図3）。アルコール摂取はシラミに因果関係はない。過密状態を条件としているにもかかわらず、調査者がアルコール摂取によるシラミへの影響を観察した場合、これは過密状態の測定が不正確であったために交絡が残っていたためと考えられる。したがって、アルコールと活動性TBとの関係も過密状態による残余交絡の影響を受けている可能性があり、研究者はそれに応じて結論を調整すべきである。アルコール摂取とアタマジラミとの間に関連がないことは特異性を示唆するものではないが、今回の研究ではアルコール摂取と活動性TBとの間に過密状態による交絡がないことを確信することができる。

図3

有向非環状グラフ（DAG）は、曝露（アルコール消費)アウトカム（活動性TB)交絡変数（過密)偽装アウトカム（アタマジラミ）の関係を示している。過密状態を囲む太い四角は、条件付けされていることを示している。アルコール摂取がシラミに影響を与えない場合、過密状態が正確に条件付けられている可能性が高くなる。

図4

有向非環状グラフ（DAG）を用いた時系列性 (1)診断前の活動性TBを条件とし、診断後も活動性TBに対する飲酒の効果を観察する場合、または(2)診断前の活動性TBが飲酒に与える効果を観察しない場合、調査者は逆因果関係によるものではないと確信することができる。

偽装変数の発見は難しいものである。偽装曝露（曝露とは独立しており、交絡変数を通じてのみ結果と関連する）を特定することを例にとる。喫煙、大気汚染、ホームレス経験、栄養失調など、交絡因子（過密）に関連する多くの可能性のある曝露は、アウトカム（活動性TB）にも関連するため、偽装曝露としては失敗するだろう[57, 58]。別の言い方をすると、疫学におけるほとんどの因果関係には特異性がないため、偽装テストを実施する能力が制限されている。しかし、それが存在する場合、バイアスを評価するための強力なツールとなる。

因果パイは、因果関係の多因子性を示しており、様々な因果パイ（および因果成分）が同じ結果をもたらす可能性があるため、特異性の可能性が制限される（表2参照）。1つの因果関係のパイは、様々な曝露の十分原因となりうるものを表すためにも使われる[59]。因果関係のパイは、ある成分が結果を生み出すのに必要かつ十分であり、結果はこの必要かつ十分な原因によってのみ生み出される場合にのみ、特定の関係を表すことになる[31, 33]。これらの限界は、GRADE手法の創始者を含む一部の人々が、因果関係の評価から特異性を除外すべきであると主張する理由の一つである[7, 10, 31, 60]。

時間性

時間性は因果関係の基本と考えられており、暴露が結果に先行しなければならない。Bradford Hillは、逆の因果関係がいかに時間性を歪めるかについて言及している。”特定の職業や職業環境が結核菌の感染を促進するのか……あるいは、実際にはすでに感染しているのか」[1]。[1]. 3つのアプローチのうち2つは時間性を明示的に取り入れており、原因と結果の順序がDAGの基本となっている。

DAGは、逆の因果関係を強調することができる[20, 61]。例えば、クロスセクショナル研究では、アルコール摂取の効果は、TBと診断された後の測定値に基づいている。しかし、実際には、結核と診断される前に結核が発症し、社会的に疎外されることでアルコール消費の原因となっていた可能性がある[62]。過去の診断に関する情報を有する縦断的研究があれば、調査者は、飲酒後に観察された診断の前に活動性TBが存在していたかどうかを検討することで、逆因果関係を検証することができる（図4参照）。診断前の活動性TBを条件とし、診断後もアルコール摂取による活動性TBへの影響が観察された場合、あるいは診断前の活動性TBがアルコール摂取に影響を及ぼさないことがわかった場合、診断後の活動性TBに対するアルコール摂取の推定効果は、逆因果の可能性は低いと考えられる。

時間は因果関係のパイの1つの構成要素かもしれないが、構成要素の相乗効果、拮抗効果、相互作用において時間性は考慮されていない[2]。GRADEでは時間性は直接考慮されない。研究デザインによって曝露が結果に先行することが保証されているRCTはアップグレードされる。しかし、RCTが好まれるのは、時間性だけでなく、無作為化による交換性の達成にも関係している。さらに、時間性はNRS（縦断的研究を含むため、暴露が結果に先行することを保証できる可能性がある）では明示的に考慮されていない（[10]）。

用量反応（Dose-response)

曝露量の増加（または減少）が転帰の増加（または減少）をもたらす場合、用量反応性の勾配が存在する。用量反応は薬理学や毒性学における因果関係の評価の基本である[63]。Bradford Hillは、用量反応性の勾配は、それが観察されない場合よりも因果関係の「より単純な説明」を提供すると主張した（表1参照）[1]。しかし、アレルゲンの場合のように、曝露閾値効果を含めて、研究者が用量反応勾配を観察しない理由は数多くある[17]。さらに、用量反応関係は交絡変数によって誘発される可能性もある[64, 65]。例えば、アルコール消費量の増加がTB活性の増加に対応するのは、過密状態の増加に起因する可能性がある（図1参照）[66]。DAGはノンパラメトリックなので、2つの変数間の関係の構造を示すことはできないが、1つ以上の交絡変数が用量反応関係を損なうことの妥当性を検討するために使用することが可能である。

未知の成分は、SCCモデルが用量反応勾配を評価する際の実用性を制限する。GRADEでは、交絡の可能性が低いという理由で用量反応関係が観察された場合、NRSからの証拠がアップグレードされる [35]。しかし、上述したように、用量反応関係は交絡から容易に生じる可能性がある。

妥当性

研究者は、背景にある知識に基づいて因果関係についての仮定を立てる。したがって、因果関係の妥当性は、その時点で入手可能な知識に依存し、かつそれによって制限される[1]。また、経験的な証拠ではなく、調査員の信念に基づいた仮定によって、さらに制限される可能性がある[67]。

DAGやSCCモデルを開発するプロセスでは、研究者は関心のある研究課題に関連する因果関係についての仮定を明示することを余儀なくされ、他の研究者にとって透明性の高いものとなる [44, 68] [69]。DAGには、曝露と結果の間の因果関係の経路上にある媒介因子を含めることができる。媒介分析では、媒介物質の直接効果と間接効果を考慮する[70]。背景知識を調べてDAGを作成することで、因果連鎖の妥当性をより体系的に検討することができる。

SCCモデルでは、研究者は変数の相互作用の性質を明示する [71]。GRADEでは、すべての有力な交絡変数を適切に調整するようにアップグレードされているが、エビデンス全体の因果関係の妥当性に関連するより広範な変数は考慮されていない[35]。

コヒーレンス

一貫性は、推定される関係が既存の理論や経験的証拠にどのように適合するかを評価するものである [1, 60]。我々の比較によると、一貫性は他のアプローチでは考慮されておらず、実用性が限られている可能性がある。DAGモデルやSCCモデルの首尾一貫性を評価する研究者は、どちらのアプローチで示された仮定が既存の理論にどのように適合するかを検討することができるが、首尾一貫性については検討も説明もしていない。Schünemannらは、GRADEでは間接性を評価することで一貫性を考慮すると主張している[10]。しかし、間接性を評価する際には、同定された研究の母集団と介入が、研究対象の推定因果関係にどの程度当てはまるかを調査者が判断する。一方、首尾一貫性では、推定される因果関係が、その特定の関係を調査していない研究を含む、より広範なエビデンスにどれだけ適用できるかを検討するよう求めている。

実験

ブラッドフォード・ヒルは、「実験または半実験データ」から「因果関係仮説の強力な支持が明らかになるかもしれない」と主張した[1]。彼は、自然実験研究について言及している。自然実験研究とは、研究者がコントロールできない自然やその他の要因によって曝露が決定され、比較群間の交換可能性がより高いものである[29]。

研究者はDAGを用いて、無作為化が交換可能性をもたらす理由を解明している。無作為化は道具変数の一例であり、それは曝露の原因となり（それによって引き起こされるのではなく)曝露によってのみ結果に影響を与えるものである[73]。アルコールの消費が完全に無作為で、無作為化がTBの活動性と無関係であった場合（図5参照)過密状態のリスクは、アルコールを消費するように割り当てられた人とそうでないように割り当てられた人とで同じになる [74]。したがって、推定される効果は交換可能なグループに基づくものとなるが、無作為化によって曝露された個人の割合によって制限され、効果推定値の輸送性が制限される可能性がある[44, 75]。

図5 無作為化を道具変数とした有向性非環状グラフ（DAG）

このDAGによると、無作為化がアルコール消費を引き起こすと考えられる。これが事実であれば、推定された効果が真の因果効果と類似または同等である可能性が高くなる。

無作為化には限界があるため、疫学者は主に観察データに頼っている。研究者はDAGを用いて、「自然に発生した」道具変数の妥当性や、個人が本当に無作為に曝露された可能性を問うことができる [29, 73]。研究デザイン、特に曝露の割り当ての手順を明確にすることは、観察データ分析が無作為化試験データ分析を模倣する「ターゲット試験」（または「エミュレートされた試験」）の開発を通じて、DAGによって支援されている[76]。いくつかの利点があるが、これは本来のBH視点とは直接比較できないようである。

ある疾患を引き起こす因果関係には、表2に示すように、既知の要素と未知の要素がある。研究者は原因パイごとに未知の変数を測定することができないため、結果に影響を与える他の特性が異なる可能性があり、それぞれの原因パイにさらされたグループが交換可能であると確信することはできない[4, 11]。GRADEでは、最初にRCTをNRSよりも高く評価することで、「介入に因果関係がある」可能性が高い無作為化（実験）研究の効果推定値を優遇している[43]。現在のところ、研究デザインに基づいて自然実験研究とその他のNRSとを区別していない。

アナロジー

Bradford Hillは、同じ結果と類似の暴露、または同じ暴露と類似の結果の間に同等の関連性が観察された場合、因果関係の可能性が強化されると主張した。DAGやSCCモデルは、その評価において類縁関係を考慮していないが、類縁関係は、図の中にコード化された仮定や理論を構築する際の一部である可能性がある。GRADEでは、同じエビデンス群の中で、同じ曝露と類似のアウトカムの間に因果関係があることが確実であれば、ダウングレードは防げるとされている[10]。これは類推と混同されているが、これは研究対象となっているものと類似した、確認された因果関係の仮定の可搬性というよりも、研究課題に対する証拠の直接性と関係している[77]。

考察と結論

疫学者は、観察された効果が因果関係に等しい可能性を理解するためにエビデンスを評価する。DAG、SCCモデル、GRADEをそれぞれのBH視点に対して、各ツールを比較することでマッピングし、因果関係の評価に関する異なる視点間の重複を明らかにした。これらの比較のまとめと、因果関係の評価に対する潜在的な意味合いを表5に示する。

表5 結論のまとめ DAGs、SCCモデル、GRADEのマッピングに基づく各BHの解釈

ブラッドフォードヒルの視点	比較の要約	因果評価への影響
連想の強さ	ブラッドフォードヒルは、関連が強いほど交絡によって説明される可能性は低いと主張したが、何が強いものとして構成されるべきかを明確にしないであった。DAGとSCCモデルを使用して、他の変数が強い関連性に対する研究者の信頼にどのように影響するか、および因果関係の評価にどの程度関連するかを検討できる。これには、DAGによって示されるいくつかの交絡変数または未知および測定されていない交絡変数の影響と、SCCモデルによって示される競合する原因の影響がそれぞれ含まれる。GRADEは、強い関連を構成するものの潜在的なしきい値を提案する	関連付けの強さは、未知の変数または測定されていない変数からの潜在的な残留交絡に関連して考慮する必要がある
一貫性	DAGは、交絡構造の違いにより、可搬性（1つのコンテキストで因果効果を使用して異なる母集団に関する因果推論を行う）の問題が発生する可能性があることを強調している。SCCは、競合する原因の有病率の違いにより、効果量が変動する可能性があることを示している。GRADEは、説明のつかない統計的不均一性（母集団間で異なる説明のつかない効果量）に焦点を当てることの重要性に注意を向ける。	異なるタイプの一貫性、すなわち輸送可能性と説明のつかない統計的不均一性を区別する必要がある。別の集団への輸送性を損なう可能性のある要因は、その集団の因果関係を損なうことはないかもしれない。ただし、説明のつかない統計的不均一性は、因果関係に対する証拠として使用される場合がある
特異性	因果関係の評価に役立つ特異性の潜在的な理由の1つは、交絡が特定の関係を説明できないことである。DAGを使用してこの考え方を拡張し、改ざんの危険性と結果を特定できる。GRADEモデルとSCCモデルは、ブラッドフォードヒルの特異性の理解を強化する。つまり、特異性の欠如は因果関係の評価に役立たないということである。	特異性自体はまれであり、疫学では一般的に役に立たない。改ざんの暴露または結果は、因果関係の証拠を強化する可能性があるが、特定するのは難しい場合がある
テンポラリティ	DAGは、変数の時間的順序を明示的に組み込んでおり、逆因果律による潜在的なバイアスを特定するために使用できる。因果関係のあるパイはそれ以上の洞察を提供しないが、GRADEは暴露が必然的に結果に先行するRCTに特権を与える	変更なし
用量反応	ブラッドフォードヒルは、用量反応が因果関係の証拠をどのように強化したかについての詳細な説明を提供しないであった。関連性の強さでの使用と同様に、DAGを使用して、偽の用量反応関係を作成する可能性のある交絡変数を特定できる。SCCは用量反応を明示的に考慮していない。GRADEは現在、因果関係の確実性を高めるために用量反応勾配の存在を使用している	用量反応は、BHの観点とGRADEの両方で考慮される。ただし、特に交絡変数の影響が用量反応勾配と一緒に考慮されていない場合は、一般的に想定されているほど因果関係の評価に追加されない可能性がある。
妥当性	DAGと因果関係のパイは、因果関係についての仮定を明確にしているため、妥当性に基づいて構築する必要がある。この透明性により、これらの仮定の妥当性を他の人が調べることができる。これは、GRADEを使用して評価された確実性と同様に、因果的評価で行われた仮定の妥当性の証拠を提供する可能性がある	妥当性は、DAG内で正式にエンコードして因果連鎖を明確にし、SCCモデルでSCCモデルでエンコードして、変数間の相互作用などの因果メカニズムを明確にすることができる。
コヒーレンス	DAGと因果関係のあるパイは、通常、コヒーレンスを考慮しない。GRADEは、間接性と混同されているが、一貫性も考慮していない。実際には、それはもっともらしさから十分に描写されていない	ユーティリティが明確にサポートされていない
実験	ブラッドフォードヒルは、実験が因果関係を評価するための最も重要な視点であると主張した。DAGは、交換可能なグループ（操作変数など）の識別に役立つ場合がある。SCCモデルは、実験を明示的に考慮していない。GRADEはRCTに特権を与えるが、自然実験研究と他のNRSを区別しない	ブラッドフォードヒルが主張したことと一致して、本物の実験（試行)および準実験は、因果推論を大幅に強化することができる
類推	類似の関係の因果関係または類似の結果の因果関係の確実性は、因果関係の議論を強化するか、関係についての仮定を立てるのに役立つ可能性があるが、これらはDAGまたはSCCモデルに組み込まれていない。GRADEは、一連の証拠内の類似の暴露を考慮するが、類似の関係についての仮定を調査中の因果関係に移すことができるかどうかは考慮しない	ユーティリティが明確にサポートされていな

この比較は、BH視点と他のアプローチの間の重複を強調している。このことは、因果的思考の発展とともに、因果的評価におけるBH視点の影響力が継続していることを強調している。また、BH視点を理解する上で、他のアプローチが重要であることも強調されている。

DAGは、関連性の強さ、一貫性、時間性、特異性、用量反応、妥当性、実験の理論的裏付けを説明するのに役立つ。

GRADEは、因果関係の評価を実際にどのように適用するか、特に関連性の強さ、一貫性、時間性、用量反応、実験を考慮するためのガイダンスを提供している。

SCCモデルは、因果関係を説明するためのフレームワークと考えられ、我々が研究したアプローチの中では最も使用されていないため、SCCモデルを含めることについては議論の余地があるが、我々の分析では、関連性の強さと妥当性を理解するためにSCCモデルを含めることが有用であった。SCCモデルは、BH視点を理解するための有用性が限られているように見えるが、SCCモデルはGRADEとともに、特異性が因果推論において限定的な有用性しか持たない理由を説明するのにも役立つ。

我々の分析は、因果関係評価の進歩から得られた洞察をBH視点と比較した初めてのものである[7]。これはさらなる研究が必要な分野であり、我々の研究が因果推論への重複したアプローチについての議論や討論を促すことを期待している。因果推論における伝統的なアプローチと最近開発されたアプローチの両方を取り入れた新しい包括的な因果基準を開発するためには、さらなる研究と議論が必要である。そのような研究では、これらの異なるアプローチを特定の研究課題に適用し、因果関係の評価を促進するための相対的な能力を確認することが有益であろう。しかし、過去の研究[4, 5, 10, 11]で行われているように、我々は個々のアプローチを批判しなかった。時間と資源が限られているため、因果関係を評価するためのすべての可能性のあるアプローチ（国際がん研究機関や催奇形性の基準など）については調査しなかった。その代わりに、BH視点以外ではおそらく最もよく知られている因果関係評価アプローチであるGRADE、DAG、SCCモデルに焦点を当てた。

本研究は、疫学における因果関係の評価をより明確にする必要性を強調するものである。本研究は、因果関係評価の基本であるBH視点を解明するために、最近のアプローチをどのように利用できるかを示し、その利用方法をどのように改善できるかを暫定的に提案する最初の試みである。我々の発見は予備的なものであり、我々の比較や因果関係評価への示唆についての議論を歓迎する。