www.ncbi.nlm.nih.gov/pmc/articles/PMC3947891/
要旨
背景
健康研究では観察研究が一般的に行われている。しかし、無作為化が行われていないため、アウトカムと曝露との間の推定された関連性は、測定されていない交絡因子の影響を受ける可能性がある。アウトカム変数と非原因関連曝露との間に観察された有意な関連が、残留交絡因子によってどの程度の確率で導入されるかを決定することが重要である。方法。原因不明の曝露と結果との間に観察された有意な関連の可能性を検証するために、十分原因モデルに基づいたシミュレーション手法を開発した。
結果
500の全レプリケートから得られた推定値に基づき、すべての交絡因子(構成因子)をモデルでコントロールした場合、386レプリケート(77%)で曝露と転帰との間の関連が有意であることがわかった。しかし、実際の構成因子のサブセットといくつかの非原因因子をモデルでコントロールした場合、被曝と転帰との関連は487例(97%)で有意となった。
結論
すべての交絡因子が既知であり、従来の多変量解析を用いて制御されている場合でも、観察された曝露と転帰の間の関連は残留交絡効果によって支配される可能性がある。したがって、観察された有意な関連は、明らかに因果関係を示す限られた証拠となる。
1. 序論
倫理的および予算的な制約から、健康研究における実験的研究デザインの適用が制限されることが多いため、コホート研究や症例対照研究などの観察研究が方法論的な代替案として広く実施されてきた [1-5]。しかし、無作為化が行われていないため、得られた推定値は、制御されていない交絡因子や測定されていない交絡因子の影響を受ける可能性があり、典型的には、交絡因子が推定値を真の値から偏らせてしまう[6-12]。疫学的文献によると、交絡因子は以下の条件を満たさなければならない。
(i) 被曝していない人の病気の原因、または原因の代理であること;
(ii) 研究集団における曝露と相関していること
(iii)曝露と病気の間の因果経路の中間段階ではないこと [1, 13-16]。
交絡因子効果に対処するために、既知または疑われる交絡因子を、関心のある曝露および転帰とともに測定する。次に多変量解析を行い、既知または疑われる交絡因子の影響を除去しようとしながら、曝露と転帰との関連性を測定する [8, 13, 17-19]。
十分原因モデルの下では、十分原因とは完全な原因メカニズムを意味し、これは最小条件(必要要素)と疾患を必然的に引き起こす事象の組み合わせとして定義することができ、十分原因を構成する必要要素は構成原因である[2]。成分原因と十分原因の構成が不明であることが一般的であり、同時に測定誤差、曝露、交絡因子、転帰の誤分類が存在する[8, 20-23]。その結果、アウトカムと曝露との間の推定された関連性は、測定されていない交絡因子の影響を受ける可能性が高いままである。例えば、よく計画された研究でさえ、真の非保護的暴露とアウトカムの間に有意な保護的関連が生じたが、実際には測定されていない交絡因子によって引き起こされている[24, 25]。したがって、結果変数と非原因関連曝露との間に観察された有意な関連が、残留交絡因子によってもたらされる可能性がどの程度あるかを調査することが重要である。本研究では、十分な原因の組成が認識されていないが、すべての危険因子/構成因子が既知で管理されているか、あるいは危険因子/構成因子の一部のみが既知で管理されている場合に、標準的な多変量解析に基づいて、非原因関連曝露とアウトカム変数との間に有意な関連が観察される可能性を検定するためのシミュレーション手法を開発した。目的は2つある。(1)観察研究における偽陽性オブザベーションの可能性を調査すること、(2)交絡効果を扱う疫学的手法を評価するためのシミュレーションフレームワークを提案することである。
2. 方法
2.1. シミュレーションの概要
シミュレーションのプロセスは、十分原因モデル[2]に従います。ある事象が発生するためには、少なくとも1つの十分な原因が発生しなければならない。十分な原因の構成要素は、関心のある暴露と99個の他の変数を含む低~中程度の相関変数のプールからランダムに選ばれる。関心のある暴露は、結果に対して非原因であるように設定されているので、十分な原因の構成要素として選択されることはない。100個の変数間の相関を考えると、選択されたすべての変数は、曝露と転帰の関連性の潜在的な交絡因子である。そして、曝露と転帰の間の関連は、(i)すべての構成因子と(ii)いくつかの構成因子(無作為に選択された)を制御しながら、ロジスティック回帰モデルを用いて推定される。シミュレーションは500回のレプリケートを含み、各レプリケートは独立したプロセスで生成される。すべてのシミュレーションは、STATAパッケージ・リリース12を使用して実行される。各レプリケートに含まれる手順を以下に概説する。十分原因モデルと推定プロセスを含むシミュレーション手順の詳細は、付録に記載されている。
(1) 一様分布[0,1]から低~中程度の相関のあるランダム変数のプールを生成する。T 100×50000 = {T i,n}, i = (1,2,3,…, 100), n = (1,2,3,…, 50000).
(2) 十分原因の構成と構成要素の閾値を求める。Yに対する十分原因の種類の総数は、(1,2,3,…,9)からランダムに選ばれる。十分原因の種類ごとの成分は、T i,n,i = (2,3,…,100)からランダムに選択される。各観測について、各成分のそれぞれが特定の閾値よりも高い値を有するときに、十分な原因が発生するように設定されている。閾値は、十分な原因の各タイプと同様に各成分に固有の値であり、一様分布[0.5, 0.9)からランダムに選択される。これにより、閾値は、同じコンポーネントのための異なる十分原因の間だけでなく、コンポーネント間でも変化することができる。正確な閾値が典型的には未知であるという事実を反映するために、T i,nは、次に、以下の規則を適用することによって、X i,n、i=(1,2,3,…,100n=(1,2,3,…,5000)で示される二値形式に二分化される。X i,nは、T i,n > 0.7の場合は1,そうでない場合は0とする。ここでは、交絡因子やエクスポージャーの測定誤差や誤分類を考慮して、正確な閾値を適用する代わりに、一様な変数[0.5, 0.9]の平均値0.7を使用している。
(3) Y, E n, n = (1,2,3,…., 50000)の競合イベントを生成する。E は T と X に依存しないことに注意。
(4) 結果の測定誤差を表現し、計算過程を滑らかにするために、Yのために小さなランダム誤差を生成する。Q はベルヌーイ分布のランダム変数で、E と X から独立しており、Y の分散の小さな割合を占めるだけである。
(5) Yの状態(発生するかしないか)を決定する。
(6) ランダムなプロセスを介してYの既知の(事実である必要はない)因果因子を決定する。
1~6 の詳細は付録に記載されている。
(7) すべての構成原因が特定された場合のYに対するX 1の効果を推定する。非原因因子を原因因子と間違えることはない。我々は、次のようなものを持っている。
ここで、C i は、X i が Y の少なくとも 1 つの十分な原因に関与しているかどうか、すなわち、真であれば C i = 1,そうでなければ C i = 0 を示す。ここで,β 1 とβ i は,それぞれ X 1 と各構成原因の Y への影響の推定値である.構成原因がいくつかしか知られておらず,非原因要因が原因要因と間違われている場合に,X 1 の Y への影響を推定するには,以下のようにする。
ここで、K iは、X iがYの少なくとも1つの十分な原因に “知られている “か、または関与していると疑われるかを示し、β 1′、β i′は、それぞれ、X 1と “知られている “危険因子のそれぞれのYに対する推定効果を示す。
3. 結果
レプリケート1で得られたデータを一例とする。表1にレプリケート1の十分な原因とその成分の詳細を示す。全体的に、Yの発生率(1000個の観測単位あたり)は32.4であるが、未曝露観測(X 1 = 0)では20.2,曝露観測(X 1 = 1)では89.0である。さらに、表2に示されているように、暴露と交絡因子の間の関連の強さはかなり低く、交絡因子の状態の誤分類は低いレベルである。すべての交絡因子(構成因子)がモデル内でコントロールされていることを考えると、被曝の効果は有意なままであった(P < 0.001)。表3は、実際の成分原因のサブセットといくつかの非原因因子のみがモデルでコントロールされている場合、曝露の効果はさらに帰無値から遠ざかることを示唆している。
表1 複製のための十分な原因とその構成要素 1.
十分な原因の種類 | コンポーネント(カットオフポイント) | 50,000回の観測で観測された頻度 |
---|---|---|
A | X 17(0.847)、X 50(0.850) | 421 |
B | X 7(0.521)、X 29(0.881)、X 53(0.619) | 515 |
C | X 18(0.754)、X 20(0.626)、X 21(0.504)、X 38(0.642)、X 91(0.617) | 741 |
表2 レプリケートにおけるバイアスの発生源と大きさ 1.
交絡因子/ コンポーネント |
ばく露との相関1 | 誤分類の割合2 |
---|---|---|
X 17 | 0.183 | 13.4% |
X 50 | 0.160 | 14.4% |
X 7 | 0.135 | 26.7% |
X 29 | 0.150 | 15.5% |
X 53 | 0.181 | 11.6% |
X 18 | 0.227 | 5.89% |
X 20 | 0.155 | 10.8% |
X 21 | 0.292 | 31.2% |
X 38 | 0.188 | 7.9% |
X 91 | 0.282 | 11.4% |
1レプリケート1の50,000個のオブザベーションにおける成分の2値形式(発生したかどうか)と暴露の2値形式との間の相関係数として測定された。
2複製1の50,000個のオブザベーションにおけるコンファンダー/成分の状態(発生したかどうか)の正しい分類の割合を1から差し引いたものとして測定。
表3 レプリケート1の多変量解析からの推定値
すべての構成因子の原因で調整されたモデル ランダムに選択された構成因子の原因と非原因因子で調整されたモデル
すべてのコンポーネントの原因に合わせてモデルを調整 | ランダムに選択されたコンポーネントの原因と非原因要因に合わせて調整されたモデル | |||||
---|---|---|---|---|---|---|
オッズ比 | 95%信頼区間 | オッズ比 | 95%信頼区間 | |||
(X 1)露出 | 1.31 | 1.17 | 1.48 | 1.71 | 1.52 | 1.92 |
X 5 | — | 1.48 | 1.32 | 1.65 | ||
X 7 | 1.61 | 1.44 | 1.81 | — | ||
X 11 | — | 1.95 | 1.73 | 2.20 | ||
X 14 | — | 1.69 | 1.50 | 1.89 | ||
X 17 | 2.45 | 2.18 | 2.75 | — | ||
X 18 | 4.55 | 4.03 | 5.13 | — | ||
X 20 | 2.67 | 2.38 | 2.99 | — | ||
X 21 | 1.49 | 1.32 | 1.67 | 1.93 | 1.71 | 2.17 |
X 23 | — | 1.47 | 1.31 | 1.65 | ||
X 29 | 2.68 | 2.38 | 3.01 | |||
X 32 | — | 1.40 | 1.26 | 1.57 | ||
X 37 | — | 1.41 | 1.26 | 1.57 | ||
X 38 | 3.10 | 2.76 | 3.48 | — | ||
X 50 | 2.41 | 2.16 | 2.70 | — | ||
X 53 | 1.90 | 1.69 | 2.13 | 2.12 | 1.90 | 2.37 |
X 57 | — | 2.06 | 1.83 | 2.32 | ||
X 69 | — | 1.39 | 1.25 | 1.56 | ||
X 90 | — | 1.17 | 1.04 | 1.31 | ||
X 91 | 2.28 | 2.03 | 2.56 | — |
-モデルに含まれない変数
全レプリケートからの推定値に基づいて、すべての交絡因子(構成因子)をモデルでコントロールした場合、被曝と転帰 Y の関連は 500 レプリケートのうち 386 (77%)で有意であることがわかった。しかし、実際の構成因子のサブセット(すべてではなく)といくつかの非原因因子をモデルでコントロールした場合、被曝と転帰Yの関連は、500回の複製のうち487回(97%)で有意となった。
さらに、図1は、すべての真の原因を調整した場合、被曝の有意な推定効果は、平均して真の原因の効果よりも実質的に小さいことを示している。有意係数(オッズ比の自然対数)の平均(標準偏差25%、50%、75%は、非原因曝露ではそれぞれ0.22(0.17),0.14,0.18,0.25であり、真の原因ではそれぞれ0.73(0.79),0.23,0.42,0.927であった。
図1 曝露原因と実成分原因との間の推定分布の差
上下の隣り合う線はそれぞれ上下の隣り合う値を示し, 箱の上端と下端はそれぞれ75パーセンタイルと25パーセンタイルを示し, 箱の中の白線は中央値を示す. グラフの上限は、実成分原因の係数の95パーセンタイルである2.409に設定している)。
4. 考察
観察研究では、多変量解析において曝露とアウトカムの間に統計的に有意な関連が認められた場合、通常は因果関係を裏付ける証拠と考えられる[8]。本研究ではシミュレーション過程で十分原因モデルを採用し、観察研究において両者に因果関係がない場合に、曝露とアウトカムの間に有意な関連が観察される可能性がどの程度あるかを検討した。その結果、すべての交絡因子(因果関係因子)が研究者に知られており、多変量解析でコントロールされていると仮定した場合でも、70%以上の状況で曝露とその因果関係のないアウトカムとの間に有意な関連が示されることが示された。現実には、疾患の構成要因の多くは不明である[8, 20-23]。
さらに、シミュレーション研究からの結果は、従来の多変量解析アプローチでは、残留交絡因子効果が観察された関連に影響を与えるのに十分強いままであり、観察された有意な関連は、因果関係を示す限られた証拠を提供するに過ぎないことを示唆している。したがって、残留交絡効果を扱うための新しい方法が必要である。本研究で採用したシミュレーションデザインは、そのような手法の性能を評価するためのプラットフォームとしても機能する。
本研究のシミュレーション設計にはいくつかの利点がある。第一に、すべての成分原因と十分な原因はランダムプロセスによって決定されるが、成分原因と十分な原因に関する情報のほとんどの部分が未知で測定不可能な収集データとは異なり、それらはすべて追跡され測定される。第二に、特定の暴露と結果については、既存の文献からの情報をシミュレーション設計に容易に採用することができる。第三に、シミュレーション設計は、成分原因と曝露の間の分布と相関関係、及び十分原因の組成に関する特定の事前の仮定に適合するように調整することができる。したがって、異なる事前仮定の下での被ばくの影響の推定値を得ることが可能である。
5. 結論
この研究は、すべての交絡因子が既知であり、従来の多変量解析を用いてコントロールされている場合でも、曝露と転帰との間の観察された関連が残留交絡効果によって支配される可能性があることを示している。観察された有意な関連は、明らかに因果関係を示す限られた証拠となる。