「一般化」木、森、そして低空飛行の果実

コンテンツ

要旨
内的・外的妥当性
サンプリングと代表性
母集団、診療所、そして境界
バイアス
- 選択バイアス
- 情報バイアス
交絡
- 再現性
一般化可能性と検出力
スモーキングガン

訪問者数： 1,433

Generalizability

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3369519/

Neurology. 2012 Jun 5

Walter A. Kukull, PhD（ウォルター・A・ククル博士）corresponding author and Mary Ganguli, MD, MPH（メアリー・ガングリ博士）corresponding author

要旨

臨床および疫学調査では，調査サンプルの「代表性」と調査結果の「一般化可能性」という重要な構成要素にますます注意が払われている。しかし、これらの重要な概念は、しばしば誤って解釈されたり、混同されたりして、内的・外的妥当性という中心的な問題を覆い隠している。著者らは、これらの問題を定義し、それらが互いにどのように関係しているか、そして一般化可能性とどのように関係しているかを示している。また、さまざまな形のバイアスや交絡による妥当性への脅威を例示している。また、サンプルの選択から曝露の評価まで、診療所ベースと集団ベースの両方の環境での研究デザインに関連した実際的な問題についても説明している。

すなわち、単に経験した現象を記録するだけでなく、そこから学び、理論的一般化に基づいて、新たな出来事を予測し、環境の変化を少なくともある程度はコントロールできるようにすることである1(p12)。

「この研究サンプルは人口を代表していない！」「我々の結果は一般化できない…」このようなコメントはますます身近になっているが、具体的には何を意味しているのであろうか？研究デザイン、被験者の確認、およびサンプルの「代表性」は、結果の「一般化」にどのように影響するのであろうか？研究結果は、共通の基礎となる母集団から統計的に抽出されたサンプルからのみ一般化されるのであろうか？「一般化可能性の欠如」は、カジュアルな批評家が摘み取るのに適した、低空飛行の果実になってしまったのであろうか？

内的・外的妥当性

一般化可能性をめぐる混乱は、2つの基本的な疑問の混同から生じている。第一に、研究結果は真実なのか、それとも研究のデザインや実施方法による人工物なのか、つまり研究は内部的に妥当なのか。第二に、研究結果は、他の研究環境やサンプルにおいて、一般的または特異的に適用できる可能性があるか。

考え抜かれた研究デザイン、慎重なデータ収集、適切な統計分析は、研究の内的妥当性の中核をなすものである。これらの内的妥当性のある結果が、他の研究設定、サンプル、または集団に広く「一般化」されるかどうかは、統計的推論と同様に判断の問題である。研究結果の一般化は、研究者が研究の「関連する」事実と「関連しない」事実を分離し、関連する事実についての判断を進める能力に依存する2が、最終的に何が関連するかが常にわかっていれば、それは簡単なことである。結局のところ、共通の生物学的プロセスや疾患のメカニズムが「関連性」を持ち、種が相対的に「無関係」であれば、我々は動物実験の結果をヒトに一般化する。また、無作為化比較試験では、母集団の確率的サンプルではなく、特定の除外基準が設けられていることが多いにもかかわらず、一般的な推論を行う。つまり、一般化とは、研究結果が内部的に妥当であると判断された後、その結果を「大局的に」解釈することである。

サンプリングと代表性

サンプリング理論や仮説検定といった統計学の概念は、一般化可能性という概念と混ざり合っている。ある「母集団」の確率的なサンプルに基づいて量を厳密に推定することと，その母集団のすべてのメンバーを評価することは，20世紀初頭まで統計学者の間で大きな議論の対象となっていた3。公正なサンプルは，調査対象となる母集団の特性を有効に推定するものでなければならない。この非常に合理的な概念が一般的に使用されるようになり，「人口集団」は「すべての人またはすべてのケース」と同義語になった。そして，代表的で一般化可能なサンプル推定値を得るためには，「すべて」の確率サンプルを抽出しなければならないことになった。論理的には、代表的なサンプルを抽出する前に、「すべての人」を何らかの方法で列挙しなければならない。「すべて」が文字通り国や大陸のすべてを意味する場合、悪循環の噛みつきが明らかになる。しかし、より限定的な人口境界を設定するように注意を払えば、列挙は可能かもしれない。

統計学者のKruskalとMosteller3-6は，代表サンプルやサンプリングという言葉の使い方を分類するために，非科学，「統計外科学」、および統計学の文献を詳細に調査した。それらの意味は，1）「データに対する一般的で不当な評価」，2）「選択的な力の不在（または存在）」，3）「母集団の鏡またはミニチュア」，4）「典型的または理想的なケース…平均的に（母集団を）代表している」，5）「母集団の範囲…各層から少なくとも1つのアイテムを含む（サンプル）」，6）特定の統計的サンプリング方式（例えば，単純無作為抽出）の指定によって「正確にされるべき曖昧な用語」である。統計学の文献では、代表的なサンプリングの意味として、a)「特定のサンプリング方法」、b)「良好な推定を可能にする」、c)「特定の目的には十分である」などが挙げられている4。上記の使用法の間にある矛盾や曖昧さは明らかであるが、我々はどのようにして研究の言説に明快さを求めるのであろうか？

母集団、診療所、そして境界

では、集団ベースの研究には実際に価値があるのであろうか（実際にある！）。もしそうなら、「集団」をどのように定義すればよいのであろうか。我々はまず、その境界（例えば、郡、保険加入者、学校、有権者登録リスト）を確立することで定義する。集団は、病気のある人（症例）と病気のない人（非症例）で構成され、誰もいない状態である。理想的には、発生したすべての症例を捉えて調査することである。また、比較対象として、すべての非症例、または非症例の確率的サンプルを含めることになる7。研究集団の「境界」の選択は、内部および外部妥当性に影響を及ぼす。意図的または不注意に境界を「ゲリマンダー」して、対象となる因子が非症例よりも症例に多く（または少なく）見られるようにすると、研究基盤に偏りが生じ、結果が偽りのものになったり、誤解を招いたりする。

適切に設計された集団ベースの研究では、選択因子が研究結果に意図しない悪影響を及ぼす可能性を最小限に抑えることができる。さらに、我々が測定する可能性のある効果は、症例群と同様に比較群にも依存するため、適切な選択は非症例にとっても症例と同様に重要である。これは、研究がクリニックベースであっても、人口ベースであっても同じである。集団ベースの研究では、比較群を症例に固定する。

臨床ベースの研究は、ADRC（Alzheimer’s Disease Research Center）で行われている研究が代表的である。アルツハイマー病研究センター（ADRC）が代表的なもので、ハイリスクな家族、クリニック、病院などのグループを対象に、治療や病気との関連を観察する。これは、「クリーンな」診断サブグループの詳細な研究を促進するための効率的な手段である。このような研究の外的妥当性は、被験者の選択プロセス自体が結果に誤った影響を与えていないかどうかの判断にかかっている。この判断は、診療所ベースの研究では、人口ベースの研究よりも難しい場合が多い。そのため、独立したサンプルでの再現性が重要となるが、後述するように、クリニックベースの研究では再現性がより困難である。

研究サンプルが診療所ベースであるか集団ベースであるかにかかわらず、「疾患」（前臨床疾患や無症候性疾患を含む）を、症例群だけでなく比較群においても、どの程度、完全に同定するかによって、結果に悪影響を及ぼす可能性がある。例えば、アルツハイマー病（AD）の研究で、被験者や研究者が知らないうちに、認知的に正常な対照群にADの基礎疾患を持つ人が多く含まれている場合を考えてみよう。その結果、非症例の中に真の「症例」が含まれることによる診断上の誤分類が起こり、観察された結果が偽りなく歪められ、弱められることになる。これは、代表性や一般性の問題ではなく、診断精度に関連する内的妥当性の問題である。

バイアス

バイアスとは、体系的ではあるが意図しない「エラー」のために、観察された測定値や結果が真の値と異なることをいう。例えば、研究対象者を確認して登録する方法（選択バイアス）や、対象者からデータを収集する方法（情報バイアス）などである。バイアスが作用している場合、試験結果の統計的有意性は、p値にかかわらず、結果を評価する手段としては全く意味がない。

選択バイアス

選択バイアスはしばしば微妙であり、検証される仮説に対する潜在的な影響を見極めるためには慎重な検討が必要である。例えば、選択バイアスがあると、クリニックベースのADRC研究の結果は無効ではないにしても疑わしいものになるのであろうか？残念ながら、その答えは簡単ではない。それは、何が研究されているか、そしてADRC研究への「選択」が真の関連性を歪めるかどうかによる。典型的なADRCのように、記憶障害の専門クリニックから研究参加者を募集することには多くの利点がある。AD症例と健常対照者の両方が、AD研究への貢献を保証する非常に特殊な状況下で（ボランティアまたは紹介者として）選ばれる。彼らは、ADの典型的な臨床的・病理学的特徴を持っている（症例）か、持っていない（対照）かのどちらかである。症例は、ADの研究用診断基準を満たしており、クリニックでの診察に同行してくれる「信頼できる情報提供者」がおり、症例も対照者も様々な除外項目（例えば、脳卒中や大規模な精神疾患の併発）を持つことはできず、全員がクリニックに来て、神経画像診断や腰椎穿刺を含む研究に全面的に参加することに意欲的であり、多くの人が臨床試験への参加を希望しており、多くの人が最終的な剖検に同意している。上記のプロフィールに当てはまるAD症例は、その熱意と利他主義には感心するが、典型的な症例ではないかもしれないし、その症例が生まれた母集団におけるすべてのAD症例の確率的サンプルでもないかもしれない。登録したアルツハイマー病患者と登録しなかったアルツハイマー病患者の間の研究因子の分布の差は、もしその情報を得ることができれば、偏りが特定の研究結果を弱めたり誇張したりしているかどうかの指標となるであろう。そこで、鋭い読者はこう問いかける。「被験者の出身地である基本的な人口基盤を説明できるか？確立された母集団の境界や組み入れ特性が結果に影響を与えたのではないか？被験者の登録は、研究対象の要因によって何らかの影響を受けたか？クリニックをベースとした研究では、このような比較を行うために、基礎となる母集団から未登録の症例（または未登録の非症例）を説明することはめったにない。年齢、人種、性別が調査対象の因子とほとんど関係がなく、参加が調査対象の因子と異なって関連している場合、登録者の年齢、人種、性別の分布が周辺郡の人口と同様の割合であると主張しても、内的妥当性にはほとんど役立たない。

人口ベースの研究は、本質的にバイアスから守られているわけではないことに注意してほしい。サービスを求めていない地域から抽出された個人は、研究への参加に同意することも拒否することもあり、彼らの参加意欲が無作為である可能性は低いのである。パーキンソン病（PD）の危険因子としての農薬暴露を調査する研究において選択バイアスを懸念するならば、”農薬に暴露されていないパーキンソン病患者は、暴露されたパーキンソン病患者よりも、我々の研究への登録を拒否する可能性が高かったのか（あるいは低かったのか）”と質問するかもしれない。

選択バイアスは不注意なだけでなく、避けられない場合もある。数年前、ADRCに志願した、あるいは紹介されたAD症例は、同じ都市圏の健康維持組織の集団を対象としたサーベイランスによって新たに認識されたAD症例よりも、APOE*4遺伝子型を持つ可能性が有意に高いという驚くべき知見8が報告された。ADRCのサンプルは、APOE*4対立遺伝子頻度およびその推定相対リスクを過大評価する偏りがあった。これは、ADRCの症例が誤って年齢に基づいて選択され、APOE*4対立遺伝子を持つ可能性が年齢とともに減少することに気づかなかったためである。ADRCの研究者が、同じベースからの人口サンプルを入手していなければ、この不注意な選択バイアスを検出することはできなかっただろう。後に行われたAPOE*4対立遺伝子の影響に関するメタアナリシスでは、年齢とAPOE対立遺伝子に関連するADリスクとの関係が定量化され、APOE*4遺伝子型によるADリスクは、専門クリニックのサンプルよりも集団サンプルの方が低いことが示された9。ADの家族歴は、記憶喪失を伴う臨床および集団ベースの研究への参加を促進するようであり、また、APOE*4頻度とも関連しているので、APOE効果の大きさに偏りが生じる可能性がある。

生存バイアスは、選択者のコントロールが及ばない選択バイアスの一形態である。このパラドックスには複数の理由が考えられるが、一つの可能性として、APOE*4遺伝子型を持つ人が、認知症を発症する年齢になる前に心臓疾患で死亡したことが挙げられる。

有病率バイアス（長さバイアス）は生存バイアスと似ている。1990年代、多くの症例対照研究により、喫煙がAD発症を予防する効果があることが示された12。ADと喫煙の両方が寿命を縮め、AD症例が症状発症後しばらくしてからこれらの研究に参加したと仮定する。もし、年齢だけが潜在的な選択バイアスの根拠であるならば、喫煙は、ADを発症する運命にある人もそうでない人も等しく早死にさせるはずである。しかし、選択バイアスには、有病率バイアスまたは罹患期間バイアスと呼ばれる別の側面がある。ある時点で有病率の高い、すなわち現存する症例は、疾患による生存期間（罹患期間）がより長い症例である。喫煙者が非喫煙者よりもAD発症後に早く死亡した場合、研究対象となるADの有病者は非喫煙者に「選択的」になる。喫煙が死亡とADの両方のリスクに影響を及ぼす場合、「競合するリスク」として知られるシナリオが発生する13。この場合、「対照群」で観察される過剰な喫煙が強調され、喫煙とADの間の見かけ上の保護関連が誇張されることになる。その後、喫煙者と非喫煙者を対象とした縦断的研究により、喫煙に関連したAD発症リスクの増加が示された12。このことは、選択バイアスが初期の横断的研究の結果を説明している可能性を示唆している。

情報バイアス

情報バイアス（データの不正確さ）は、アウトカムや曝露の測定や決定に大きな誤差がある場合、あるいはアウトカムや曝露の測定が比較群間で異なっている場合に生じる可能性がある。ここで読者は、”研究因子や共変量に関する情報は、すべての被験者に対して公正かつ平等な方法で収集されたか？”を問わなければならない。例えば、過去の頭部外傷の履歴を、症例の配偶者からは取得し、対照群からは自己申告で感染したとする。頭部外傷の頻度は、実際に発生したものではなく、誰に聞いたかによってグループ間で系統的に異なる可能性がある。この知見は、包括的な人口ベースの記録リンケージシステムから得られた前向きデータに基づくその後の研究では再現されなかった15。最近になって、この問題が再び頭をもたげてきたが、このような研究では、過去の方法論的教訓を心に留めておくべきであろう。

交絡

偏りを避けるために最善を尽くした後、病気を引き起こす可能性のある他の要因の同時作用をどのように考慮すればよいのであろうか。認知機能低下の危険因子としての糖尿病に関する研究を考えてみよう。糖尿病も認知機能低下も、年齢、家族歴、脳血管疾患と関連している。これらの他の要因の影響が、糖尿病のある人とない人の間で不均等に分布していると、結果が歪んでしまう可能性がある。このような影響の混在を交絡という。同様に、PDのリスク因子としての農薬曝露を検討する研究を計画する際には、農薬使用と関連する可能性のあるPDの他のリスク因子や保護因子を懸念することになるであろう16。

もし、潜在的な交絡因子に関するデータを積極的に収集していれば、その影響を分析の際に「調整」（比較群間で統計的に均等化）することができ、再現研究においても同様に「調整」することができる。調整とは、ceteris paribus（他のすべての要素を一定に保つこと）を意味し、交絡因子（例：頭部外傷）の影響を統計的に均等化または除去することで、目的の因子（例：農薬曝露）の影響を評価できるようにすることである。注：偏りは（交絡とは異なり）ほとんど調整して取り除くことができない。

再現性

独立したサンプルで結果を再現することは、元の知見の内的妥当性と一般化可能性の両方を支持するものであり、現在、遺伝学的関連研究の発表には必須となっている。類似した2つの研究の結果が一致しない場合、一方が他方を否定するとは限らないが、複数の類似した研究が元の結果の再現に失敗した場合は、元の結果を大きく否定することになる。リスク因子の頻度は集団間で異なっている可能性があるため、すべてのリスク因子研究が同じ結果になるとは考えられない。試料のばらつきは一般化を妨げるものではないが，バイアスや交絡の潜在的な影響を無視してはならない。

一般化可能性と検出力

最後に、一般化可能性に誤って含まれているもう一つの問題は、関連性が本当に存在する場合にそれを観察する統計的検出力に関するものである。例えば、認知症の危険因子としての頭部外傷の研究は、関連性が検出されるためには、十分な頭部外傷と十分な認知症の両方が存在するサンプルを用いて実施されるべきである。若いサッカー選手のサンプルでは、前者はあっても後者はないかもしれない19;高齢の修道女のサンプル20では、後者はあっても前者はないかもしれない;引退したサッカー選手のサンプルでは、両方があるかもしれない21;高齢の退役軍人のサンプルでは、両方があるかもしれないが、他の傷害、うつ病、心的外傷後ストレスなど、軍務に関連した交絡因子があるかもしれない22;このように、頭部外傷と認知症に関して、異なるサンプルでの研究は、関連性が変化したからではなく、曝露や結果の頻度が異なるために、互いの結果を再現できないかもしれない。

スモーキングガン

最後に、20世紀で最も影響力のある論文の一つを紹介して、厳密な内的妥当性を考慮して実施すれば、非常に狭い範囲で定義された研究サンプルであっても、広く一般化できる結果が得られることを示す。「The mortality of doctors in relation to their smoking habits: a preliminary report」23と題された1954年のDollとHillによるこの論文は、英国の医師の肺がんとタバコの喫煙との関連性を調べたものである。当時、Medical Registerに登録されていた59,600人の医師全員に、喫煙習慣についてのアンケートが送られた。調査員は、肺癌による死亡の頻度が低いと予想されるため、回答が得られなかった医師、女性医師、35歳未満の医師を除外した。残ったサンプルは24,389人の男性医師コホートで、これはMedical Registerに登録されている医師の約40%にあたる。29ヵ月間の追跡調査では、確認された肺がんによる死亡は36件のみで、非喫煙者では1,000人当たり0.00人、1日25g以上のタバコを吸う喫煙者では1,000人当たり1.14人であった。肺がんの死亡率は喫煙量に依存していたが、他の5つの疾患の比較群や全死因では、タバコの量と同様の関係は認められなかった。さらに、この研究コホートの全死因死亡率は1,000人当たり14.0であり、すべての社会階級と同年齢の男性の1,000人当たり24.6と比較している23。

この研究は、一般化可能性に注目する批評家たちにとって、まさに垂涎の的である。このような厳選された研究サンプルでは、結果があまりにも特殊で孤立しているため、英国の男性医師以外のグループに一般化できないのではないか？臆することなく、DollとHillは内的妥当性に注目し、研究で定めた境界線と対象者の選択方法が、喫煙と肺がん死亡との間に偽りの関連性を生み出していないかを検討した。彼らは、最初に回答を得られなかった医師の中に、すでに死期が近い人が過剰に含まれていたために、短期的に観察された死亡率が一般集団よりも低くなってしまったのではないかと考えた。さらに重要なのは、このようなサンプル内での死亡率の違いが、喫煙量と肺がん死亡率の間の用量反応の「勾配」を引き起こしたのではないかということである。「そのような効果があるとすれば、すでに自分が肺癌であることを知っている重度の喫煙者が、同じような状況にある非喫煙者や軽度の喫煙者よりも、より頻繁に回答する傾向があると考えなければならない。23(p1454)この研究は、他の多くの集団および臨床ベースの研究でも再現されている。この研究は、研究グループとその境界が明らかに「非代表的」であるにもかかわらず、広い科学的な意味で、他のさまざまなグループ、集団、および環境に一般化されている。DollとHillは、研究グループの定義とその特徴が、結果にどのように、またどの程度影響を与えたかに着目した。すなわち、被験者の選択（すなわち選択バイアス)データの正確性（すなわち情報バイアス)比較群間の他のリスク／保護因子の不均等な分布（すなわち交絡）が、研究の内的妥当性をどのように脅かしたかを検討した。また、若い男女を除外する際には「パワー」を考慮した。今回の研究では、タバコの煙がヒトの肺組織に及ぼす潜在的な発がん性の影響が「関連性」のある要因であった。

全世界を代表しない限定されたグループで行われた同様の研究のデザインと結果は、今日、容易に受け入れられるだろうか？現在の読者は、英国の医師の結果が、ウィチタのラインマンやニュージャージーの本物の主婦にも当てはまるかどうか疑問に思うだろうか。英国の医師たちは、主要な結果を「一般化」したいグループとは多くの点で異なっていただろう。しかし、タバコの煙が肺組織や最終的な死亡率に及ぼす影響についての結論に影響を与えるような、根本的な違いはなかった。

科学は複製によって、また個々の研究結果をより広範な仮説、理論、または事実の結論に一般化することによって進行する。研究の境界線を設定し、その中で「集団ベース」の研究を行うことで、内部的な妥当性と、結果が類似したグループにも類似しないグループにも適用される可能性の両方を高めることができる。しかし、特別に定義されたグループの研究は、我々の知識を広げるために一般化することもある。我々は誘惑に負けて、一般化可能性を理由に漠然と研究に異議を唱え、低いところに落ちている果実をつかむことができる。しかし、それでは「木を見て森を見ず」になってしまう。

2026年4月
日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30