外的妥当性 – Wikipedia
External validity - Wikipedia

強調オフ

EBM・RCT

サイトのご利用には利用規約への同意が必要です

External validity – Wikipedia

en.wikipedia.org/wiki/External_validity

フリー百科事典『ウィキペディア(Wikipedia)』より

外的妥当性

外的妥当性とは、ある科学的研究の結論をその研究の文脈の外に適用することの妥当性である[1]。 言い換えれば、ある研究の結果が他の状況、人、刺激、時間に対してどの程度一般化できるかということである[2]。

これに対して内的妥当性とは、特定の研究の文脈の中で導き出された結論の妥当性である。一般的な結論はほとんど常に研究の目標であるため、外的妥当性はあらゆる研究の重要な特性である。

外的妥当性の数理的分析では、異種集団間での一般化が可能かどうかを判断し、妥当な一般化をもたらす統計的・計算的手法を考案することになる[3].

脅威

「外的妥当性への脅威とは、特定の研究結果から一般化する際にどのように間違っているかを説明することである」[4] ほとんどの場合、一般化可能性は、ある要因(すなわち独立変数)の効果が他の要因に依存するときに制限される。したがって、外的妥当性を脅かすものはすべて、統計的交互作用と表現することができる[5]。 いくつかの例を以下に示する。

  • 処理による適性 相互作用 サンプルは独立変数と相互作用する特定の特徴を持ち、一般化を制限することがある。例えば、心理療法の比較研究では、特定のサンプル(ボランティア、高度のうつ病、併存疾患なしなど)を用いることが多い。このようなサンプルの患者に心理療法が有効であることがわかった場合、ボランティアではない人や軽度のうつ病、他の障害を併発している患者にも有効なのであろうか?もしそうでなければ、研究の外的妥当性は制限されるだろう。
  • 治療による相互作用の状況 研究のすべての状況的な特殊性(例:治療条件、時間、場所、照明、騒音、治療の投与、研究者、タイミング、測定の範囲と程度など)は、潜在的に一般化可能性を制限する。
  • 治療による試験前の相互作用 因果関係がプレテストを実施したときにしか見いだせない場合、これも調査結果の一般性を制限する。これは「感作」と呼ばれることもあるが、これは事前テストによって人々が治療法の操作に対してより敏感になるためである。

研究の外的妥当性は、内的妥当性によって制限されることに注意してほしい。研究内で行われた因果関係の推論が無効であれば、その推論の他の文脈への一般化も無効になる。

CookとCampbell[6]は、ある集団への一般化と、何らかの背景因子の異なるレベルによって定義された亜集団間での一般化とを決定的に区別した。Lynchは、意味のある集団に一般化することは、歴史のスナップショットを除いてほとんど不可能であると主張しているが、ある従属変数に対するある原因の効果が、ある背景因子が異なる亜集団間で一般化する度合いを検証することは可能である。そのためには、調査されている治療効果が1つ以上の背景因子との相互作用によって調整されているかどうかを検証する必要がある[5][7]。

脅威の除去

妥当性への脅威を列挙することは、研究者が不当な一般化を避けるのに役立つかもしれないが、これらの脅威の多くは、妥当な一般化を可能にするために、系統的な方法で武装解除、または中和することができる。具体的には、ある集団から得られた実験結果を「再処理」または「再校正」することで、集団の違いを回避し、実験ができない第二の集団で有効な一般化を行うことができる。PearlとBareinboim[3]は、一般化問題を2つのカテゴリーに分類した。(1)有効な再校正が可能なものと、(2)外部からの有効性が理論的に不可能なものである。彼らは、グラフベースの微積分[8]を用いて、有効な一般化を可能にするための問題インスタンスの必要十分条件を導き出し、必要な再キャリブレーションが存在する場合には、それを自動的に生成するアルゴリズムを考案した[9]。 これにより、外的妥当性問題はグラフ理論の演習に還元され、一部の哲学者はこの問題が解決されたと結論づけている[10]。

外的妥当性問題の重要な変種として、サンプリング・バイアスとして知られる選択バイアスがある.例えば、大学生を対象とした臨床試験を行った場合、年齢、教育、収入などの属性が典型的な学生とは大きく異なる母集団全体に結果が一般化するかどうかを知りたいと思うことがある。BareinboimとPearlのグラフベースの手法は、サンプル選択バイアスが回避される条件を特定し、その条件が満たされた場合には、母集団全体における平均的な因果効果の不偏の推定値を構築するものである。不適切に抽出された研究からの一般化と、格差のある集団間での一般化の主な違いは、集団間の格差は通常、年齢や民族などの既存の要因によって引き起こされるのに対し、選択バイアスは多くの場合、治療後の状態、例えば、研究から脱落した患者や、負傷の重さによって選択された患者によって引き起こされるという点にある。選択が治療後の要因に支配されている場合、バイアスのない推定を行うためには型破りな再校正法が必要となるが、これらの方法は問題のグラフから容易に得ることができる[11][12].

年齢が治療効果を個人ごとに変化させる主な要因であると判断された場合、サンプルされた学生と一般集団との間の年齢差は、その集団における平均的な治療効果の偏った推定につながる。このような偏りは、単純な再重み付けの手順によって修正することができる。学生の部分集団における年齢別効果を、一般集団の年齢分布を用いてその平均を計算する。これにより、母集団における平均的な治療効果の偏りのない推定値が得られる。一方、研究サンプルを一般集団から区別する関連因子が、それ自体が治療の影響を受けている場合は、異なる再重み付けスキームを使用する必要がある。この因子をZと呼び、実験サンプルのYに対するXのz固有の効果を再び平均化するが、今度はZに対するXの「因果効果」で重み付けする。言い換えれば、新しい重みは、治療法X=xが全人口に投与された場合にレベルZ=zに到達するユニットの割合である。この介入確率は、しばしば[13]

と書かれ、一般集団を対象とした観察研究から推定されることがある。

このような典型的な例は、Zが治療と結果の間の媒介者である場合である。例えば、治療はコレステロール低下剤であり、Zはコレステロール値、Yは寿命である。ここでは、Zは治療の影響を受けると同時に、結果であるYを決定する主要な要因でもある。実験的研究のために選ばれた被験者は、一般集団の典型的な値よりもコレステロール値が高い傾向にあるとする。集団全体の生存に対する薬剤の平均的な効果を推定するためには、まず実験的研究におけるz固有の治療効果を計算し、重み付け関数として

を用いて平均化する.ZとYが交絡していても、つまりZとYの両方に影響を与える測定されていない共通因子があっても、得られる推定値には偏りがない[14]。

このスキームや他の重み付けスキームの有効性を保証する正確な条件は、Bareinboim and Pearl, 2016[14]やBareinboim et al 2014で定式化されている[12]。

外的妥当性、内的妥当性、生態学的妥当性

多くの研究や研究デザインにおいて、内的妥当性と外的妥当性はトレードオフの関係にあるかもしれない:[15][16][17]内的妥当性を高めようとすると、調査結果の一般化を制限することにもなり、その逆もまた然りである。このような状況から、多くの研究者は「生態学的に妥当な」実験を求めている。これは、実験の手順が「リアルワールド」の条件に似ていることを意味している。彼らは、人為的に制御され、制限された環境に焦点を当てた多くの実験室ベースの研究には、生態学的妥当性が欠けていると批判している。生態学的に妥当な研究デザインに基づく因果推論は、人工的に作られた実験環境で得られるものよりも高い一般化可能性を持つことが多いという意味で、外的妥当性と生態学的妥当性は密接に関連していると考える研究者もいる。しかし、このことは、ある集団への一般化(生態学的妥当性に関する懸念と密接に関連している)と、何らかの背景因子が異なる亜集団への一般化との区別に再び関係している。生態学的に妥当な研究環境で得られた知見の中には、ほとんど一般化できないものもあるし、高度にコントロールされた環境で得られた知見の中には、ほぼ万人に通用する外的妥当性を主張するものもある。したがって、外的妥当性と生態学的妥当性は独立したものであり、外的妥当性を有していても生態学的妥当性を有していない研究もあれば、その逆もある。

質的研究

質的研究のパラダイムでは、外的妥当性の代わりに「転移性」という概念が用いられる。転移可能性とは、研究結果が類似したパラメータ、集団、特性を持つ状況に移行する能力のことである[18]。

実験において

研究者の間では、実験はその性質上、外的妥当性が低いと主張するのが一般的である。また、実験方法に従うと多くの欠点が発生すると主張する人もいる。人々を無作為に条件に割り当て、外部変数の影響を排除するように状況を十分にコントロールすることによって、状況がやや人工的になり、現実の生活とはかけ離れたものになってしまう。

問題となる一般化可能性には2種類ある。

  1. 実験者が構築した状況から現実の状況に一般化できる範囲(状況間一般化性)[2]と
  2. 実験に参加した人々から人々一般に一般化できる範囲(人を超えた一般化可能性)[2]。

しかし、これらの考察はいずれも、調査された特定の状況とは異なる部分集団や、調査された回答者とは何らかの意味で異なる人々を対象として、実験から得られた知見の一般化可能性を評価するという、間違いなくより中心的な課題ではなく、何らかの対象集団に一般化するというCook and Campbellの概念に関連するものである[6]。

実験を批判する人たちは、外的妥当性は、フィールド設定(または、少なくとも現実的な実験室の設定)を使用することや、回答者の真の確率サンプルを使用することで改善できると示唆している。しかし、状況的または個人的な背景因子が異なる部分集団間の一般化を理解することが目的であれば、これらの救済策は一般的に言われているような外的妥当性を高める効果はない。研究者が気づいていない背景因子×治療の相互作用が存在する場合(その可能性は高いと思われる)これらの研究手法は外的妥当性の実質的な欠如を覆い隠してしまう可能性がある。産業・組織心理学について書いたDipboyeとFlanaganは、1つのフィールド設定から得られた知見と1つのラボ設定から得られた知見が、2つ目のフィールド設定に一般化する可能性は同様に低いという証拠があると指摘している[19]。 このように、フィールド研究は本質的に外的妥当性が高くなく、ラボ研究は本質的に外的妥当性が低くないどちらの場合も、研究された特定の治療効果が、その研究で一定に保たれている背景因子の変化によって変化するかどうかにかかっている。もし、ある研究が、治療法とは相互作用しない何らかの背景因子のレベルで「非現実的」であっても、外的妥当性には影響しない。ある実験で背景因子が非現実的なレベルで一定に保たれていて、その背景因子を変化させれば治療法×背景因子の強い相互作用が明らかになったとしたら、外的妥当性が脅かされることになる[5]。

状況を超えた一般化可能性

大学で行われている心理学実験の研究は、人工的な状況で行われており、実生活に一般化できないと批判されることが多い[20][21]。 この問題を解決するために、社会心理学者は研究をできるだけ現実的なものにすることで、結果の一般化可能性を高めようとする。前述のように、これはある特定の集団に一般化することを期待してのことである。しかし、現実的であること自体は、設定がより現実的であった場合に結果が変わるかどうか、あるいは研究参加者が異なる現実的な設定に置かれた場合に結果が変わるかどうかを表明する助けにはならない。1つの設定のみがテストされた場合、設定を超えた一般化可能性について声明を出すことはできない[5][7]。

しかし、多くの著者は外的妥当性と現実性を混同している。実験が現実的である方法は1つではない。

  1. 実験の状況が日常生活で頻繁に起こる出来事に類似していること。多くの実験が明らかに非現実的であることは明らかである。
  2. 多くの実験では、人々は日常生活ではほとんど遭遇しないような状況に置かれる。

このように、実験が現実の状況にどれだけ似ているかを、実験のありふれたリアリズムと呼んでいる[20]。

それよりも重要なのは、実験で引き起こされる心理的プロセスが、日常生活で起こる心理的プロセスと似ているという心理的リアリズムが高い研究であることである[22]。

心理的リアリズムは、人々が現実の出来事に夢中になっていると感じれば高まる。そのために、研究者は実験の目的を偽って被験者に伝えることがある。しかし、もし実験者が実験の目的を被験者に伝えていたら、心理的リアリズムは低いであろう。日常生活において、緊急事態はいつ起こるかわからないし、対応策を練る時間もない。つまり、引き起こされる心理的プロセスの種類は、実際の緊急事態のそれとは大きく異なり、研究の心理的リアリズムが低下することになる[2]。

人は、なぜ自分が何をするのか、何をするのか、起こってみないとわからないことが多い。そのため、実験の状況を被験者に説明して、普通に回答してもらっても、実際に同じ状況にいる人の行動とは一致しない回答が出てくる。人々が仮想の状況で何をするかという予測に頼ることはできず、リアルワールドで起こるのと同じ心理的プロセスを引き起こす状況を構築して初めて、人々が実際に何をするかを知ることができるのである。

人を超えた一般化可能性

社会心理学者は、人々が一般的に社会的影響を受けやすいことを研究している。いくつかの実験では、他の人がいることを知っているだけで、人々が助けてくれる可能性が低くなるという、社会的影響の興味深い予想外の例が報告されている。

実験結果が特定の集団の行動を表していることを確実にする唯一の方法は、参加者をその集団から無作為に選ぶことである。社会心理学の実験で無作為にサンプルを選ぶことは現実的ではなく、コストもかかるため、実験のサンプルは調査と同じように無作為に選ぶことはできない。政治的な世論調査の一環として、電話でいくつかの質問に答えることに同意する人々を無作為に抽出することは十分に困難であり、そのような世論調査の実施には数千ドルの費用がかかることもある。さらに、仮に本当に無作為なサンプルを集めることができたとしても、実験的治療の効果には観察されていない異質性が存在する可能性がある。ある治療法は、あるサブグループにはプラスの効果をもたらすが、他のサブグループにはマイナスの効果をもたらす。治療の平均値で示された効果は、どのサブグループにも一般化しないかもしれない[5][23]。

多くの研究者は、人が社会的影響を受けやすい基本的な心理的プロセスを研究することでこの問題に対処しており、これらのプロセスは普遍的に共有されるほど基本的なものであると仮定している。社会心理学者のプロセスの中には、文化によって異なるものもあり、そのような場合には、多様な人々のサンプルを研究しなければならない[24]。

複製・再現性

実験の外的妥当性の究極のテストは複製である。研究者はしばしば、同じ結果が得られるかどうかを確認するために、異なる方法を使用する。

1つの問題について多くの研究が行われた場合、その結果はさまざまである。いくつかの研究では、傍観者の数が援助行動に影響を与えることがわかっているかもしれないが、少数の研究ではそうではないかもしれない。これを理解するために、独立変数の効果が信頼できるかどうかを確認するために2つ以上の研究の結果を平均化するメタ分析と呼ばれる統計手法がある。メタ分析は基本的に、多くの研究結果にまたがって得られた知見が、偶然によるものか独立変数に起因するものかの確率を教えてくれる。もし独立変数が20の研究のうち1つだけで効果を持つことがわかった場合、メタ分析はその1つの研究が例外であり、平均して独立変数は従属変数に影響を与えていないことを教えてくれる。独立変数がほとんどの研究で影響を与えている場合、メタ分析では、平均的に従属変数に影響を与えていることがわかる。

実験室内に限定されない信頼性の高い現象もあり得る。例えば、傍観者の数を増やすことは、子ども、大学生、将来の大臣など多くの種類の人々の援助行動を抑制することがわかっている[24]、イスラエルでは、[25]アメリカの小さな町や大都市では、[26]様々な種類の人々の援助行動を抑制することがわかっている。 また、発作、潜在的な火災、喧嘩、事故などのさまざまなタイプの緊急事態[28]や、パンクなどのそれほど深刻ではない出来事[29]に対しても同様である。 これらの再現実験の多くは、人々が実験が行われていることを知ることができないような現実の環境で行われている。

社会心理学者の基本的なジレンマ

心理学で実験を行う場合、内的妥当性と外的妥当性は常にトレードオフの関係にあると考える人がいる。

  1. 外部からの変数が結果に影響を与えないように、また人々を無作為に条件に割り当てることができるように、状況を十分にコントロールすること、そして
  2. 結果が日常生活に一般化できることを保証すること。

外的妥当性を高めるためには、フィールド実験を行うのが良いと考える研究者もいる。フィールド実験では、人々の行動を実験室の外の自然な環境で調査する。フィールド実験は、実験室での実験とデザインが同じであるが、現実の環境で行われることが違う。フィールド実験の参加者は、自分が体験している出来事が、実は実験であることを知らない。このような実験は、一般的な大学生のサンプルよりも多様な現実の人々を対象としているため、外的妥当性が高いと言われている。しかし、リアルワールドの環境は大きく異なるため、あるリアルワールドの環境で得られた知見が別のリアルワールドの環境に一般化する可能性もあれば、そうでない可能性もある[19]。

内的妥当性も外的妥当性も単一の実験では捉えられない。社会心理学者は、まず内的妥当性を重視し、人々を異なる条件に無作為に割り当て、すべての外部変数をコントロールする実験室での実験を行う。他の社会心理学者は、コントロールよりも外的妥当性を重視し、研究のほとんどをフィールド調査で行っている。どちらのタイプの研究も、完璧な実験の要件を満たしている。複製によって、研究者は与えられた研究課題を最大の内的・外的妥当性をもって研究することができる[30]。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー