統計学における因果推論
Causal Inference in Statistics - A Primer 1st Edition

強調オフ

因果論・統計学

サイトのご利用には利用規約への同意が必要です

目次

  • 表紙
  • タイトルページ
  • 著作権について
  • 献辞
  • 著者について
  • 序文 謝辞
  • 図版リスト
  • 付属のウェブサイトについて
  • 第1章 前提条件 統計モデルと因果モデル 1.1 因果関係を研究する理由
  • 1.2 シンプソンのパラドックス
  • 1.3 確率と統計
  • 1.4 グラフ
  • 1.5 構造的因果モデル
  • 第1章に関する文献ノート
  • 第2章 グラフモデルとその応用 2.1 モデルとデータの関連付け
  • 2.2 チェーンとフォーク
  • 2.3 コライダー
  • 2.4 -セパレーション
  • 2.5 モデルのテストと因果関係探索
  • 第2章に関する文献ノート
  • 第3章 介入の効果 3.1 介入
  • 3.2 調整式
  • 3.3 バックドア基準 (Backdoor Criterion
  • 3.4 フロントドア基準 (Front-Door Criterion
  • 3.5 条件付き介入と共変量特異的効果
  • 3.6 逆確率の重み付け
  • 3.7 仲介
  • 3.8 線形システムにおける因果推論
  • 第3章に関する文献ノート
  • 第4章 反実仮想とその応用 4.1 反実仮想
  • 4.2 事実に反することの定義と計算
  • 4.3 非決定的反実仮想法
  • 4.4 反実仮想の実用的な使用法
  • 4.5 帰属と仲介のための数学的ツールキット
  • 第4章に関する文献ノート
  • 参考文献
  • 索引

ジュデア・パール

カリフォルニア大学コンピューターサイエンス・統計学研究室

著者について

カリフォルニア大学ロサンゼルス校のコンピュータ科学と統計学の教授であり、認知システム研究所の所長として、人工知能、因果推論、科学哲学の研究を行っている。Journal of Causal Inferenceの共同設立者・編集者であり、推論関連分野における3冊のブレイクスルー書籍の著者でもある。最新作は『Causality: Models, Reasoning and Inference (Cambridge, 2000, 2009)は、現代の因果分析に用いられる多くの方法を紹介している。この本はロンドン・スクール・オブ・エコノミクスのラカトシュ賞を受賞し、1万3000以上の科学論文に引用されている。

全米科学アカデミー、全米工学アカデミー会員、人工知能学会創立フェロー。また、確率的推論と因果的推論への基本的貢献により、テクニオンのハーベイ賞やACMアラン・チューリング賞など、数多くの賞や賞を受賞している。

カーネギーメロン大学データアナリスト、UCLA認知システム研究所のサイエンスライター兼エディター。因果関係の発見と、複雑な概念を多くの人に理解してもらうための技術に関心がある。

Nicholas P. Jewell カリフォルニア大学バークレー校の生物統計学および統計学の教授。1981年の着任以来、さまざまな学術・管理職を歴任し、特に1994年から2000年までは副プロボーストを務めた。また、エジンバラ大学、オックスフォード大学、ロンドン大学衛生熱帯医学大学院、京都大学でも教鞭をとってきた。2007年には、イタリアのロックフェラー財団ベラジオ・スタディー・センターのフェローに就任した。

米国統計協会、数理統計学会、米国科学振興協会 (AAAS)のフェローでもある。ハーバード大学のスネデコール賞とマーヴィン・ゼレン統計科学リーダーシップ賞を過去に受賞している。現在、Journal of the American Statistical Association – Theory & Methodsの編集者であり、AAASの統計学部門の議長も務めている。研究テーマは、感染症や慢性疾患の疫学、医薬品の安全性評価、時間対事象分析、人権問題への統計手法の適用である。

前書き

統計学者がデータの意味を理解しようとするとき、必ずと言っていいほど、因果関係の問題に突き動かされている。例えば、「ある治療法は病気の予防にどの程度有効か」、「肥満に関連する医療費を推定できるか」、「政府の行動によって2008年の金融危機を防ぐことができたか」、「雇用記録によって雇用者の性差別の罪を証明できるか」、などである。

これらの問題の特異な性質は、従来の統計学の言葉では答えられないし、明確にすることさえできないことである。実際、科学がこのような問いを表現するための数学的言語と、データから問いに答えるためのツールを手に入れたのは、ごく最近のことである。

このようなツールの開発により、統計学やその関連分野の多く、特に社会科学や生物医学における因果関係の扱い方に革命が起きた。例えば 2003年にサンフランシスコで開催された合同統計会議のテクニカルプログラムでは、タイトルに「cause」あるいは「causal」という言葉が含まれる論文はわずか13件だったが、2014年のボストン会議ではその数は100件を超えている。この数字は、統計解析に開かれた新しい問題や課題に対するかつてないほどの興奮を伴う、統計研究の焦点の転換を表している。ハーバード大学の政治学教授であるゲイリー・キングは、この革命を歴史的な観点から捉えている。「過去数十年間に因果関係の推測について学んだことは、それ以前のすべての記録された歴史において学んだことの総和よりも多い」と。

しかし、この興奮は統計学の教育者の間ではほとんど見られないままであり、特に入門レベルの統計学の教科書には基本的に載っていない。このような格差の原因は、統計教育の伝統と、多くの統計学者が統計的推測の役割をどのように見ているかに深く根ざしている。

ロナルド・フィッシャーは、その影響力のあるマニフェストの中で、「統計的手法の目的はデータの削減にある」 (Fisher 1922)と宣告している。この目的に従って、データを理解するための伝統的な作業は、しばしば一般的に「推論」と呼ばれ、関心のある変数の集合の共同分布、あるいはその分布の特定のパラメータについて、簡明な数学的記述を見つけることになった。この一般的な推論方法は、統計研究者やデータサイエンティストだけでなく、統計学の基礎講座を受けたことのある人なら誰でも知っている方法である。実際、多くの優れた入門書には、利用可能なデータから可能な限り多くの情報を抽出するためのスマートで効果的な方法が記載されている。これらの書籍は、実験計画からパラメータ推定、仮説検定まで、初心者の読者を対象に詳細に解説している。しかし、これらの手法の目的は、常にデータの記述であり、データの原因となっているプロセスの記述ではない。ほとんどの統計学の本には、「因果関係」という言葉さえ索引に載っていない。

しかし、多くの統計的推論の核となる基本的な問いは、ある変数の変化が他の変数の変化を引き起こすのか、引き起こすとしたらどの程度の変化を引き起こすのか、という因果関係である。統計的推測の入門書では、このような疑問を避けるために、推定されるパラメータが、因果関係に関心があるときに評価すべき関連量であるかどうかを議論することさえできないことが多い。

多くの入門書の精一杯はこうである。まず、よく引用される「関連は因果関係を意味しない」という格言を述べ、交絡について、また「潜んでいる変数」がいかに関心のある2つの変数間の明らかな関係の誤解を招くかについて短い説明をすることである。さらに、これらの文章の中で最も大胆なものは、主要な質問を投げかけている。「との間の因果関係はどのようにして確立されるのか」という主要な問いを提起し、それに答えるのが、無作為化実験に頼るという長年にわたる「ゴールドスタンダード」のアプローチであり、このアプローチは今日でも米国やその他の国における医薬品承認プロセスの礎となっている。

しかし、ほとんどの因果関係の問題はランダム化実験では解決できないことを考えると、学生や教師は、純粋なランダム性がない中で、合理的な信頼性をもって言えることがあるのだろうかと疑問に思うことになる。

つまり、因果関係モデルや因果関係パラメータに関する議論を避けることで、入門書の読者は、統計的手法が因果関係の科学的問題にどのように対応するかを理解するための基礎を得ることができない。

本書は、このようなギャップを埋め、自然科学や社会科学における非実験的研究のほとんどにつきまとう因果関係の問題に取り組む初等統計学の教師や学生を支援することを意図している。ここでは、理解したい因果関係のパラメータを定義するための簡単で自然な方法に焦点を当て、観察研究においてこれらのパラメータを推定するためにどのような仮定が必要であるかを示す。また、これらの仮定は数学的に透明性を持って表現できること、そして、これらの仮定を治療や政策介入の効果のような推定可能な因果量に変換し、その検証可能な意味を特定するための簡単な数学的機械が利用可能であることを示す。

私たちの目標は、現時点ではそこに止まっている。私たちは、効果的な統計的推定値とそれに関連する不確実性のレベルを生み出すためにデータを使用する最適なパラメータ推定手順について、詳しくは述べていない。しかし、これらのアイデアは、因果推論に関する文献で広く取り上げられており、そのいくつかは比較的高度なものである。したがって、この短いテキストが、これまで紹介したような標準的な統計学の入門書と一緒に使われ、統計モデルと推論がいかに因果関係を十分に理解した上で容易に両立できるかを示すことができればと願っている。

単なる記述の域を超えようとするならば、因果関係の問題を注意深く考え、そのような問題に答えるために現代の分析が開発したシンプルかつ強力なツールを活用しない限り、統計的推測は効果的に行えないというのが私たちの強い考えである。また、因果関係を考えることは、最も単純な統計データ解析でも最も複雑な統計データ解析でも、より刺激的で満足のいくアプローチにつながるというのが、私たちの経験である。これは新しい見解ではない。紀元前29年、ヴァージルは私たちよりもずっと簡潔にこのことを述べている。

「Felix, qui potuit rerum cognoscere causas」(Virgil 29 BC)

(物事の原因を理解することができた者は幸運である)。

本書は4つの章から構成されている。

第1章では、本書の他の部分を理解するのに必要な、統計学、確率論、グラフィカルな基本概念を提供する。また、因果モデルを含む因果関係の基本的な概念を紹介し、純粋なデータでは得られない情報をモデルがいかに伝えることができるかを例題を通して説明する。

第2章では、因果モデルがどのようにデータに反映されるかを、統計的な依存関係のパターンを通じて説明する。また、あるデータセットがある因果モデルに適合しているかどうかを判断する方法を説明し、あるデータセットを説明するモデルを探索する方法についても簡単に説明する。

第3章では、因果モデルを用いてどのように予測を行うか、特に政策的介入の結果を予測することに重点を置いて説明する。ここでは、共変量の調整を用いて交絡バイアスを低減する手法や、逆確率の重み付けを紹介する。この章では、調停分析も取り上げ、これまで議論してきた因果関係の手法が線形システムでどのように機能するかを詳しく見ていく。これらの手法の鍵は、回帰係数と構造パラメータの基本的な区別と、線形モデルにおける因果効果を予測するために、学生がどのように両者を使い分けるべきかということである。

第4章では、反実仮想の概念(過去のある時点で異なる選択をしていたらどうなっていたか)を紹介し、その計算方法、確率の推定方法、そしてそれを使ってどのような実用的な質問に答えることができるかを論じる。この章は、主に表記法の新しさと質問の仮定の性質から、前の章と比べるとやや高度である。しかし、前章で使用したのと同じ科学的モデルを用いて反実仮想を読み、計算するという事実は、学生や教師にとってその分析を容易にするものであるはずだ。また、本書で取り上げたモデルベースのアプローチと、一部の実験家が統計学で追求している潜在的な結果の枠組みとの橋渡しをするための確かな基礎となるものであることを理解していただきたい。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー