無作為化比較試験の考察

強調オフ

EBM・RCT

サイトのご利用には利用規約への同意が必要です

Reflections on Randomized Control Trials

pubmed.ncbi.nlm.nih.gov/29731150/

アンガス・ディートン、ナンシー・カートライト

プリンストン大学、NBER、南カリフォルニア大学

ダーラム大学、カリフォルニア大学サンディエゴ校

プリンストン大学, Princeton, NJ 08544, USA

はじめに

非常に長い論文であっても、現代の社会科学や医学における無作為化比較試験(RCT)の実施と利用に関するすべての重要な問題を議論することはできなかったが、私たちが書いたものに追加したり拡張したりする多くのコメントに感謝している。このコメントでは、省略された問題のいくつかを取り上げている。また、「同意」を「承諾」と勘違いしている方のために、私たちが書いた内容についてのいくつかの重大な誤認識を訂正したいと思う。さらに、私たちの主張に誤りがあることを示唆する批判的な反論や、私たちの主張を改善する方法を探した。私たちは、刺激を与えてくれたコメンテーターの方々と、回答を許可してくれた編集者の方々に感謝している。

全員一致ではないが、繰り返し寄せられた重要なコメントの1つを要約すると、「平均的な治療効果を推定し、因果関係のある結論を保証する上で、RCTは依然として一般的に最善の方法である」ということになる。この主張こそが、どれだけ心臓に杭を打たれても決して殺すことのできない怪物のように見えるロバート・サンプソンの「科学的証拠のヒエラルキーにおいて実験が特別な位置を占めないことは、私には明らかなように思える」(Sampson, 2018)という発言を私たちは強く支持する。実験は時に最善の方法であるが、そうでないことも多いのだ。文脈や質に関係なく、他の証拠よりもRCTを優遇する階層は弁解の余地がなく、有害な政策につながる可能性がある。さまざまな方法には、それぞれ異なる利点と欠点がある。

第一に、私たちが提起する問題のいくつかは、Issa Dahabrehが「実験的比較研究のより広いクラス」(Dahabreh, 2018)と呼ぶものの他のメンバーも直面していることは事実であるが、これらの他の研究の提唱者は、正しい結果を出すために必要な仮定が満たされる可能性が高いかどうかを評価する上で、より明確であることが多いのである。第二に、集団や個人に関する因果推論のための多くの方法は、因果ベイズネット法、因果構造モデリング、経験的命題の検証とテスト、理論からの導出、ケーススタディ、プロセストレースなど、まったく比較的ではないが、もちろん、それぞれの方法にはそれぞれの弱点と強みがある。ミル(1882)の「差異の方法」を用いなくても、因果関係やメカニズムについて多くのことを学ぶことができる。第三に、研究結果を利用する際には、特定の個人や特定の集団についての予測であれ、より一般的な主張の証拠となるものであれ、他の種類の研究デザインの方がはるかに大きな貢献をする可能性がある。これらの問題を以下の最初のいくつかのポイントで取り上げ、その後、他のコメントに移る。

1. Michael Oakes(2018)は、よくできたRCTはp-hackされた観察研究よりも優れていると言ってコメントを締めくくっているが、もちろんその通りである。しかし、私たちはOakesの暗黙のメッセージにも、鈴木悦司とTyler VanderWeeleが「他の方法は、それらの問題のすべてに加えて、独自の問題を抱えている」(Suzuki and VanderWeele, 2018)と書いているように、RCTが他の研究よりも一般的に優れていると明示的に言っていることにも同意しない。それぞれのケースは長所で判断されなければならない。よくできたRCTは、できの悪いRCTや、自分自身をわんぱくなRCTのように考えているが、それを有効にするために必要な因果関係の仮定について十分な保証がない観察研究よりも優れている。すべての観察研究、つまり非実験的な研究は、わんぱくなRCT、または失敗したRCTであるという考えがあるようである。そのため、定義上、本物のRCTは偽物のRCTよりも些細なことであるが優れている。もちろん、私たちもそう思う。しかし、それは私たちが話していることではない。観察研究には様々な方法がある。RCTは必然的に特別な集団を対象に行われるが、その集団は、被験者が試験に参加できることと参加に同意することを条件に、ほぼ必ず選択される。選択を扱うことができるのはRCTだけであることが繰り返し指摘されているが、RCTはほとんどの場合、選択された特別な集団を対象に行われるというのは皮肉なことである。Judea Pearlが言うように、RCTは対象となる介入とはほとんど似ていないことが多い人工的な環境で行われる(Pearl, 2018)。研修プログラムに参加する人は、参加しない人とは異なる(過去に賃金が低下したことがある)。彼らの ATE は異なる可能性が高い。選ばれた人を対象としたRCTは、別の集団にも当てはまるのか?女性を対象とした訓練のRCTは、男性にも有効なのか?健康保険の実験はテスト集団で行われるが、規模を拡大すれば全集団に適用される。

このような一般的なエビデンスランキングが、どんなに慎重に言っても意味をなさないことには、2つの正式な理由がある。第一に、すべての方法は満たされるべき仮定を必要とする。因果関係のある結論を導き出す方法は、因果関係のある仮定(原因が入ってこない、原因が出てこない)を必要とする。RCTをはじめとする多くの方法では、付随する前提条件を満たせば、因果関係のある結論が得られることが証明されている。RCTの場合、中心となる仮定は、調査対象集団における因果関係の可能性が、私たちの式(1)のような潜在的なアウトカムの方程式で表現できること、調査対象の治療が、それ自身の下流効果以外のアウトカムのすべての原因と直交していること、そして調査対象集団における個々の治療効果の基本的な分布の形状に関する仮定である。他の方法では他の仮定が必要で、そのいくつかは以下のAndrew JonesとDaniel Steelの貢献を議論する際に思い出す(13)。つまり、RCTが一般的に信頼性が高いと仮定することは、RCTの仮定が他の方法に比べて一般的によく満たされている(または満たすことができる)と仮定することになる。何がそれを正当化するのであろうか?特に、RCTで安心できる最も簡単な仮定である「割り当てが『無作為に』行われる」は、(2.で述べる)直交性を支持するには十分ではなく、それ自体が支持されるべき仮定のうちの1つに過ぎないことを考えると、なおさらである。仮に、RCTの仮定が他の方法の仮定よりも容易であることが判明したとしても、賢明なことは、ケースバイケースで問題を検討することである。

2つ目は、因果関係の結論の形についての懸念である。研究対象者以外の場所で何が起こっているかという結論を出したい場合、RCTには何の特権もない。RCTは、治療法がどこかで効いたことを示するが、それは通常、非常に特別な場所であり(良いRCTを行うための厳しい条件により、さらに特別な場所となることが多い)そこから「ここでも効くだろう」ということに至るまでには、長く、しばしば困難な証拠の道のりがある。そして、このエンドポイントにおいて、RCTは特に自然な出発点ではない。実際、これは私たちが最も懸念している誤解の1つで、よくできたRCTは、RCTであるというだけで自動的に輸送されるというものである。

2

多くのコメンテーターは無作為化を賞賛している。しかし、バイアスの除去に必要なのは無作為化ではなく、直交性(orthogonality)であり、私たちが強調したように、無作為化それ自体では保証されない。どのような場合でも、直交性が達成されている可能性が高いことを論証する必要がある。私たちは、無作為化がどれだけうまく行われたか、あるいはうまく行われなかったか、それが本当の無作為化か疑似無作為化か、あるいはどれだけ昔に行われたかに関わらず、「無作為化を含むデザイン」が推定と推論を単純化するというGuido Imbens(2018)の考え方に同意しない(多くの研究がそう信じているようであるが)。無作為化では直交性は得られないが、それには第一に、割り当てメカニズムが本当に無作為で、John Ioannidis(2018)が言うように「適切に生成された」ものであり、例えばアルファベット化やその他の便利な「自然な」スキームによるものではないという保証が必要である。

第二に、Ioannidisが言うところの「無作為化後の経験」によって問題が発生する可能性がさらに高くなる。盲検化の欠如、差動的な離脱、2つのグループの時間、場所、治療の長さの違い、その他の多くの問題によって、結果に影響を与える他の要因との相関が否定できなくなるのである。実験が盲検化されているという事実(これはしばしば不可能であり、経済学ではまれである)は良いスタートであるが、それ以上に、盲検化が効果的であり、治療と結果の報告の間に他の関連する系統的な差異が生じていないと考える理由がなければならないが、これは通常、デフォルトの仮定として取ることはできない直交性が「十分に」達成されているかどうかは、ケースバイケースで弁明しなければならない。しかし、誰もこのことについて多くを語らず、無作為化後の取り締まりと、それが欠けている場合に何が推測できるかについての優れた議論は、社会科学でも生物医学でも稀である。盲検化されていない、あるいはポリシングされていない実験は、たとえそれが無限に大きく、正しい集団を対象としていたとしても、何か有用なことを教えてくれるかもしれないが、そうではないかもしれない。そのように仮定することが正当化されるかどうかは、目の前のケースでどのような正論が言えるかによる。

3

Stephen Raudenbushは、無作為化は「無作為に割り当てられたことで統計的に等しくなった特性を持つグループを作り出す」という理由で無作為化を擁護している(Raudenbush, 2018)。「統計的に等しくなる」とは何を意味するのか正確にはわからないが、もし特性が実際に等しくなれば(もちろんそうではないが)推定されたATEは正確に正しいことになるので、おそらく「統計的に等しくなる」ということは、ATEが「正確に統計的に正しい」ことを意味するのであろう。このような曖昧な表現が、RCTからの推定値が本来持っていない魔法のような性質を持つとされる保護的な霞を作り出しているのである。2.

無作為化によっても保証されない不偏性は、真実から任意に離れたATEの推定値と一致する。半分は右に2フィート、半分は左に2フィート外れる射手は、不偏の矢を放っているが、決して的には当たらない。”Statistically equated “は、一見すると正確な表現であるがゆえに、我々が払拭しようとしている誤解の一つを招いている好例だ

さらに、「非ランダム化研究は、比較群への人の選択がランダム割り当てに近似している限りにおいてのみ信頼できる」と言う。これも典型的な誤解のひとつである。Thomas Cook(2018)が言うように、無作為に選ばれた区画がすべてフィールドの片側にあったり、サンプルの3分の2が金持ちだったりする「不幸なランダム化」がある。なぜ非ランダム化は、そのような不幸を再現しようとするのであろうか?論文の中で主張しているように、人々はランダム化が観察可能なものと観察不可能なもののバランスを意味すると考え、ランダム性と代表性を混同しているが、これらは同じものではない。

4

「内部妥当性」と「外部妥当性」という言葉の使い方を変えることは不可能だと認識しており、Imbensが引用しているShadishらやRosebaumによる馴染みのある定義に異論はない(その限りでは、これらの用語の使用は、研究結果が因果関係であるような特殊なケースをはるかに超えており、統計を伴う研究をはるかに超えている)。しかし、これらの「外的妥当性」の定義が前提としている考え方、すなわち、外的妥当性は研究デザインや推定値の特性であり、外的に妥当な推定値や因果関係は他の場所でも「そのまま」適用されるという意味で、私たちは断固として抵抗する。1 「外的妥当性」とは、通常、研究対象となった一連のシステムについて、ある研究によって保証された「同じ」主張(または推定値)が、他の対象となったシステム、つまり、他の特定のセット、あるいは「すべての」他のシステムにも当てはまることを意味すると考えられている。研究デザインが、問題となっている主張に関して対象となっているシステムを代表して研究するシステムを選択しているという十分な保証がある稀な状況を除き、これは研究デザインの特性ではない。これはむしろ、世界に関する重要な事実に依存しており、研究の外部からの保証が必要である。RCTから得られたATEや知識は、他の場面でも役に立つことが多いものの、研究対象者についてではない主張の証拠として使用するには、常にRCTの外からの知識が必要であるRCT(またはその他の研究)に外部からの妥当性を求めることは、その研究が設計されていないのにできることをできないという理由で、有用な研究の価値を下げる危険性がある。

また、Cartwrightが「経済モデルは内部的妥当性に関してはすべての利点があるが、外部的妥当性に関してはRCTがある」と主張しているのはおかしいとするImbenの指摘にも異議を唱える。この主張は 経済学における理論的な「ペンと紙」のモデル(物理学における同様のモデル)は、モデルの前提条件によって完全に特徴づけられる架空のシステムを導入し、それらのシステムに関する結論を演繹的に導き出すものである。確かにインベンスは、演繹法の定義からして正しいのだから、演繹法が正しいと決まっていることを否定したいわけではないだろう。また、実在の人物について真であることがわかった事実は、紙とペンで作られたフィクションのために確立された事実よりも、どこかにいる他の実在の人物について真である可能性が高いはずだということも、驚くべきことではないように思う。

また、医学におけるRCTは、相対的治療効果を用いれば、設定の違いによって不一致が生じることはないというIoannidisの主張は、少なくともJohn Concatoが引用した例を読む限りでは信じがたいものがあるが、経済学やその他の社会科学においてそのような主張が成り立たないことは確かである。また、前項で述べた「RCTがうまくいった場合、自動的に他の場所にも適用される」という主張のようなものを示している。

RCTの文献やいくつかの解説で強調されているのは、ある試験集団について十分に証明された結果(「RはPについて成り立つ」、つまり「この試験集団ではATEの良い推定値はXである」)を、同じ言語形式(「R」、つまり「ATEの良い推定値はXである」)のままで、今度はそれを別の集団に当てはめてみることである(「RはQについて成り立つ」、つまり「QについてはATEの良い推定値はXである」)。あるいは、もっと冒険的に、PearlとElias Bareinboimの手法が可能にする関連する種類の推論を行うこともできる。これには、ある母集団から別の母集団への再重み付けも含まれるが、それだけではない。これは、先に述べたように、RCTができることを過小評価していることになる。優れたRCTの結果は、他の「確立された」経験的な結果と同様に、その結果自体とは全く異なる主張を証明する役割を果たすことができる。例えば、ミリカンは、電子の電荷に関する証拠として、帯電した油滴を引き上げる電磁場の強さを測定したことで有名である。私たちの論文では、ある農家のサンプルにおける肥料の使用に関するRCTが、全体では効果の符号が逆であっても、全農家に対する肥料の効果の推定値を構築するのに役立つという例を挙げている。

もちろん、このようなことができるかどうかは、有用な概念の開発をはじめとする他のさまざまな科学的活動にかかっている。しかし、ある集団から別の集団への「外挿」を行うことも同様である。Ioannidisは、「おそらく、非無作為化データからなされる推論の大部分は、実質的に欠陥がある」とコメントしている。私たちは、一般的に、たとえデータに記載されている被験者についてであっても、そもそも単一のデータセットから推論を行うべきではないと主張していた。これは強調しておきたいことである。(医学(およびその他の分野)において、単一の集団についてもカジュアルな結論を出すためには、(ほぼ)常にメカニズム的なデータや比較データを用意すべきであるという優れた議論については、本論文で引用した(Parkkinen er al)。 自然科学において信頼できる主張を確立するための実践、理論、証拠の網についての優れた研究はChang(2004)を、人間科学についてはWylie(2011)を参照してほしい)。

したがって、Basuの「外的妥当性のためには、上述したような直観を用いなければならない」という主張にも同意できない。Banerjee, Chassang and Snowberg (2016) が指摘するように、「外的妥当性は本質的に主観的なものである」(Basu, 2018)。これは、私たちがいつも使っている自然科学の結果が「本質的に主観的」であると判断するのでなければ、抵抗があるはずだ。これは、実験、観察、コンセプト開発、そして理論の検証と理論の一貫性など、非常に異なる種類の保証の相互接続されたウェブを完全に見落としており、これらは他の科学的主張と同様に、信頼できるものとなっている。ところで、Basuが我々の論文の最初の部分を要約して、「平均的な治療効果に関しては……RCTに勝るものはない」と述べているが、これは間違っているだけでなく、我々が言っていることと正反対に近いものであることを記録に残しておきたい。この点に関する疑問は、私たちが書いたものを読めばすぐに解決するであろう。

5

一部のコメンテーターが提案しているように、十分な知識を持った人々が、結果を他の環境でどのように使用するかを判断できるとは、私たちは確信していない。私たちは、一部のコメンテーターの以下のような主張には重大な問題があると考えている。「メタアナリシスで採用されたタイプの設定からランダムに抽出された新しい設定と集団では、その集団の因果効果は少なくとも95%の確率でxとyの間になると予想される」(Suzuki and VanderWeele, 2018)。「単一の試験における[L]arge sample sizeや複数の試験のメタアナリシスは、推定された真の治療効果に関する固有の不確実性を減少させる可能性がある」(Ioannidis, 2018)「より一般的なアプローチは、情報を得た人が同様のサブ集団への外挿の妥当性を評価できるように、サンプルを十分に詳細に記述することである」(Raudenbush, 2018)などである。これらの発言は、どのような集団についてのものであろうか?また、どのような点で類似しているのであろうか。Dahabrehが指摘するように、実際には「試験参加者がサンプリングされる集団を定義することに固有の課題」がある(Dahabreh, 2018)。実際に研究された集団に関する結果を超えてどこかに移動するすべてのケースと同様に、これらのタイプがどのようなものであるかは、多くの因果関係の知識を必要とし、その多くはRCTが回避するのに役立つとされている種類のものである。すべての研究集団に共通するいくつかの特徴を何気なく記述しても、(ATEが関数である)モデレーター変数の平均効果が同じであることは言うまでもなく、根本的に同じ因果構造(または、異なる構造のセット上のある固定された確率混合)を持つ集団を選び出すことはできないであろう。

研究結果を正確に知ることはほとんどない。なぜなら、治療法と対照薬の間には常に多くの違いがあり、私たちが気にかけているものが有効成分であると言うだけでは、そうとは限らないからである。クックが懸念している構成概念と構成概念の妥当性は、この点に対応している。治療法に与えられた説明は構成概念である。対照的な介入が何であるかの記述も、研究に登録された集団の記述も同様である。これらの記述が「正しい」ものであり、実際に因果関係のある特徴を参照しているという主張を裏付けるには、理論と証拠の網が必要である。もちろん、すべての研究は構成概念を使用しており、構成概念の妥当性について心配する必要がある。しかし、他のほとんどの研究デザインは、理論や仮定にとらわれないという理由で、それほど熱心に擁護されるものではない。RCTから何が学べるのか、それを学ぶためには何が必要なのかという議論の中で、この問題はほとんど言及されていないので、Cook氏がこの問題を紹介したことは非常に歓迎すべきことである。

試験サンプルが対象となる母集団から無作為に抽出されたものであっても、RaRaのようにラウデンブッシュが主張するように、グロスアップはすぐにできるものではない。私たちの論文に出てくるカカオの生産者を考えてみよう。因果律は、スケールアップすると変化する。再重み付けは良いのであるが、一般的な答えではない。SUTVAは頻繁に成立しないし、多くの経済的なケースでは、論理的な問題としてスケールアップしてもSUTVAは成立しない。例えば、介入によって需要や供給が変化した場合、実験に含まれていない他のエージェントの行動が変化することで、どこかから供給や需要を満たさなければならない。均衡とはそういうものである。スケールアップは、SampsonとDahabrehもコメントで論じているように、実験にはない因果関係の力を解放する。

7

RCTの結果を研究環境の外でどのように利用するかについては、注意点はあるものの、PearlとBareinboimの研究を喜んで推薦する。彼らの一般的な枠組みでは、効果とその原因の関係は、私たちの式(1)のような潜在的な結果の方程式で表され、サンプソンの「ポリシー・グラフ」のような有向非環状のグラフが付随すると仮定している。この枠組みの中で、PearlとBareinboimは、計量経済学の歴史と経済実務の重要な部分である同時因果関係(例えば、需要と供給と価格)を除外して、2つの集団の類似点と相違点により、一方の実験結果を他方の実験結果の異なる確率的事実と因果関係を計算するために、どのような方法で使用することができるかを示している。これは、議論の余地がないにもかかわらず、しばしば軽視されている、ある研究集団から得られたRCTの結果は、他の集団に関する情報を予測するのに役立つが、そのためには多くの他の仮定が必要であり、その仮定自体が保証される必要がある、という私たちの指摘に対する強力な形式的論拠となっている。また、そこに到達したときの結果が、最初に行った実験結果とよく似ている必要もない。PearlとBareinboimの定理は、特定の推論のためのこれらの仮定が何であるかを示している。

これらの仮定には、RCTが必要としないとされている種類の情報(例えば、他の独立した原因、仲介者、モデレーター)が含まれていることに注意してほしい。パールはこれに異議を唱えているようである。「RCTは治療法の交絡を中和するように設計されているが、私たちの方法は集団間の差異を中和するように設計されている。研究者は前者の構造については全く知らず、後者の構造についてはかなりの知識を持っているかもしれない。」しかし、Pearl/Bareinboim方式を使用するために必要なのは、いくつかの違いについての知識だけではない。他の関連する事実が類似していることを知る必要があるのである。別の場所で言われているように。「変数を示す選択ノードがないということは、その変数に価値を与えるメカニズムが2つの集団で同じであるという仮定を表している」。(Pearl and Bareinboim, p 588)

最後に、PearlとBareinboimの完全性の結果には感謝しているが、統合に関する私たちの関心はもっと広いものであることに注意しなければならない。彼らは、新しい集団での結果を予測するために、どのような事実が成立しなければならないかを教えてくれる。私たちが関心を持っているのは、そのような予測に対して人が持つ可能性のある保証である。この保証は一般的に、高レベル、低レベル、中レベルの理論や概念化を含む、非常に異なる種類の証拠の網に依存しており、異なる部分は異なる程度の信頼性を持っている。このような証拠の「統合」には、単に形式的なシステムで再構成するだけでなく、真剣に考える必要がある。真の科学的結論に到達するとは、このようなことなのだ。

8

私たちが標準誤差について提起する問題は、DahabrehがImbensを引用して言っているように、おそらく「技術的」なものである。しかし、Ioannidisが、有効なサンプルサイズは見かけのサンプルサイズよりも10倍も100倍も小さいかもしれないということに同意していることに注意してほしい。これはまさに私たちの議論であり、経済開発におけるRCTからの結論の大部分が間違っている可能性が高いと考える理由でもある。フィッシャー自身がよく知っていたように、RCTにおける無作為化の真の役割は、まさに標準誤差を生成する能力にある。無作為化は確かにしばしば「不幸」であり、ATEの推定値は真実から遠く離れているが、無作為化によって標準誤差を計算する方法が得られ、「不幸」な無作為化によってどれだけ外れそうかを把握することができる(ただし、無作為化後の「不幸」な経験によってどれだけ外れそうかはわからない)。したがって、標準誤差が正しくない場合、RCTには明らかな利点はなく、不偏性自体にはほとんど価値がないからである。この文脈で「技術的」という言葉を使うのは、実際には問題にならないという意味で、却下している。しかし、「技術的な問題」は、橋が頭上に崩れ落ちる前の技術者たちの最後の言葉になることもある。私たちの論文に引用されているAlwyn Youngの研究によると、経済学における現在の実験的実践は、かなりの割合で推論を誤っていることが示唆されている(Young, 2017)。彼の懸念を超えて、我々が論文で議論しているような種類の歪曲が経済学の実験で一般的であり、実際の自由度が名目自由度よりも何倍も小さいとしても全く不思議ではない。実際、これは非常に多くのRCTでの荒々しい結果のもっともらしい説明である。さらに、Dahabreh氏が主張する「観察研究におけるこれらの問題の影響は、無作為化試験と同程度であり、その発生確率は高いはずである」という一般的な論拠も見当たらない。いつもながら、異なる手法は異なる文脈において異なる長所と短所を持っている。

9

サンプルサイズは重要であり、大規模な試験は小規模な試験よりも優れているが、どのサンプルサイズが十分であるかがわからない限り、そう言ってもほとんど意味がない。そして、それは扱っている因果関係の構造、歪度、相対的な分散、その他多くのことに依存している。大規模なサンプルに基づいて妥当性を主張するのであれば、その場合の議論が必要である。

10

しかし、RCTの擁護者の多くは、特に経済学の分野では、前提条件がないことがRCTの大きな強みであると考えている(少なくとも、この分野で長い間標準とされていた構造モデルと比較して)。経済学におけるいわゆる「信頼性革命」は、その推論のノンパラメトリックでロバストな性質に基づいており、信じられない、あるいはせいぜい疑わしい経済理論から独立していると考えられている。自然実験や回帰不連続計画を含むそのようなアプローチは、よくデザインされたRCTのように、有効性の領域について確信を持っているが、よくあることであるが、それらは得られた限られた状況下でのみ有効なATEを推定する。これは、それ自体が正確である可能性が高い結果を得ることと、他の主張の証拠として有用である可能性が高い結果を得ることの間の、おなじみのトレードオフの側面である。言い換えれば、特殊な要件のRCT、回帰不連続法、道具変数などにより、本来測定しようとしていたものとは異なる局所的な大きさの推定値が得られることが多いのだ。信憑性を高めることは良いことだが、測定したいものからデザインによって決定される他の量へのシフトを伴うことがそれほど多くない方が良いであろう。実際、インベンスが主張しているようにデザインを重視すると、実質よりも方法を優先してしまい、世界について何を学んだかではなく、私たちの主な目標のひとつである方法のヒエラルキーに従って結果をランク付けしてしまう危険性がある。私たちは、経済学の標準的な論文がNew England Journal of Medicineの形式を採用すれば、経済学がより良くなるとは考えていない。経済学は、平均的な治療効果を推定する以上のものであり、疫学ではない。デザイン分析の枠組みは、経済学の信頼性を高めるものではなく、金を鉛に変える錬金術のようなものに変えてしまう。

Imbens氏は、RCTに基づく研究の「信頼性」を擁護しているが、これはYoung氏が記録した経済学におけるRCTの大部分の有意水準が誇張されていることや、非対称性やBahadur-Savageの定理に関連した未知で修復不可能な誇張を言うまでもなく、整合性を取るのは難しいと思われる。これらの研究が経済学のトップジャーナルに掲載されているにもかかわらず、なぜこのような懸念が過大評価されているのか、なぜこのような結果が信用できるのか、私たちには理解できない。

また、Imbens氏とは異なり、経済学者(およびその他の人々)はRCTでできることとできないことについてしばしば混乱していると考えている。私たちが掲載している世界銀行の引用文は、ずさんな表現として言い逃れできないし、私たちの論文の初期のドラフトでは、他にも似たような引用文がいくつかあった。人々はしばしば、無作為化はバランスを意味すると考え、「不幸な無作為化」の可能性を理解していない。一般の読者に向けて書くときには、議論がだらだらしていても構わないというのは、まったく言い訳にならない。むしろ、不適切さと虚偽を区別する訓練を受けておらず、誤った理解に基づいて行動してしまう人たちに向けて書く場合には、明確にする義務があることは間違いない(英米両国が多額の投資を行っているRCTの重要性を強調する多くの「What Works」サイトや慈善活動に対する多くの支持がそうであると思われる)。

11

「RCTの前提条件と因果効果は、より大きな組織的、政治的、社会的構造の中で理論化されるべきである」というSampson氏の意見に同意する。この点はあまり具体的に取り上げられることはない。しかし、このような大きな構造があるからこそ、どのような因果経路が考えられ、どのような因果経路が考えられないかが決まるのであり、それを無視してはならない。それらが明示されている場合は、潜在的な結果の方程式の中で「モデレーター」として扱われることが多いのである。構造タイプに名前をつけて、それに対するイエス・ノーのモデレーター変数を導入する。形式的にはこれは可能である。しかし、構造タイプに名前をつけても、問題となる構造の詳細が何であるか、それをどのように特定するかについては何も教えてくれない。特に、サブグループ分析のようなモデレーター変数を特定しようとする通常の方法は、関心のある因果経路をもたらす構造の関連する側面が何であるかを明らかにする上では、ほとんど役に立たない。ある場所で得られた結果を別の場所の証拠として利用するためには、どのような社会構造が同様の因果経路を支えているのかを把握することが重要であり、それらを安易に扱うことは、誤った推論を招く可能性が高いのである。また、社会経済科学の分野では、エスノグラフィーやインタビュー、政治学や経済学の正式なモデル化などのリソースがあるが、RCTを重視するコミュニティでは十分に活用されていない。Dahabreh氏は、医学は社会科学に比べて心配が少ないと述べている。その理由は、「社会的・経済的構造の絶え間ない変化に比べて、生物学的構造と疾病プロセスの相対的な安定性[22]」にある。しかし、私たちは、構造の類似性を当然のことと考えないように警告する。

12

教育研究の厳密さの欠如に関するRaudenbushの懸念に加えて、Adrian Simpsonが最近強調し、私たちの論文でも引用されている、米国教育省のWhat Works Clearing Houseや英国の同種のEducation Endowment Foundationのような非常に尊敬されている「What Works」サイトでさえも、対照群で何が起こっているかが淡々と報告されているという懸念を付け加えたいと思う。クックが指摘するように、「治療効果の主張は、常に選択された比較群を条件としている」のである。

13

Jones and Steel (2018)に関して、もし我々が正しければ、どの方法がどの質問に答えるのに最も適しているかについての経験的なテストに対する彼らの期待は絶望的である。すべての手法は、それらが示すことになっている結果を正当化するための仮定を必要とする。道具変数法では、調査対象の原因を経由する以外に、道具から効果への因果経路がないことが必要であり、構造的因果モデルでは、システムの外側で引き起こされる要因について関連する仮定が必要であり、カジュアルなベイズネット法では、多くの仕事をするために、原因と効果が確率的に依存する因果的に十分な要因のセットが必要であり、RCTでは、直交性とそれを達成するために必要なすべてのものが必要である、などなど。これらのケースでは、必要な前提条件が真であれば、対象となる因果関係の結論も真であることが証明できる。つまり、あるケースでどの方法がベストなのかは、そのケースで何を知っているか、何を仮定する準備ができているかによって決まるのである。

14

関心のある集団における治療法の真のATEを知っていると仮定しても、S. V. Subramanian、Rockli Kim、Nicholas Christakisは、集団内の個人に対して治療法を導入するか、集団に対して治療法を導入するかを決定する際に、これがどれほど役に立たないかを強調している(Subramanian er al)。 個々の治療効果の分散を知っていれば、より多くの助けになるであろうが、それはRCTから点推定することはできない。Dahabrehは、境界(Hoeffding-Fréchet境界)が計算できることを指摘して、ここに貢献している。私たちは、経験上、それらはしばしば情報にならないほど広すぎることを示唆しているという理由で、それらの議論を省略したが、Heckman, Smith and Clements (1997) これと同じ文脈で、我々の論文で引用されているManski (2004)による、ATE以外の政策関連対象を推定するためのRCTの使用に関する重要な研究に注目している。

15

我々は、SuzukiとVanderVeeleが、我々が議論したINUS因果関係スキーム(哲学者Mackie(1965)によるもので、Rothman(1976)によって疫学に導入された)を支持してくれたことを嬉しく思う。このスキームでは、ほとんどの効果について、それぞれが効果に貢献するのに十分な原因の別個のクラスタが存在し、各クラスタは、貢献を得るために別個に必要な「相互作用」または「緩和」要因から構成されている。先に述べたように、RCTにおけるATEは、治療法のモデレーター変数の平均値の関数である。また、SuzukiやVanderWeeleらが引用している「メディエーション分析」の研究の中心であるメディエーターの動作を追跡することの重要性についても、我々は同意しており、それは我々が引用したCartwright and Hardie (2012)やParkkinen (2018)の研究でも強調されている。しかし、SuzukiとVanderWeeleの指摘とは逆に、経済学では媒介分析が未発達なわけではない。媒介者は因果構造モデルで明示的に表現されており、実際にCowles委員会による経済学の初期開発の主要なトピックの1つであったが、これらのモデルの縮小形式の方程式で消えてしまうだけである。

 

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー