熱帯での無作為化の再考 1つのテーマと11のバリエーション

強調オフ

EBM・RCT

サイトのご利用には利用規約への同意が必要です

RANDOMIZATION IN THE TROPICS REVISITED:
A THEME AND ELEVEN VARIATIONS

www.nber.org/papers/w27600

アンガス・ディートン

概要

無作為化比較試験は、経済学では50年前から、経済開発では20年以上前から集中的に用いられていた。多くの有用な研究がなされてきたが、RCTには経済学における他の経験的手法と比較して、独自の長所も短所もない。RCTは推論を単純化するものではないし、RCTによって因果関係を証明することもできない。このような問題の多くは、30年前に経済学の分野で認識され、検討されていたが、時々忘れられている。ここでは、最も関連性の高い問題のいくつかをレビューする。最も厄介な問題は倫理に関するもので、特に非常に貧しい人々を対象に実験を行う場合には注意が必要である。何が効果的であるかを見つけることは、たとえそのようなことが可能であったとしても、それ自体が政策の基盤としては極めて不十分である。


開発経済学者がランダム化比較試験(RCT)を使用するようになってから 20年以上が経過しているが1,米国で福祉政策に取り組んでいる経済学者はそれよりもはるかに長い期間、RCTを使用している。長年の経験から、議論はより豊かで微妙なものになり、推進派も批判派も、少なくともある程度はお互いから学んできた。よくあることだが、研究者は他の研究者による以前の失敗から学ぶことに消極的なようで、四半世紀前にJim Heckmanとその共同研究者2が示した実験の第一波からの教訓は、第二波ではしばしば無視されている。このエッセイでは、私が他の場所で書いてきた質問の全範囲を再構成しようとはせず3,経済学における長年の議論を要約しようともしない。その代わりに、この批判的な視点の集大成として、再検討すべきだと思われるいくつかの問題に焦点を当てる。

RCTは便利なツールであるが、手法を本質よりも優先させるのは間違いだろう。私はRCTを使って論文を書いたことがある4。他の調査方法と同様に、RCTはしばしば有用であり、他の方法と同様に、危険性と欠点がある。方法論的な偏見は、私たちの手を縛るだけである。文脈は常に重要であり、私たちは自分の方法を目の前の問題に合わせていかなければならない。RCTが可能であれば、常に観察研究よりも良い結果が得られるというのは真実ではない。この点については議論の余地はないが、文献のレトリックを読む限り、次のような記述は、特に2番目の記述については、まだ不快に感じる人がいるかもしれない。(a)RCTは、経済学者が他の方法を使って直面したのと同じ推論と推定の問題に影響されるだけでなく、独自の問題もある。

私のテーマは、RCTには特別な地位はなく、計量経済学者が常に取り組んできた推論の問題を免除されることもなく、RCTだけが達成できることはないということである。RCTの強みがRCTだけのものではないように、弱みもRCTだけのものではなく、その点を強調しておく。ゴールドスタンダードはない。良い研究と悪い研究がある、それだけのことだ。私が最も言いたいことは、貧しい国でRCTを行うことの倫理的な危険性についてである。この話は最後にする。

1. RCTは、学習や有用な知識を蓄積するための最良の方法だろうか?

時にはね。そうでない場合もある。実現可能な方法であれば、どれか一つの方法がベストであると主張することは意味がない。J-PALがRCTだけを行うのは間違いであり、その結果、J-PALは貧困削減よりもRCTの布教に興味を持っていると非難される可能性があると私は考えている。しかし、ティム・オグデンが指摘するように5,J-PALのメンバーは自分たちの仕事に様々なテクニックを使っている。つまり、J-PALはより広範な事業のRCT部門に過ぎないのかもしれない。マーティン・ラバリオンは、「最良の方法とは、常に、目の前の状況において最も説得力があり、適切な答えを導き出す方法である」と主張しているが、まさにその通りだ6。私たちは皆、あまり使われていないと思われるお気に入りの方法を持っている。難しいのは、その中に何を入れるかを決めることと、データをどのように処理して今まで知らなかったことを知ったり、考えを変えたりすることである。適切に構築された画像やクロス集計は、広く信じられている因果関係のストーリーの信憑性を損ねたり、新しいストーリーの信憑性を高めたりすることができる。このような証拠は、タイトルに「因果関係」という言葉が入った論文よりも、原因についてより多くの情報を提供する。芸術とは、何を示すべきかを知ることである。しかし、私は他の人もこのように働くべきだと主張しているわけではない。

www.povertyactionlab.org/

証拠のヒエラルキーを押し付けることは危険であり、非科学的でもある。なぜ危険なのか、それは考慮する必要があるかもしれない証拠や、批判的な証拠を自動的に捨ててしまうからだ。RCTの証拠は、対象となる集団が使用される集団と大きく異なっていても、観察数がわずかであっても、多くの被験者が脱落したり割り当てを拒否したりしても、盲検化が行われておらず、自分が実験に参加していることが結果を変えると予想される場合でも、カウントされる。このような欠陥のある試験を除外することは理にかなっているが、より情報量の多い非ランダム化証拠を除外してしまうと意味がない。ヒエラルキー上、ランダム化されていないエビデンスは全くのエビデンスではなく、少なくとも「厳密な」エビデンスではないとされる。観察研究は、たとえそれがよくデザインされ、明確なバイアスの原因がなく、関連する人々の非常に大きなサンプルを使用していても、破棄される。

階層化は、研究間で結果を調整することを一括して放棄するため、非科学的である。観察研究は、無作為化が行われなかったというだけで間違っているとされる。このように有用な知識を軽視することは、教育や医療などの他の分野ではよくあることであるが、経済学では比較的まれである。Trisha Greenhalgh教授が主張しているように、RCTへのこだわりがCOVID-19パンデミックに対する賢明な政策対応を妨げている7。しかし、経済学者は、方法論のみに基づいてRCTからの証拠を特別に重視することがよくある。そのような研究は、研究の詳細や代替案の検討に言及することなく「信頼できる」とみなされ、少なくとも独自の承認印が押されている。

経済学は、新しい、重要な、説得力のある証拠を生み出す優れた研究は、通常、その良し悪しで判断されるという意味で、開かれたテーマである。しかし、メリットが方法論的な偏見の隠れ蓑にならないように注意することは良いことである。RCTが優れた研究を生み出すことでその価値を証明しているという議論を耳にしたとき、無作為化の使用自体が価値の尺度ではなく、議論が循環していないことに安心感を覚えたい。

2. RCTでは他の方法に比べて統計的推論が簡単である

この誤解が多くの災いを招いている。あまり指摘されていないことであるが、RCTでは、観察研究に比べて、回答者の長期追跡や異常値の認識と対処など、著者がデータ収集を行うことが多く、その作業は簡単ではなく、膨大な時間と、すべての経済学者が持っているわけではない専門的なスキルを必要とする。データの収集と処理の問題は、統計的推論の間違いによるエラーよりも大きいと思われる8。このような問題は単純ではない。

推論に関しては、単純さの議論には2つの部分がある。第一に、無作為化によって、治療法とコントロールという2つのグループが治療前には平均的に同一であることが保証されているため、治療後の2つのグループ間の差は治療法によって生じたものでなければならない。第二に、統計的な推論では、2つの平均値の差のp値を計算する必要があるが、これは初等統計学のクラスで教えられる簡単な手順である。

この議論はどちらも間違っている。

R. R. A. Fisherは、実際にRCTを実施してみればすぐにわかるように、無作為化では治療法と対照法の間の観測値のバランスがとれないことを最初から理解していた。世界銀行などで長年RCTを観察してきたRavallion9は、この誤解が開発における「公的な物語の多くに組み込まれている」と論じている。また、報道や日常会話でもよく使われる言葉である。

4つの単位(例えば村)があり、そのうち2つは治療を受け、2つは受けないとする。一つの可能性は、村の長老たちに決定させることである。例えば、入札(または賄賂)で参加(または除外)させ、最も治療を望んでいる(最も望んでいない)2つの村を治療のために選択する。このような治療法と対照法の自己選択的な割り当ては、明らかに問題がある。意外かもしれないが、無作為化によって自己選択が自動的に修正されるわけではない。可能な割り当ては6つだけで、そのうちの1つが自己選択の割り当てである。同じ配分でも、無作為に選ばれた場合は問題ないが、自己選択された場合は問題ないという不条理なことになる。何百もの村がある中で、バランスが取れるかどうかは、どれだけ多くの要素のバランスを取らなければならないかにかかっており、実際の配分が、避けたい自選の配分になることを止めることはできないのである。ランダム化には何の保証もない。おそらく、ランダム化が事前に公平であるという考え方が、事後にも公平であるという考え方と混同されているのであろう。しかし、重要なのは事後的なものである。

治療群と対照群が互いに似ていることは良いことであるが、情報と意図的な配分が必要であり、その両方が無作為化によってかき乱される。フィッシャーはこのことを知っていて、無作為化を避けて平均的な治療効果を推定するより正確な方法があることを知ってたが、いったん測定された差をどう考えればよいかという難しさがあることを理解していた。つまり、治療がどの単位に対しても効果がない場合でも、常に何らかの差があるということである。無作為化はこの問題を解決するものであり、差が偶然に生じたものかどうかを確率的に判断する根拠となるからである。昔、哲学者のPatrick Suppesがこのように言ってた10。彼は、白と黒のボールが50個ずつ入った壺を前にして、(A)黒15個、白35個、または(B)黒35個、白15個のいずれかのボールがあると想像した。彼は「実験に入る前に無作為化を主張しない洗練されたベッターを想像するのは難しい」と書いている。無作為化はバランスを保証するものではないが、少なくとも他に何も結果に影響を与えないこのような単純なケースでは、オッズを計算することができる。オッズを計算することは便利で重要だが、バランスとは違う。

平均値の推論、つまり2つの平均値の差の推論は未解決の問題であると言われると、多くの人が驚く。一つの問題は、昔、BahadurとSavage11によって述べられた。彼らは、歪度を制限する仮定がなければ、計算されたt値は一般的にt分布を持たないことを示した。歪度を制限するような仮定をしないと、例えば、実際には効果がないのに、大きなt値が治療の効果を示していると考えてしまうような間違いを犯すことになる。歪度(最近は偏りという意味で誤って使われることが多い)は、第3の瞬間、特に分布の片側に大きな外れ値が存在することを意味する。お金を使った実験がその例で、教育やマイクロファイナンスの実験では、1人か2人が非常に優秀で、他の人はそうでもないというケースが考えられる12。

経済学で最も有名なRCTの一つであるランドの健康実験では、参加者の中に非常に高価な妊娠をした人がいた。このようなケースでは、RCTの結果は、異常値が治療者の中にあるのか、対照者の中にあるのかに依存し、十分に極端な異常値がある場合には、それ以外にはほとんど依存しない。何百、何千もの観測値があると思っていても、実際には1つしかない。野生の答えが有意に見えるのは、t-分布の使用がスキューによって無効になるからである。外れ値をトリミングしたり、結果変数を変換(例:ログを取る)したりしても、必ずしも助けにはならない。「100万ドルの赤ちゃん」は、保険会社がいくら「トリミング」しようとも、実際の保険スキームを崩壊させるものである。我々は利益をドルで測定する必要があり、ドルの対数ではなく、ましてや切り詰めたドルで測定する必要がある。治療効果の中央値の方が信頼できるかもしれないが、繰り返しになるが、予算を壊すのは中央値ではなく平均値であり、中央値の治療効果を知りたい場合でも、RCTからは特定できない。もし中央値を推定したいのであれば、RCT以外の方法、つまりより多くの仮定を必要とする方法を用いなければならない。

重要なのは、RCTには独特の問題があるということではなく、そのような問題からの免除はなく、「刑務所から出られる」カードでもないということなのだ。Ulrich Muellerは最近、この問題が現代の応用経済学に広く見られることを示しているが、特にクラスター化されたロバスト標準誤差を用いた場合に顕著です13。応用経済学における多くの空間分析やパネル分析のように、クラスターの大きさが異なる場合、例えばSTATAから得られるp値は信頼できない。私が思うに、Mueller氏の研究は修復も可能であり、私たちがどのように仕事をし、何を知っていると考えているのかを大幅に修正することになるであろう。

アルウィン・ヤングは、関連する推論の問題について、RCTを用いて発表された論文の多くがp値を間違えていることを明らかにした14。そのため、一見すると有意な結果の多く(時には非常に驚くべき結果)が、治療の効果がない状況での偶然の作用と一致してしまうのである。Young氏は、有意性を計算する方法として、フィッシャー式無作為化に戻ることを提案している。治療が誰にも効果がなく、無作為化後の交絡がなければ、推定された平均治療効果は、被験者を治療群または対照群に無作為に割り振った結果にすぎない。(無作為化後の交絡とは、治療環境での「指示」や、被験者、評価者、分析者の非盲検化など、結果に影響を与える治療以外のものを指す)。実際のデータに含まれるすべての可能な無作為割当を見ることで、どの単位でも治療効果がないという仮説の下での2つの平均値の差の分布を表にし、実際の差と同じかそれ以上の極端な値が得られる確率を計算することができる。この「無作為化推論」は、治療がどの個人に対しても効果がないという仮説を検証するものである。この仮説はしばしば興味深いものであるが、政策上知りたいこと、つまり平均的な治療効果がゼロであるかどうかということには関係ない。それぞれの観察で効果がゼロであれば、平均もゼロでなければならないが、逆は真ではなく、特に治療が異なる個人に反対の方向に影響を与える場合はそうではない。毎日の少量のアスピリンがその例で、ある人は助かり、ある人は死んでしまう。公共政策では、例えば教育実験では、新しい方法が誰かに効くかどうかだけでなく、平均してテストの点数が上がるかどうかを知りたいと思うかもしれない。さらに複雑なのは、統計的検定では、複数の推定値のそれぞれがゼロであるという仮説を受け入れても、その平均値がゼロであるという仮説を棄却することがあることだ)。
算出された有意水準は現実的な状況では信頼できないので、RCTから発表された結論の多くは懐疑的であることが賢明である。Poor Economics15では、何十もの研究の結果が紹介されており、その多くは興味深く重要なものである。しかし、推定値は、確立された事実とは異なる。実際、RCTのレトリックは、試験によって真実を立証できるというものである。しかし、それは不可能である。RCTで得られた驚くべき結果は、時として結果ではないことがあり、大きなt値はそれを保証するものではない。

3. RCTは厳密で科学的である

このレトリックはまさにそれである。この形容詞はRCTのコードワードとして頻繁に使われている。このレトリックは、少なくとも資金提供者にとっては成功しているように見える。医療におけるRCTの重要性を訴えることはよくあるが、医療におけるRCTの成功と失敗を現実的に読み解くことはほとんどない。米国では、医薬品の認可にはRCTの裏付けが必要であるが、オキシコンチンなどの処方オピオイドは、過去20年間で何十万人ものアメリカ人を死に至らしめた。社会科学と医学では、RCTの方法に違いがあり、このテーマについては、もっと考えてもいいと思う。ある時、大規模な財団のシニア・ファンディング・マネージャーと一連の開発試験について話し合ったことがある。彼は、結果の適用範囲が限られていることや、いくつかの結果が間違っている可能性があることを喜んで認めたが、感心していなかった。彼は、RCTは他のどの方法よりも厳密であり、それで十分だと言ってたが、私にはそうは思えなかった。厳密さとは、結果が一般化できること、つまりスケールアップできることだと考えていたのだと思う。あるいは、他の方法はすべて悪いと思っていたのかもしれない。間違っていることと、厳密であることは矛盾しないように見えた。

4. 外的妥当性

“Finding out what works “もよく使われるスローガンで、少なくともその繰り返しから判断すると、一般の人々には効果的である。文脈を無視してうまくいくものはなく、何がどこでどのような状況で機能するかを見つけることは、真の科学的努力である。何が機能するかは、誰にとって、どのような目的のために機能するかによっても異なる。このような疑問に無条件に答えられる実験や一連の実験はない。世界の貧困をなくすために何が有効かをRCTで明らかにするというのは、称賛に値するが、根拠のない願望である。

外的妥当性の欠如は、研究に対して提起されるべき批判ではない16。外的妥当性と内的妥当性は、何かのチェックリストで並列された基準ではない。そのため、Nancy Cartwrightと私17は、外的妥当性という言葉を一切使わず、実験結果の用途に焦点を当てようとしている。ある研究が非常に優れていて揺るぎないものであっても、それが他の環境に一般化するかどうかについては何もわからない。たとえ一般化しなくても、その研究は重要で有用なものとなる。なぜなら、その研究で得られた知識は、たとえ直接再現されなくても、他の環境で利用できるからだ。実験によって、広く役立つ理論的洞察が得られ、新しい状況に適応することができる。学校教育の実験では、ある教授法が子供の大人になってからの賃金を上げることを説得力を持って示すことができるかもしれないが、その技術革新が普遍的に適用された場合、より高い教育を受けた人々の供給が増えることで賃金が下がる可能性がある。しかし、これは実験を批判するものではなく、その結果をどのように適用するかを批判するものである。スキル開発に関するイノベーションの証拠は有効である。

ある場所、ある時期、ある状況下では正しい結果であっても、別の場所、別の時期、別の状況下では正しくないことが多い。あなたにとってはうまくいっていても、私にとっては気に入らないことを除けば、私にとっても「うまくいく」かもしれない。繰り返しになるが、これらのことは、どのような方法を使っても、すべての経験的知見に当てはまる。アメリカの平均所得の推定値が10年後も正確であると考える人はいないが、平均的な治療効果の推定値は、サンプリングに基づく平均値の推定値でもあるため、少なくとも証拠や反対の議論がない場合は、他の場所でも通用する可能性が高いかのように扱われることがよくある。

これは、経済学で長年行われてきた、全盛期の男性の労働供給の弾力性や、パンの価格弾力性のように、弾力性を定数として扱うことと、おそらく大きな違いはないであろう。私が思うに、これらの弾力性は、対象となる商品の性質についての強い直観に支えられているのではないだろうか。ほとんどの男性は働くしかなかったが、かつては妻の方が多く働いていたこと、主食は簡単には代用できないこと、小さな贅沢品への需要は価格に敏感であること、これらの直観は多くの場所での多くの研究によって支えられている。しかし、これは今日の開発の状況とは異なる。Lant Pritchettの例を挙げると18,シエラレオネで鶏がお金よりも優れていたとしても、ラオスでも、あるいはニュージャージー州トレントンでも、お金よりも優れていると考える理由はない。また、バートランド・ラッセルのニワトリ19にも注意が必要である。ニワトリ19は、何百回もの再現実験から、農家の足音が聞こえたら餌をもらえるところだと学んだが、クリスマスイブに首を絞められてしまった。ラッセルが指摘したように、このニワトリは、自分を取り巻く世界をより深く理解することで利益を得られたはずである。

より深い理解は、結果を賢く利用するために重要だ。多くの地域で最大の援助を行っているゲイツ財団は、規模の拡大を中心的な使命の一つと考えている。そのため、アフリカ農業イニシアチブにおける1つまたは2つの肯定的な結果を「うまくいく」証拠として捉え、他の場所でうまくいくかもしれないし、うまくいかないかもしれないという理由を理論的に説明することなく、「それ」を他の農場や他の国に拡大していた20。

繰り返しになるが、内的妥当性と外的妥当性を、質の高い研究が理想的に備えている双子の特性と考えるのは間違いRCTは、大規模なサンプルを用いて完璧に実施され、ATEを見事に達成することができる。外的妥当性があるかどうかは、研究の特性ではなく、その研究が使用される状況の特性である結果が他の場所に適用されない研究は、何も無効ではない。外的妥当性とは、研究がどのように使用されるかということである。同じ研究でも、ある文脈では有効でも、他の文脈では無効ということがある。

印象的な研究を、元の文脈を超えて押し出したいという誘惑は常にある。これは、観察的研究でも実験的研究でも同じである。Raj Chettyと彼の共著者たちは、統合された行政データを用いて、米国における不平等の力学に関する事実を非常に詳細に記述した先駆者であり、知識に大きな進歩をもたらした。重要な発見21のひとつは、1989年から 2015年の間に、アフリカ系アメリカ人の子どもたちは、白人の子どもたちに比べて、親の立場から所得分布を上昇させる可能性が低いということである。しかし、報道では、結婚や投獄のパターンがどちらのグループでも変化しているにもかかわらず、「was」が「are」に置き換えられていることが多い。これらの研究は、現在の経済学において最も優れた研究の一つであるが、その結果が今後も継続するという保証はない。繰り返しになるが、外的妥当性の問題は、知識の応用に関する一般的な問題であり、RCTには「無罪放免」のカードはない。内的妥当性がなければ、試験結果が他の場所でも通用する可能性は低いかもしれないが、内的妥当性が外的妥当性を意味することは確かではない。これに反する明確な主張は知らないが、私はしばしば、RCTを実施する際の注意と、その結果を使用することを推奨する際の不注意との間のコントラストに感銘を受けていた。「内的妥当性の優位性」という言葉は、このような行為を正当化しているように見える。

RCTの結果が、それが行われた時とは異なる文脈で使用されるということは、試験のデザインをより有用なものにするための情報となる。治療効果が異なる部分集団では異なると考えられる場合、それらの部分集団によって層別化することで、試験の精度が向上するだけでなく、新たな状況に合わせて再重み付けすることも可能になる。例えば、教育政策がより多くの学生を訓練する場合、賃金が下がる可能性があるため、低賃金の試験群を含めることで有用な情報が得られるかもしれない。RCTは、試験とその実施の間にある溝を単に飛び越えたり、無視したりするのではなく、政策の結果をモデル化するためのツールを提供するのに役立つ。しかし、RCTはそれだけでは十分ではない。

ある研究が、『Science』誌に掲載された卒業プログラムに関する研究22のように、さまざまな国のさまざまな状況下で再現されるという事実は、実に驚くべきことであり、その発見が、これまで消滅したと思われていた貧困の罠に新たな命を与えるという点で重要だ。現実的な金銭的・政治的インセンティブに直面している政府職員が同様の利益を再現できるかどうかは、将来的に明らかになるであろう。このインセンティブは、プロジェクトの成功を願う海外からの高学歴の大学院生アシスタントが直面しているものとは全く異なる。しかし、このようなクロスカントリーの研究では、再現とは何を意味するのか、どのような尺度で再現してほしいのか、再現から何を学ぶことができるのか、全く明確ではない。投資収益率のようなものが欲しいかもしれないし、国際通貨単位あたりで地域や世界の貧困基準を超えて持ち上げられた人の割合が欲しいかもしれない。その代わりに、著者は「効果の大きさ」を使っている。これは、ATEを治療の標準偏差で標準化したものである。アーサー・ゴールドバーガーとチャールズ・マンスキー23の言葉を借りれば、「標準化は、比較できない単位の量を、比較可能な単位であるような表面的な外観を与えること以外には何も達成しない。この達成は、役に立たないというよりも悪く、誤解を招くような推論をもたらす」。
最後に、再現性のない失敗も有用であることに注意してほしい。ただし、安易な言い訳で振り払わず、理由を調査し、より深い理解へと向かうために使用する場合に限る。失敗はしばしばブレイクスルーの燃料となる。

5. 試験の事前登録

私は、アメリカ経済学会(AEA)が、学会誌に結果を掲載する試験の事前登録を義務付けることに反対したが、失敗に終わりました。AEAが、編集者や査読者に研究のメリットを評価させるのではなく、方法を法制化するのは良くないと思う。経済学者としての私の経験では、AEAの委員会に参加していると、経済学者間の意見の相違は、実際には政治的または個人的なものであり、しばしば方法論の相違として提示される。AEAは、少なくとも1930年代以降、分裂を避けることに成功し、あらゆる経済学者のための広い教会であり続けてきた。フリードマンはガルブレイスの会長就任を阻止しようとしたが、失敗に終わった)。

Pハッキング、データマイニング、スペック検索などの問題は十分に現実的である。RCTに多額の資金を投じた資金提供者は、治療が効果的であったサブグループを少なくとも1つは見つけなければならないというプレッシャーをかけてく。しかし、繰り返しになるが、このような問題はRCTに限ったことではない。例えば、国勢調査を用いた観察研究に着手する前に、AEA、あるいは国勢調査局にデータ分析計画を通知する必要がある。同僚との会話や新聞で読んだ知見が、私のアジェンダを形成したり、変数の選択を制限したりすることを報告しなければならないのであろうか。

私が最も誇りに思っている自分の発見は、どれもセレンディピティの要素が大きかったのであるが、他のものを探しているときでも、自分が何を見ているのかを知るために十分な情報を得てた。これらの結果はいずれも事前の分析計画には現れず、したがってJournal of Correctly Done Studiesには掲載されなかった。ビル・イースタリーは、もしコロンブスがセビリアやジェノバのロックボックスに保管された事前分析計画に従うことを要求されていたら、アメリカを発見することはできなかっただろうと述べている24。中年期の死亡率についてAnne Caseと私が発見した結果25は、私たちにとって全く予想外の結果であったが、それがデータを盗み見たことによるものだとは信じがたいことである。仮にそうであったとしても、十分に現実味を帯びている。しかし、統計にうるさい編集者が、私たちの中年期死亡率に関する研究を許可する予備登録証明書を提出できなかったことを理由に、その論文をリジェクトすることは容易に想像できる。重要だが予想外の結果を封じ込めるリスクは、誤った結果を助長するリスクよりもはるかに悪いことは確かである。

6.実験:蹴って確かめよう

しかし、実験と無作為化の間には論理的なつながりはない。確かに、キックの方向を決めるときには、目的をはっきりさせたほうがいいかもしれない。無作為にキックすることはお勧めできないし、痛いかもしれない。ランダムに蹴るのは好ましくないし、痛いかもしれない。ランダム化とは、起こったことの意味を判断することであり、キックをデザインすることではない。ここで重要なのは、多くの場合、無作為化は実験には役立たずで、良い実験が無駄になってしまうということである。研究を改善するために利用すべき情報がかき消されてしまうのである。

経済学の主要な実験室での実験では、無作為化は使われなかった27。産業革命は、目的を持った試行錯誤の邪魔になるランダム化ではなく、延々と手を加え続けることで実現したとよく言われる。私が以前に使った例28は、アーケードゲームの「Angry Birds」である。これは、カタパルトから斜めに発射される鳥を、時には方向転換したり、スピードを上げたり、飛行中に爆発させたりして、近づけない場所に隠れている卵を盗む豚を殺すことが目的のゲームである。膨大な数の組み合わせを考えると、体系的なRCTを行うには想像を絶する時間がかかるが、器用な子供なら数分で解決できる。無作為化が必要ない、あるいは結果が不明瞭になるような実験はたくさんある。無作為化は、結局のところ、ランダムであり、ランダムに解を探すことは、フィッシャーの分野でそうであったように、非常に多くの無関係な可能性を考慮するため、非効率的である。

7. RCTと他の方法

RCTに関する多くの議論では、他の方法、典型的には道具変数(IV)回帰不連続(RD)差動法などとの比較が行われる。しかし、これはあまりにも狭い範囲での比較である。私は40年以上にわたって計量経済学の手法を使い、教えていたが、RCTに至るまでの過程を見ていた。私たちは、yをxに回帰していたが、何がxの変動を生み出したのかについての議論はほとんどなかった。私たちは、xから不要な変動を取り除く方法として、差動変数や回帰不連続を学び、治療を除けば同一であるとみなされる2つのグループを作った。RCTは、IV、RD、またはdifference in differencesをよりクリーンにしたものと考えることができ、効果的に回帰に戻るが、xが無作為に割り当てられたという前提が保証されている。このような経緯を考えると、RCTが究極の解決策のように思われたのもわかるし、実際にそのように考えることもできる。

しかし、John Stuart Millが大昔に指摘したように29,治療を受けたグループと受けていないグループの2つのグループを比較する「差分法」は、因果関係を推論するための数多くの方法の中の1つに過ぎない。飛行機事故の原因究明には差違は関係ないし(少なくとも私たちはそうであってほしいと願っている)物理学者が自分たちの仕事だと言っている仮説演繹法にも差違は関係なく、単に予測を立てて確認するだけである。だからこそ、グラフやクロス集計は、世界がどのように機能しているかについての大量の事前理解と矛盾する方法でデータを整理したときに、非常に大きな力を発揮するのである。より具体的には、カウレス委員会は、メカニズムに細心の注意を払い、因果構造を強調する言語と、データから推定できる部分とできない部分を明確にする手順を用いて、因果モデルを構築する方法を開発した。これらのモデルは、その予測と因果構造の妥当性を検証するために質問することができる。しかし、現在の経済学の大学院生のほとんどは、構造体や縮小形の定義を知らないのではないかと思う。論文には理論編があり、チェック可能な予測を展開し、理想的にはその理論に特有の意外性のある予測を行い、それを実証編でチェックしていた。これらの手法の中には、グループ間の差を見ていると解釈できるものもあるが、全てではない。

8. 小さい対大きい

Lant Pritchettは、典型的に雄弁で、面白く、情熱的な議論を展開し、貧困削減のために重要なのは成長であり、お金であろうとシケイン30であろうと、プロジェクトごとの「厳密な」(あるいはそうでない)評価ではないとしている。一方、Abhijit BanerjeeとEsther Dufloは『Poor Economics』の中で、自分たちが何をしているのかがわかるのは「小さな」レベルに限られるので、無作為化試験を重ねて知識を構築しなければならない、と反対のことを主張している。

この議論は(少なくとも)世界銀行と同じくらい古くから行われている。簡略化した歴史を紹介しよう。世銀は最初、港湾、道路、発電所などの小規模なプロジェクトから始めた。しかし、商業的な基準でプロジェクトを評価しても、人々の生活は改善されないことがすぐに明らかになった。特に、関税、マーケティングボード、配給、為替管理などによって価格が歪められている経済ではなおさらである。そこで、市場価格に代わる「影の価格」を開発したのが、著名な経済学者の2つのグループである。パーサ・ダスグプタ、スティーブン・マーグリン、アマルティア・センは国連のために31,イアン・リトルとジェームズ・ミリーズはOECDのために32,それぞれ手法を作成した。後者は、リン・スクワイアとヘルマン・ファン・デル・タックが世界銀行で使用するためにマニュアル化したものである33。しかし、その計算は時に精巧で、お金を早く動かしたいというインセンティブを持っていた世銀の融資担当者の能力や意向を超えていた。また、実施を求められた国の政策担当者にとっても、このルールは理解できないものだったに違いない。世界の多くの国でプロジェクト評価が未熟であることを示す例として、リン・スクワイアは後に34,プロジェクト評価の最も基本的な手段である将来の利益の割引でさえ、借款国ではほとんど使われていないと指摘した。インドでは、計画委員会のエコノミストたちが、少なくとも個人的な懐疑心を飲み込んでシャドープライスを綿密に計算していた。経済が全面的に歪んでいるのであれば、市場価格でプロジェクトを評価する意味がないことは明らかであり、シャドープライスで評価することは実現不可能であった。

対策としては、「小から大へ」、「まず歪みを治す」、「マクロ経済を正しくしてからプロジェクト評価をする」ということになった。その結果が構造調整である。

これを裏付けるように、プリチェットのような実証分析では、経済成長こそが実質的な貧困削減をもたらす方法であることが示された。特に中国やインドなど、世界で起きた物質的貧困削減の大きなエピソードは、経済成長とグローバリゼーションによってもたらされた。総体的な成長は、より多くの仕事、より多くの機会、より多くの道路、より多くのより良い学校や診療所など、小さな部分の成長も伴ってたが、これらは、優れた制度を持ち、急速な成長が続いている経済の中で、多かれ少なかれ自然に生まれてくるものと考えられてた。これらはいずれも、経済成長を促進する方法を説明するものではなかった。そのためには、クロスカントリー回帰が役立つと考えられた。例えば、中国、インド、韓国では国内投資が重要であり、公共財の供給が重要であること、海外からの援助が最善であっても、それだけでは成長を促進することはできないことなどである。また、これまでの議論の大半を占めていた国ごとの逸話(戦争の話)よりも、証拠が体系化され、整理されていた。しかし、私たちは、何が成長を速めるかよりも、何が成長を遅らせるかについて多くを学んだ。いずれも貴重な情報であるが、成長を加速させて貧困をなくすための鍵にはならない。私の知る限り、RCTが経済成長の鍵であると示唆した人は誰もいなかった。

世銀は半分正しかった。世界の多くの国でマクロ経済管理が改善され、金融政策や中央銀行業務、為替レートの過小評価や一次産品価格への課税のコストについての理解が深まったことで、特に時間をかけて、より良い成長と貧困削減に貢献していた36。しかし、世界の貧困削減にRCTが有効であるという因果関係の主張には、同様の問題はない。

外部からの援助が経済発展の助けになると信じている人は、円を描く必要がある。誰もマクロ的視点の重要性を疑ってはいないが、経済成長に影響を与える手段が限られていることだけは確かである。ミクロレベルの試験は、それ自体は成功することが多いのだが、貧困率を減少させる上での役割は、ほとんどが信仰の問題なのだ。RCTには、その結果が実際にどのように使われるかを説明する実施理論、つまりスケールアップ理論が必要である。これには、通常は試験のエンドポイントに含まれていない、政府やコミュニティの行動に対する実施の効果、つまり意図しない結果への配慮が必要である。一般均衡効果についても考慮する必要がある。スケールアップすると、実験では一定に保たれていた価格や行動が変化する。RCTでは通常、波及効果が存在しないという仮定(SUTVA仮定)をするが、衛生管理37や虫下しのプロジェクトなどでは、この仮定が日常的に破られている。個人レベルでは、治療効果や他者への波及効果は小さく、測定できない(あるいは測定しない)ことが多い。しかし、全体レベルでは、個々の小さな波及効果の合計によって、効果が否定されたり、逆転したりする。米国のオピオイドも、「波及効果」が致命的な結果をもたらした身近な例である。

9. モデル

モデルを構築することなく政策提言ができることには大きな魅力がある。データに語らせる、あるいは語らせるデータを生成するという魅力は理解できるが、そうしようとすると必ず失敗すると思う。RCTを解釈するには、常に仮定が必要である。重要なのは治療法だけであると仮定する必要があるが、これは無作為化後の交絡を慎重に取り締まらなければ保証することができない。人々は常に割り当てを受け入れるわけではないが、これはintent to treat(治療意図)推定を用いることで対処できるが、intent to treatの平均治療効果はしばしば我々が知る必要のないものである。あるいは、人々が割り当てを受け入れたり受け入れなかったりする理由のモデルを構築することもでき、それ自体が潜在的に有用な情報となる38。RCTで、アウトカムをレベルで測定するとプラスの効果が得られるが、対数で測定するとゼロの効果が得られる場合はどうなるであろうか?このようなケースは簡単に作ることができる39。

実際には、平均的な治療効果は、コントロール変数を含む回帰を実行することによって推定されることが多い。これらの変数は選択しなければならず、どのような規則で変数を含めたり、除外したり、何個使用するかは明確ではない。層化も精度を高めることができるが、層化が層間の平均治療効果の違いに関する有効な事前情報を使用する場合に限られる。

臨床試験の結果を利用する際には、モデリングが不可欠となる。その結果が他の場所でも関連性があるかどうか、ある場合はどのように適応させるかを教えてくれる理論が必要である。

10. 因果関係

よくデザインされたRCTは、因果関係について何かを教えてくれるであろう。しかし、繰り返しになるが、データから結論を得るためには多くの仮定が必要になる。有限の試験では、結果が偶然によるものである可能性を排除することはできない。レベルと対数の例のように、結果の測定方法が問題になることもある。哲学者であり疫学者でもあるAlex Broadbent、Jan Vandenbroucke、Neil Pearceの言葉を引用すると41,”因果的な結論は、強力な補助的な仮定のセットなしには、データから演繹的に導かれることはなく、これらの仮定はそれ自体、データの演繹的な結果ではない “となる。同じ論文の中で彼らは、「たとえ無作為化試験であっても、個々の研究の推定値を『因果関係がある』と呼ぶのは控えるのがよいと思う。因果関係の評決に至るのは、証拠の総合的な判断である。因果関係は科学的な結論であり、理論的な主張であり、そのようなものは個々の研究を超越している」。(イタリック追加)。因果関係はデータではなく、心の中にある。この考えは、Heckman と Pinto が Frisch と Haavelmo にまで遡って述べているものである42 。結果の三角化、つまり、時間をかけて多くの研究から因果関係のプロセスを学ぶことは、インドの衛生 RCT の話によく示されている43。

RCTの結果だけではなく、因果関係そのものを輸送することができない場合があることは、注目に値する。Nancy CartwrightとJeremy Hardie44は、窓を開けると、とんでもないが効果的な因果関係の長い連鎖を経て、キツツキによって鉛筆が削られるというルーブ・ゴールドバーグ・マシンを使って説明している。しかし、窓を開けたからといって鉛筆が削れるわけではないし、ある環境での因果関係は別の環境では全く違うものになるかもしれない。私の印象では、経済学者が論文のタイトルに「因果関係」という言葉を使うときは、特定の文脈における単一の事例以上のことを主張しているように思う。ルーブ・ゴールドバーグには要注意だ。

因果モデルを構築する別の方法があることは、Cowlesの伝統で育った経済学の学生やJudea Pearlの読者にはよく知られている45。Pearlは、因果モデルから始めて、それを使ってデータと向き合い、その構造を検証しなければならないと主張し、以前のCowles委員会のように、そのための一連のツールや方法を提供している。オースティン・ブラッドフォード・ヒルが因果関係を検出するための様々な方法を論じた知恵46は、経済学ではほとんど参照されていないようである。ブラッドフォード・ヒルは70年前に無作為化臨床試験の先駆者であったが、私たちは知恵を得るどころか失っているように思えることがある。

11. 倫理

経済学者が実験の倫理について考えることは重要であり、その責任を単にInstitutional Review Boardに押し付けるべきではない。Michel AbramowiczとAriane Szafarz47,Stéphane Baele48が取り上げている均衡とインフォームド・コンセントに関する議論に、私が付け加えることはほとんどない。しかし、開発型RCTの中には、最も基本的なルールに疑問を投げかけるものもあるようである。人々が自分が実験に参加していることを知らない場合、インフォームド・コンセントはどのように扱われるのであろうか?選挙の結果を変えてしまうような実験をしてもいいのであろうか?ベネフィセンスは、被験者を使った実験の基本的な要件の1つである。しかし、誰にとっての利益なのであろうか?外国の実験者や地方自治体の役人でさえ、人々が何を望んでいるかを判断するのが下手な場合がある。他の人々にとって何が良いかを知っていると考えることは、ベネフィセンスの適切な根拠とはならない。

また、倫理的には、RCTでできること、できないことについて現実的に考える必要がある。RCTで得られた証拠だけが重要であるというヒエラルキーの考え方を支持する人にとっては、倫理的な過ちはより簡単に正当化され、被験者へのリスクが少なく、より良い結論を導く可能性のある選択肢を除外してしまう途上国の政策立案者に、政策のためのエビデンスを収集するにはRCTが唯一の方法であると伝えることは、重要な情報を無視することになり、倫理的に問題がある。先に述べたp値を正しく取ることの問題は、ここでも関連している。また、目的を達成できないようなパワー不足の試験は、被験者に負担を強いることになり、倫理的に問題がある。

私が懸念しているのは、もっと広い範囲のことだ。アメリカでも、生活保護制度に関するRCTのほとんどは、裕福で高学歴で色白の人々が、低所得で低学歴で色黒の人々に対して行ったRCTだ。私の読みでは、アメリカの実験の大部分は、被験者である貧しい人々の利益のために行われたのではなく、最悪の貧困を防ぐ義務を、時には不本意ながらも受け入れ、そのためのコストを最小限にしたいと考えた金持ち(少なくとも納税者やその代理人)の利益のために行われたということだ49。しかし、経済開発ではそうはいかない。欧米の経済学者がインドの極貧層を対象に行ったRCTの中には、アメリカの審査委員会の審査を経て行われたものもあるが、これは倫理的に問題があり、アメリカ人を対象にしたものではなかったと思われる50。貧しい人々を職業上の履歴書作成のために利用することは認められるべきではない。米国の研究機関評価委員会は、自律性が損なわれている囚人に対しては特別な保護を与えているが、世界で最も貧しい人々に対しては同様の保護はないようである。ここには、製薬会社がアフリカで薬をテストすることについての議論と、不快な平行線がある。

RCTは、ビル・イースタリーが「テクノクラート幻想」51と呼ぶ、経済発展の原罪の一部であり、ジェームズ・スコット52が「ハイ・モダニズム」と呼ぶ、完全な民主的参加がなくても技術的知識があれば社会問題を解決できるという側面を持っていると私は考えている。シリコンバレーや財団、効果的な利他主義運動などで特に広まっていると思われるこの教義によれば、世界の貧困は適切な技術的解決策に屈することになり、その一つがエビデンスに基づく政策の基礎としてRCTを採用することである。政治を無視することは、悪ではなく美徳であると考えられている。財団や利他主義者は、貧しい人々にとって何が良いかを「知っている」ことが多く、善意を持っているが、貧しい人々が彼らの評価に同意したり、彼らの救済策に価値を見出しているという証拠はほとんどないため、彼らの利益は彼らが助けようとしている人々と簡単に対立してしまう。テクノクラートは、外部から他人の国を発展させることができると信じている。なぜなら、自分たちは何が効果的かを見つける方法を知っているからだ。少なくとも、この点においては、ガジェットの設計と社会政策の設計に大きな違いはない。どちらもエンジニアの仕事である。しかし、持続的な貧困削減には政治が必要であり、エンジニアリングだけでは、ジェームズ・ファーガソン53が記録した有名な「反政治の機械」になってしまいがちだ。今日、開発機関は「パートナーシップ」という言葉を多用しているが、すべての資金が一方の側にある場合、真のパートナーシップは存在しない。また、援助金が絡むRCTでは、真のインフォームド・コンセントは得られない。

何が機能するかを見つけることと、何が望ましいかを見つけることは同じではない。ドナーの善意は、望ましさの保証にはならない。Jean Drèzeは、エビデンスから政策への移行の問題点を見事に論じている54 。彼の例の一つは、栄養不足の子どもが多いインドの学童に卵を提供することである。卵を与えられた子どもたちは、より頻繁に登校し、より多くのことを学び、より良い栄養状態にあるということを、RCTを用いて証明することができる。多くの寄付者やRCT支持者にとっては、それだけで「学校の卵」政策を推し進めることができる。ベジタリアンの強力なロビー団体が反対したり、養鶏業界がロビー活動をしたり、自分たちの粉末卵や特許を感染した卵の代替品の方がより良い効果があると主張するグループがあったりと、政策は他の多くの事柄に左右される。このような問題に対処するのは、実験者の領域ではなく、政治家や、政策運営に精通した多くの人々の領域である。社会的な配管工事は、社会的な配管工に任せるべきであり、特別な知識もなく、正当性もない外部の実験経済学者に任せるべきではない55。

他国の市民のために活動することは、困難を伴う。市民の福祉に関心のない政権が支配する国では、市民を略奪の源泉とみなす搾取的な政権が完全に支配していれば、必然的に外国からの援助の恩恵を受けることになる。このジレンマは、平時においても同様である。ジレンマは平時にも及び、完全に統制された権威主義体制では、政府が援助を受け入れることが利益になる場合にのみ、部外者が援助を行うことが可能となる。開発援助機関は、貧しい人々を支援したり、医療サービスを提供することを「許可」されている一方で、「賢明な」専制君主に政治的な援護を提供し、その専制君主が敵対者を迫害したり排除したりする自由を与えられているという状況に陥る57。

これがRCTとどのような関係があるのだろうか。一つは関連性のなさである。選挙を控えた大統領が敵を投獄したり、部族や政敵に対する暴力を扇動したりしているときに、学校や医薬品の無作為化に資源を費やすことは意味がない58。なぜ政府機関は、援助者や実験者の自由民主主義の信念を受け入れない指導者のいる国に援助資金を提供したり、援助を支援するためにRCTを行うのであろうか。私はこの質問に対する答えがないと言っているのではなく、援助者はそれが何であるかを知る必要があると言っているのである。

ビル・アンド・メリンダ・ゲイツ財団がGlobal Goal Awardの1つを、インドにトイレを建設したナレンドラ・モディに授与したことについては、59の反論があった。このときモディは、カシミールの人々の権利を奪い、何百万人ものアッサムの人々から市民権を奪うと脅し、移民に市民権を与える基準として宗教を利用する傾向を示していた。財団は、衛生面でのモディの功績のみが評価されていると主張しているが、これこそがテクノクラティックな援助の限界と危険性を示す完璧な例であろう。これは、技術主義的な援助の限界と危険性を示す好例であり、専制主義と不寛容を助長するものである。モディ氏は、国連を含む開発機関から他にも名誉ある賞を受賞している。そして、アフリカではもっとひどいことが繰り返し起こっている。

援助機関は、持続可能な開発目標を達成するために、政治的抑圧を見て見ぬふりをしているのである。RCTは、それ自体は中立的な統計ツールであるが、ディーン・スピアーズが指摘するように60,「RCTは、資金提供者、研究者、政府の間で相互に正当化することを可能にする、準備の整った、ステータスの高い言語を提供する」のである。RCTの方法論が、「何が効くかを見つける」ためのツールとして、「何が効くか」の定義に自由が含まない形で使用されると、抑圧を助長する危険性がある。


1 アビジット・バネルジー、エスター・デュフロ、マイケル・クレーマーのノーベル賞受賞が発表されたのは、このエッセイを何度も修正しているうちの最初の段階であった。すでに発表されているように、この賞は、経済発展のためにRCTを行うことの是非についての議論の認知度を高めるものである。記者会見では、特に倫理に関する本質的な懸念が明らかになった。特に、無作為化によって、治療前に治療群と対照群が類似していることが保証され、RCTは因果関係を証明できるという、広く普及しているが誤った信念が浮き彫りになった。

2 James J Heckman, 1992 (2020), “Randomization and social policy evaluation revisited,” Chapter 12 of Florent Bédécarrats, Isabelle Guérin and François Roubaud, Randomized controlled trials in the field of development: a critical perspective, Oxford University Press(1992年に発表された論文の更新版)Heckman and Jeffrey A Smith, 1995, “Assessing the case for social experiments, The Journal of Economic Perspectives, 9(2), 85-110. また、Charles F. Manski and Irwin Garfinkel, 1992, Evaluating welfare and training programs, Harvardには、1992年版のヘックマンの論文、ManskiとGarfinkelによる優れた概要紹介、および継続的な関連性を持つ他のいくつかの論文が含まれている。
3 Angus Deaton, 2007, “Instruments, randomization, and learning about development,” Journal of Economic Literature, 48

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー