Contents

Obstacles to and Limitations of Social Experiments: 15 False Alarms

Obstacles to and Limitations of
Social Experiments: 15 False Alarms

www.abtassociates.com/insights/publications/report/obstacles-to-and-limitations-of-social-experiments-15-false-alarms

要約

限られた税金や寄付者の資金を社会プログラムにどのように配分するかを決定する際に、政策立案者やプログラム管理者は、方法論について屁理屈を言わない研究に基づく有効性の証拠を求めるようになってきている。政策立案者やプログラム管理者は、政策論争のすべての側が同意できる、信頼できる科学的証拠を提供する研究に基づいて、介入が意図した効果をどの程度発揮しているかを評価したいと考えている。「社会実験」の基本的な主張は、無作為化の「コインの反転」によって統計的に等価な2つのグループが生成され、介入が成功した場合を除いて、その後の乖離はあり得ないというものであり、結果として得られる推定値は、介入の影響の偏りのない尺度となる。透明性にもかかわらず

介入とその参加者の結果との間の因果関係を明らかにするための実験戦略の概念的な強さと、実験はしばしば様々な要因で批判されている。本論文では、これらの懸念事項のうち15のものを取り上げ、それぞれが広く信じられているよりも不愉快ではないと判断している。我々の判断では、倫理、科学的完全性、および実用的な実現可能性に関する問題の品揃えは、説得力を持って正確に彼らの社会政策やプログラムの影響を測定しようとする政府や財団の資金提供者による社会実験の拡大使用の道に立ちふさがる必要はない。

限られた納税者や寄付者の資金を社会プログラムにどのように配分するかを決める際に、政策立案者やプログラム

管理者は、方法論に疑問を抱かない研究に基づく有効性の証拠を求めるようになってきている。管理者は、政策論争のすべての側が信頼できる科学的証拠を提供することに同意できる研究に基づいて、対象となる人々に対してプログラムが意図した効果をどの程度発揮しているのかを評価したいと考えている。トロキムが指摘しているように、「長期的には少数のプログラムだけが生き残るべきである」(2009, 28)というのが本当であるならば、社会プログラムの終了、継続、拡大の政策選択は、エビデンスの高い基準を満たす研究に基づいて行われるべきだというのが、私たちの主張である。政府や財団の政策立案者にとっては、公共部門や慈善活動の介入が好ましい影響を与えていることを示す強い因果関係の推論が、継続的な資金提供や拡大の正当化の根拠となる。同様に、政治的・官僚的に強い支持を得ているが、厳密な検証を行った結果、社会的利益がほとんどない、あるいは全くないことが判明した既存のプログラムの終了を正当化するためには、効果がないことを示す明確な証拠が必要となることが多い。

豊富な研究方法は、社会政策に関する「この介入は効果があるのか？方法の多様性は、ほとんどの場合、以下のような推定値を構築する必要性に由来している。
実際の成果が現状よりも改善されたことを示す程度を測るために、対事実、すなわち、介入がなかったらプログラム参加者に何が起こっていたかということである。政策介入が正当化されるのは、対象となる人々の幸福度を、そうでなければ達成できなかったであろう幸福度よりも高めることによってのみであり、なぜなら、幸福度のカウンターファクチュアルなレベルは、そのような投資をしなくても常に達成できたからである。

なぜなら、そのような投資をしなくても、カウンターファクチュアルなレベルの幸福度は常に達成され得るからである。さらに、私たちは、他にも以下のような重要なことがあることを認識している。

1 プログラムの潜在的な参加者を「治療群」と「対照群」に無作為に割り当てる古典的に計画された実験を実施することは、有効なカウンターファクチュアル（対照群）を生成し、それゆえにプログラム効果に関する正確な因果関係推論を行うための一つの有望な方法である。無作為化実験は、比較群よりも介入群の方がより頻繁に起こる好ましい結果のための他のもっともらしい説明を除外するために広く賞賛されているが、それは、プログラムの対象者にもたらされる他の多くの政策的行動や文化的な力に満ちた私たちの複雑な社会経済的環境に無数にある対抗説明である。議論は、無作為化された「治療」によって本当に引き起こされた影響以外に、以下のような結果が得られるのは偶然にすぎないというものである。

治療群と対照群では、治療群と対照群で結果が異なることがある。さらに、十分に大規模なサンプルでは、偶然性も除外でき、結果の差異を説明する唯一の残存する説明としてプログラムの影響が残されている。

介入と影響の間の因果関係を確立する上で、実験デザインの透明性と概念的な強さにもかかわらず、実験はしばしば様々な要因で批判される。本論文では、これらの批判のうち15の批判を取り上げ、それぞれの批判は広く信じられているよりも反対しにくいものであることを明らかにした。我々は、4つのカテゴリに異議を分類する：倫理的、科学的、実用的、および財政。それぞれの懸念事項を分析した結果、社会介入の影響を測定するための実験技術の信頼性や適用性を脅かす必要はないという全体的な結論に至った。

その結果、政府機関や財団の資金提供者は、社会政策に影響を与える重要な質問に対する透明性のある説得力のある回答を得るために、実験的手法を使用する機会が、認識している以上に多くの場合にあると私たちは考えている。

社会実験とは何か？

社会実験とは何か？我々は、社会プログラムの影響を測定するための実験的方法論が理解されていることを確認するために、この論文の焦点となっている方法論に対する反対意見に対処するための出発点として、まず、実験的方法論を説明することから始める。無作為化社会実験の概念をよく知らない人の多くは、医療分野での経験が有用な導入であることに気づくだろう。新薬がその主張通りに効果があるかどうかをテストするために、製薬会社は「無作為化対照試験」（RCT）を実施している。この試験では、例えば、ある人には新薬を、ある人にはプラセボと呼ばれる不活性の薬を無作為に投与する。被験者のその後の結果を追跡することで、研究者は、その薬がどの程度の違いをもたらしたか（頭痛や潰瘍、がんの軽減など）だけでなく、どの程度の副作用が生じたかを判断することができる。2つのグループには治療経験が無作為に割り振られているため、後になってからの2つの違いは薬だけである。

…政府機関や財団の資金提供者は、実験的手法を用いて、重要な社会政策への影響に関する質問に対する透明性のある説得力のある回答を、彼らが認識しているよりも多くの場合に得る機会があると信じている

「薬物」の代わりに「公共政策」、「社会プログラム」、またはある種の「介入」を代用すると、同じアプローチが、あらゆる種類の社会的・経済的な悪事を改善するための公的・非営利の努力の有効性をテストする際に適用される。社会実験は、介入のない世界を代表する対照群を作成するために、介入が通常役立つであろう人々や組織の一部を介入への参加から意図的に除外する。除外されたケースは、人口を無作為に2つのグループに分割する抽選のようなプロセスを通じて、参加希望者から純粋に偶然に選ばれる：介入を定義するプログラムまたは政策を受けるために割り当てられた「治療群」と、研究目的のためにプログラムまたは政策から除外された「対照群」である。

潜在的な参加者プールから本当に無作為に選ばれ、介入を受けないようにされた場合、実験的対照群のメンバーは、政策/プログラムのない世界を正確に表現するための3つの重要な条件を満たすことになる。第一に、偶然を除いて、それらは集合的に、治療グループの人々または組織と同じ種類の人々または組織である。第2に、それらは介入に服従しないし、従ってそれからの効果を経験しない。第三に、彼らはそうでなければ、治療群のプログラム参加者と全く同じ環境（政策的、経済的、社会的）で活動しており、したがって、介入がなかった場合に参加者に何が起こっていたかについての真の「カウンターファクチュアル」を表している。

うまく実施された実験では、この第2の条件は、関心のある因子（我々が測定したい影響のある介入）について、対照群が治療群と異なることを保証する一方で、他の2つの条件は、2つのグループ間で他の何も異なることを保証する。大規模なサンプルでは、多くの症例が純粋に無作為に治療群と対照群に割り付けられているため、2群間の既存の特性（測定されたものと測定されていないものの両方）の偶然の違いは消えてしまう傾向があり、2群間で観察された後の結果が、研究対象のプログラムや政策の効果以外に起因するものである可能性は非常に低くなっている2。

要するに、介入のない世界を確実に表現することは、政府や博愛的な社会プログラムが違いをもたらすかどうかを判断する上で非常に重要である。無作為割付を用いた実験は、もし実施に成功し、後述する課題に効果的であれば、以下のようなことが可能である。
対照群で観察された結果に代表されるように、しっかりとしたカウンターファクチュアルが必要である。このカウンターファクチュアルは、いわゆる「内部妥当性への脅威」、すなわち、時間の経過とともに変化が起こるかもしれない理由や、カウンターファクチュアルとして使用されているが、ランダムな除外ではなく自然過程によって決定される参加者と非参加の比較群との間に差が生じるかもしれない理由についてのもっともらしいライバル説明（例：Campbell & Stanley, 1968; Cook & Campbell, 1979; Shadish, Cook & Campbell, 2002）を排除することを可能にしている。科学的な用語で言えば、介入への系統的な選択、成熟、平均への回帰、履歴、試験、および計装などが、もっともらしい対抗説明となる。

それらがすべての政策評価の必要性のための万能薬ではないことを認識し、我々は、実験が化学、生物学、医学、農業、および産業プロセスについての我々の知識を前進させるためにユビキタスであり、貴重であるのと同じ理由のために、社会実験が可能な限り広く実施されることが重要であると信じています：他のすべての要因が等しい保持しながら、最も重要な関心の1つの要因（この場合、特定の公共政策やプログラム）を変化させるために

社会実験は、すべての政策評価のニーズに対応する万能薬ではないことを認識した上で、実験が化学、生物学、医学、農業、産業プロセスに関する私たちの知識を前進させるためのユビキタスで貴重なものであるのと同じ理由から、できるだけ広く社会実験を実施することが重要であると私たちは考えている。政策立案者やプログラム管理者は、変数となる要因（テストされている社会的介入）の結果に関する情報を自信を持って利用して、介入の将来的な利用を決定することができる。とはいえ、実験は様々な課題に直面しており、本論文の研究課題を以下のように提起している。社会実験について提起される主な懸念や批判は何か？社会実験に対する主な懸念や批判は何か？有効な批判によって提起された問題は、どの程度まで克服可能なのか？

これらの質問に対する我々の回答で示された視点は、無作為割付けと非無作為比較群の影響評価を様々な分野で設計・分析してきた長年の経験を反映したものである。
プログラムのコンテクスト（雇用・訓練、教育、住宅、家族・児童扶助、公的扶助、食糧・栄養政策など）を対象とした研究は、政策評価の研究者と資金提供者の間の対話を促進し、この分野を前進させることを目的としている4。

倫理的な懸念

無作為割付けアプローチの基本的な強さにもかかわらず、社会実験には限界がある。我々は、それらの正当性への最も基本的な挑戦-研究のためのプログラムのサービスや政策の規定からいくつかの資格があり、値する個人の除外が非倫理的であるという倫理的な懸念から始める。

批判その1：対照群を持つことは倫理的ではない。

評価を計画する際によく引用される障害は、政府のサービスへのアクセスを無作為化することの倫理に関する懸念です(例えば、Boruch, 1997; Boruch, Victor & Cecil, 2000; Cook & Payne, 2002; Gueron, 2002; Blustein, 2005)。政府の「宝くじ」に「負けて」コントロールグループに入った個人は、不当に、あるいは非倫理的に不利益を被っているのだろうか？同様に、いくつかのプログラムは、研究のためにアクセスを拒否することは、非倫理的であるだけでなく、違法でもある。もちろん、いかなる評価も、研究対象となる可能性のある被験者に対する違法な扱いを提案すべきではないが、私たちは、治療が参加者に利益をもたらすかどうかがわからない場合に、研究利用を拒否することが本当に非倫理的であるかどうかを疑問視している。この問題は常に表面化しているように思われる（そして表面化すべきである）が、米国では、パイロットプロジェクトや実証プロジェクトの有効性を評価するために、社会実験が頻繁に利用されてきたという事実に変わりはない。グリーンバーグら(2004)は、それらの200以上のカタログを作成している。したがって、ある程度のレベルでは社会実験は倫理的に許容される。批評家の主な懸念は、コントロールグループに人々を無作為化することは、それらを潜在的に利益をもたらす可能性がある機会へのアクセスを否定することである。この懸念に対する3つの反応を考慮することができる。

第一に、プログラムが資金や管理能力の制約のために、提供される人や組織の総数を制限しなければならない場合、何らかの方法でアクセスを制限することになる。
対照群のメンバーをプログラムのサービスから外す無作為割付は、アクセスを減らすための一つの方法にすぎない。それが良い方法なのか悪い方法なのかが本当の問題である。私たちは、資格のあるすべての応募者に、抽選を通じて、平等にアクセスの機会を与えることが、最も公正で、最も限られた資金でサービスを配給する倫理的な方法（例：Bickman & Reich, 2009; Orr, 1999）。確かに、プログラムのスタッフが、その人が参加することで利益を得られるとスタッフが（科学的ではないが）信じているかどうかという性格や何らかの認識に基づいて、お気に入りの応募者を選ぶことを許可するよりも、あるいは、サービスの資金が不足しているときにたまたま応募してきた人たちにサービスを提供するよりも、より公平ではないであろうか？

第二に、プログラムの有効性がまだ決定されていない場合、対照群の一部として参加を断られることは、参加するよりも悪いと推定することはできない。例えば、職業訓練が平均してより良い雇用の結果につながらない場合、インパクト・スタディが答えを求めているまさにその質問に答えるために、職業訓練に参加することは、せいぜい中立的な状況を構成し、少なくとも時間を浪費する分だけ不利になるかもしれない。その一例として、職業訓練パートナーシップ法がある。大規模な無作為化インパクト評価では、このプログラムに参加した失業中の若者が、実験的対照群の若者よりも就労までに時間がかかることがわかった（Orr et al 1996）。この例は、対照群のメンバーが試験されていない社会プログラムから排除されることで害を受けるという仮定が、多くの分野における基本的な研究パラダイム、すなわち、介入が何に影響を与えるかを研究する際には、そうでないことが証明されるまでは、影響はないと仮定しなければならないという仮定にいかに反しているかを示している。5 誰かを無作為に治療群に割り当てることがその人やその人の利益になるということを事実として主張する根拠はないし、誰かを対照群に割り当てることがその人を傷つけるという論理的に等価な主張をする根拠もない。もちろん、有益性の証明が得られた後に、研究目的で有益な介入を行った対照群を二度と排除すべきではないし、また、現在の実験で人生を大きく変える可能性のある有益性が示されたとしても、対照群を「未治療」の状態にとどめておくべきではない6。しかし、あらゆる種類の利益を信じたり、期待したりすることは、証明と同じではない。証明されていない介入から利益だけでなく害も生じる可能性があるとすれば、一見白黒はっきりした倫理原則は曖昧になる。

…抽選を通じて、資格のあるすべての申請者に平等にアクセスする機会を与えることは、限られた資金でサービスを配給する最も公正で最も倫理的な方法である

第三に、対照群のメンバーが不利益を被る可能性があるが、それでもこれを許すことが倫理的な決定であるかもしれない理由には正当な理由がある。プログラムの有効性に関する正確な情報から利益を得る社会は、少数の個人や組織が不利益を被ることを認めることに正当性があるかもしれない。

その情報を収集するために潜在的な不利益は一時的なものであるが、利益は長期的なものになるかもしれない。7 医学研究では、科学者が対照群に治療を拒否するのは、これまでに証明されていなかった薬に利益があることを知るまでのことである。社会的なプログラムや政策へのアクセスを拒否した場合の結果は、医学研究における生死に関わる潜在的な結果よりもはるかに悲惨なものであることは間違いないが、それでも私たちは、社会に提供できるより大きな潜在的な健康上の利益のために、その種の研究を集団的に承認している。これは厄介な倫理的問題であるが、さらなる注目を集めるに値する強力な議論である。

政策を改善するための方法として無作為化インパクト研究を広く利用することの正当性を求める際に、これらの考慮事項のバランスを適切に秤にかけることができる研究者はいない。それは公務員の判断に委ねられるべきことである。しかし、確かに、これらの考慮事項に基づいて、本来の公正さや公正さの欠如についての疑問が生じる。

社会実験における無作為割付の議論は、問題の両側で行われるべき引数で、議論のために開かれたままである。少なくともそれは、社会実験が倫理に基づいて明確に却下されるべきではないと主張している。

科学的考察

次に、それぞれの懸念の妥当性と、効果的な研究デザインを通じた改善の可能性を測るために、社会実験の5つの疑われる科学的限界を探る。これらの批判は、実世界の条件で実験を行うことから生じ、既存の進行中のプログラムの評価や、新しい介入のパイロットテストの評価に適用される可能性がある。

批判その2：実験は治療群に割り付けられた人への影響を測定するものであり、必ずしも実際に治療を受けた人への影響ではない。

無作為割付けの影響評価の科学的批判で最も簡単に回避できるのは、Heckmanら（2000）がITTの影響と呼んでいる「治療の意図」の影響のみを明らかにしているという主張であり、実際に治療を受けたことによる影響ではなく、Heckmanらが「治療を受けた人への治療の影響」、つまりTOTの影響と呼んでいるものである。このITT/TOTの区別は、無作為に割り付けられた治療群の100%未満の参加者、すなわち「治療された」群が、治療に割り付けられた実験サンプル全体とは異なる（小さい）場合に生じる。治療群メンバーの参加率が100%未満というのは、無作為割付けの評価では一般的である。なぜなら、職業訓練のような介入に申し込んで無作為に選ばれたからといって、個人が強制的に参加することはできないからである。政府の社会プログラムへの応募者は、入学の決定が下される前に参加についての考えを定期的に変えるが、この結果は、評価の治療グループを形成するために無作為割付けの「抽選」によって選ばれた何人かの応募者にとっても避けられない。

一方で、ITTの推定値は、プログラムの影響を測る上で最も政策的に関連性の高い尺度と考えられるかもしれない。新しいプログラムのデザインやオプションがテストされていて、新しい機能が必須にならない場合、対象集団の全体的な反応、つまり(i)参加するかどうかの決定と(ii)参加した後の対象集団全体のアウトカムに対する影響を合わせた結果を理解することで、政策立案者が知る必要があることがわかる。ITTの推定値は、基本的に治療の申し出に参加した人と参加しなかった人の影響を平均化したものであり、このような介入が100%未満の参加を可能にしたまま実施された場合に、対象集団に平均的にどのようなことが起こるかを表している。

一方、TOT 推定値は、政策立案者に実際に参加して得られる平均的な利得を伝えるものである。

この指標は、オファーを受けた後に参加することを選択した対象集団の人々のための介入への平均的な支出に関する情報と一致している。この指標は、プログラム内の資金提供された「スロット」あたりの介入の平均的な支出に関する情報と一致しており、参加希望者が知りたがっていること（参加した場合にどれだけの利益を得ることが期待できるか）は、おそらく、この指標である。従って、TOTの推定値は、政策立案者と対象となる人々の両方にとって関心のあるものである。

ITTの影響度指標は、全治療群の平均結果と対照群の平均結果との差として、バイアスをかけずに計算することができる。幸いなことに、TOTの推定値は、実験データからバイアスなしで容易に得ることができる。文献で知られている「ノーショー調整」を適用することで、ITT 推定値を対応する TOT 推定値に変換することができる。ブルーム（1984）によって評価文献の中で定式化された「ノーショー調整」は、介入が参加しない治療群のメンバー（例えば、放課後の自主的なプログラムに無作為に割り付けられた、プログラムに参加しない生徒）には影響を与えないと仮定することで支持を得ている。この仮定は、我々の経験上、任意の介入が関与している場合に実験結果を使用するほとんどすべての評価者や政策立案者には無害であると考えられている。

この仮定に基づいて、影響の最初の尺度-参加者に対する潜在的な正の（または負の）効果と非参加者に対するゼロの効果（「不参加者」）の両方を含む、すべての治療グループのメンバー全体にわたる介入の平均的な影響（ITT推定値）-は、参加した人だけに対する平均的な影響（すなわち、「治療を受けた人」だけに対する治療の平均的な影響）に再スケーリングすることができる8。参加者と非参加者の類似性に関する仮定は必要ないし、統計的手法で 2 つのグループ間の違いを調整する能力も必要ない;参加者と「不参加者」は昼と夜のように異なる可能性があり、介入が実際に「不参加者」に影響を及ぼさない限り、ブルームの調整に基づく TOT 推定値は偏りがないままである。

簡潔に言えば、実験は参加者と非参加者で構成される治療群全体で平均化された影響を調査するという批判は、社会政策革新の影響を測定するための無作為化実験の価値を制限するものではない。ほとんどすべての無作為化評価は、ITTの推定値が研究の消費者にとってより適切であるかどうかを検討しており、広く受け入れられている（そして合理的な）ブルーム補正を適用しない状況では、治療が被治療者に与える影響の偏りのない測定値を得ることができる。

批判その3：実験は、介入のサービスと全くサービスがないものとの比較に失敗し、代わりに介入を「他にあるすべてのもの」と比較してしまう。

分権化された、断片化された連邦主義システムでは、国家政府のあるブランチの政策とサービスは、しばしば、他の政府または非営利機関によって、同じではないにしても、似たような形で提供される。つまり、プラセボが何もない状態を表すことを意図している医療試験とは異なり、社会実験のカウンターファクチュアルは、通常、「現状維持」または「通常通りの業務」と表現される。無作為割り付けでは、個人がこれらの代替サービスにアクセスするかどうかはコントロールできない。これは、対照群が「サービスなし」のプラセボではないことを意味する。これは、例えば、州のプレキンダーガーテンプログラムが、連邦政府のヘッドスタートプログラムと同じターゲットグループのメンバーに対して実質的に同じことを行っている場合に当てはまる。

対象グループのすべてのメンバーに一律に課された所定の介入戦略が、全く介入しない場合と比べてどのように比較されるかを知ることは、多くの介入スポンサーと利用可能な様々なプログラムへの選択的な消費者の参加という断片的な連邦主義システムにおいて、社会的意思決定を助けるものではない。

このような状況は、無作為化インパクト研究に、評価を意図した実世界のプログラムと同じ性質を与えており、それゆえに、実験的アプローチの弱点というよりはむしろ強みとなっている。実験的対照群と同様に、米国保健福祉省（DHHS）のヘッドスタートプログラムに申請した人々の中には、DHHSの介入が利用できなかったとしても、他の州から同様の援助を受けることになる人もいるだろう。また、実験的対照群に当てはまるように、そうでない家族もいるだろう。DHHSがヘッド・スタートを実施する際にコントロールしているのは、ヘッド・スタートに登録されている子どもたちと、州のプレキンダーガーテン・プログラムで提供されている同じ子どもたちのサブセットという、この2つのシナリオの間での選択である。

スタートプログラム。もしヘッドスタートがなかったとしても、ヘッドスタートが提供している子どもたちの中には、他の情報源からのサービスを受けている子もいるだろう。10 対象グループのすべてのメンバーに一律に課された所定の介入戦略が、まったく介入しない場合と比較してどうなのかを知ることは、多くの介入スポンサーと、利用可能なさまざまなプログラムへの選択的な消費者の参加という断片的な連邦主義システムにおいて、社会的な意思決定を助けるものではない。

「私たちのサービス」を「そこにある他のすべてのもの」と比較して見ることは、まさにDHHSがそのプログラムと政策ポートフォリオを正当化するために行うべきことであり、もしそこにある他のすべてのものが十分であれば、DHHSのプログラムに費やされているお金は結果なしに削減される可能性があるからである。例えば、ヘッドスタートの評価の場合の研究目標は、ヘッドスタートのような恵まれない就学前の子どもたちのための発達に焦点を当てたプログラムが、そのようなプログラムがない世界と比較して価値があるかどうかを判断することではない。むしろ、この政策分野へのDHHSの関与が、他に存在するすべてのものを考えると、どれほどの違いがあるのかを知ることである。もしDHHSがヘッドスタートを通じて幼児期の援助の特定のバージョンを提供していなかったとしたら、サービスを受けている人の中には他の場所で同じようなものを手に入れる人もいるだろうし、そのような家族にとってDHHSのプログラムによって付加された価値は、代替案が存在することによって本当に軽減されることになる。したがって、より一般的には、使用されている場合には、代替サービスが利用可能なものであれば何でも利用可能なもので構成されるカウンターファクチュアルに対する治療群のアウトカムの社会実験の比較は、特定のプログラムに関する政策の継続、修正、または終了についての意思決定を知らせるために必要な政策関連の情報を提供するものである。

批判その4：対照群におけるカウンターファクチュアルな経験は、評価対象のサービスよりも他の情報源から同様のサービスを容易に利用できることによって歪められている。

この懸念-私たちは、私たち自身の以前の未発表の仕事で指摘しているが、文献の中で以前に見たことがない-は、コントロールグループのメンバーのための “キューイング効果 “についてである。ここでの問題は、研究中の介入の存在が、代替サービスへのアクセスを求める対照群のメンバーのための待ち行列を短縮する可能性があるということである。これは、治療群のメンバー（および他の研究者以外の個人）が研究対象のプログラムに参加したときに起こる-研究対象のプログラムが存在しなければ起こらないことである。そのため、研究対象のプログラム以外の情報源からの同様のサービスに対する「競争」はそれほど激しくなく、対照群はそれらの情報源から過剰な援助を受けることになる。

これがどのように起こるかを見るために、米国労働省（DOL）が資金提供しているプログラムによって提供されている職業訓練と他の機関のプログラムが廃止されたとする。思考実験として、これらのプログラムの1つであるDOLの労働力投資法（WIA）プログラムが、ある年に完全に廃止されたと仮定する。このシナリオでは、サービスの総供給量とサービス枠の数は、プログラムが提供する顧客グループのために激減することになる。そのような顧客がどこに転向し、雇用スキルの構築を支援するために代替サービスをどの程度利用するかは、WIA の訓練が全くない場合と比較して、現在存在する WIA の重要性を強く決定することになる。

これが議会や省が直面している政策の選択であるならば、WIAが資金を提供している訓練を継続するか廃止するかの実験をしてみたいと思うだろう。
(1) 治療群のメンバーにはWIAへのアクセスが与えられ、(2) 対照群のメンバーは、WIA以外からの訓練サービスへのアクセスを競い合っているが、治療群のメンバーも同じ代替訓練の枠を競い合っている「市場」の中でそうする。残念ながら、第二の条件を満たすことはできない。治療群は同時にWIAの治療に参加することはできないし、限られた数のWIAの代替手段へのアクセスを求めて対照群と争うこともできず、時にはその枠を押しのけてしまうこともある。後者がなければ、対照群では代替サービスの利用が多すぎることになり、その結果、影響を測定する際に、治療群と対照群の平均的なアウトカムの差が小さすぎることになる。対照群のメンバーは、WIAのない世界を正確に反映していない。なぜなら、真の反事実の世界では、WIA以外の研修枠を治療群のメンバーだけでなく、実際に研修枠を共有している他のすべての人と共有しなければならないからである。

評価結果は、WIA を現在の規模で維持するか完全に廃止するかの決定を導くものであり、同じ顧客グループに同様のサービスを提供している他のプログラムは、WIA が廃止されても規模を拡大しないだろう。もし DOL が、フルスケールの WIA と WIA なしのどちらかを選択し、それが残した「穴」が他の雇用・訓練サービス資金提供者によって全く埋められないことを期待していたとしたら、DOL は確かに、対照群のメンバーが他の WIA 以外の訓練枠を求めて治療群のメンバーと競争しなければならないことを望んでいるだろう。しかし、もし DOL が WIA の消滅によって生じた「不足」に対応して他の資金提供者がサービスを拡大することを期待しているのであれば、ある時点までのコントロールグループのサービス利用可能性の追加は、正しいカウンターファクチュアルを表していることになる。他のプログラムは、その差の大部分または全部を補うために規模を拡大するかもしれない。

WIA に参加している個人のサンプルと他の同様のプログラムに参加しているサンプルを対比させれば、DOL の政策決定の結果を正確に描写することができるだろう。

政策立案者が、WIA の資金を完全に排除する可能性よりも、余裕をもって WIA の資金を拡大するか縮小するかを決定するための指針を求めている場合にも、同様のことが言える。WIA タイプのサービスを求める人々のうち、マージンでの WIA の定員拡大や縮小の影響を受けるのはごく一部の人々に限られている。この状況では、対照群のメンバーに何が起こるかは、WIAからわずかに離脱した個人の選択肢と結果をよく表しているはずである-彼らは、プログラムの規模がわずかに変化するだけで、そのプログラムに留まる労働者と競争する必要は本当にないだろう。このように、実験における治療法と対照法の比較によって生み出されるコントラストは、DOLの政策選択の正しい結果を再びトレースすることになるだろう。

既存のプログラムのほとんどの評価は、「オール・オア・ナッシング」ではなく、ギリギリのところで資金調達と規模に影響を与える可能性が高く、断片化された連邦システムでは代替サービスの規模の調整が部分的に相殺される可能性があるため、対照群のメンバーの間で代替サービスに完全にアクセスできるようにした無作為化実験の方が、対照群にアクセスできない実験よりも、望ましい評価のカウンターファクトへの近似性が高いように思われる。どちらも完全ではないが、原理的には、コントロール・グループの経験の完全版は、政策が変更されるまではわからない（僅差でも劇的でもない）。

他の機関が少し反応するか、あるいは多く反応するかという情報がなければ、政策評価の安全な基礎が得られない。そのような情報がなければ、サービスへのアクセスにおけるわずかな変化と、より控えめな治療管理の違いを特徴とする慎重なアプローチ、すなわち、ほとんどの社会実験が実際に生み出すアプローチが、政策評価のためのより安全な基礎を提供している。

批判その5：治療群の経験は、プログラムの規模の変化や対象となる集団の変化によって歪められている。

ランダム化インパクト研究のもう一つの難解な問題は、サービススロットの数が固定されている介入の治療群側で、通常それらのスロットを占めるであろう人々や組織の一部が対照群に配置されている場合に発生する。通常サービスを受けている集団の一部を削除すると、必然的に以下の2つの変化のうちの1つが生じる。
既存のプログラムの運営に対する影響：提供する人が減り、キャパシティを下回って運営される（あるいは、キャパシティを下回っている場合は、通常よりもさらにキャパシティを下回って運営される）;および／または、キャパシティの制約のために通常は提供されないであろう追加の人々にサービスを提供する。少なくとも、プログラムは、おそらく以前よりも多くの人を募集しなければならず、これは、提供される人口の特性に関する結果に関係なく、プログラムの運営について何かを変えることになる。この問題を回避する方法はない。人為的に参加希望者を引き抜こうとすると、必然的にプログラムの参加者が足りなくなる（あるいは通常よりも少なくなる）か、通常は参加しないであろう他の参加者を参加させることになる。

問題は、これらの結果のいずれかが、測定されるプログラムの影響の大きさや、無作為割付けによって決定しようとする量に重要かどうかということである。おそらく、どちらの状況も重要であると思われるが、あまり大きな範囲ではないかもしれない。不自然に空室が発生しているプログラムは、サービスを提供している顧客に対して、サービスの提供方法が異なる可能性がある。予算が変わらない場合、完全に加入していないプログラムの典型的な参加者は、より多くのサービスを受け、より大きな影響を経験するかもしれない。あるいは、参加者数が減少すると、サービス提供設定における参加者の相互作用の大きさに依存する介入のグループ要素（例えば、教育的介入におけるクラスの規模）のダイナミックが変化し、小グループに参加する人々への影響が増大するか、あるいは減少する可能性がある。

通常サービスを受けている人口の一部を取り除くことは、必然的に、既存のプログラムの運営に 2 つの変化のうちの 1 つをもたらすことになる：サービスを提供する人が減り、キャパシティを下回って運営される（あるいは、キャパシティを下回っている場合は、通常よりもさらにキャパシティを下回って運営される）。

問題は、これらの結果のいずれかが、測定されたプログラムの影響の大きさに重要かどうかである。

あるいは、通常であれば定員の制限のために閉鎖されてしまうような人々が追加されても、プログラムの規模や運営は変わらない可能性がある。これらの人々は、プログラムの見解では優先度が低いクライエント、または、最初の選考を確実に行うための意欲や能力が低いクライエントである。通常の年では、研究のために「先に並んでいる人」に無作為な除外が課されない場合、その人たちはサービスを受けられないであろう。でない限り

ある種の抽選は、通常、申請者の余剰セットの間でスロットを配給するために使用されている、アクセスを得るための通常の手段は、実験が克服するために使用されていることをまさに問題の一つを取得する人としない人の間の区別を作成する。それは、援助を最も必要としていると考えられている申請者が優先されるか、プログラムのサービスから最も恩恵を受けると期待されている人たち（同じ人たちかもしれないし、そうでないかもしれない）が優先されるということかもしれない。そうすると、ある要因または別の要因で、応募者と関心のある非応募者との間には違いが生じ、その違いはプログラムの影響の大きさと相関関係があるかもしれない。これは、測定された影響の大きさに大きく影響する可能性は低いが、別の種類の選択問題を生み出している。

サンプルは、ランダム割り当てによって互いに一致しているが、どちらもわずかに間違った人々のセットを表しており、通常サービスが提供されるであろう人々とはやや異なった、より大きなセットを表している。

このような状況では、Olsenら（2007）は、通常はどの個人がサービスを受けていたかを特定する方法を提案しており、そのサブセットについてだけインパクトの結果が得られるようにしている。地元のプログラム運営者には、通常の年（すなわち、抽選のない）に登録していたであろう応募者を特定する機会を与えることができる。これを確実に行うインセンティブとして、これらのケースが対照群ではなく治療群に無作為に割り振られる確率が高くなることが挙げられる。この一連の参加者と対照群の対応者は、事前の無作為割り付け情報によって定義されたサブグループとして分析することができ、この研究では通常の集団に対する影響の推定値を得ることができる。

これらの要因が実験データから測定された影響の大きさにどの程度影響を与えるかについては、良いデータは存在しない。分かっていることは、これらの問題（登録者数の人為的不足と参加者数が通常よりも少ないこと）は、プログラムの定員に対して対照群の規模が縮小されるにつれて減少するということである。コントロールグループのメンバーが多くの地域のプログラムに分散している場合、どのコミュニティでも1つか2つだけのコントロールグループの事例があるだけで、どのプログラムも通常の規模を大幅に下回ったり、通常はサービスを提供するであろう一部の人々をコントロール状態に追い出すことで、非常に多くの新規顧客にサービスを提供することを余儀なくされたりすることはない。

National Job Corps Studyは、1つのローカル・プログラム・サイトでのコントロール・グループの排除を最小限にすることで、治療グループの歪みを回避しつつ、多くのサイトを含めることで大規模な総コントロール・グループと評価サンプルを達成した優れた例である(Schochet, et al 2001)。このモデルは可能な限りエミュレートされるべきである。

批判#6: 実験は、無作為割付によって管理された政策露出の差についてのみ選択バイアスを排除し、重要な影響の疑問が生じる他の場所では選択バイアスを排除していない（データによって回答されたときに選択バイアスに遭遇する可能性がある）。

最後の科学的な異議は、無作為割付の時点で参加の効果を測定する際に選択バイアスを排除する一方で、実験は摂取プロセスの他の段階で参加の結果について同様に明確な情報を提供していないということである。例えば、無作為割付け後にのみ決定される（したがって対照群については決して知られていない）サービスの異なるシーケンスまたは「投与量」の相対的な影響についての非実験的な比較が評価者に残されている12 。逆に、実験では、無作為割付け前のプログラムとの相互作用が参加者の結果にどの程度の違いをもたらしたかを直接示すことはできない。

このことは、摂取の流れや参加の初期段階でランダム割り当てをどこに配置するかを賢く選択することの重要性を強調している。しかし、この批判は実験的アプローチに乗り越えられない負債を生み出すのであろうか？いいえ、他のタイプのインパクト分析は、実験が無作為割付を配置していないすべての点で同じように障害があり、実験が無作為割付を配置している場合ははるかに障害があるので、そうではない。一つの選択バイアス問題（研究が取り組むべき最も重要な政策問題に対する答えを歪めてしまう可能性のある問題）を解決することは、何も解決しないよりも実験の方が明らかに美徳である。

…他のタイプのインパクト分析は、実験が無作為割付けを行わないすべての点で同様に障害となり、実験が無作為割付けを行う場合にははるかに障害となる。選択バイアスの問題を一つ解決することは、研究が取り組むべき最も重要な政策問題に対する答えを歪めてしまう可能性のある問題であり、何も解決しないよりも実験の方が明らかに美徳である。

実現可能性への懸念

無作為割付けの影響評価の倫理的・科学的な欠陥が指摘されていることから始めて、これらの批判は実験の終着点ではなく、より強力な影響評価を構築する上で考慮すべき問題に過ぎないと主張していた。次のステップは簡単なように思える。”ただ実験をすればいい」ということである。しかし、そうではない。私たちが今議論している社会実験がどのような状況で実施されるのかという実現可能性の問題も検討が必要である。この領域での我々の結論は、ここで特定された無作為化実験に関する8つの実現可能性の懸念のうちの一つ一つは、対処すべき政策的な問題が十分に重要であれば、関心のある評価のサイジングと実施に十分な資源を割くことによって克服できるということである。当然のことながら、実現可能性の課題を解決するための支出を正当化するのに十分な重要性がない政策問題は、実験法で研究すべきではない（18ページの批判#15の資金調達のトレードオフの議論を参照のこと）。

批判#7：地域コミュニティ全体に影響を与える飽和介入は、無作為に割り付けることができない。

システム変更やその他の地域社会全体を対象とした「飽和」介入の評価は、非実験的に評価されるのが一般的になってきている（例：Connell, Kubish, Schorr, & Weiss, 1998; Fulbright-Anderson, Kubish, & Connell, 2002）。これらの評価の中でも最も洗練された（そして高価な）評価であっても、因果関係の主張の裏付けを提供し、介入と観察されたアウトカムの変化を結びつけるという点では、大きな課題に直面している。

我々は、地域社会全体の変化への取り組みを評価する努力は、十分な資源がこの課題に費やされていれば、実験計画の有力な候補になるだろうと考えている。米国は非常に大規模な国であり、何千もの地域社会や近隣地域があり、特定の政策や介入への参加・不参加を無作為に割り付けられる可能性がある。実現可能性の制約はなく、資金面での課題があるだけで、場合によっては、資金投資を行うことを正当化するために提起された政策問題の重要性が十分でないこともある。

飽和介入はまた、データ収集をより難しく高価にし、コミュニティの多くの人々に分散している場合には、発生した影響を見つけることが困難になるが、これらの欠点は、実験に限らず、飽和介入の影響分析にも影響を及ぼす。少なくとも、介入がコミュニティの飽和を伴うという単純な事実は、その影響を評価するために実験計画を使用することを否定するのに十分な議論ではない。

ここで特定された無作為化実験に関する8つの実現可能性の懸念のうち、1つ残らず1つは、関心のある評価のサイジングと実施に十分な資源を割くことで克服できる。

批判#8：登録目標の達成に苦慮しているプログラムでは、対照群を追加すると必要とされる資格のある申請者の総数が増加するため、無作為化実験に必要なサンプルサイズを提供することができない。

実験計画のサンプルサイズの要件を満たすことについての懸念は、プログラムがすでに登録目標を満たすのに苦労している状況、すなわち、資金提供されたサービスの「枠」をすべて使い切るために治療群を十分に埋めることに苦労している状況では、当然のことながら生じる。投与されていない対照群を切り取るために、さらに多くの症例を必要とする無作為化実験をどのようにして行うことができるのだろうか？一つの可能性としては、このような状況にあるプログラムは、現在の資金レベルを正当化するほど地域社会での需要が十分ではないため、以下のようにして資金を削減すべきであるということが考えられる。

マージンその時点では、無作為割付け評価はもはや実行不可能である。しかし、資金の削減を検討する前に、プログラムの有効性に関する情報を得ることが重要であるかもしれない。その場合、どの地域でも、その地域社会におけるプログラム全体の規模と比較して、少数の対照群の症例をサンプリングする必要があるだけである。十分な数の地域を調査に含めることができる限り、これでも評価に十分なサンプル数を提供することができる13。

場合によっては、資金が提供された枠を使わずに中程度の規模の対照群を収容するために、申請者の流れを十分に増やすために、追加の技術支援リソースが必要になるかもしれない。

批判#9：無作為割り付けは、実験的な環境ではその結果を十分に検証できない極めて長期的な介入には適切ではない。

政策革新の中には、長期的な計画が行動の指針となるような長期的な計画の下で一般的に考えられている分野で、市民や企業の意思決定を変えようとするものがある。

長期的な行動に影響を与えることを目的とした政策が、実験的な設定ではその政策が永久に（あるいは少なくとも何年も何年も）自分たちに適用されると信じている治療群のメンバーと、その政策が自分たちに適用されることはないと信じている対照群のメンバーがいない限り、その影響が完全に明らかになるとは期待していないだろう。ここで懸念されるのは、新しい政策介入をテストする際に課す条件として、これらは非現実的なものであるということである。すなわち、実証プロジェクトでは、どちらのグループにも永続性の信頼できる感覚を作り出すことができないということである。

この懸念に対して、私たちは2つの点を指摘したい。第一に、政府の国民や企業に対する待遇は常に変化しているので、無作為割付け実験のように、異なる現在の「ルール」の下での行動を観察するのに適した文脈では、現在の政策がいつまで続くのかという不確実性が生じる。第二に、評価における治療群と対照群のメンバーの政策条件は、無作為に割り付けられたからといって、不自然に省略される必要はない。対照群は、倫理的な懸念が極端にならない限り、テストされた介入からの「禁輸」は時間的に制限される必要はなく、治療群の介入は生涯にわたって提供され、資金提供されることができる。

…評価における治療群と対照群のメンバーのための政策条件は、不自然に省略される必要はない …

倫理的な懸念が極端にならない限り、テストされた介入からの対照群の「禁輸」は、時間的に制限される必要はなく、治療群の介入は、以下のために提供され、資金提供されることができる。

代替政策の成功には、その側面が十分に重要である場合には、一生涯を過ごすことができる。

代替政策のその側面がその成功にとって十分に重要である場合。一例として、病状の改善が期待できない個人への代替障害給付の提供がある。就労を奨励するように設計された給付規則の変更は、治療群のメンバーがこれらの変更が生涯にわたって自分に適用されると信じていない限り、効果がないか、あるいはその効果が十分に発揮されないかもしれない。このことは、正確な実験的知見を得るための障害とは考えていない。

療養グループのメンバーの全生涯にわたる給付規則の変更のために支払うために。治療群メンバーの長期的な計画決定を考慮すると、肯定的な効果の初期所見が十分に有望である場合には、介入を対照群にその生涯のうちに適用することができる。

批判#10：治療群全体の平均効果が小さすぎて検出できないため、無作為割付けは無作為化後の参加率の低い介入には適切ではない。

単純な事実は、小さな平均効果は十分に大きなサンプルで検出できるということである。平均的に小さくても大きな政策的重要性がある場合、あるいは、平均的な参加者に対する介入の効果に変換された後に大きな政策的重要性を保持するのに十分な大きさになる場合には、より大きな標本のコストが正当化される。

批判#11：介入には複数の側面があり、個々の側面の影響はそれ自体が関心事である場合、実験はプログラムの有効性の質問に情報を与えない。

政策評価を委託する政府機関が研究者に、プログラムが全体的に望ましい影響を与えているかどうか、また、与えている場合には、プログラムのどのような特徴がその有効性を説明しているかどうかを判断するように依頼するのが一般的である。この第二のカテゴリーの情報により、資金提供者は、効果的な構成要素を増やしてより大きな効果を得ること、および／または効果にプラスにならない構成要素を排除することで、介入をより費用対効果の高いものにすることができるようになる。調査対象の介入要素のパッケージ全体に関する実験的知見のアップ／ダウンの性質は、有効性を失うことなくプログラムをより効果的にしたり、より低コストにしたりする方法を発見する方法としての社会実験の有用性を著しく制限していると考えられている。

無作為割り付けに基づく評価に対するこの批判への反応は明らかである：介入パッケージの構成要素や全体的な介入アプローチの異なるバリエーションなど、より多くのものを無作為化することである。米国住宅都市開発省のホームレス家族への援助に関するファミリー・チョイス評価のような最近の例では、異なる治療モデル間で異なる政策的特徴（例えば、住宅補助金の期間、住宅援助に加えて社会サービスの提供）のうち、どの政策的特徴が対照条件の改善に不可欠であるかを決定するために、対照群に加えて2つまたは3つの異なる介入モデルに無作為割り付けを行っている。最近の社会実験では、「マルチアーム」無作為割付は珍しいが（別の例として、就労福祉戦略の全国評価があるこのままではいけない。実際、「初期の社会実験は、介入の複数の変種に無作為に割り当てることにおいて、はるかに野心的であった」(Bloom, 1995, p.18)。例えば、1970年代の負の所得税(NIT)実験では、人々の反応を確認するために税率と保証レベルを変化させることによって、58もの異なる政策オプションに家族を無作為に割り当てた(Greenberg and Robins, 1986)。このアプローチは、十分な資金が投入されていない場合（すなわち、より少ない人数がどの政策オプションにも割り当てられている場合統計的精度を犠牲にする可能性があるが、これらの例は、「何が最もよく機能するか」という問題への適用性の欠如が、無作為割付け実験の固有の制限ではないことを強調している。

さらに、多段階無作為割付けは、統計的精度を犠牲にすることなく、異なる治療経験の効果についての質問に答えるために使用することができる。例えば、政府機関が（イギリス政府が10年前に行ったように）知りたいと思ったとする。

・就労インセンティブが公的所得支援給付を受けている人の雇用を増加させるかどうか。
・そのようなインセンティブが雇用の成功と自給率に与える影響が増加するかどうか
これは、インセンティブによって就労に誘引された人たちに、交通費の補助やケースワーカーの介入などの追加的な就労支援を提供することによって、職場での問題が発生した場合には、インセンティブによって就労に誘引された人たちに就労支援を提供することである。

対象集団を最初に3つのグループに無作為化し、1つは新たな労働インセンティブを受ける治療群、もう1つは新たな労働インセンティブに加えて追加の就労支援を受ける治療群、そして対照群とすることで、各グループの規模を2群無作為配置と比較して3分の1に削減するのではなく、革新的なデザインでは、2つの異なるポイントで無作為化することになる。このデザインは、一部のサンプルメンバーを複数の目的に使用することで、与えられたサンプルサイズの合計に対する影響推定値の統計的精度を高めるだけでなく（例えば、仕事を得られなかったインセンティブを与えられた労働者は、インセンティブのみの政策とインセンティブ+ジョブサポート政策の下での結果を表すのに役立つ機会が与えられた場合にジョブサポートを実際に利用した個人だけにジョブサポートの影響を集中的に調査することで、統計的に検出可能な影響をより多くの確率で検出することが可能になる14。

このように、社会実験は介入のどの要素がその成功を生み出すかを決定するために「ブラックボックスの中を見る」ことができないという批判は、多面的な介入のどの構成要素がその成功につながるかを明らかにすることができるデザインと分析の選択肢を無視している。

複数の治療モデル間で無作為化することや、多面的な介入における多様な影響を捉えるために多段階無作為化を用いることに加えて、上記の批判#3に対応して説明した分析的アプローチがここでも適用される。異なる介入の構成要素を使用している人への影響は、異なる治療レジメン間でさらに無作為化を行わずに、どの構成要素が重要であるかを学ぶために実験デザインの強みを引き出す方法で計算することができる。したがって、介入のどの要素がその成功を生み出すかを決定するために社会実験が「ブラックボックスの中を見る」ことができないという批判は、多面的な介入のどの構成要素がその成功につながるかを明らかにすることができるデザインと分析の代替案を無視する。

批判#12：実験は、実験サンプルを超えて「一般均衡」の結果をもたらす介入の完全な効果を捉えていない。

相互に連結した世界では、社会政策の結果のいくつかは、提供されたプログラムやサービスに直接関与していない個人にも波及する可能性がある。例えば、職業訓練によって労働者が他の労働者が就いていたであろう仕事に就くことができるようになり、研究対象外の労働者の収益が減少する場合などがこれに該当する。

経済学者は、このような状況を「一般均衡効果」と呼んでいる。介入に直接参加した人と、実験的対照群のような限られた非参加者のサンプルに基づくすべての研究は、無作為化実験計画に限らず、研究サンプルの外へのスピルオーバーという問題に直面する。実際、これらのスピルオーバー効果を直接捉えることはできないが、無作為化がこれらの効果を測定することをより困難にするわけではない。実際、実験データを用いて、潜在的に重要な一般均衡効果の大きさに有用な上限または下限を設けることができる場合があるが、これは、米国保健福祉省の「雇用検索のためのデザイン・オプション」プロジェクトで提案され、著者らが現在開発中のものである。より一般的には、一般均衡分析が直面している社会政策イニシアチブのより広範な「波及効果」は、常に測定が困難であるが、それらの政策の直接的な効果を実験的に測定してきたのであれば、それに越したことはない。

批判#13：実験は一般的に統計的に代表的な施設の集合に基づいていないため、一般化可能性が限られている。

無作為化試験の魅力は、その「内部妥当性」、すなわち、治療群を構成する人々や組織に関する偏りのない情報を提供する能力、したがって、研究サンプルの内部にあることにある。政策立案者は、その評価の「外部的妥当性」、すなわち、アメリカのすべてのホームレス家族や少数民族が経営する小規模企業など、関心のある外部の世界に対して研究結果が正確であるかどうかにも注意を払うべきである。研究者たちは、外部妥当性を提供するために特別に設計されていない社会実験は、研究サンプル内の影響について非常に正確な証拠を提供している場合でも、より大きな世界に対して誤った政策ガイダンスを与える可能性がかなりあると主張してきた（Olsen et al.

現在進行中の社会プログラムの少なくとも6つの無作為割付け影響評価は、内部的妥当性と外部的妥当性の両方を達成しているが、後者の妥当性は、地域のプログラムを研究から大幅に排除することなく、全国の地理的な確率サンプルで実施されていることによって達成されている。フードスタンプ雇用・訓練評価（Puma et al. 1990）はその一例であり、全米ヘッドスタート影響研究（Puma et al. しかし、外部的な妥当性を持たない社会実験についてはどうだろうか。

一般均衡分析が直面する社会政策の取り組みのより広範な「波及効果」は、常に測定が困難であるが、それらの政策の直接的な効果を実験的に測定してきたのであれば、それに越したことはない。

外部妥当性を持つ非実験的影響評価よりも、選択バイアスのために内部妥当性を欠いている非実験的影響評価の方が好ましいのではないだろうか？内部妥当性と外部妥当性のトレードオフは、この2つの用語が考案されて以来、学者によって議論されてきました（例えば、Bracht & Glass, 1986; Jimenez-Buedo, 1986）。

– Miller, 2010）、外部妥当性（Reichardt, 2011）に内部を好む一般的なコンセンサスと、それゆえに実験を支持する。しかし、これは、例えば Tipton と Hedges (2011) による最近の研究で強調されているように、外部的妥当性を社会実験の手の届かないところに置いているわけではない。

批判#14：実験には時間がかかりすぎる。

無作為割付を設定して実施し、中長期的な成果が現れるのを待つための数年のラグがなく、結果がすぐに必要とされる政策決定は、実験に頼ることができないという批判もある（例えば、Besharov, 2009）。この批判に対して、いくつかの反論を行う。第一に、この批判に対していくつかの反論を行う。
政策立案者が長期的な成果と影響に関心を持っている場合、どのような前向きな評価設計であっても、政策に関連したフォローアップ期間をカバーするために必要な時間が必要となる。一つの可能性としては、政府機関が、実験データから常に新しい情報が得られるように、進行中のプログラムの実験的評価を定期的かつ時間的に重複して実施するシステムを確立することが考えられる。さらに、短期的な成果の評価は「長すぎる」必要はない。PeckとScott（2005）が示したように、6ヶ月の追跡調査を行った小規模な政府の介入は、6ヶ月弱で完了し、技術革新を適時に修正・拡大するための政策決定に情報を提供した。さらに、Ludwig, Kling, Mullainathan（2011）は、未知の因果関係の連鎖から生じる長期的な影響ではなく、介入がその効果をもたらす短期的なメカニズムに焦点を当てるよう、実験研究の成果を変えるよう促している。

財政問題

批判#15：実験は高すぎる。

前のセクションで提起された8つの実現可能性に関する懸念は、一般的に政治的な意志、十分な資金調達、そして有能な評価管理によって克服することができる。しかし、実験の財政的コストは、研究のスポンサーとなっている人たちへのものであり、したがって、納税者への間接的なものであるが、実験の利用に対する重要な障害としてしばしば提起されてきた(例えば、Orr, 1999)。この小論では、代替的な影響評価デザインのコストを詳細に調査することはできない。政府、財団、非営利団体を問わず、資金提供機関に対する予算の制約は、特に財政的説明責任が高まり、結果重視の政策決定が行われる時代にあっては、実験を回避する有効な理由にはならないということだけは言っておきたい。

このことは、競合する研究手法の中から選択する適切な根拠が、同じような政策問題に取り組む他の同じような野心的な研究と比較した実験の限界コストであることを認識している場合には、特に明らかである。政策の有無にかかわらず、何千人、何千人もの人々の社会プログラムの成果について広く代表的なデータを得ることは、決して安価なものではない。

例外としては、現在の人口調査やプログラム動態調査など、評価以外の目的で収集された大規模な家計調査や労働者調査のデータがある。これらの場合、データ収集の社会的コストはすでに支払われており、個々の連邦機関は低コストで情報を利用することができる。残念ながら、社会プログラムの影響を測定するためにこの種の全国調査に頼ったのは、慎重な方法論研究によって信頼を失墜させられた、影響評価に対する最初の非実験的アプローチであった（Barnow, 1987; LaLonde, 1986）。

もう一つの例外は、小規模な地方の改革が、政策やプログラムを微調整し、その後のパフォーマンスを向上させるための漸進的な変化のための理想的な試験場となり得るという観察から来ている。先に引用したPeck and Scott (2005)の例では、ある州が生活保護の受給プロセスを変更しようとした努力を記録している。大規模な改革ではないが、この改革では、ケースワーカーがそれまで使用していたものよりも詳細な入所評価を使用した場合に、生活保護受給者がどの程度（雇用の成果という点で）良い状態になるのかを確認するために、実験的なデザインを使用した。州のプログラム管理者と分析者が介入を設計・実施し、治療対象者と対照者の特徴と結果に関するデータを提供し、大学の研究者が短期的な影響を判断するためにデータを分析した。このパイロットテストのコストはわずかであり、州が単に手続きの変更前と変更後の結果を比較していた場合よりも、より決定的な学習が得られた可能性が高い。つまり、すべての社会実験が、私たちが議論してきたような大規模な国の政策改革ではないし、そうする必要もないということである。また、小規模で地域に密着した取り組みは、プログラム運営の変更が対象者のアウトカムの変化とどのように関連しているかを、プログラム管理者がよりよく知るための手頃な方法となり得る16。

…政府、財団、非営利団体を問わず、資金提供機関に対する予算の制約は、実験を避けるための有効な理由ではありません、特に、財政的説明責任が強化され、結果に焦点を当てた政策決定が行われる時代においては。

より大きな規模では、コストに関する重要なポイントは、実験を行わなかったことによる「機会費用」、つまり、効果のないプログラムに費やされたお金、つまり、効果のないプログラムに資金が提供され続けている（誤った希望を与え続けている）プログラムに費やされたお金のことを考えている。
が利用できない。これに基づいて、適切な広い社会的視点が採用されれば、他の方法と比較して比較的低コストの投資オプションとして、バランスが実験に向かって明らかに傾いていると考えるオブザーバーもいる。驚くことではないが、これらの研究者は無作為割付け研究を最も率直に支持してきた（例：Burtless & Orr, 1986; Orr, 1999）。

重要なことは、非実験的なインパクト評価方法への貢献で知られる著名な研究者も、最近になって同様の立場をとるようになったことである。
例えば、Smith (2002)は次のように書いている：「無作為割付にはコストがかかるが、それは一般的に、スタッフのトレーニング、継続的なスタッフのモニタリング、潜在的な参加者への情報提供が必要だからである。

また、実験的・非実験的を問わず、どのようなデザインの大規模な政策インパクト評価にも、科学的・実務的な限界がある。….。多くの研究が

実験の適切性に疑問を呈する文献の中で、これらの欠点について作られたもので、多くの場合、それらが実験に特有のものではないことを認めずに行われる。

(Greenberg er al)。 (2004)は、「社会実験のダイジェスト」の中で、重要な締めくくりの視点を提供している：「社会実験のスポンサーになるには、複雑な資源配分の決定が必要である。これまでに実施された社会実験は、政治的見解の広いスペクトルを代表する多くの異なる[個人]によって承認された。..それは、多くの非常に異なる個人が、このタイプの調査がそのコストに見合う価値があると決定したことは驚くべきことである」(13)。信頼できる政策指導が無作為割付計画の使用に依存していることが知られている中で、資金不足を理由に、このような厳格な実験的影響評価の実践から手を引くことは、今日の国政府にとって難しいことであろう。

その他の批判

我々が詳述した15の障害とされるものは、実験的に設計された評価に最も直接的に関係している。また、実験的、非実験的を問わず、どのようなデザインの大規模な政策インパクト評価にも、科学的、実務的な制限がある。これらには、不完全なデータ、限られたサンプルサイズ（特にサブグループに対する効果を見る場合クロスサイト変動の原因を選別することができないこと、研究施設が全国的に代表的でない場合、国の政策決定のための確実な信頼性がないことなどが含まれる。実験の適切性を問う文献では、これらの欠点について多くのことが行われてきたが、それらは実験に特有のものではないことを認識することなく、多くの場合、実験の適切性が問われている。実際には、自然に発生している個体群は、政策的な影響を受けている個体群と受けていない個体群があり、（i）代表的でない場所で、（ii）データが不完全な状態で、非実験的な方法を用いて研究されることがよくある。

また、(iii)どのサブグループがより多くの恩恵を受けているのか、(iv)サブグループやロケール間での見かけの影響の違いを説明する能力はほとんどない。

社会実験のもう一つの批判は、入れ子になったデータや階層化されたデータの不正確な分析に関するものである。これは、影響を測定するために使用される統計モデルが、無作為化が行われる階層のレベルを無視している場合に起こる。例えば、教育改革に関する研究では、学校全体が無作為化されていても、評価者は個々の生徒が無作為化されている場合にのみ、信頼性の高い結果が得られるように設計された手法を適用している（例：Bickman & Reich, 2009; Henry, 2009）。私たちはこれを無作為化評価デザインが克服すべき課題として挙げているのではなく、信頼性が高く、問題のない社会実験であるはずのものが、不適切な分析方法を用いているという問題に過ぎない。実験的文脈で入れ子にされたデータを正確に分析する科学が普及するにつれて（この方向への重要な貢献については、例えばBloom, 2005を参照この問題は消滅すると予想される。

考察 & 議論

本論文の目的は、実験デザインの主な批判を特定し、これらが社会政策評価の文脈での実験の使用を妨げる程度を探究することである。第一の倫理的批判の観点から、我々は、供給が制限された社会サービスへのアクセスを合理化するための最も公正な方法は宝くじであると主張する。供給の制約がない状況でも、「宝くじの当選者」が「敗者」よりも良い結果をもたらすかどうかを社会が知らない場合には、そうすることが正当化される。社会実験について提起されているいくつかの科学的な反対意見はまた、無作為化評価アプローチの強さとプログラムの有効性についての政策決定を知らせるためにその可能性に相対的に根拠のないか、またはマイナーであるように私たちに見える。厳密な検査での実験に対するいくつかの実現可能性の障害は、単なる「スピードバンプ」であるように見える。社会実験の利用拡大への道を阻害しないようにするためには、社会実験の利用を促進することが重要であると結論づけている。最後に、プログラムの因果関係を知らないことによるコストは、発見することによるコストよりもはるかに大きい可能性があることを考えると、非実験的なデザインのインパクト評価と比較して、社会実験のコストが高いと認識されていることに対して、社会実験のコストを負担したくないというのは、近視眼的であると結論付けている。

このような潜在的な落とし穴についての考察が、今後の評価活動を計画する際に、政府や財団のセクターの方々にとって有益であることを願っている。また、今では社会実験を利用する上での障害と考えられている要因のいくつかが、文献や他のフォーラムでより大きな議論を受け、その結果、それほど大きな課題ではないと見られるようになることを願っている。無作為割付政策評価の強みと限界の再評価は、実験評価の設計と分析における最近の進歩に照らして、本稿で引用した方法で歴史的な懸念に対処するための無作為割付設計の能力を強化しているので、特に適切であると思われる。

実験は、インパクト評価における慣習的な標準的な実践としての役割を果たすのに十分に堅牢なものであるか？特に、実験を適切に実施するための政治的な意志と資金提供のコミットメントが存在する場合には、十分であると考えられる。インパクト評価は、より広範囲に利用されるべきなのであろうか、また利用されるのであろうか？それは、代替研究戦略のコストと比較した場合のコストに大きく依存する。その一方で、本稿での議論は、倫理、科学的完全性、実現可能性の問題が、政策やプログラムの影響を測るための社会実験の拡大利用の道を阻む必要はないということである。一般的に引用されている反対意見と制限は、精査した上で、誤報である。

無作為割付政策評価の強みと限界の再評価は、実験的評価デザインと分析における最近の進歩に照らして、歴史的な懸念に対処するために無作為割付デザインの能力を強化しているので、特に適切であると思われる。..