コンテンツ

第I部はじめに

謝辞
序文
序文
第1部はじめに
第1章エビデンスに基づく医療の理念
- 1.1 根拠に基づく医療以前の医療は一体何に基づいていたのか？
- 1.2 本書の範囲The Philosophy of Evidence-based Medicine
- 1.3 EBMの主張がどのように検証されるのか
- 1.4 これからの構成
第2章 EBMとは何か？
- 2.1 自称クーニャンパラダイムとしてのEBM
- 2.2 EBM誕生の動機：スケッチ
- 2.3 EBMの定義の原型
- 2.4 EBMのエビデンスシステムに対する批判への反応：より微妙に、より同じように
第3章臨床的判断のための優れたエビデンスとは何か？
- 3.1 はじめに
- 3.2 臨床的有効性に関するエビデンス
- 3.3 強固なエビデンスは何を語るのか？
第2部ランダム化，二重盲検化，プラセボ対照は、その代替法よりも交絡因子を排除しているか？
第4章もっともらしい対立仮説と交絡因子を除外する：方法
第5章有効性のパラドックスの解決：観察研究はいつ無作為化試験と同程度の証拠能力を提供するのだろうか？
- 5.1 有効性のパラドックス
- 5.2 観察研究：定義と問題点
- 5.3 ランダム化試験による救済
- 5.4 ランダム化試験は観察研究よりも良いエビデンスを提供するというEBMの見解の擁護
- 5.5 有効性のパラドックスの克服
- 5.6 結論　質の高い比較臨床試験と質の低い比較臨床試験を区別する、より微妙な方法
- 付録1: 制限付き無作為化の種類
- 付録2: 古典的仮説検定と確率的原因の確立のために無作為化が必要であるというWorrallの議論
第6章臨床試験の普遍的な方法論的美徳としての二重盲検への疑問：フィリップのパラドックスを解決するために
- 6.1 臨床試験の妥当性の要件としての二重盲検の問題点
- 6.2 二重盲検の様々な顔：用語の明確化
- 6.3 参加者と介護者の知識から発生する交絡因子
- 6.4 二重盲検化を成功させることの重要性
- 6.5 フィリップのパラドックスに対する1つ（と2つ）の解決策
- 6.6 フィリップのパラドックスに対する完全な解決策：治療が明らかに劇的であるとき、二重盲検化が交絡因子を除外するという見解に挑戦すること
- 6.7 治療効果が明らかに劇的でない限り、二重盲検化は有用であり、したがってフィリップのパラドックスは生じない
第7章プラセボ対照：有効性のベースライン測定は問題が多く誤解を招きやすい
- 7.1 プラセボ対照の必要性
- 7.2 正当なプラセボ対照
- 7.3 プラシーボコントロールはしばしば正当性の第一条件に違反するのか
- 7.4 プラセボ対照はしばしば正当性の第二条件に違反するか
- 7.5 複雑な治療に対するプラセボ構築の特別な問題：運動と鍼灸のケーススタディ
- 7.6 違法なプラセボ対照の問題に対するまとめと解決策
第8章「プラセボ」対「活性」対照試験*の方法論的優位性を問う
- 8.1 プラセボ対照試験の利用をめぐる倫理的議論の認識論的基盤
- 8.2 ACTに対するアッセイ感度論議の問題点
- 8.3 ACTに対する第一の測定法感受性の議論の問題点
- 8.4 第二の測定法感受性の議論
- 8.5 PCTが絶対的効果量の指標を提供するという見解への反論
- 8.6 PCTがより少ないサンプルサイズを必要とするという主張への疑問
- 8.7 結論　PCTの相対的な方法論的品質の再評価
- 付録：2つ目の感度論が失敗する理由のより詳細な説明
第3部機械論的推論と専門家判断の伝統的役割がEBMによって覆されたというパラドックスを検証する
第9章第3部への移行 9.1 第2部のまとめ 9.2 第3部への導入第10章機序的推論に対するEBMの姿勢の適格な擁護
- 10.1 機械論的推論の支持者とEBMの見解との間の緊張関係
- 10.2 用語の明確化：比較臨床試験、メカニズム、機械論的推論
- 10.3 力学的推論が因果関係を証明するために必要であるという強い見解はなぜ間違っているのか？
- 10.4 力学的推論に関する2つの認識論的問題点
- 10.5 なぜEBM支持者は、エビデンス階層において、質の高い（有効で “完全な “メカニズムに基づく）機械論的推論がより重要な役割を果たすようにすべきなのか？
- 10.6 臨床医学における機構と他の役割
- 10.7 EBMシステムにおける機械論的推論の（少し）より重要な役割の推奨
- 付録：十分に実施された臨床研究によれば、役に立たないか有害である治療法を、メカニスティックな推論によって採用した事例
第11章知識vs.知識方法　専門家の臨床判断に関するEBMの立場を位置づける
- 11.1 専門家による臨床的判断に関するEBMの立場をめぐる論争
- 11.2 一般的な臨床判断はエビデンスの階層の最下層に（あるいは最下層から）属する
- 11.3 個別の臨床判断もまた階層の最下層に属する
- 11.4 エビデンスと無関係な専門家の重要な役割
- 11.5 結論
第4部結論
第12章 EBMを前進させる
- 12.1 調査結果のまとめ：EBMの理念は受け入れられるが。…..
- 12.2 EBMのための2つの新しいフロンティア
参考文献
索引

ある学問や実践の基礎に疑問を投げかけることは、必ずしもその価値を否定することではなく、むしろその長所に対する慎重かつバランスのとれた評価を促すことである。

-R. アシュクロフト＆R.テルミューレン [1]

新しい（あるいは古い）治療法の臨床試験について、これ以上説得力のある、あるいはこれ以上明確に説明することは困難であろう。過去にこのような臨床試験が行われなかったために、結核の金療法に関する何年もの結論の出ない研究が行われることになったかもしれない。

-A.B.ヒル＆I.D.ヒル[2]。

認識論の中心的な問題は、常に、そして現在も、知識の成長の問題である。そして、知識の成長は、科学的知識の成長を研究することによって、最もよく研究することができる。

-カール・ポパー[3]。

この版の初版は2011年

本書の内容は、一般的な科学的研究、理解、考察を深めることのみを目的としており、特定の患者に対する医師による特定の方法、診断、治療を推奨または促進することを意図したものではなく、またそれに依拠するものでもない。出版社および著者は、この著作物の内容の正確性または完全性に関していかなる表明または保証も行わず、特定の目的に対する適合性の黙示的保証を含むがこれに限定されない、すべての保証を明確に否認するものである。継続的な研究、機器の変更、政府の規制の変更、および医薬品、機器、装置の使用に関連する情報の絶え間ない流れに鑑み、読者は、特に、使用方法や適応症の変更、追加の警告や注意について、それぞれの医薬品、機器、装置の添付文書または説明書に記載されている情報を見直し、評価するよう強く要請される。読者は、必要に応じて専門家に相談する必要がある。本書の中で、ある団体やウェブサイトが引用され、さらなる情報源となり得るとしても、著者や出版社がその団体やウェブサイトが提供する情報や推奨事項を支持することを意味するものではない。さらに、読者は、本作品に掲載されているインターネットのウェブサイトが、本作品が書かれた時点から読まれる時点までの間に変更または消滅している可能性があることを認識する必要がある。本作品の宣伝文句によって、いかなる保証も行われるものではない。出版社および著者は、本作品から生じるいかなる損害にも責任を負わない。

ハウイック，ジェレミー

序文

1991年、臨床医が患者を治療する際に、最近の研究結果を考慮することを奨励する国際的なグループが結成された。彼らは、JAMA(Journal of the American Medical Association)誌に「研究の読み方」のシリーズを書き始め、このシリーズの意図を示す新しい用語を必要としていた。いくつかの提案の後、グループのリーダーであるゴードン・ガイアットが「Evidence-Based Medicine」という言葉を提案した。この新しい用語は、世界中に急速に広まったムーブメントに火をつけることになった。エビデンス・ベースト・メディスン(EBM）の手法はその後発展してきたが、考案者たち（多くは臨床医）の関心は、ベッドサイドでの意思決定という現実的な問題だった。当然ながら、彼らはEBMを支えるかもしれない心理学、社会学、哲学にはあまり注意を払わなかった。しかし、EBMが医学界に定着した今、異なる学問分野によるより深い探求が正当化されると思われる。本書は、EBMの哲学、すなわちアリストテレスとヒポクラテスの現代的な対話を検証し、その延長線上にあるものである。

Evidence-Based Medicineという言葉は1990年代までさかのぼるが、その背後にある考え方は何世紀にもわたって進化を続けてきた。EBMの語彙の大部分-バイアス、交絡、無作為化、プラセボ、信頼区間など-は、統計学によって考案され、発展してきたものである。- 統計学者や疫学者によって考案され、発展してきた。しかし、哲学者は、因果関係の本質とその証明、帰納法の正当性、人間の観察、モデル、推論における誤りなど、この考え方の背後にある同じ問題の多くに取り組んできた。これらの用語の多くは内部に登場し、説明されている。また、フィリップのパラドックス、ノセボ効果、確率的因果関係など、通常のEBMの本ではあまり馴染みのない考え方も、このテキストを豊かにしている。

本書は豊富な実例の宝庫である。その中には、禅の公案に似たものもある。それらについて考えることは苦行であるが、EBMについての理解をかなり深めることができる。ニコチン対プラセボの無作為化比較で、両群がニコチン投与、プラセボ投与、何も投与されないことも無作為化された場合（図84参照）、2×3要因計画について考えてみよう。さまざまな比較の可能性から何がわかるか？ニコチンパッチがあるがプラセボだと言われるのと、プラセボパッチがあるがニコチンがあると言われるのと、どちらがよいのだろうか？これらの比較を考えることで、プラシーボ効果や試験におけるプラシーボの位置づけについての考え方が変わるかもしれない。

EBM担当者は、指導すること、そして実践でエビデンスを得ることに重点を置いてきた。しかし、EBMの哲学的な根幹にはあまり注意が払われてこなかった。特に、メカニズムの役割を無視したり、軽んじたりしてきた。メカニズム派と経験派の戦いは、哲学と医学の両分野で長く続いているが、この2つの対立する考え方は、互いに、研究者に、そして研究の利用者に何を提供するのだろうか。第10章は、両陣営を見事に統合している。この章は、著者であるジェフリー・アロンソンと私の間で、長い午後に行われた刺激的な議論の結晶だ。このような会話の中で培われ、ここに書き留められた多くの洞察に加え、私は、EBMの研究に他の分野の意見や洞察を取り入れることの価値も学んだ。そして、その過程では楽しいこともあった。しかし、学問領域を超えて仕事をするということは、大きな挑戦だ。基本的な前提が異なり、目的が異なり、語彙さえも異なることがある。哲学者、医師、探偵、蒸留酒製造業者にとって、「証明」は異なる意味を持つのである。しかし、善意があれば、学際的な探求は哲学と医学の双方にとって実り多いものであることがわかった。そして、これからも続ける価値がある。

この研究は、EBMと科学哲学者の間の重要な対話を象徴するものである。これまでは、あまりに少なかったのである。MEDLINEでEBMと哲学を含むタイトルを検索してみたところ、わずか6件しか見つからなかったが、すべて過去6年間のものである。最後に、これらの論文のうち最も古いものから引用しておこう。AshcroftとTer Meulenは、EBMに関するシンポジウムを報告したJournal of Medical Ethicsの特集号を紹介し、次のように述べている。「ある学問や診療の基礎に疑問を投げかけることは、必ずしもその価値を否定することではなく、むしろその長所について慎重でバランスのとれた評価を促すことである。そして、お近くの哲学者にお茶やエールを飲みに行き、刺激的な議論に加わっていただければと思う。

ポール・グラズィオ教授 PhD FRACGP MRCGP

エビデンス・ベースト・メディスン部門ディレクター

オックスフォード大学（英国、オックスフォード）

序文

ほとんどのEBMのエビデンスの「階層」は、比較臨床研究（無作為化試験のシステマティックレビューを含む）を機械的推論（「病態生理学的根拠」）および専門家の判断よりも上位に位置づけている。比較臨床試験の中でも、無作為化試験は観察研究よりも強力なエビデンスを提供すると考えられている。初期のEBM提唱者は、「低レベル」のエビデンスに基づいて採用された多くの広く使われている治療法が、無作為化試験による評価を受けると、役に立たないか有害であることが証明されることを示した。このような説得力のある根拠にもかかわらず、EBMのエビデンス哲学はいくつかのパラドックスを引き起こしている。おそらく最も顕著なものは、我々がその有効性に最も自信を持っている、つまりエビデンスによって最も強く支持されていると考えている治療の多くが、いかなる種類のランダム化試験によっても支持されたことがない、ということである。これらの治療法には、停止した心臓を動かすための自動体外式除細動、塞がった空気の通り道を開くための気管切開、気道の閉塞を取り除くためのハイムリック法などがある。EBMの方法論は様々な側面から批判されてきたが、システム全体としては、いくつかの例外を除き、批判を免れることができた。パラドックスについて概説した後（第1章）、EBMとは何か（第2章）、ある治療法が「効く」という主張はどのように解かれるべきか（第3章）、を検討する。次に、比較臨床試験の相対的な強さを評価する方法を守り（第4章）、無作為化試験に関するEBMの立場が、若干の修正を加えることで持続可能であることを主張する（第5章）。その修正とは、無作為化試験を上位とするカテゴリカルな階層を、比較臨床試験がもっともらしい交絡因子の複合効果に勝る効果量を明らかにすべきであるという要件に置き換えることである。次の3章では、二重盲検化（第6章）とプラセボ対照（第7,8章）が比較臨床試験の質を高めるという主張について評価する。次に、機械論的推論と専門家の判断に関するEBMの立場を検証する（第9章〜第11章）。機械論的推論は、しばしば認識されていない問題に悩まされながらも、おそらく比較臨床試験からの証拠と並んで、証拠として認められるべきであると主張する。一方、専門家の判断はエビデンスとしては信頼できないが、専門知識は他にもいくつかの重要な役割を果たしており、EBMの文献でもっと真剣に議論されるべきだというEBMの考え方を擁護する。私の結論（第12章）は、厳密なヒエラルキーに代わって、十分に質の高いすべてのエビデンスをエビデンスとして認めるべきであり、専門家の様々な非エビデンス的役割は、EBMの文献でもっと議論されるべきものである、というものである。

第I部はじめに

第1章エビデンス・ベースト・メディシンの哲学

エビデンスに基づく医療(EBM）の方法論を用いることの正当性を徹底的に分析したものである。なぜ、EBMの方法が他の方法よりも信頼できる知識を提供すると信じなければならないのか。EBMのさまざまな側面を批判する人は多いが、システム全体としては、いくつかの顕著な例外 [4,5] を除き、慎重な精査を免れてきた。もちろん、EBMの価値を否定することなく、その基盤について批判的な質問を投げかけることは可能だ [1]。そして実際、私の全体的な結論は、ほとんどがEBMの立場に同調するものであり、本書の中心的な目的は、EBMが実際には何を含んでいるかについての誤解を明らかにすることである。この分析には、科学的発見の論理、過小決定の問題、因果関係の推論の本質、そして何よりも証拠の論理（確証論）など、科学哲学の多くの研究が関連している。科学哲学におけるこれらの中心的な問題が、現代の医学にどのように適用されるかに関心を持つ哲学者は、ここで新しい関連資料を見つけることができるはずである。同時に、自分が処方する治療法が「効く」かどうかを判断するためにEBMの手法を用いるべき（あるいは用いてはならない！）根本的な理由を検討したい医療従事者にとっても、この分析は有益であろう。

1.1 EBM以前の医学はいったい何に基づいていたのか？

ざっくりと言えば、治療が有効かどうかを判断するための3つの重複する方法が、医学の歴史において優位性を競い合ってきた。一つは、治療の効果は直接観察されなければならないと主張し、通常、治療を受けた人のグループとそうでない人のグループを比較することによって、治療効果を確認した [6-8]。もう一つの派は、ある治療が治癒をもたらしたと結論づける前に、健康と疾病の根本的な原因（「メカニズム」）が特定されなければならないと要求した [6,9]。この2つの学派と並行して、臨床の「専門家」による権威ある宣言がしばしば強力な役割を果たし、時には外部からのエビデンスに打ち勝つこともあった。EBM運動は最近、最初の方法の側に重きを置いている。

1990年代前半に、EBMは「新しいパラダイム」として、修辞的な力技で紹介された[10-12]。それから20年足らずで、少なくとも7つの学術誌、12冊の書籍、毎年何千ものEBMの新規引用があり、EBMの実践、教育、普及を専門とする国際研究センターの数が増え続けている。British Medical Journal、Journal of the American Medical Association、Annals of Internal Medicineなどの著名な医学雑誌は、研究者がEBMのエビデンスルールに従うことを奨励する編集方針を支持しており [13]、ニューヨークタイムズは2001年にEBMをその年のアイデアと判断した [14]。EBMは、他の分野にも浸透している。社会科学者 [15] 、政策立案者、そしてチャプレン [16] までもが、自分たちの実践が「エビデンス」に基づくものであることを証明しようと躍起になっている。

しかし、1990年以前の医学はいったい何に基づいていたのだろうか。「証拠」とは単に「信じる根拠」という意味であることから [17] 、医学は定義上常に証拠に基づいていた。意図的な欺瞞がない限り、ヤブ医者とみなされる医師でさえ、自分の治療が効くと信じる根拠を持っていた。もしEBMが何か新しいものであり、その支持者がそうだと主張するならば、それは何が（良い）エビデンスとしてカウントされるかの特定の見解でなければならない。

エビデンスに関するEBMの「哲学」は、EBMの「階層」 [18-23] で最もよく表現されている。多くの異なる階層の背後にある考え方は、3つの中心的な主張で非常に簡単に要約することができる（図11)。

1. ランダム化試験(RCT）、あるいは多くのランダム化試験のシステマティックレビューは、一般に観察研究よりも強力な証拠となる。
2. 一般に比較臨床試験(RCTと観察研究の両方を含む）は、より基礎的な科学による「機構的」推論（「病態生理学的根拠」）よりも強力な証拠となる。
3. 一般的な比較臨床試験(RCTと観察研究の両方を含む）は、専門家の臨床判断よりも強力な証拠となる。

初期のEBM提唱者は、「低レベル」のエビデンスに基づいて採用された多くの広く使われている治療法が、無作為化試験にかけられると役に立たないか有害であることが証明されたことを示した。特に劇的な例（しかし、ユニークな例ではない）では、抗不整脈薬が、心臓発作後の突然死の原因について理解されていた（と思われていた）こと（「機械論的推論」）に基づいて広く使用されるようになったというものである。しかし、無作為化試験により、この薬剤は死亡率を増加させ、ベトナム戦争の全期間中の戦死者よりも多くの人を毎年殺していることが示唆された[24]。

図11 EBMのエビデンス階層（すべての種類の研究のシステマティックレビューは、単一研究より優れていると仮定される）。

説得力のある根拠にもかかわらず、EBMの階層はいくつかのパラドックスを引き起こしている。第一は、我々がその有効性に最も自信を持っている、つまりエビデンスに最も強く裏付けられていると考えている治療の多くが、いかなる種類のランダム化試験によっても裏付けられていないことである。これらの治療法には、停止した心臓を動かすための自動体外式除細動、塞がった空気の通り道を開くための気管切開、呼吸路の閉塞物を取り除くハイムリック法、狂犬病ワクチン、肺炎治療のためのペニシリン、重度のアナフィラキシーショックを治療するエピネフリン注射などがある。一方、私たちは、より高い階層からのエビデンスに支えられているいくつかの治療法に対して、しばしば自信を持てないことがある。例えば、抗うつ薬のプロザックは、いくつかの二重盲検RCTにおいてプラセボより優れていることが証明されているが、プロザックの効果（「プラセボ」効果以上）については、激しく論争されている [25-29]。この皮肉を利用して、Gordon SmithとJill Pellは、「重力チャレンジに関連した死亡と重大な外傷を防ぐためのパラシュート使用：無作為化対照試験の系統的レビュー」と題する偽装論文を書いた [30]。彼らは次のように結論づけた。

エビデンスに基づく医療の擁護者は、観察データ(RCTではない）だけを用いて評価された介入策の採用を批判している。エビデンスに基づく医療の最も急進的な主人公が、パラシュートの二重盲検、無作為化、プラセボ対照、クロスオーバー試験を組織して参加すれば、誰もが利益を得ることができるだろう。

厳密に言えば、EBM運動は常に劇的な効果を持つ治療が無作為化試験からのサポートを必要としないことを認めているので、この批評は不公平である [31-34]。しかし、最近の1つの例外 [19] を除いて、現在の階層はこのパラドックスを無視している：（システマティックレビューの）ランダム化試験は、依然としてEBM階層の頂点に位置するものである。

比較臨床試験が機械論的推論や臨床的専門知識よりも強力な証拠となるという見解に対するEBMの根拠もまた問題である。EBMの支持者は、一般化するためには機械的推論が重要であり（第10章参照）、専門知識は外部証拠と統合されるべきである（第11章参照）と常に認めているが、比較臨床試験が機械的推論や臨床専門知識よりも有効性を強く裏付けるという見解は、擁護できる根拠がない。頑固な反対者は、機械論的推論や専門家の判断による結論は、無作為化試験による結論よりも信頼性が高いと常に主張することができる。このことは、EBMの階層自体が「弱い」(EBMによれば）証拠、すなわちEBM専門家の意見によって支えられているように見えるというパラドックスにつながる!

これらの問題は、EBMが多くの点で説得力があるにもかかわらず、持続的な分析が望まれていることを示唆している。批評家はEBMの方法論のさまざまな側面を攻撃してきたが、システム全体としては、注目すべき2つの短い例外 [4,5] を除いては、精査を免れてきた。実際、ほとんどの批評家は、ランダム化試験は非ランダム化試験より偏りが少ないというEBMの見解に注目している [30,35-48]。ランダム化試験の相対的な価値についてはもっと言うべきことがあると思うが、この議論は多くの点でEBMの哲学とは無関係である。ベイズの科学哲学者と統計学者は、EBM運動が生まれるずっと以前から無作為化の相対的価値について議論してきた [49,50]。さらに重要なことは、無作為化試験に関するEBMのスタンスに対するこれらの批判は、EBMの中心的なメッセージ-一般に比較臨床試験は機械論的推論や専門家の判断よりも優れた証拠を提供するという-を手つかずのままにしているということである。

確かに、哲学者 [5,51-56] や医療専門家 [57-61] の中には、基礎科学からの「機械論的」推論に対するEBMのスタンスを取り上げた人もいる。しかし、これらの批評は、無作為化試験の結果を一般化するための機械論的推論の重要性に焦点を当てており、EBM運動は当初からこの見解を受け入れていた [12,32-34]。ある治療法が研究対象集団において平均的な臨床効果を有すること（有効性）を立証するためには、機構的推論は比較臨床試験より劣るというEBMの見解は、まったく無視されている。

同様に、専門家の判断に関するEBMのスタンスについても、問題点を指摘する声があり [62-64]、EBM支持者は臨床の専門知識を取り入れるためのモデルを提案しているが [65] 、専門家の判断に関するEBMのスタンスについて継続的に調査したものはない。実際、1970年代後半以降、専門家による判断の批判的分析はほとんど行われていない[66]。

1.2 本書の範囲

EBMは、そのエビデンス理論が受け入れられるかどうかという問題と密接に関連した多くの切実な問題を提起している。これらには、EBMの実用的な実現可能性と取り込み [64,67]、特別な利害関係者によるEBMの方法論の乗っ取りとされるもの [64,67]、EBMと代替医療の関係 [68-70]、EBMの倫理的意味 [1,46,71-74] 、社会科学と公共政策にEBMを適応することが可能か [52,72,75] 、EBMはいかに実施することができるか [76,77] 、その他EBMに関する社会的、歴史的側面 [78-81] など様々なものが挙げられる。

本書ではこれらの問題に様々な形で触れていくるが、2つの理由からEBMの方法論を個別に分析することが重要であると考えている。一つは、本書を通して見るように、これらの他の問題の多くは厳密な方法論の問題に転化しているからである[47,74,82]。たとえば、EBMと研究倫理の関係について考えてみよう。実験的治療が効果的であることが「わかって」いても、無作為化試験を推進するEBM運動を非難する人もいる [46,47,83] （第4,7、8,11章を参照）。しかし、ある治療法が「有効」であるとすでに知っているかどうかは、かなりの部分、十分な裏付けとなる証拠を持っているかどうかにかかっている。そして、このことは、何が十分な証拠とみなされるかについての私たちの説明にかかっている。したがって、倫理的な理由でEBMを攻撃することは、EBMのエビデンスの哲学に対する攻撃に寄生していることになる。同様に、EBMと代替医療の関係は、何が正当な「プラセボ」対照としてカウントされるかに依存するかもしれない（第7章参照）。

それから、これらの他の論争の中には、EBMの哲学とはまったく無関係のものもある。たとえば、よくある批判は、EBMが特別な利害関係者に乗っ取られてしまったというものである。無作為化試験は費用がかかるので、潜在的に利益をもたらす（つまり特許が取れる）治療法は、そもそも調査される可能性が高くなる [84]。これらの要因は重要であり、生み出される研究の性質と質に影響を与える（第12章参照）。EBM運動が最高のエビデンスを生み出し、患者の転帰を改善することに真剣であるならば、その支持者はエビデンスの生産と普及に関わる強力な勢力とより積極的に関わるべきである。同時に、特別な利害関係者は、いかなる(EBMまたは非EBMの）方法論にも影響を与えようとするものである。例えば、EBMの考え方が激しく否定され、手相の専門家がある介入に効果があるかどうかを決定する揺るぎない権威を持つという考え方が支持されたとする。そうすると、特別な利害関係者は手相占い専門家に影響を与えることに集中することになり、それは大規模な無作為化試験をいくつか実施するよりはるかに安上がりであることが判明する可能性がある。要するに、特別な利害関係者が医学研究を腐敗させるという問題は、方法論とは無関係に現実の問題として存在する。社会学的な腐敗を解決しても、どの方法が最も確実に介入の臨床効果を検出できるかを決定するという本質的な課題が残される。

もちろん、EBMは特定の利害関係者に乗っ取られやすいという反論もあるかもしれない。例えば、臨床専門家の絶対的な権威を主張する方法論よりも、EBMの方法論の方が臨床家の責任を追及する装置として使われやすいのは間違いないだろう。同時に、もしEBMの方法論が治療効果の検出においてより信頼性が高く、それが多くの命を救うことにつながるとすれば、EBMに起因するとされる医療従事者に対する統制は容認されるかもしれない。航空会社のパイロットが多くの規則やプロトコルに責任を負っていることに誰も文句を言わないのは、これらの規則が人命を救うと信じているからである。

1.3 EBMの主張がどのように検討されるか

EBMのエビデンス哲学の中心的な3つの主張には、それぞれ明確な方法が必要であり、関連する章で個別に概説することにする。要約すると、私は「良いエビデンスは交絡因子を排除する」という一般原則に訴えて、ランダム化試験が観察研究より優れた証拠能力を提供するというEBMの主張を評価する。次に、比較臨床試験が一般に機械論的推論や専門家判断よりも優れた証拠を提供するというEBMの主張を評価するために、経験的証拠と機械論的推論と専門家判断の相対的強さと弱さの分析に訴えることにする。EBM運動が認めているように見えることとは逆に、機械論的推論と専門家による判断の証拠としての役割に関する彼らの立場には強い正当性がある。

しかし、この本全体に適用される特定の方法論があり、それは次のようなものである。私は、すべての問題を明確に述べることを主張する。このことを念頭に置いて、第1部の残りの時間を使って、EBMとは何か、そして、医療が臨床的に適切な意味で「機能する」とはどういうことかを明らかにする。EBMの本質と治療効果に関する主張の本質を理解していないために、批評家たちの間で多くの混乱が起こっているのである。

1.4 これからの構成

本書は4つのパートに分かれている。第一部の残り3章は、EBMとは何か（第2章）、治療が「効く」という主張はどのように解き明かされるべきか（第3章）を調査している。第2部では、ランダム化試験が観察研究よりも強力なエビデンスを提供するというEBMの主張を分析し、我々の最も効果的な治療法は「低レベル」の比較臨床試験によってのみ支持されているというパラドックスを解決することに専念している。比較臨床試験の相対的な強さを評価する方法を擁護した後（第4章）、ランダム化試験に関するEBMの立場は、若干の修正を加えても持続可能であることを主張する（第5章）。その修正とは、カテゴリカルな階層を、比較臨床試験がもっともらしい交絡因子の複合効果よりも大きな効果量を明らかにすべきであるという要件に置き換えることである。次の3章では、二重盲検化（第6章）と「プラセボ」対照（第7章と第8章）が無作為化試験の質を高めるという主張を評価する。次に第III部（第9章）を紹介し、機械論的推論（第10章）と専門家判断（第11章）に対するEBMの立場を検証する。機械論的推論は、しばしば認識されていない問題に悩まされながらも、おそらく比較臨床試験からのエビデンスと並んでエビデンスとして認められるべきであると主張する。一方、専門家の判断はエビデンスとして信頼できないが、専門家は他にもいくつかの重要な役割を果たしており、EBMの文献や実践における議論においてもっと強調されるべきであるとするEBMの見解を擁護している。結論（第12章）では、得られた知見をまとめ、EBMが近い将来直面する2つの新しいクラスの方法論的困難を指摘する。

本書の統一テーマは、倫理と認識論が絡み合っていることである。観察研究（第5章）や機械論的推論（第9章）からすでに十分な証拠を持っている場合、あるいはシステマティックレビュー（第2章）を行っていれば十分な証拠を持っていた場合、無作為化試験は非倫理的である。同様に、「プラセボ」対「活性」対照をめぐる議論（第7章）は、試験の承認に重要な倫理的意味を持つし、専門家の判断を証拠として用いることは（判断は他の多くの役割にも求められる）、それが有害であると証明できる場合は非倫理的となりうる（第10章）。

本書の終わりには、読者はEBMの方法論のエビデンスを評価し、「EBMのエビデンス哲学の根拠は何か」という問いに答えることができるようになる。

第2章 EBMとは何か？

もし、あなたが自分の治療法を熱烈に信じることができれば、たとえそれがコントロールされた試験でかなり役に立たないことが分かっても、あなたの結果はずっと良くなり、患者はずっと良くなり、あなたの収入もずっと良くなるのである。このことが、才能はないけれども信心深い人たちの目覚ましい成功の理由であり、また、ファッショナブルで成功した医師が見せる、統計や管理されたテストに対する激しい嫌悪の理由でもあると思う。

-R. アッシャー[85]。

医学の歴史は、臨床的な印象から有効であると広く考えられていた治療形態が、効果がない、あるいは有害であることが判明した例を数多く示している。

-A.B.ヒル＆I.D.ヒル[2]。

2.1 自称クーンパラダイムとしてのEBM

EBMを広く社会に発表した論文のタイトルは、「Evidence-based medicine: a new approach to teaching the practice of medicine」（強調）[12]であった。論文の一番最初の文はこうである。「医療実践のための新しいパラダイムが出現している」（強調）[12]。

EBMが本当に新しいかどうかという問題は、歴史的なものである[6,8,9,86]。EBM運動の背景を説明し、初期のEBM提唱者に関する面白い逸話をいくつか紹介するが、EBMの起源と成り立ちに関する包括的な歴史的分析はこの仕事の範囲を超えている(EBMの最近の歴史的ルーツに関する良いレビューとしてTröhler [87]を参照されたい）。同様に、EBMが本当に新しい（クーン）パラダイムなのかという疑問は、クーンパラダイムが医学における方法論の革新に適用できるかという分析 [88,89] を伴うことになり、私たちを大きく遠ざけてしまうことになる。さらに、EBMが新しいかどうか、EBMが新しいクーニンのパラダイムかどうかという二つの問いは、EBMが実際に何であるかを確立することを必要としている。これは、この運動の定義が進化していることを考えると、簡単な作業ではない[90-93]。

この短い章では、進化する特徴づけにもかかわらず、比較臨床試験、できれば（システマティックレビューの）無作為化試験が、機械論的推論や臨床的専門知識よりも治療効果についてより確かな証拠を提供するというEBMの見解が不変であることを主張することにする。

まず、EBM運動誕生の要因について概観する。次に、EBMの定義の変遷を概観し、何が優れたエビデンスであるかという基本的な考え方は変わっていないことを論じる。とりあえず、EBMの「良い」エビデンスの定義についての評価や正当化は後の章に譲るとして、ここでは、EBMのエビデンス体系とは何かを慈しむように解釈することに重点を置きたい。

2.2 EBM誕生の動機：スケッチ

1885年から1985年までの100年間に、医学界では驚くべきブレークスルーがもたらされた。狂犬病ワクチンの劇的な発見により、狂犬病に対する恐怖心は消え去り、ペニシリンとストレプトマイシンの発見により、感染症はまもなく完全に根絶されることが示唆され、ほとんどの小児がんの治癒は、すべてのがんがまもなく消滅するという有望な兆しであった。一方、開胸手術、股関節置換術、腎臓移植は、「使用済み」部品を交換することで劇的に寿命を延ばせることを示し、体外受精は不妊による悲惨な状況に終止符を打った[94]。健康と病気の根本的なメカニズムを理解することが、これらの発見の多くを後押ししたように思われる。例えば、狂犬病のワクチンというアイデアは、病気の細菌説がなければ生まれなかったし、腎臓移植も免疫システムを理解していなければ実現しなかったと思われる。病気の根本的なメカニズムを調べるという方法は、うまくいっているように見えた。1885年からの1世紀で、アメリカとヨーロッパの乳児死亡率は1000人当たり140人から5人に減少し、平均寿命は50歳未満から80歳近くまで伸びた。20世紀の中頃には、医学は猛烈な勢いで進歩し続け、やがて人間の苦しみはほとんどなくなってしまうだろうと考えるのは無理からぬことであった。実際、1949年に発表されたホーダー卿の論文では、まさにそのように主張されている。「医学はどこへ行くのか」、彼は「まっすぐ進むより他にどこへ行くのか」と尋ねた[95]。

しかし、やがて現実が見えてきた。感染症は当初想定されていたよりも抵抗力が強く、多くの癌は手強い相手であることが判明し、肥満、糖尿病、心血管疾患といった多くの病気が、従来の感染症に代わって主要な死因となり始めたのである。さらに、サリドマイド事件で医学に対する国民の信頼が失われたことも、事態を悪化させた。一方、Thomas McKeownは、寿命の伸びと乳児死亡率の減少は、医療よりも経済の改善と関係があると力説し [96] 、Ivan Illichは、左遷され [97] 、医療は善よりも害をなすと主張していた。

一つ確かなことは、医療費は毎年上昇し続け（そして今も上昇し続けている）、一方で医療（平均寿命と乳幼児死亡率で測定）の改善は先細りになっているということであった。このような背景から、多くの思慮深い臨床医が、自分たちが処方する治療法の価値に疑問を持ち始めたのである。彼らの魅力的な物語をすべて語るには、ベストセラーとなった自伝が何冊も必要であろう（その概要はDaly [78]を参照されたい）。ここでは、3つの逸話で満足することにしよう。コクラン共同計画の創設者であるイアン・チャルマーズ卿は、しばしば次のような話をする。

はしかがいかに悲惨な病気であるかを初めて知ったのは、30年前にガザ地区のパレスチナ難民キャンプで2,3年働いていたときのことだ。私たちは世界保健機関(WHO）のスタッフの監督下で予防接種プログラムを実施していたが、それでも難民の子どもたちの間では麻疹が流行し、その多くは栄養不良やその他の点で健康状態が悪く、合併症もよく見られるものだった。

私は1960年代初頭の医学部で、「ウイルス感染者には、細菌の重複感染を明確に証明しない限り、決して抗生物質を処方してはならない」と教え込まれた。したがって、はしかの子供が運ばれてきたとき、私は細菌感染の証拠がないことを確信し、限られた抗生物質を節約していた。しかし、残念なことに、私が診察をした数日後に、その子どもたちが亡くなってしまうことがよくあった。

私の同僚のパレスチナ人医師は、同じように麻疹の患者を診察していたが、彼はそのような経験をしていないようであった。難民キャンプで働き始めた1年目の終わり頃、「それは、私が、はしかの子どもたちに予防的に抗生物質を投与しているからではないか」と優しく指摘した。というのも、彼の経験では、このような弱い立場にある子どもたちには、急速に細菌が繁殖することが非常に多いからだと言う。私は、自分のやり方を変えるよう説得され、医学部で決してやってはいけないと忠告されたことを忠実に実行した結果、自分の子供の患者が死ぬ可能性が低くなったという印象を持った。

この臨床的な印象は、とても悲痛なものだった。そして、権威主義的な治療処方や信頼できるが経験的証拠には基づかない処方に対して、今では不治の病となった「懐疑症」を引き起こしたのである[98]。

一方、臨床疫学やEBMに関する多くの初期のテキストの主執筆者であったデイヴ・サケットは、1950年代に医学生であったにもかかわらず、より年長の同僚の見かけ上の知恵に疑問を呈し、不人気となった。

私が最終学年の医学生だった頃、ある病棟に「感染性肝炎」（現在はA型肝炎と呼ばれている）の10代の患者が入院してきた。彼は、ひどい倦怠感、肝臓の腫大と圧痛、そしてビリルビン代謝の異常を示し、私は同僚の事務員から羨ましがられるほどであった。しかし、数日間の安静の後、彼は元気と活力を取り戻し、私に起き上がらせてくれるように頼んだ。

1950年代には、このような患者が永久的な肝障害を避けるためには、肥大した肝臓が退縮してビリルビンと酵素が正常に戻るまで安静にしていなければならないことは、誰もが「知っている」ことであった。そして、起き上がって動き回っても、また酵素が上昇したら、またベッドに戻る。このような常識のもとで、落ち着きのない患者、憤慨する患者、破滅を予感させる臨床検査技師とが、日々対峙していた。

私たち臨床検査技師は、患者さんの治療に関連した文献を読むことが期待されていた。私は、患者をベッドから出すと病態生理がどのように悪化するのかを（お互いに）理解したかった。いくつかの役に立たないテキストを使い果たした後、私は雑誌に目を向けた。PubMedは何十年も前のものだし、国立医学図書館はまだCurrent List of the Medical LiteratureでArmed Forces Medical Libraryの手助けを始めてはいなかった。それでも、Journal of Clinical Investigation（当時は本物の臨床雑誌だった）の引用文献を案内してくれた。「急性感染性肝炎の治療法。急性感染性肝炎の治療法。病気の急性経過と再発および残存異常の発生に対する食事、休養、身体的調整の効果に関する対照研究」。(Chalmers et al. 1955)とある。この論文を読んだことで、私の患者に対する治療方針が変わっただけではない。この論文を読んで、私の患者に対する治療方針が変わっただけでなく、従来の常識に対する考え方が変わり、私の潜在的な革新性が明らかになり、後に私が「臨床疫学」と名付けた分野でのキャリアが始まった。

この証拠を持って、私は上司を説得し、患者に謝罪し、彼が望む限り活動できるようにさせた。彼はそうして、何事もなく臨床経過をたどった。

その後の私の「臨床経過」は、何事もなかったとは言い難いものであった。私は「トラブルメーカー」になり、従来の治療の常識に常に疑問を投げかけ、特に専門外の医師が、私が患者をどう治療すべきかについて偉そうに語ると、怒るようになったのである。産科では、重症子癇前症の患者に対して、呼吸数が1分間に12回以下になるまでモルヒネを静脈内投与することに疑問を呈したことがある。内科病棟では、「脳灌流に必要だから、125mmHgの拡張期血圧は無視しろ」というコンサルタントの勧告に異議を唱え、評判が悪くなった。また、ある小児科の教授に、人間の染色体の数（前月に48本から46本に減っていた！）を公言し、深く不快感を与えた。

トム・チャルマースは、拡張期血圧を無視すべきかどうかという質問に答えたエド・フリースやアーチー・コクレーンとともに、私のロールモデルとなった。肝炎患者を退院させてから10年後、私は本で学んだことを武器に、優秀な同僚に恵まれ、これらの師を見習い、受動的な懐疑心を積極的な探究心に変え、次のような問いに取り組み始めたのである。なぜ、ファーストコンタクトのプライマリーケアを行うには、医師でなければならないのか？(Sackettら、1974)。「専門家」は、血圧の高い人に自分の病気についてすべて教えれば、本当に薬を飲むようになると言っているのだろうか？(Sackettら、1975)。大動脈-冠動脈バイパスが虚血の心臓に良いからと言って、頭蓋外-頭蓋内動脈バイパスが虚血の脳に良いという主張を受け入れるべきだろうか？(EC/ICバイパス研究会(1985年)。

Tom Chalmersらの論文が発表された年には、無作為化試験の報告は347件しかなかった。それから半世紀、毎年約5万件の無作為化試験報告が発表され、その頃の総試験報告数は50万件を超えていた。私は、このような発展、その原動力となる懐疑論、そしてその結果として可能となった、より良い情報に基づく治療の決定と選択に貢献できたことを誇りに思っている[99]。

「エビデンスに基づく医療」という名称がどのように作られたかという逸話も興味深い話である。カナダのオンタリオ州ハミルトンにあるマクマスター大学で、臨床上の決定を「最良の」エビデンスに基づくものにすることを求める臨床医が何人もいて、その数が臨界に達したのである。Dave Sackett、Gordon Guyatt、Brian Haynes、Peter Tugwellを含むマクマスターのグループは、医学に対する彼らの新しいアプローチを説明するために「臨床疫学」 [100,101] と「批判的評価」という言葉を使い始めた。1990年、Gordon Guyattは、McMasterの内科プログラムのレジデントディレクターに就任し、そこで彼は、医療への革新的なアプローチを正当化し、将来の医学生に宣伝することを含むいくつかの仕事を任されることになった。1990年の春、ガイアットは医学部の学生たちにカリキュラムの変更案を提示したが、多くの学生たちは反対した。ガイアットは当初、この新しいアプローチを「科学的医学」と表現することを提案した。すでに敵対していた人たちは、それまで自分たちが「非科学的」であったことを示唆され、激昂したようだ。ガイアット氏が2回目に提案した「エビデンス・ベースト・メディスン（科学的根拠に基づく医療）」という名称は、実にキャッチーであった。この言葉は、1990年秋、入学予定者や新入生を対象にした案内文書に初めて登場した。その一節はこうだ。

研修医は、日々の患者管理における診断、治療、予後予測技術の適用に対して、「賢明なる懐疑」の態度を身につけるように教えられる。このアプローチは「エビデンスに基づく医療」と呼ばれ。.. その目的は、自分の診療の根拠となるエビデンス、そのエビデンスの健全性、エビデンスが許容する推論の強さを認識することである。採用された戦略は、関連する疑問点の明確な定義、疑問点に関連する文献の徹底的な検索、証拠の批判的評価とその臨床状況への適用、臨床問題への結論のバランスのとれた適用が必要である。 [102].

2.3 EBMの当初の定義

EBMは当初、次のように定義されていた。

エビデンスに基づく医療とは、直感、非体系的な臨床経験、病態生理学的根拠を臨床上の意思決定の十分な根拠として重視せず、臨床研究からのエビデンスを検討することを強調するものである[12]。

ここで、「臨床経験」、「病態生理学的根拠」、「臨床研究」という用語について少し説明する必要がある。

EBMの提唱者が「臨床経験」と呼ぶのは、利用可能な経験的証拠に明確に基づかない専門家の意見という意味である。意外かもしれないが、EBM以前の「手法」では、医学的治療の効果について推奨する際に、既存のエビデンスを考慮することがしばしば義務づけられていなかった。例えば、米国国立衛生研究所(NIH）が1990年に発表した報告書では、「専門家の合意」方式が賞賛されている。

集団判断の方法は、おそらく多くの国で医療技術の評価に最も広く使われている手段である。コンセンサス形成会議は、例えば安全性、有効性、効率性など、医療技術の様々な属性を検討し評価するための、比較的安価で迅速なメカニズムである[103]。

米国以外に、カナダ[104]、デンマーク[105]、フィンランド[106]、オランダ[107]、ノルウェー[108]、スウェーデン[109]、英国[110]の公式代表者がこの報告書を支持している。

確かに、コンセンサスパネルの専門家は、利用可能なエビデンスを検討することになっていた。しかし、コンセンサス・ステートメントと利用可能な最善のエビデンスの関連性は、しばしば偽りのものであった。例えば、Antmanら [111] は、心臓発作を意図した治療法に関する教科書的な推奨（専門家によって書かれた）でさえ、日常的に

… 重要な進歩に言及しなかったり、効果的な予防策を推奨するのが遅れたりした。死亡率に影響を与えない、あるいは有害である可能性のある治療が、複数の臨床専門家によって推奨され続けているケースもあった。

EBMの提唱者が言う「病態生理学的根拠」（「機械論的推論」）とは、健康や病気の根本的な病態や生理学的メカニズムに関する（と思われる）事実から、ある治療が効果をもたらすか否かの結論を推論することである。例えば、抗不整脈薬が死亡率を下げるという信念は、死亡の原因（不整脈）と抗不整脈薬の作用機序に関する（想定される）事実に基づいていたのである。

「臨床研究」（ここでは「比較臨床研究」という用語を用いる）は、メカニズム的推論とは異なり、介入がどのように結果をもたらす可能性があるかに直接頼らず、対照治療によってもたらされると思われる結果との比較において、想定される結果を直接観察するものである。比較臨床試験の有名な例は、1987年に始まったCardiac Arrhythmia Suppression Trial(CAST）である。この試験は、抗不整脈薬によって心筋梗塞（心臓発作）を起こした患者の死亡率が低下するかどうかを検証するために企画されたものである。この試験では、27の臨床センターが1455人の患者をエンカイニド、フレカイニド、プラセボに、272人をモリシジン、プラセボに無作為に割り付けた。エンカイニドまたはフレカイニドを投与された患者730人中33人（4.5%）が平均10ヵ月の追跡調査後に死亡したのに対し、プラセボを投与された患者725人中9人（1.2%）だけが同じ期間に不整脈および非致死性心停止で死亡した [112]。実験薬はまた、より高い総死亡率を占めた（「プラセボ」群では725人中22人（3.0%）に対して、治療群では730人中56人（7.7%）であった）。同様の否定的な結果は、すぐにモリシジンにも見いだされた [113]。

しかし、EBMの支持者は、すべての比較臨床試験を同等とみなしているわけではなく、ランダム化試験が治療効果について最高の証拠を提供するとみなしている [12]。ランダム化試験がより良いエビデンスを提供するという見解の出典として、その1992年の論文の著者は、Canadian Medical Association Journalの1981年の記事を引用している。「臨床雑誌の読み方。V: 役に立たない、あるいは有害な治療と区別するために」。この論文には、臨床医が雑誌論文を読む価値があるかどうかを判断するための注意深い指示が含まれている。もし読者の意図が「有用な治療と無用な、あるいは有害な治療とを区別すること」であれば、「治療に関する記事のうち、無作為化試験に関するもの以外は一度に廃棄すること」 [114] とされている。

定義に明示されていないEBMのエビデンスシステムのもう一つの中心的な側面は、決定を下す前に関連するすべてのエビデンスを考慮しなければならないという信念である。1992年の論文では、新しいパラダイムが顕在化した肯定的な方法を記述する際に、「システマティックレビュー」（関連するすべてのエビデンスの統合）の利用を暗黙のうちに支持している。

利用可能なエビデンスの厳密なレビューを提供する教科書で、臨床エビデンスの妥当性を系統的に評価するために使用した方法論的基準と、エビデンスをまとめるために使用した定量的技術の両方を記述した方法のセクションを含む [12]。

関連するすべてのエビデンスを考慮しなければならないという見解の根拠は自明であり、哲学者が「全エビデンスの原則」と呼ぶものによって裏付けられている [115]。100の試験があり、そのうち99が「陰性」(例えば、新薬が有害と思われる）、一方1が「陽性」（薬が有用と思われる）であったとしたら、たった一つの陽性の試験を決定的なものとして、残りの99の試験を無視するのは明らかに誤りであろう。

図21 コクラン共同計画のロゴマーク。

コクラン共同計画のロゴマーク（図21)は、関連するすべてのエビデンスを考慮しないことの重大な問題点を絵で表している。図21のロゴの横線は、早産になりそうな女性に安価な副腎皮質ホルモンを短期間投与した場合の効果を検証した一連の試験を表している。興味のある結果は、未熟児の合併症による乳児死亡率である。図において、水平線が垂直線に接している場合は、その薬剤の明確な有益性がないことを示す。横線全体が縦線の左側にある場合は、その試験で薬剤の効果があったことを示す。水平線が小さいほど、より正確な結果であることを示す。菱形は、すべての試験における治療効果の合計を表している。

最初の試験は1972年に行われたが、この薬に肯定的な効果は認められなかった。その後20年にわたり、さらに小規模な試験が数多く行われたが、それらは一貫性のないものだった。あるものは軽度の効果を認め、またあるものは効果を認めなかったのである。しかし、もし新しい試験の前にシステマティック・レビューが行われていれば、1981年という早い時期に、この薬の有効性が決定的になったはずである。

1981年以降に行われたすべての試験は、希少な資源の浪費であったばかりでなく、薬の効果についての不確実性が、1981年から1995年の間に何千人もの不必要な死亡を引き起こしたのである。

この事件をより印象的にしたのは、Patricia Crowleyが1981年にステロイド療法の有効性を明らかにするシステマティックレビューを行ったことである [116]。このレビューでは、十分に質の高い4つの研究を発見した [117-120]。合わせて、出生前ステロイドを投与された赤ちゃんは約1000人で、プラセボを投与された赤ちゃんも同数であった。出生前ステロイドを投与された患者のうち、70人が死亡し、プラセボ群では130人が死亡した。この差は統計的に有意であり、臨床的にも重要であった。Crowleyは、1972年から1979年の間に行われた他の試験や、その後に行われたいくつかの試験を発見し、その後数年にわたってレビューを更新した。彼女は1989年に最新のレビューを発表した[121]。

NIHは、明らかにCrowleyのレビューを知らずに、1984年に大規模臨床試験の募集を開始した。しかし、Crowleyのレビューを知っていれば、1981年以降に無作為化試験に参加する（そしてプラセボを受け取るリスクを負う）ことに同意した親がいたとは考えにくい。残念ながら、早産になりそうな女性に対する妊産婦ステロイドの使用率は、調査結果が発表される1995年まで、20%を超えることはほとんどなかった [122]。したがって、関連するすべての証拠を検討しなかったことは、倫理的な研究を実施する義務に対する悲劇的な茶番劇である。

システマティックレビューを実施するもう一つの優れた理由は、小さいが重要な効果を検出する能力である。多くの個別試験は規模が小さすぎるため、こうしたささやかな効果を検出することはできない。しかし、効果が重要である場合（コクラン・ロゴの例のように）、小さな効果は明らかに高い関連性を持ち得る。被験者の数が足りないという問題は、より大規模な試験を実施するか、システマティックレビューですべての小規模な試験の結果を組み合わせることで解決できる。

システマティックレビューのもう一つの利点は、研究課題に対する答えが既に分かっている場合に研究を行うことを避けることができることだ。疑問に対する答えが既に得られているかどうかを知るためには、当然ながら体系的に文献を検索する必要がある。

システマティックレビューを実施するための特別な方法は、もちろん正当な批判にさらされる [43]。しかし、私は、ほとんどの場合、システマティックレビューの実用的な問題を脇に置き、ランダム化試験、観察研究、機構的推論、あるいは専門家の判断にかかわらず、すべての証拠に対してシステマティックレビューが方法論的に必要であると考えることにしている。もちろん、どのような種類の研究に対してシステマティックレビューを行うべきかという問題は残されている。

まとめると、EBMの推進者たちは当初、比較臨床試験、できれば無作為化試験が、機械論的推論や専門家の意見・判断よりも強力なエビデンスを提供すると考えていた。実際、初期のEBMのエビデンスの「階層」のほとんどは、機械論的推論の役割を認めず、専門家の判断を非管理下の観察に位置づけていた [22,23,123]。

新しいエビデンスルールを武器に、EBMの実践者たちは、機械論的推論や質の低い比較臨床研究に基づいて採用された治療が有害（致命的ですらある）または役に立たないことを比較臨床研究が明らかにした数多くの例を発掘した（第5,10,11章参照）[124]。同様にIain Chalmersは、システマティックレビューの失敗が致命的な結果をもたらしたいくつかの例を発掘している[125]。質の高い比較臨床試験の結果を確定的なものとして受け入れるならば、EBMは無数の生命を救ってきたように思われる。

命を救う方法論を支持しているように見えるにもかかわらず、EBM支持者は現状に挑戦している（つまり権威ある専門家に委ね、機械的推論で十分だと考えている）ため、攻撃にさらされることを警戒しているのである。

2.4 EBMのエビデンスシステムに対する批判への反応：より微妙に、多かれ少なかれ同じように

初期の推進者たちは、EBMが臨床経験や直感を無視し、機械的推論を行うことを否定した。1992年の論文の「エビデンスに基づく医療に関する誤解」と題する小節で、推進派は以下のような潜在的な反論を検討し、それに答えている。

誤解1：EBMは臨床経験や臨床的直感を無視する。

訂正：逆に、直感的な診断の才能、正確な観察の才能、困難な管理を決定する優れた判断力を持つ優れた臨床医に学習者が接することは重要である。未検証の徴候や症状を頭ごなしに否定してはならない。極めて有用であることが証明され、最終的には厳密なテストによって有効であることが証明されるかもしれない。経験豊富な臨床医が診断に用いるプロセスを分解し、学習者に明確に提示することができれば、より大きな利益を得ることができる。同様に、臨床情報の洪水の中から最適な診断と治療の手がかりを体系的かつ再現可能な方法で抽出することができれば、学生にとっての利益は最大となるのである。

誤解2：基礎的な診察と病態生理の理解はEBMに関係ない。

訂正：十分なエビデンスがないため、（比較臨床試験がない場合）臨床上の問題解決は基礎となる病態生理学の理解に頼らざるを得ない。また、病態生理の理解は、臨床観察の解釈やエビデンスの適切な解釈（特に一般化可能性の判断）のために必要である。

これらの修正は、EBMにおける専門性と機械論的推論の重要性を明らかにするものであるが、専門性や機械論的推論にいかなる証拠的役割も認めるまでには至っていない。専門家は重要なロールモデルであり、教師であり、直感的な診断者であるが、ある治療法が有効であるという証拠を提供するためのものではない。同様に、EBMの推進者は、より良い証拠がないときや、比較臨床試験の結果を一般化するためには機械的推論が必要であるが、医学療法の効果について一般的な主張をするためには必要ないと主張した（第10章参照）。

その後の定義では、EBM推進派は機械論的推論と専門家の判断についてより明確に言及するようになった。例えば、教科書「Evidence-based Medicine」の初版（1997）では、「EBMを実践し、教えるには？また、Dave SackettらはBritish Medical Journalへの寄稿の中で、EBMを次のように定義している。

エビデンスに基づく医療とは、個々の患者のケアに関する意思決定を行う際に、現在の最良のエビデンスを意識的に、明示的に、かつ慎重に用いることである。Evidence based medicineの実践とは、個人の臨床的専門知識と体系的研究から得られる最良の外部臨床エビデンスを統合することである。個々の臨床的専門性とは、個々の臨床家が臨床経験と臨床実践を通じて獲得する熟練度と判断力を意味する。… 外部からの最良の臨床的証拠とは、臨床に関連する研究を意味し、多くの場合医学の基礎科学から得られるが、特に診断検査（臨床検査を含む）の正確さと精度、予後マーカーの力、治療、リハビリテーション、予防レジメンの有効性と安全性に関する患者中心の臨床研究から得られる [32, 92]。

EBMの第二の定義の著者は、表面的には、臨床の専門知識と「基礎科学」からの証拠の役割に譲歩しているように見える。しかし、先に述べた階層構造で表現されるエビデンスの強さに関する彼らの見解が変化したわけではないことは明らかである。例えば、臨床的な専門知識はEBMを実践する上で重要だが、ある治療法が有効であるという証拠として、専門知識（あるいは専門家の判断や経験）の役割を認めない。

同様に、新しい定義では、最良の外部証拠は医学の基礎科学から「しばしば」得られるとしているが、治療が有効であるという証拠としての基礎科学の役割は認めていない（ただし、無作為化試験の結果の一般化を含む他のことについては、機構論的推論を支持している）。

実際、エビデンスの評価の章を見ると、EBMの教科書の初版の著者は、ランダム化試験が最高のエビデンスを提供すると主張している（効果が非常に大きく、より基本的な観察で十分な場合を除く）。具体的には、この教科書には次のような記述がある。「介入の効果に関する）研究が無作為化されていないことがわかったら、読むのをやめて次の論文に進むことをお勧めする」 [32]。(無作為化試験は治療にとって唯一の最良の証拠であり、それでも効果が劇的であれば必要ないという但し書きは、同じ文章の94ページにもある）。この文章の著者は、ある治療法が想定される効果をもたらす証拠として、メカニズム的推論の重要性を口先だけで述べているとしか思えない。

つまり、EBMのテキストの最初のページの定義は、先に示したエビデンスの階層と矛盾するように見えるが、実際にはエビデンス（少なくとも治療効果に関するエビデンス）に対するEBMの立場は変わっていない：比較臨床試験、できれば無作為化試験によるものが、力学的推論や臨床的専門知識よりも優れたエビデンスを提供すると考えられている。

EBMの教科書の第2版（2000年版）は、臨床的専門知識と機械的推論にさらに譲歩しているように見える。第2版の著者は、EBMを次のように定義している。

Evidence-based medicine(EBM）とは、最良の研究エビデンスと臨床の専門知識および患者の価値観とを統合することである。

最良の研究証拠とは、臨床に関連する研究を意味し、多くの場合医学の基礎科学（「機械論的推論」）から得られるが、特に診断検査（臨床検査を含む）の正確さと精度、予後マーカーの力、治療・リハビリ・予防レジメンの有効性と安全性に関する患者中心の臨床研究からのものである。臨床研究から得られる新たな証拠は、これまで受け入れられてきた診断検査や治療法を無効にし、より強力で正確、かつ有効で安全な新たな検査や治療法に置き換えるものである。

臨床の専門性とは、臨床技術とこれまでの経験を駆使して、患者さん一人ひとりの健康状態や診断、起こりうる治療法のリスクと効果、そして患者さんの価値観や期待を迅速に把握する能力を意味する。

患者の価値観とは、各患者が臨床の場に持ち込む独特の好み、懸念、期待であり、患者のためになるのであれば、臨床上の意思決定に組み込まれなければならないものである [33]。

EBMの教科書の最新版（2005年版）は 2001年の定義に若干の修正を加えている。患者の価値観に加え、「患者の状況」が重要であるとしている。患者の状況とは、「患者の個々の臨床状態と臨床環境」を意味する[34]。しかし、もう一度言うが、エビデンスの評価に関しては、無作為化試験は依然として階層の頂点にあり [33,34] 、専門知識と機械的推論は完全に省かれているか [19,126] 、あるいは最下位にある [20,21]。

この章を要約すると、エビデンスに関するEBMの立場、すなわち、（システマティックレビューの）比較臨床試験、できれば無作為化試験が、機械的推論や専門家の判断よりも優れたエビデンスを提供するということは、多かれ少なかれ変わっていないことになる。しかし、EBMは直感的な診断、教育、役割分担など、他のいくつかの役割における専門知識の重要性を強調している（第11章参照）。

第3章臨床的判断のための良いエビデンスとは何か？

とはいえ、「哲学の一手法」とも言えるような方法があることは、かなり認めざるを得ない。しかし、この方法は、哲学だけに特徴的なものではなく、むしろ、すべての合理的な議論、つまり、哲学と同じように自然科学にも共通する方法なのである。私が念頭に置いている方法は、自分の問題を明確に述べ、その解決策を批判的に検討することである。

-カール・ポパー[3]。

3.1 はじめに

本書は、何が「良い」エビデンスとみなされるかについてのEBMの見解の評価である。エビデンスの強さは、そのエビデンスが何に対するものであるかに依存する。EBMは、当初、臨床医が日常診療で意思決定を行うのに役立つように設計された [11,32] ことを考えると、「優れた」エビデンスとは、臨床上の意思決定に有用なエビデンスであるべきである。確かに、ある介入を用いるか否かの決定は、患者の価値観やコストなど、多くの非明示的な変数に左右される。しかし、エビデンスの強さを評価する際に重要視されうる、そしてされるべき、エビデンス自体の見落とされがちな潜在的特徴がいくつか存在する。臨床的判断のための優れたエビデンスは、「臨床的に有効」であるべきで、それは、その治療が(1)有害性を上回る患者関連利益を持ち、(2)治療を受けている患者に適用でき、(3)利用可能な最善の選択肢であることを意味すると主張するものである。

3.2 臨床的有効性に関するエビデンス

ある治療法に「効果」があるという強力な証拠は、それ自体では何の役にも立たない。私は、コンピュータのタイピングが私の指に影響を与えるという明白な経験的証拠を持っているが、そのような効果は臨床の場ではほとんど意味をなさない。同様に、薬物の化学物質がラットの細胞受容体に結合するという証拠は、非常に実りある研究プログラムの第一歩となるかもしれないが、それ自体、日常診療の医師や患者には重要ではない。また、日常診療の医師や患者との関連性を見抜くのが難しいケースもある。製薬会社の担当者が、ある新薬がコレステロールを下げるのに極めて有効であるという証拠を持って、医師の診察室に入ったとする。EBMの訓練を受けている医師は、その試験を批判的に評価し、それが妥当であると判断する。その試験は、無作為割付を隠蔽し、可能な限りの盲検化を行い、intention-to-treat分析を採用している。要するに、その医師はその薬が本当にコレステロールを下げると信じるに足る十分な理由があるのだ。しかし、その医師は、そのエビデンスが日常診療でその薬剤を使用することを支持するのに十分であるとはまだ認められないという4つの理由を指摘している。

3.2.1 臨床に役立つためには、その結果が患者に関連していなければならない

コレステロールを下げることは、それ自体、患者関連性の高いアウトカムではない。患者関連アウトカムとは、簡単に言えば、人々がより良く、あるいはより長く生きられるようにするものである。「より良く生きる」という概念は哲学的なものであり [127-133] 、この問題を詳細に検討することはこの仕事の範囲外である。同時に、ある種の結果は、他の結果よりもはるかに生活の長さや質を向上させることは明らかである。例えば、痛みや衰弱した疲労を軽減することは、コレステロールを減らすことよりも、患者に関連する可能性がはるかに高い（コレステロールを減らすことは、患者に関連する結果を予測するかもしれないが）。

EBMの推進者の多くは、患者関連アウトカムに関するエビデンスを「Patient-oriented evidence that matters”(POEMs)と呼んでいる [134-136]。不整脈の減少やコレステロールの低下など、多くのアウトカムは、死亡率や罹患率の低下など、患者関連アウトカムの代替となるものである。残念ながら、第8章（「機構論的推論」）で述べるように、代替アウトカムと患者関連アウトカムとの関連性が十分に確立されていることは稀である。

3.2.2 臨床で有用であるためには、有益性が有害性を上回らなければならない

介入は患者関連アウトカムに対して正の効果を有するが、負の副作用が正の効果を上回っている場合がある。例えば、β遮断薬は高血圧の治療に有効であるが、男性の性的機能を阻害する効果もある [137]。あるいは、1890年代後半から約100年間使用されたHalsted根治的乳房切除術は、乳癌の局所再発を減少させたが（外科医は癌が再発しうる局所肉をあまり残さなかった）、癌による全死亡には効果がなく、外科的合併症（死を含む）や女性の外観をひどく損なうという「副作用」があった [138,139]。同様に、抗不整脈薬は心臓の不整脈を減少させるが、死亡率を増加させる。我々は一般的に、負の副作用が正の便益を上回る介入を「効果的」とは言いたくはないだろう。Ashcroft [137] はこの点を簡潔に述べている。

処方者の観点からも、消費者の観点からも、副作用が有益性を上回るような医薬品が有効であると言うのは、言葉の誤用であろう。

有益性が有害性を上回っているかどうかを計算するためには、効果の大きさを推定することが必要だ。治療には単に効果があるだけでは不十分で、その効果は害を打ち消すほど大きくなければならない。残念ながら、多くの試験結果の表示方法（「統計的有意差」や「相対的リスクの減少」1)は誤解を招く恐れがあり、費用対効果の分析ができない。Worrallの言葉を借りれば

非現実的ではあるが、特にわかりやすい例を挙げると、医学者がある予防薬を投与しようとする人のうち、平均して100万人に1人しか、治療しないままでは何らかの結果(例えば今後5年以内に脳卒中）を発症しないと仮定する。もしその薬が平均的な発症率を0にするのであれば、当然ながら100%の相対的リスク低下に相当する。

いくつかの有名な試験で、絶対的な効果は非常に小さいことが明らかにされている。例えば、虚血性疾患におけるプラバスタチンによる長期介入(LIPID）研究グループによって著された、冠動脈性心疾患および広範囲の初期コレステロール値を有する患者におけるプラバスタチンによる心血管イベントおよび死亡の予防を考えてみよう。LIPID試験の著者らは、死亡の相対的リスクの22%減少を報告したが、死亡の絶対的リスクの減少は1.9%であった[141]。著者らは「重大な」副作用はないと報告しているが、Worrallの指摘は正しく、薬を飲むという行為そのものが有害な副作用と見なされることがある [140]。さらに、有害事象はしばしば過小報告される(第12章参照)。相対的なリスクの減少という観点から結果を報告することによって引き起こされる混乱のために、EBMの支持者は、「治療に必要な数」(NNT）と呼ぶ絶対的効果量（逆数）に直接関連する効果量の尺度を提唱している。上記のウォーラルが挙げた架空の例では、NNTは100万人となる。一方、LIPID試験で引用されたプラバスタチンの効果の絶対値は1.9%で、NNTは53となる。これらの小さな効果は重要かもしれないが-LIPID試験では確かにそうであった-、ここで重要なのは、有益性が有害性を上回るかどうかを判断するためには、NNTのような絶対的効果の大きさを示す尺度が必要だということである。相対的なリスク減少を使用して誤解を招くような同様の小さな効果が報告されているものとして、CARE[142]とGISSI-3[143]研究がある（有益な議論としてWorrall[140]を参照）。

3.2.3 有益であるためには、研究結果が日常診療の患者に適用されなければならない – 研究は「外的妥当性」を有していなければならない

第3に、治療には効果があるという主張-たとえそれが患者に関連する効果であり、有益性が有害性を上回る場合であっても-は、特定の集団に相対化される。ある介入は、ある集団には患者に関連した効果があるが、別の集団にはその効果がないことがある。例えば、大人にとって最も有効な抗うつ薬であっても、子供には有効でない [144,145]。別の例では、ベノキサプロフェン（米国ではオラフレックス、欧州ではオプレン）という薬が、18〜65歳の患者を対象とした試験では効果が証明されたが、日常診療に導入されると相当数の高齢患者が死亡した [47]。研究結果を日常診療の個々の患者に適用する際の問題は、しばしば「外的妥当性」の問題と呼ばれるが、試験の対象となりうる被験者の最大90%が、しばしば十分に報告されていない、さらには行き当たりばったりの基準に従って除外されるという事実 [43,146-148] によって悪化し、試験の対象となりうるのは、対象人口のごく一部であるという [149] ことになる。研究結果を個人に適用する際の非常に現実的な問題についての包括的な扱いについては、Rothwellと同僚による論文 [150-152]を参照のこと。本書、特に第5章と第11章では、外的妥当性の潜在的な問題にもかかわらず、EBMの方法論は、何が個々の患者の助けになるかを教えてくれる可能性が最も高いものであることを主張しようとする。

私たちの医師が、コレステロール低下剤の臨床試験を（たとえそれが患者に関連した圧倒的な効果をもたらしたとしても）自分の患者に有効であると受け入れる前に、自分の患者が臨床試験に参加した患者と十分に類似していることを知らなければならない。

最近のエビデンスランキングシステムでは、患者中心のアウトカムを含めることでエビデンスの「質」を高め、その結果が対象集団に「直接」適用される場合、臨床との関連性の重要性が一部認識されている [19]。

しかし、医師がエビデンスを使用して良いと認めるには、もっと多くの作業が必要である。このことは、「臨床的有効性」の4つ目の、そして最後の特徴である、利用可能な代替手段に関する情報を含むべきことを意味する。

3.2.4 臨床に役立つには、その治療が利用可能な最良の選択肢でなければならない

ある臨床試験で、コレステロール低下剤が臨床的に有効であることが合理的な疑いを越えて証明されたとしても、その介入の効果を他の治療法と比較しない限り、その証拠は臨床的意思決定には有用でない。例えば、典型的なコレステロール低下剤が「プラセボ」に対して死亡率の絶対的なリスク減少を2%未満しか示さないことは前述したとおりである。平たく言えば、1人の死亡を防ぐために50人がコレステロール低下剤を服用しなければならないということである。ここで重要なのは、コレステロール低下剤の絶対的効果が小さいということではなく、医師が新薬が臨床的に有効であるという証拠を使用根拠として受け入れる前に、競合する治療法の相対的利益と害を（とりわけ）知らなければならないということである。心臓病を減らすために、他のコレステロール低下剤、運動 [153-156]、食事 [157]、瞑想など、潜在的に有効な戦略がいくつか存在する。医師や患者がコレステロール低下薬を選択する前に、利用可能な代替薬の利点と危険性を知っておく必要がある。しかし、あまりにも多くの場合、新しい薬剤は「プラセボ」と比較され、他の治療法に関する比較情報は手探りになっているのが現状である。

米国のNIHは、最近、代替療法の効果を比較することの重要性を認識し、比較効果研究(CER）に4億ドルを費やす意向である [158,159]。同時に、CERの重要性は、ほとんどのエビデンスランキングシステムにまだ浸透していない。しかし、オックスフォード大学の新しいエビデンスベースドメディスンセンター(CEBM）の「ヒエラルキー」には、利用可能な代替薬の相対的効果を臨床判断の前に考慮すべきとの警告が含まれている [160]。

図31 臨床効果に関する「質の高い」エビデンスとしてカウントされる（はずの）ものの図解。

3.3 強固なエビデンスは何を語るのか？

エビデンスの強さを評価するためには、そのエビデンスが何に対するものかを知る必要がある。EBMが臨床的意思決定を支援するために設計されたことを考えると、臨床的意思決定のための「良い」エビデンスには3つの本質的な特徴がある（図31)。

1 患者に関連する有益な介入が有害性を上回るかどうかを示している。
2 日常診療に適用される。
3 利用可能な代替的治療法に関する情報が含まれていること。

最新のEBMエビデンスランキングシステムは、エビデンスの質を評価する際に、これらの要素の一部（すべてではない）を考慮している。Grading of Recommendations Assessment, Development and Evaluation (GRADE) システム [19] の著者は、ある治療の推定効果がエビデンスによって強く裏付けられているかどうかを判断するために、3段階のプロセス（図32)を採用している。まず、無作為化試験には「高」等級を、観察研究に対しては「低」等級を割り当てる。第二に、観察研究は、（他の理由とともに）大きな効果を実証した場合に「アップグレード」され、ランダム化試験は、（他の理由とともに）結果が日常診療の個人に適用されそうかどうかでダウングレードされることがある。第三に、観察研究または無作為化試験には、「高」、「中」、「低」、「非常に低い」のいずれかが割り当てられる。この章の結果は、結果が日常診療の患者に適用されそうかどうかを考慮することに加えて、GRADEシステムが、(i) その研究が有益性が有害性を上回るという証拠を提供するかどうか、および (ii) その研究が他の利用できる介入の相対効果に関する証拠を提供するかどうか、証拠を格上げすることを認めるべきであることを示唆している。

図32 エビデンスのランク付けのためのGRADEシステム

1実験群のイベント発生率(例えば、脳卒中の数）をEER、対照群のイベント発生率をCERと呼ぶと、絶対リスク低減(ARR）は単純にEER-CERとなる。相対的リスク減少(RRR）は、(EER – CER）/ CERとなる。Worrallが挙げた例では、EERは1/1 000 000、CERは0である。したがって、ARRは1/1 000 000、RRRは1である。

エビデンスに基づく医療の哲学 | 第1部はじめに
The Philosophy of Evidence-based Medicine

目次

序文

序文

第I部はじめに