Tarnished Gold | エビデンスに基づく医療の病 / 疑似科学としてのメタアナリシス

コンテンツ

レビューの必要性
靴下の引き出し
GIGO (Garbage-In Garbage-Out)
Journal of the American Medical Association（米国医師会雑誌）
コクラン
酔っぱらいの検索
システム的に間違っている
懐疑的か？
科学的な信頼性がない
筋書きの喪失
真の解決策を不明瞭にする
- 主なポイント

適切な選択を（偶然よりも良い程度に）達成するシステムは、受け取った情報の結果としてそうなる。

W. ロス・アシュビー

メタアナリシスはEBMの究極のゴールドスタンダードと称されている。メタアナリシスを詳しく見ていくと、ベストエビデンスの本当の役割が見えてくる。ベストとは、厳選された情報という意味である。EBMでは、認識された価値に基づいて質の高い研究を選択するとしている。残念ながら、質の高いデータとは、単に企業医療に有用で、かつEBMのニーズに合致した情報を意味する。不思議なことに、確かなデータは除外され、未発表の結果は気まぐれに含まれることがある。次の章では、メタアナリシス49が最良のエビデンスであるならば、EBMは不条理のプラクティスであることを示す。

しかし、誰もがこの点に同意しているわけではない。実際、英国の放送作家で医師でもあるBen Goldacre氏は、BBCのラジオ番組で同名の番組を放送する際に、メタアナリシスを「天才の瞬間」に選んでいる。この番組では、科学の歴史の中で最大のターニングポイントと思われるものを寄稿者に語ってもらっている。Goldacre氏によると、システマティックレビューは「想像以上に多くの命を救った」とのことである。Goldacre氏は、医学や科学からの偉大な発見のどれを選ぶこともできたが、システマティック・レビューを選んだ。

Goldacre氏は、システマティック・レビュー、すなわちメタアナリシスによって、自分の考えを裏付ける論文を求めて文献を漁り、反対意見の論文を無視するようなことがなくなると主張している。例えば、ポジティブな研究を選択し、ネガティブな結果を無視することで、レビュアーは劣悪な治療法であっても良いように見せてしまうことができる。それに対して、メタアナリシスでは、結果を見ずに方法的に測定するらしい。Goldacre氏は、メタアナリシスが科学的厳密性の偉大な勝利であると信じているようである。本来であれば、科学者ではない人がこのような判断ミスをしたとしても、無視するのが普通である。しかし、懐疑論者の第一人者であるGoldacre氏は、栄養の効能など、はるかに信頼性の低い信念を持つ人を批判することで名声を得ている。ここでは、メタアナリシスの失敗について説明する。

レビューの必要性

臨床試験では、矛盾した結果が出ることがある。例えば、12の臨床試験が行われたとすると、8つの試験で肯定的な結果が得られ、2つの試験で否定的な結果が得られ、最後の2つの試験では結論が出なかったとする。このような場合、1つの方法として、結果をメタアナリシスまたはシステマティックレビューにまとめることができる。これは、12の試験すべてを含む1つの統計的研究である。被験者の数が多くなるので、結果の検出力が高まるというメリットがある。大規模な臨床試験が多数存在する場合、メタアナリシスにおける有効なサンプルサイズは膨大なものになる。

一般的には、無作為化プラセボ対照試験が分析対象として選択されるが、追加のエビデンスが含まれることも多い。除外の基準は事前に指定されることもあるが、無視されることも多い。表面的には，メタアナリシスによって，利用可能な医学的データを用いて最終的な意思決定を行うことができる。致命的な失敗は、データの選択に関するものである。オックスフォード大学のBandolierグループのシステマティックレビューによると「その結果、世界有数の医学論文の中には、統計的に有効なメタアナリシスは1つもなかった。」

靴下の引き出し

メタアナリシスの根本的な問題は，引き出しの中から靴下を選ぶ問題に例えられる．引き出しの中に100個の靴下があり、白と黒の靴下が50個ずつ混ざっていたとする。ボブが目を覚ましたとき、まだ明るい時間ではないので、靴下を見ずに選んで履かなければならない。同じブランドの同じ素材の靴下で、色が違うだけなので、ボブには見分けがつかない。この場合、ボブは偶数の確率でお揃いの靴下を選ぶか、奇数の確率でお揃いの靴下を選ぶことになる。

ボブはドアの外にいるアリスに声をかけ、奇数の靴下を履いていることに1ドル賭けないかと尋ねる。もし彼女が正しく当てれば、ボブは彼女に2ドルを渡する。アリスは、ボブがお揃いの靴下を選ぶ確率に喜んで賭けることができる。ボブは靴下を選ぶための情報を持っていないので、このゲームは公正なものになる。選択はランダムに行われる。アリスは、間違っていれば1ドルを失いますが、正しく当てれば2ドルを得ることができるので、合理的に有利になることが期待できる。

先のことを考えて、アリスはそのお金を次の休暇に使う予定で、いくら勝ったかの予想もついている。これはアリスにとって良い賭けである。なぜなら、ボブはアリスに2対1のオッズを提供しているからだ。ボブの寛大なオッズのおかげで、アリスは2日ごとに1ドルを得ることができる。

さて、条件を少し変えてみよう。ボブの黒い靴下はウールで、白い靴下はナイロンでできているとする。ボブは自分が履く靴下を触って選ぶことができるようになった。この追加情報により、ボブは靴下を見分けることができるようになる。素材の違いを感じることができるなら、アリスはボブに賭け続けるべきであろうか？ボブの選択はもはやランダムではなく、色の選択をコントロールしているので、この賭けははるかに不利である。ボブがアリスに、靴下の感触を無視していると言ったとする。ボブは靴下をランダムに選んでいることを説明し、自分は信頼できる、彼は正直者として知られている、と彼女に保証する。あなたはアリスにこの賭けに乗ることを勧めるだろうか？

アリスが2つ目の賭けに乗るべきだと思うなら、彼女の休日の資金を寄付して、彼女の損失を補ってあげることもお勧めする。幸いなことに、アリスはそれほどナイーブではなく、その難しさを理解している。ランダム化は難しい。人がランダムなリスト、例えば頭と尻尾のリストを書こうとすると、ランダムではないシーケンスができてしまう。ボブが正直者で、アリスから故意に金を巻き上げることはないと信じるかどうかは問題ではない。彼が靴下の感触の違いに関する情報を無視できるという考えはありえない。選択は強力である。ボブは触っただけで、靴下を完全に正確にペアにすることができる。アリスはすべての賭けに負ける可能性があり、休日の資金をボブの寛大さに頼るのは賢明ではない。

この例は、メタアナリシスにおける研究の選択に似ている。研究者は研究を選択し、Ben Goldacreらのどちらかというと無邪気な信念に反して、結果は事前に知らされている。選ばれた結果は偏りがないはずである。我々は、研究者の判断を信頼し、彼らがどこか公平であると信じることを求められているのである。アリスは、数ドルの損をしたくないので、不正なゲームをすることを断った。しかし、EBMでは、偏見に満ちた選択の結果に、あなたの健康や人生を賭けることを要求しているのである。

実際のデータ

選ばれたデータ

理系の学生が最初に学ぶことの一つは、「最も良い証拠を選んではない」ということである。線は、「最良」のデータだけを使用すると、誤解を招きやすいものの、より良い適合性が得られることを示している。

GIGO (Garbage-In Garbage-Out)

大量のデータがあれば、賢明な選択によって、完全に妥当で揺るぎのない理論を構築することができる。

ポール・アーノルド・スレール

現在のメタアナリシスのやり方は偏っている。EBMで最も権威のある2つの出版物では、著者がデータを選択することを認めており、その結果、著者の偏見を反映したレビューを作成することができる。なお、これらの2つの出版物だけではなく、例えばBandolierや米国医学研究所のシステマティックレビューの基準も、我々がここで概説したような誤りを助長している[392]。

Journal of the American Medical Association（米国医師会雑誌）

まず、Journal of the American Medical Association（JAMA）から始めよう。このジャーナルが注目されたのは、あるメタアナリシスのレビューで我々が見つけた誤りを説明した手紙の掲載を拒否したときであった。誤りは明らかで基本的なものだったので、掲載拒否は奇妙なことであった。JAMAは誤りの代替説明をせず，我々が間違っていたことも知らされなかった。我々のレターはレビューのために送られたのではなく、エディターが単にリジェクトの決定を下したのである。これはジャーナルではよくあることで、ジャーナルは出版できる数よりも多くの投稿を受けるからである。しかし、我々の異議申し立ては重要なものであった。我々は、ジャーナルが完全に間違った、誤解を招くような、人々の健康を脅かす可能性のある論文を掲載したと主張していたのである。

JAMAは世界有数の医学出版物として知られている。しかし、残念ながら、掲載されている論文がすべて優れた品質であるとは限らない。我々は、少なくとも1つのレビューが馬鹿げていることを指摘した。さらにいくつかの掲載論文に目を通すうちに、我々は疑念を抱くようになった。掲載されているメタアナリシスのすべてに欠陥があるのではないかと思い始めたのである。

JAMAのレビューの一つ一つに欠陥があるのではないかという可能性は、このテーマに関心のある学者の友人たちの間で話題になった。我々は、イギリスのスタッフォードシャー大学で人工知能と意思決定科学を専門とするレン・ノリエガ博士にこの問題を相談した。学内では「ビッグ・レニー」の愛称で親しまれている彼は、入手可能なデータをざっと見てみようと提案してくれた。そのために、オックスフォード大学でコンピュータサイエンスを専攻しているソフトウェアエンジニアのアンドリュー・ヒッキーに協力してもらった。アンドリューは、JAMAのバックナンバーを検索して、統計的に問題のあるレビューがどれだけあるかを調べてくれた。アンドリューは、2005年から2006年に出版された、タイトルや抄録にメタアナリシスという言葉が含まれている38本の論文を、間違いの可能性を示唆しながら調べた。

その結果は衝撃的なもので、統計的に問題のないレビューは1つもなかった。査読者は、自分たちが望む結果を得られる研究を自由に選んでいたのである。靴下を触って選ぶボブの例のように、著者はどの研究を含めるかを選んでいたのである。例えば、ある研究者が、心臓病の予防にはビタミンEよりも薬の方が効果的であることを示したいとする。もし、ビタミンEが心臓病の予防に効果があるという研究があれば、それは分析の対象から外して無視することができる。除外されたことを説明するために、常にストーリーを提供することができる。科学者を含む人間には、一連の事実にストーリーやパターンを当てはめて、出来事が起こった後にそれを説明するという、このような物語の誤謬に陥りやすい素地がある33。

査読者は、選択する研究の結果に関する情報を持っていたため、偏りを避けることはできなかった。発表された研究のうち8件は、実際にはメタアナリシスではなかったため、無視した。観察研究を対象とした1つのレビューでは、研究の選択における盲検化が不十分であったが、妥当な研究はすべて含めていた[393]。難民を対象とした2つ目の研究では、データ抽出の盲検化はあったが、研究はオープンに選択されていた[394]。合計すると、30のメタアナリシスのうち30のメタアナリシスは主観的で、偏った選択の可能性があった。

レビューの著者とデータを選択する人は、原著論文の著者名、研究の全文、研究結果にアクセスできた。メタアナリシスのうち、6件は独立して選択しておらず、4件は選択方法を明確にしていなかった。残りの19件の研究では、選択に「独立した」研究者が関与していた。しかし、どのような方法で独立していると考えられているのかは明確ではなかった。データを知っている人が、独立した選択をすることはできない。アリスが、ボブが自分の靴下の色を知っていることを忘れることに賭けられなかったように、研究者が研究を選択する際に結果を見落とすことを期待することはできない。

選択バイアスがメタアナリシスを支配していた。驚くべきことに、JAMAのレビューでは、入手可能なデータのほとんどすべてが除外されていた。39,894件の研究のうち、962件（2.4％）しか含まれておらず、残りの38,932件は無視されていたのである。このような少数の研究が含まれていると、望ましくない結果を除外することが容易になるため、特に危険である。理性的な人が、このような小さなサンプルの選択されたデータが代表的であると期待できるのか、ましてや「最善」であると期待できるのか、我々にはわからない。

さらに、これだけでは不十分で、さらに極端な偏りを引き起こす問題があった。査読者は、特定の研究の著者を選んで連絡し、追加情報を提供してもらった。レビューの半分（15/30）では、研究の著者とのコミュニケーションがあった。すべての研究の著者または代表者に連絡したと宣言されたのは、わずか3件であった。言い換えれば、査読者は、特に関心のある研究を選んで、査読のないデータを自由に入手していたのである。

さらに詳しく調べてみると、14件のレビューが未発表または未審査のデータを追加で使用していることがわかった。レビュー担当者は、特定の科学者に追加の情報を求めることが適切だと判断したようである。6つのレビューは、彼らが選んで連絡を取った研究の著者からの不特定多数のデータを含んでった。これは特に奇妙な論理であった。メタアナリシスでは、査読を受けていない研究や、明らかに実験上の欠陥がある研究は除外されるはずであった。しかし、査読者は裏口から疑わしい情報を密かに導入していたのである。このようなデータはチェックできないので、特に不安を感じる。よく考えてみてほしい。我々は、商業的に微妙な問題について、おそらく製薬会社の個人的なデータを信じるよう求められているのである。

物語の誤謬とは、ある出来事が起こった後で、その出来事を説明することを容易にするものである。例えば歴史では、第一次世界大戦に至るまでの複雑で混沌とした出来事をもっともらしく説明することができる。異常な状況を説明するためのストーリーを生み出すことができるのである。同様に、メタアナリシスを行っていて、ある研究グループをレビューから除外したい場合、詳細がわかっていれば、いつでも可能である。ある日、ボブに「なぜ黒の靴下を2足、無作為に選んだのか」と尋ねたら、彼は「黒のペアを白のペアほど選ばなかったので、数のバランスを取る必要があった」と言うかもしれない。この反応は非合理的であるが、意識的に靴下のランダムな配列を作ろうとしている人にとっては、表面的にはもっともらしいものである。

叙述的誤謬の指摘と同様に、研究を除外した理由にも一貫性がなかった。JAMAに掲載された30件のメタアナリシスのうち、データを査読付き雑誌の論文に限定したのは14件だけであった。また、5つのレビューでは、研究の組み入れと除外に関する基準が不完全であった。データを収集する前にあらかじめ用意した選択基準を使用したと報告したのは3件のみで、これは必須要件であるはずである。しかし、査読者はデータを熟知しているので、あまり役に立たないかもしれない。それでも、少なくとも、研究を除外する理由を決める作業はできたはずである。

事前に準備されたデータ選択であっても、安心はできない。もし著者が文献を知っていれば、意識的にせよ無意識的にせよ、望ましい結果を得るために選択基準を選ぶことができたはずである。そのため、基準に偏りが生じる可能性があった。逆に、文献に精通していない場合は、レビューを試みるべきではないと言えるかもしれない。さらに悪いことに、25のメタアナリシスの著者は、選択された後に基準を選んだ可能性がある。まず研究を除外し、次にその研究がダメだった理由を探し、最後にその理由を除外の基準にするという、物語の誤謬が再び適用される。研究者は正直者かもしれないが、自己正当化のための説明が、彼の記憶に残るストーリーになってしまうのである。最後に、19のレビューでは、アウトカムの測定値が1つの研究から別の研究まで同一ではなかった。

2005年から2006年の間にJournal of the American Medical Associationに掲載されたメタアナリシスのうち，我々が調査したものはすべて欠陥があった．

我々が調査を始めたのは，JAMAが，掲載されたレビューのうちたった1つに対する我々の反論を公表しなかったからです．おそらく編集者たちは，我々の批判が彼らの発表したすべてのメタアナリシスに適用できることを理解していたのであろう。JAMAのレビューは、特定の医学的見解を立証するために選択された、高度に選択されたデータのリストのように見える。この主観的な解釈をJAMAは「証拠」として提示しているのである。

コクラン

我々は、メタアナリシスというものがデタラメであることを疑ってたが、JAMAは珍しいケースなのかもしれないと思った。JAMAの高い評価は正当なものではないかもしれない。他のEBMジャーナルはもっと客観的かもしれない。そこで、コクラン財団のレビューを調べてみることにした。JAMAは一流の雑誌であるが、コクラン・レビューは医学的証拠の試金石と（一部の人たちに）考えられている。コクランのメタアナリシスも同様に疑わしいことがわかった。

コクラン財団のレビューは、最低限の要求を満たしていない。データを選択し、科学的結果の偏りや検閲を助長している。JAMAのレビューと同様に、コクラン財団のレビューに含まれる研究は、入手可能な情報全体のごく一部しかカバーしていない。

Cochraneは、データの選択を少なくとも2人で行うことを提案している。できれば独立した2人が研究の適格性を評価することが期待されている[396]。この2人は、透明性が高く、バイアスやヒューマンエラーを最小限に抑える方法を用いなければならない。この段階になると、読者はこのような主張の科学的な甘さに疑問を感じ始めるかもしれない。バイアスやヒューマンエラーを最小限に抑えるために、何をもって2人を独立させるのかが明記されていないのである。二人の人間、あるいは委員会全体が選択を行うことで、バイアスの影響が少なくなるわけではない。皮肉なことに、コクラン社は、オリジナルの臨床試験において盲検化しないことで生じるエラーの可能性をわざわざ指摘している。にもかかわらず、自分たちのレビューでは選択バイアスを無視しているのである。これらの誤りについての説明を求めたところ、コクラン財団は回答を拒否した。

2007年、我々はコクラン・アーカイブの中から「メタアナリシス」という言葉で検索して選ばれた100のレビューを調べた。そのうち5つのレビューはプロトコルまたは実験デザインで、実験をどのように行うかを記述しただけのものであった。残りの95件のレビューのうち、臨床試験の選択において盲検化が行われていたのは3件のみであった。

この3つのうち最初のものは、結果の盲検化が行われてたが、選択者は適格性を判断するためにアブストラクトを調べてた[397]。つまり、選択を行う人は、試験、結果、結論の要約を知っていたことになる。アブストラクトは論文を要約したものなので、この方法ではバイアスを防ぐことはできない。3人のうち2人目は、著者名、所属機関、資金源について部分的に盲検化されていた。[398] 最後の研究では、第三者がタイトル、著者、結果を削除しているが、レビューの著者はおそらくその分野に精通し、文献にも詳しいはずなので、盲検化はほとんど効果がなかった[399] このように、少なくとも問題を認識し、エラーを最小限に抑えようとしていたこれら3つの例外的なレビューにおいても、選択バイアスを避けることはできないであった。大多数のレビューは、コクランの不十分なガイドラインに従おうとさえしていなかった。

ほとんどのレビューは、完全に欠陥があった。95のレビューのうち、残りの92のレビューでは、ブラインドでの研究選択が行われなかった。90件のレビューでは、研究の選択時に、研究の著者名と結論の両方が利用可能であった。91件のレビューでは、研究の全文が使用されていた。信じられないことに、65のレビューでは、ピアレビューされていない未発表の資料も含まれてた。つまり、発表された研究の質に基づいてエビデンスを選択し、好みの著者による追加データ、あるいは必要な答えを提供するものを含んでいたのである。

非査読付きの臨床試験は、67件のレビューに含まれてた。さらに、6つのレビューには、無名の「専門家」による未発表の結果が含まれてた。これは不適切であるだけでなく、EBMの基本理念に反するものである。データを調べる前に選択基準を選んだことを明示したレビューは、わずか7件であった。95件のレビューのうち88件は、無意識かそうでないかにかかわらず、結果を知ってからデータの選択方法を決めた可能性がある。

95件のレビューのすべてにおいて、研究の選択が不十分であった。検討した研究数を記載していたのは、レビューの約半数（47件）だけであった。これらのレビューでは、全臨床試験のわずか1.1％しか選択されなかった。したがって、バイアスの可能性は明らかに大きく、あるいは避けられないものでもある。最後に、同じ結果を測定したレビューは71件しかなかった。ある試験では血圧の変化が報告され、別の試験ではコレステロールの増加が報告されるなど、リンゴとオレンジを比較しているのである。

コクラン財団が2007年に発表した最初の100件のシステマティックレビュー（メタアナリシス）の問題点をまとめた表。

アリスとボブの賭けに話を戻そう。ボブが、靴下の色が違う素材でできているからわかるという事実を無視すると言ったとき、アリスはボブを信じなかった。アリスはナイーブではなかったのである。もし彼女が賭けに応じていたら、ボブは彼女をマグカップとみなしたかもしれない。あなたは、コクランの選者が偏っていないと言うからといって、その選者の選択に自分の人生を賭けたいと思うか？あなたの家族や親しい友人の命はどうなるのだろうか？

酔っぱらいの検索

EBMにおけるデータ選択の一般的な問題についてはすでに述べた。ここで、ある酔っ払いが車の鍵を開けようとして落としてしまったという古いジョークを思い出してほしい。彼は100ヤード歩いて一番近い街灯まで行き、探し始める。そこへ警察官がやってくる。

警察官：「何をしているんだ」

酔っぱらい：「鍵を探しているんだよ。」

警察官：「どこで落としたんだ？」

酔っぱらい：「あそこだよ、車のそばの道だよ。」

警察官「では、なぜここを探しているんだ？」

酔っぱらい：「こっちの方がよく見えるからさ。」

酔っぱらいの捜索は、社会[400]や行動[401]科学者にとって注意すべき物語である。「最良」の場所で検索することは欠陥のある戦略である。

システム的に間違っている

私は、彼らが知らないのではないか、このようなことは[間違っている]のではないか、人々を威嚇しているのではないかと大いに疑っている。

リチャード・ファインマン（数学の社会科学への応用について）

我々は批判の対象を、著名な学術雑誌におけるメタ分析の使用における重大な誤りに限定してきた。そのために、我々が気づいた他の多くの問題を無視してきた。他の多くの医師や判断力のある科学者は、メタアナリシスを無意味なものと考えている。これはその一例である。

ミネソタ大学公衆衛生学部のTatyana Shamliyan氏らは、これらのいわゆるシステマティックレビューの質を調べた[402]。 Shamliyan氏は145のメタアナリシスを調べた。その結果は

各品質基準を満たしたものは半数以下であった。
研究のフローを報告しているのは49％のみであった。
27%が灰色文献（非公式の出版物）を評価していた。
個々の研究のスポンサーを隠していたのはわずか2％。
研究の著者による利益相反の開示を隠したものはなかった。
収録された研究の正式な品質評価を計画したのは37％のみ。
品質は、ジャーナル、トピック、利益相反とは関連していなかった。

Shamliyan博士は親切にも次のように評価している。「システマティックレビューの質を向上させるためには、研究者とジャーナル編集者の共同作業が必要です。」

我々はもっと強く主張する：現在のメタアナリシスは非科学的で、偏っていて、非合理的である。

懐疑的か？

本章の冒頭で，Ben Goldacre氏がシステマティックレビューを厳密な科学における優れた発展として選んだことを述べた。彼は、メタアナリシスの研究はデータを見ずに選択されている、などと主張していた。我々は、Goldacre氏がもう少し懐疑的になり、EBMの主張を額面通りに受け取らないことを提案する。彼が信じているように、システマティックレビューが想像以上に多くの命を救っていることを示唆する証拠を、我々は知らない。実際、そのような発言がどのようにして正当化されるのか、我々にはまったくわからない。懐疑的な人には、EBMの実際の状況をよく見ていただきたいと思う。

我々の経験では、宣教師的な懐疑論者はあまり懐疑的ではない。彼らは、ホメオパシーのような、主流の科学的パラダイムから外れたソフトターゲットを攻撃することが多い。体制側は、このような簡単なターゲットを攻撃する人々を批判しない。時折、懐疑論者は、例えば、大規模な製薬会社が公平な試験を行うことは信頼できないと指摘することで、より信頼できるように見せようとすることがあるが、これは明白であり、彼らのポイントを失うことはないだろう。

真の懐疑主義者は、科学的方法を遵守することを要求する。真の懐疑主義者は、科学的手法の遵守を求め、自分の考えを自分の知性に基づくものとする。真の科学者は、他人の意見、特に専門家の意見など気にしないだろう。EBMでは、合理的な懐疑論者は、大規模な研究を鼻で笑い、メタアナリシスのような欠陥のあるものを推進しようとする権威者を笑うかもしれない。我々の結果は、メタアナリシスが信頼できないことを示している。我々は、この結果を誰かに信じてほしいとは思わない、その必要はないからである。我々は強く主張しているが、読者は自分で考えればいいと思っている。

我々の結果を再現しようとする人は，レビューを検索する際に異なる選択をするので，多少の乖離があるかもしれない。しかし，これらのゴールドスタンダードレビューの欠陥はあまりにも大きいので，手間をかけていくつかのメタアナリシスに目を通した読者は，きっと納得してくれるだろうと確信している。コクラン・ライブラリーはオンラインで公開されているので、誰でも公開されているレビューを調べて、実際にどのように行われたかを確認することができる。いくつかのレビューを見て、自分で確認してみてほしい。信頼しつつ検証する。それが優れた科学というものである。

科学的な信頼性がない

独立した科学者がメタアナリシスのプロセスを検証し、その信頼性と完全性の欠如に不安を感じている。EBMは合理的であると主張し、メタアナリシスを真剣に受け止めることはできない。277 Charlton教授は、EBM支持者の無邪気な熱意は、統計学を理解している人々にとっては苦痛であると主張している。これらの支持者は混乱に鎧を着せ、経営者や政治家に愛される正統派の考え方を展開している。

EBMの中でも、メタアナリシスの支持者は、その客観性と有用性について意見を異にしている[403]。メタアナリシスは、EBMにとって最も信頼できる証拠として称賛されているにもかかわらず、恥ずべきものである。メタアナリシスと大規模試験の組み合わせは、医学文献をカーゴ・カルトで汚染している。

筋書きの喪失

メタアナリシスの理論は限られている。一般的には単純な線形統計を使用しており，技術的にも不十分である。データを検証するためには、もっと強力な方法がたくさんある。先に述べたように、1996年にIBMのコンピュータ「ディープ・ブルー」がチェスの世界チャンピオン「ゲイリー・カスパロフ」を破った。その対局を優秀なコンピュータ・チェス・プログラムと対戦した人で、その能力を疑う人はほとんどいないだろう。その後、IBMは、初代社長のトーマス・ワトソンにちなんで「ワトソン」というコンピュータシステムを開発した。ワトソン（コンピュータ）には、テレビのクイズ番組ゲーム「ジョパディ！」をプレイするために開発されたソフトウェアが搭載されていた。その人工知能は、自然言語処理ソフトウェアを使って、英語で出題される限られた文法を解釈することができた。ワトソンは、2011年2月に放送された2試合に出場した。ブラッド・ラッターとケン・ジェニングスという2人のチャンピオン記録保持者を倒した。IBMはメリーランド大学と共同で、ワトソンが医療の診断や治療にどのように役立つかを検討している。

IBMの法務・規制担当上級副社長であるロバート・ウェーバー氏は、ワトソン関連のコンピューターが法的検索に役立つ可能性を指摘している。2011年1月、データマイニングソフトウェアは、10万ドル以下で150万件の文書の分析を支援した。これは、少数の弁護士やパラリーガルが620万件の文書を220万ドルかけて検索したことと比較することができる。何ヶ月もかけて何百万もの文書を検索する代わりに、プロセスを自動化することができる。結果は、数週間後ではなく、ほとんどすぐに得ることができる。

上記の段落では、メタアナリシスとの比較をしているだけで、コンピュータやデータマイニングの利用を促進しているわけではない。メタアナリシスは直線的で、基本的には「非常に多くの人に投与した場合、平均してある薬はプラセボよりも効果があるのか」といった質問に限定される。選択された研究については、比較の助けとなる限定的な統計を提供する。

メタアナリシスは、人間による検索やレビューに代わるものと考えられている。科学者や医師は、しばしば文献を評価する。しかし、人間によるレビューは、（メタアナリシスのように）レビュアーの主観的な視点であるため、EBMでは劣っていると考えられている。しかし、人間のレビュアーには2つの大きな利点がある。時折、個人がデータに対して新しいアイデアや解釈を展開することがある。典型的な例は、ダーウィンが生物学を「進化」という観点から再解釈したことである。メタアナリシスは、結果を粗雑に集約するものである。人間は、創造性、統合性、そして新しい理論を提供することができる。独立した人間のレビュアーのグループには、「群衆の知恵」という創発的な特性がある[406]。

1906年、近代統計学の創始者の一人であるフランシス・ガルトンは、イングランド南西部のカントリーフェアに参加した[407]。彼は、太った牛が屠殺された後に得られる肉の重量を推測する競争に気づいた。彼は，競技が終わった後，約800人の参加者に紙切れを求め，受け取った。その結果、中間値は1,207ポンド、実際の重量は1,198ポンドであった。驚くべきことに、参加者の平均的な推定値は正しい重量から1％（9ポンド）以内だった。ガルトンはこれが偶然ではないことに気づいた。彼はこの結果を利用して、投票がいかに堅牢な推定を可能にするかを説明したのである。

群衆には創発的な行動がある。魚の群れや鳥の群れは、複雑に組織化された行動をとることができる。魚は雲のように飛び回り、ほとんど瞬間的に方向を変える。それぞれの魚は、衝突を避けながら複雑なダンスをしている。サメが魚に近づくと、魚は分裂し、混乱した群れとなって捕食者の周りを旋回し、再び元の不定形の群れに組み戻る。このような群れの行動は、”近くの魚から少し離れて、彼らと同じ方向に移動する “というような単純なルールから生じている。

科学者たちは、創発的な知性を示す動物の集団の行動を調査している[408]。単一のアリは限られた行動しか示さないが、コロニーは近くの食料源への最適な道を探し出し、体を使って川に橋を架けることができる。繰り返しになるが、この群れの知能は単純なルールから生まれる。アリや関連する群れの行動をコピーするソフトウェア・プログラム（アリ・アルゴリズム）が実用的な問題解決に使われている[409]。

同様に、独立した個人の集団は、正確で強固な解決策を提供することができる。医師や科学者が個人で文献を検索したりレビューしたりすることで、全体的に良い効果が得られ、一人の個人よりも知的な効果が得られる。中にはフランシス・ガルトンが「変人」と表現したようなレビュアーもいて、乖離した外れ値の結果を出すであろう。しかし、このような外れ値は、強固な解決策を導くプロセスの不可欠な部分なのである。Galtonも1世紀以上前に、外れ値のクランクの影響は簡単に回避できると説明している。

メタアナリシスは、何か優れた意思決定の方法ではなく、限定的で直線的な、どちらかというと単純な手法である。メタアナリシスを究極のゴールドスタンダードと考えることは、暗黙のうちに人間の洞察力や、科学として知られる創発的な集団行動を無視することになる。

真の解決策を不明瞭にする

EBMでは、メタアナリシスはエビデンスヒエラルキーの最上位に位置する。このような高い地位を科学的に正当化する理由は見当たらない。より客観的に見ると、メタアナリシスはバイアスを隠し、査読者の偏見を助長するメカニズムである。メタアナリシスは、オリジナリティに欠ける質の悪いデータを提供する。

メタアナリシスの主張は、究極の大規模研究であるという考えに基づいているようである。このような主張にもかかわらず，メタアナリシスを現代の錬金術と表現する批評家もいる。つまり，臨床試験から無意味に何かを得ようとする試みである[410]。

メタアナリシスは、研究者が自分の偏見を確認するために、自分の好きな結果を選択するための手段に過ぎない。それは偏見を隠し、ゴールドスタンダードの地位を与えるものである。メタアナリシスは、安価で簡単に行うことができる。技術的なリソースや実験室を必要とせず、コンピュータとインターネット、そしておそらく図書館があればよい。必要なスキルのレベルも低い。残念ながら、メタアナリシスは人気があるが、その結果は無意味なものである。メタアナリシスは愚者の金である。