Statistics-based research – a pig in a poke?
pubmed.ncbi.nlm.nih.gov/21834843/
2011年6月14日
ジェームズ・ペンストン MB BS MD MRCP
キーワード
因果推論, 繁殖主義統計, 無作為化比較試験
概要
医学研究の多くは、大規模な無作為化比較試験を行い、試験群間のわずかな結果の違いを検出することを目的としている。この方法では、患者の管理に必要な信頼性の高いエビデンスが得られると考えられている。しかし、統計的に有意であるとはいえ、わずかな差が示されただけで、薬剤と転帰との間に因果関係があることを推論できるといえるだろうか。
観察された差の他の説明、すなわち群間の不平等、転帰の評価におけるバイアス、偶然性などが除外されたとき、研究は内的妥当性を有すると主張される。無作為化、割付の秘匿、二重盲検法、intention-to-treat分析などの様々なプロセスが実施されているにもかかわらず、結果に関連するすべての要因の点で両群が等しく、バイアスが排除されているかどうかは疑わしいままである。また、偶然性の排除については、不適切な統計的検定が用いられる可能性があるだけでなく、近年、頻出主義統計学は重大な批判を受けており、内的妥当性がさらに疑問視されている。
しかし、問題は内的妥当性の欠陥だけでは終わらない。大規模な無作為化比較試験や疫学研究の哲学的基盤が不健全なのである。厳密に検討すると、統計的に有意な小さな差から、薬剤と結果の間に因果関係があるという推論を脅かす多くの障害が現れてくる。
統計学に基づいた研究が医療の現場に影響を与えていることを考えると、このような方法論の欠陥を明らかにすることは何よりも重要である。
はじめに
統計学に基づいた研究、具体的には疫学研究や大規模ランダム化比較試験(RCT)は、医療の現場を支配している。疾患の原因や新しい治療法の効果を調べるための最も信頼できる手段であると広く考えられている。医学研究に携わる人たちや、そのデータを利用する人たちの間では、この種の研究は患者や社会全体に利益をもたらすものだと考えられているようである。しかし、このような主張は本当に正しいのであろうか?方法論が健全であることをどうやって知ることができるのか?また、その成果は本当に価値のあるものなのであろうか?
統計学に基づく研究を支持する人たちにとって、このような疑問は異端に等しい。現代の医学研究のパラダイムそのものを疑うものであり、否定されるべきものである。しかし、正統派の立場から離れてみると、これらの疑問はそう簡単には捨てられないことがすぐにわかる。実際、統計学に基づいた研究を精査すればするほど、その成果物を受け入れることは、単に突っ込みどころ満載の豚を買っているだけのように思えてくるのである。
背景
統計学は、第二次世界大戦後まもなく、医学やその他の学問分野の研究の一部として用いられるようになった[1]。それは、一見複雑な問題に終止符を打つことを約束するものであった。コホート研究や症例対照研究を含む疫学は、一般的な慢性疾患の原因を調査する方法を提供し、RCTは、関連するすべての点で一致した患者のグループで新しい治療法の効果を検証する手段を提供した。
未来はバラ色であった。疾病の予防と治療は、まさに地平線の向こう側にある。統計学に基づいた研究は、数世代のうちにすべてを一掃し、広く受け入れられるようになった。この60年の間に、統計学の影響力は飛躍的に高まった。すべての医学雑誌に採用され、必要な統計分析なしでは研究発表ができないほどになり、学部と大学院の両方の医学教育で必須のものとなった。時が経つにつれ、統計学者が増え、今では研究のプロセスに欠かせない存在となっている。
20年以上も前から、エビデンスに基づく医療を推進する運動が、この新しい研究手法を支持していた。臨床ガイドラインでは、大規模なRCTを頂点としたエビデンスの階層が示され、その後、疫学に属する観察研究が続いている。統計学をベースにした研究は、医学の世界ではすっかり定着している。
しかし、この新しい方法論の発展には、もう一つの微妙な変化があった。年々、ほとんど気づかないうちに、研究の規模が大きくなってきたのである。現在では、何千人もの被験者が参加するRCTも珍しくない。研究規模の大きさを特徴とする統計学に基づく研究は、ほとんど反対の声を上げることなく受け入れられている。しかし、この傾向は、この種の研究の妥当性とその製品の価値に決定的な影響を与えている。
大規模な臨床試験は,新薬の有効性を検証するための最も信頼性の高い方法であると一般に認められている [2].研究者は研究の規模を自慢し,製薬会社は研究の規模を自慢し,統計的アプローチの支持者は承認してうなずきながら,さらに多くの研究を求める。しかし、実際には、膨大な数の参加者は強さを反映しているわけではなく、むしろ弱さの表れでもある。
このことは、大規模なサンプルを臨床試験に採用することを決定した理由を考えれば明らかである。
[1]. 研究の規模は,治療群間の結果の差の期待値の大きさに反比例するが,この差の期待値の大きさは,対象物に関する知識の程度に依存する。したがって、研究の規模を大きくするのは無知である。例えば、研究者はどの高血圧患者が脳卒中を発症するかを特定するための十分な知識を持っていないため、大規模で異質なサンプルを集めなければならず、その中でその結果を経験するのは少数に限られる。同様に、薬剤の作用についての理解が限られているため、脳卒中を発症したであろう患者のうち、治療によってこの事象が予防されるのは少数派である。このように、薬剤とプラセボの間の転帰の差は非常に小さく、これが統計的に有意であることを示すためには、多数の患者を募集しなければならない。
研究の規模が大きいことが強みであると考えるのは、歪んだ考えに他ならない。しかし、間違った考えはそれだけではない。なぜ、試験の規模を無限に大きくしても、データから導き出される推論の妥当性に悪影響を及ぼさないと信じられるのであろうか?また、因果関係に関する知識が、大規模な異種患者集団の研究から得られると、なぜ信じられるのであろうか。
統計学的研究における因果推論
統計学に基づく研究では、研究グループ間の結果のわずかな違いを観察することで、因果関係を推論できるような条件を整えようとする。例えば、プラセボ群の死亡率が有効な薬剤を投与された群の死亡率よりも高いことがわかった場合、一定の条件が満たされていれば、治療によって生存率が向上したこと、言い換えれば、薬剤が死亡率の差を引き起こしたことを推論することができる。
統計学に基づいた研究における因果推論の正当性の問題は非常に重要だ。これは通常、内的妥当性の観点から扱われる[3]。観察された差を説明する可能性として、グループ間の不平等、結果の評価におけるバイアス、偶然性がそれぞれ除外されていれば、研究は内的妥当性を持つと言われる。しかし、後述するように、このアプローチは、基礎となる統計理論の信頼性や、この種の因果推論の哲学的根拠に関する他の重要な問題を無視している。
ここからは、大規模なRCTに焦点を当てて議論する。疫学研究は、無作為化によってグループが形成されているわけではなく、意図的な発明もないので、内的妥当性の条件を満たす可能性は低い。いずれにしても、RCTに関する因果推論の欠点は、観察研究にも同様に当てはまる。
内的妥当性の条件を満たす
大規模RCTは複雑な構造をしており、無作為化、割付の秘匿、二重盲検法、intention-to-treat分析など、その構成要素の多くは内的妥当性の条件を満たすように設計されている。
対等なグループの形成
無作為化と割付の秘匿は、試験開始時に結果に関連する因子が均等に分布しているグループを形成するために用いられる。しかし、無作為化は平等にマッチしたグループを保証するものではないことは明らかである。そうでなければ、単に偶然の結果として生じる不平等を避けるために、なぜブロック無作為化を用いるのであろうか?いずれにしても、出版物の結果欄に定期的に掲載されるベースラインデータの表には、グループ間の差が表れている。これらの差は小さいと主張されるかもしれないが、治療効果も同様の大きさである可能性があることを忘れてはならない。実際、注目を集めた大規模RCTは、ベースラインの不均衡を理由に異議を唱えられている[4-7]。その他の要因については、既知か未知かにかかわらず、グループ間の分布についてはわからない。
しかし,無作為化と割付の秘匿が理論的には常に等しいグループを生み出すとしても,それらが正しく実施されているとは断言できない。RCTの結果を操作することを意図して、これらのプロセスを意図的に妨害した例が文献に報告されている[8-13]。
臨床試験中の平等なグループの維持
臨床試験は何年も続くことが多く、期間が短いものであっても、群間に新たな差異が入り込む機会は常にある。言い換えれば、平等であるはずのグループが形成された後に無作為化プロセスが中断される可能性があるということである。
そもそも、患者が受けた治療についての知識は、例えば、追加で処方される薬物療法、実施される検査、手術への紹介に関する決定など、患者の管理方法に影響を与える可能性がある。試験中に生じたこれらの違いはすべて結果に関連しており、したがって内的妥当性を損なう可能性がある。
また、試験からの離脱に関する決定も、治療法に関する知識に影響され、結果に影響を与える可能性がある。同様に、データ解析の段階では、薬剤の開示が個々の患者のデータの取り扱いに影響を与える可能性がある。治療目的の分析は、離脱や脱落の問題を解決する方法として推進されているが、発表されたRCTでの報告が不十分であったり、間違っていたりすると、この問題が不確実になる[14,15]。明らかなのは、無作為化されたすべての患者の分析が不完全だとバイアスがかかるということである[16]。
無作為化はまた、特定の統計的検定によっても妨げられる可能性がある。このことは、例えば、サブグループ解析の場合に認められる。例えば、年齢、性別、喫煙状況などの特定の特徴に基づいて初期治療群を分割することで、関連因子の均等な配分が失われる [17,18]。
盲検化による治療の隠蔽は、これらの問題を軽減することはできても、完全に取り除くことはできない。二重盲検法には多くの潜在的な欠陥があり、個々の患者に割り当てられた治療法を特定する機会となる。
結果の評価におけるバイアスの回避
盲検化は、特にエンドポイントが柔らかいものや主観的なものである場合に、試験の結果の評価におけるバイアスを軽減する [19]。今日では、盲検化は内的妥当性を達成するために導入された他の手順に比べて重要視されていないが、データ解析時のバイアスの回避や研究期間中の無作為化群の維持など、その他の機能はしばしば軽視されている。
しかし、多くの限界がある [1]。盲検化は、特定の臨床状況では不可能な場合がある。活性薬物とプラセボの間の知覚できる違い、治療を開示する一般的な生理学的または薬理学的効果、さらには薬物やその代謝物の存在による尿や便の色の変化によって、盲検化ができない場合がある。しかし、盲検化が成功しているように見えても、RCTの結果を操作しようとする個人によって、盲検化が意図的に破られることがある。
観察された差の説明としての偶然性の排除
研究の最後に、内的妥当性のための他の条件が満たされたと考えられる場合、残るのはデータを検証し、より具体的には観察された治療効果の大きさを検証し、グループ間の差の説明として偶然を除外すべきかどうかを決定することである。
しかし、多くの場合、問題は一筋縄ではいきない。特定のRCTの統計解析に関する論争は珍しいことではなく、統計的検定の誤った使用に関連するエラーも文献に報告されている。最近では、多重比較の解析についても懸念されている。例えば、大規模なRCTでは、試験サンプルの様々なサブグループにおける治療効果の分析が頻繁に行われている。しかし,この方法には,偽陽性率の上昇など,多くの問題があることが知られている[18]。この偽陽性の問題は、相互作用の検定を行うことで回避できるかもしれないが、適切な分析を行ったと報告している研究は少数派である。また、サブグループを使用すると、無作為化が阻害されるため、内的妥当性がさらに疑われることになる。
しかし、RCTのデータの統計解析が標準的な手法に沿ったものであったとしても、従来の統計解析の妥当性には疑問が残る。
頻出主義的な統計学の問題点
半世紀以上にわたり、頻度論的アプローチの統計に対する批判があった[20-22]。この批判は過去20年の間に増加しているが,その理由の一つは,ベイズの代替手法への関心が高まっていることである.
従来の統計学は、確率に関するフリークエンティストの理論に基づいている[23]。タクシーが遅刻する確率は,タクシーが遅刻した回数を予約した回数で割った値に等しい.しかし、このアプローチの困難さは明らかである[23]。第一に,この種の分析は,繰り返し可能な事象にしか適用できない.同じ現象の複数のインスタンスを観察できなければならない.第2に、結果は個人ではなくクラスやグループにしか適用されず、これは控えめに言っても、医療に関しては不利な点である。
頻出主義の統計学は不明瞭さが特徴である。例えば、信頼区間、P値、帰無仮説に関する誤解や混乱は、従来の統計学を使用したり教えたりしている医学者の間でもよく見られる[24]。P値の研究への影響や,0.05というカットオフ値へのこだわりは,何年にもわたって不安の種となっている[22].しかし,もっと深刻な課題がある.より極端なデータの使用に伴う問題[25,26]、多重比較の取り扱いの難しさ[18]、統計的検定の仮定を満たさないこと[22,27]、帰無仮説の棄却を支持するバイアス[26]、統計的有意性の誇張[28]などにより、フリークエンティストの手法から導き出される推論には重大な疑問が生じる。
もちろん、従来の統計の支持者がこれらの非難の多くを否定していることは認めざるを得ない。とはいえ、批判の量は尋常ではない。時間の経過とともに、頻出主義統計の有効性に関する問題が次々と表面化しているのである。問題は、さらにどれだけの欠陥が発見されるかということである。
統計的因果関係の哲学的根拠
大規模なRCTにおいて、治療群間の結果に統計的に有意ではあるが小さな差があることが証明されると、なぜ因果推論が正当化されると考えられるのであろうか。内的妥当性の条件がすべて満たされていたとしても、この推論を受け入れる根拠には乏しいように思われる。
確率的因果関係
統計的因果関係の基本は、確率上昇の概念である。事象Cと事象Eの間の因果関係は、Cが存在する場合のEの確率が、Cが存在しない場合のEの確率よりも大きい場合に推論されることがある[29-31]。
しかし、この説明は、因果関係を特定するには不十分なようである。例えば、因果関係の非対称性には対応していない。
- つまり、CはEを引き起こすが、EはCを引き起こさない、という因果関係の非対称性を扱うことができず、原因と結果を区別することができない。例えば、CとEの両方が別の要因Xによって引き起こされている場合など、真の因果関係と偽の因果関係を区別することができない。また、原因が常にその効果の確率を高めるとは限らないと主張される状況もある[32]。
Cの存在がEの存在の確率を高めているというだけでは、因果関係の推論を正当化することはできない。もっと多くのことが必要である。内的妥当性を確保するために大規模RCTに導入された仕組みが、欠けている特徴に対処し、因果関係の特定を可能にすると考えられるかもしれない。しかし、それは本当に正しいのであろうか?
ヒューム、規則性理論と統計的因果関係
因果関係については、哲学的には様々な説明がなされているが、その多くは医学の研究にはあまり関係がないと思われる。例外は、18世紀にデビッド・ヒュームが提唱した規則性理論である[33]。簡単に言えば、人間には因果推論を行う自然な性質があり,タイプCの事象に続いてタイプEの事象が例外なく繰り返し観察されることから,すべてのCがEを引き起こしていると結論づける。この説明だけでは、偶然性と因果関係を区別することはできない。しかし、これに発明を加えれば、信頼できる因果関係の推論に必要なものはすべて揃う。学校で行われる理科の実験を考えてみよう。例えば、無水硫酸銅のサンプルを2つ用意する。対照となるサンプルは変化しないが、もう一方のサンプルに水を加えると、色が白から青に変化し、反応によって熱が発生する。どの実験でも、結果は同じである。これが因果関係の確認方法である。
このような特徴は、我々が日常的に考えている因果関係の一部のようである。因果関係をどのように学び、どのような言葉で表現しているのかを考えてみると、「規則性」と「介入」という概念が随所に見られる。もちろん、これらの正確な用語が使われることはほとんどないが、これらの考え方が因果関係に関する我々の思考や会話に浸透していることを認識することは妨げない。
しかし、Cの存在とEの存在との間に一対一の相関関係がない場合も多い。このような場合に、因果関係を裏付ける証拠と言えるかどうかは、厳密な規則性からの逸脱の度合いによる。繰り返し観察した結果、Cを導入すると100例中99例でEが発生し、Cがない場合にはEが発生しないという結果が得られれば、CがEを引き起こすと結論づけることができるだろう。しかし、その逸脱がもっと極端な場合はどうだろうか。ヒューム[33]によれば、因果推論の信頼性は、個々の事例間の類似性と関連性の規則性に依存する。類似性と規則性が低下すると、因果推論の信頼性が低下するような状況のスペクトルがある。
このスペクトルの一方に、同質的な集団と厳格な規則性を持つ物理科学があるとすると、もう一方には、異質性と観察可能な規則性がない統計学に基づく研究がある。医学研究では、治療効果をより小さく検出するために、RCTの規模がどんどん大きくなることを受け入れ、その過程で、因果関係の推論がもはや正当ではないところまでスペック・トラムに沿って移動してきたように見える。
科学実験と大規模RCT
大規模RCTは、表面的には科学実験とよく似ているように見える。発表される論文の構造はほぼ同じであり、意図的な介入や対照群の存在など、重要な特徴が共通しているのは確かである。しかし、この2つの方法には根本的な違いがあり、それが最終的には科学の成功と統計に基づく研究の失敗の原因となっている。その違いとは、ヒュームが提唱した「類似性」と「規則性」という考え方である。
健全な背景理論と知識があれば、科学者は同質的なクラスの対象物に対して実験を行うことができる[34]。一気に内的妥当性への脅威を取り除くことができる。重要なのは、それが厳密な規則性をもたらすということである。したがって、因果推論は信頼できる。実験は、正確な予測に使用できる普遍的な因果関係の一般化をもたらす。
対照的に、統計学に基づく研究は、弱い理論と知識から始まる[34]。臨床試験は異種クラスで実施され、患者は研究結果に関連する数多くの要因に関して互いに異なるため、内的妥当性が大きな問題となる。規則性はどこにも見られない。因果関係推論の根拠が失われる。
個々の事象との接点の喪失
因果関係は、自然界の事象に関係する。我々は因果関係を明らかにすることで、自分にとって有益な結果を促進し、有害な結果を防ぐことができると考える。
科学実験を見ると、原因を導入した後に結果が出ることはあっても、原因がない場合に結果が出ることはない。例えば、「無水硫酸銅に水を加えると色が白から青に変わり、反応は発熱する」という我々の主張を否定する人がいたとしたら、その人に間違いを証明すればいいのである。その証拠は、色の変化を目で見て、熱の発生を感じることができるからである。
統計学に基づく研究の特徴は、因果関係のある個々の事象との接点が失われていることである。例えば、何万人もの被験者が参加した大規模なRCTを分析すると、有効な治療を受けたグループの死亡率が4%であるのに対し、プラセボを受けたグループの死亡率は5%であり、1%の差は統計的に有意であり、その薬剤を5年間継続して投与することで死亡率が低下するという結論が得られる。もし生データが入手できれば、各群の死亡者数を合計して、積極的治療群とプラセボ群の数値差を求めることができる。しかし、この差については何と言えるであろうか。統計学的に有意であるかどうかはわからない。これは、統計学に基づいた研究における因果関係の判断が、いかに実際の出来事から切り離されているかを示している。
しかし、もっと重要なことは、その薬が死を防いだというケースを実際には一度も観察していないということである。例えば、5年間薬を飲み続けて元気になった患者に会ってみてほしい。これが死を防いだ例だとは断定できない。95%の患者が治療を受けなくても生存していることを考えると、この患者は治療を受けなくても生存していた可能性の方が、薬に依存していた可能性よりも圧倒的に高いと言える。しかし、治療に失敗した例もある。薬を投与された患者が死亡した場合、その患者には治療が効かなかったと推測できる。
しかし、因果関係が観察されるのは、原因が結果を生むという肯定的な場合だけである。治療が成功した事例を特定することができないという事実は、統計学に基づく研究における因果関係の推論と事象との間の不一致を改めて示している。
統計学に基づく研究の検証
内的妥当性の条件が満たされているかどうかについての疑問や、因果推論の哲学的根拠についての疑問を考えると、統計学に基づく研究の結果をどのようにして検証できるかを問うことは妥当である。
このような質問が、科学的な経験についてなされたと想像してみてほしい。答えは明らかで、初期条件を再現し、実験を再現することである。しかし、大規模なRCTの場合、再現は不可能である。これは、異質性を受け入れることの直接的な結果である[1]。我々は、再現性を可能にするために、研究期間中の患者とその管理について十分な情報を持っていない。また,たとえこのような詳細な情報があったとしても,最初の試験から再現を試みるまでの長い時間の間には,多くの変更や新たな展開があり,それによってさらなる差異が生じるであろう。我々は、一見似たような2つの試験で異なる結果が出たときに起こる論争を観察すればよいのである。矛盾を説明するために、患者や治療レジメンの小さな違いが関係している[1,35-37]。しかし、似たような結果を出した試験では、試験間に存在する違いについて何も語られない。このような状況では、ある大規模なRCTの結果が他のRCTの結果を裏付けるとは言いがたい。
しかし、もっと根本的な問題がある。統計学に基づく研究の方法論が有効であることを、どうやって知ることができるのであろうか。それをどうやって検証するのであろうか?明らかに、RCTや疫学的研究を用いることは、循環論法の罪を犯すことになる。そこで、統計学とは独立した手段が必要になる。自然界の現象を調べるには、従来は科学的手法を用いてたが、素材が不均質であるためにそれができない。ここでも、異質なサンプルで研究を行うということが、問題の根源になっていると考えられる。
統計学に基づいた研究の方法論を、統計学とは別に検証することはできない。したがって、大規模なRCTや疫学研究のデータから導き出される因果関係の推論が妥当かどうかはわからない。また、このような研究の成果物に価値があるかどうかもわからない。
おわりに
研究者はもちろんのこと、大規模RCTや疫学研究のデータを利用する医師などの医療関係者にとって、本稿で紹介した統計学に基づく研究に対する批判の大きさと深さには驚きを隠せないだろう。結局のところ、この種の研究の詳細に踏み込むことはほとんどなく、たとえそのような時間と気持ちがあったとしても、文献は難しく、ほとんどの場合、アクセスできないだろう。
それにもかかわらず、今日では医療における最も信頼性の高い研究方法とみなされている大規模RCTをよく見てみると、内的妥当性が確保されておらず、統計に対する頻度論的アプローチはますます批判の対象となっており、因果推論の哲学的基盤は非常に疑問視されていることに気づくであろう。さらに悪いことに、統計学に基づいた研究を検証する独立した手段がない。
何世紀も前、食料が不足していた頃、悪質な市場商人は豚が入っていると称してポークと呼ばれる袋を売りに出していた。中身を確認せずに買った騙されやすい客は、家に帰ってから袋の中に猫が入っていたことに気づく。薬を処方する医師や看護師、資金援助を求める利権団体、統計学的な調査に基づいて決定したという理由で公金を支出する国民保健サービス(NHS(英国保健医療局))の管理者や政治家も、ポーク入りの豚を買うときには同じように騙されてしまう。
しかし、統計学に基づく研究には、本稿の範囲外ではあるが、言及に値する不満足な点が他にも数多くある。例えば、外的妥当性のテーブル内問題、個々の患者に対する小さな治療効果の貧弱な価値と不確かな意味、統計データが容易に操作や誤魔化しの対象となる方法、研究結果に利害関係を持つ人々が研究に影響を与えたり妨害したりする機会、そして研究不正の可能性などである[1]。本論文の文脈では,これらの問題は,統計に基づく研究への反論を強化するものにすぎない。
我々は過去50年間、結果を気にすることなく、疫学研究やRCTの規模が容赦なく拡大していくのを目の当たりにしていた。我々は、研究の規模が大きいことが強さの証であるという歪んだ考えを受け入れていた。統計的な有意性は得られても、研究に参加する患者の数が増えると因果関係の推論が弱くなることを認識していなかった。また、問題の根源である、極めて不均質なサンプルから価値のある因果関係を引き出すことができるという信念を無視している。
最後に、この論文で提示された議論は、医学研究だけでなく、統計学に基づいた研究を使用するすべての学術分野に適用されることに注目したいと思う。その意味するところは計り知れない。今こそ、袋から猫を出す時ではないであろうか。
本稿は 2010年11月にThe London Pressから出版されたJames Penston著「Stats.con – How we’ve been fooled by statistics based research in medicine」の主要な議論の1つを要約したものである。本論文の参考文献はすべて同書に掲載されている。
利害の衝突
ない
文献
1. Penston, J. (2010) Stats.Con – How We’ve Been Fooled by Statistics-Based Research in Medicine. London: The London Press.
2. Bossuyt, P. M. M. (2001) Better standards for better reporting of RCTs. BMJ, 322, 1317–1318.
3. Elwood, J. M. (1988) Causal Relationships in Medicine. Oxford: Oxford University Press.
4. Sleight, P., Yusuf, S., Pogue, J., Tsuyuki, R., Diaz, R., Probstfield, J. & the Heart Outcomes Prevention Evaluation (HOPE) Study Investiga-tors. (2001) Blood pressure reduction and cardiovascular risk in HOPE study. Lancet, 358, 2130–2131.
5. Lindholm, L. H., Ibsen, H., Dahlof, B., et al. (2002) Cardiovascular morbidity and mortality in patients with diabetes in the Losartan Intervention For Endpoint reduction in hypertension study (LIFE): randomised trial against atenolol. Lancet, 359, 1004–1010.
6. Taylor, R. (2002) Blood pressure and cardiovascular risk in the HOPE study. Lancet, 359, 2117–2118.
7. Bloom, J. M. (2002) Losartan for cardiovascular disease in patients with and without diabetes in the LIFE study. Lancet, 359, 2201.
8. Schulz, K. F., Chalmers, I., Hayes, R. J. & Altman, D. G. (1995) Empirical evidence of bias. Dimensions of methodological quality associated with estimates of treatment effects in controlled trials. JAMA, 273, 408–412.
9. Schulz, K. F. (1995) Subverting randomisation in controlled trials. JAMA, 274, 1456–1458.
10. Moher, D., Pham, B., Jones, A., Cook, D. J., Jadad, A. R., Moher, M., Tugwell, P. & Klassen, T. P.. (1998) Does quality of reports of ran-domised trials affect estimates of intervention efficacy reported in meta-analyses? Lancet, 352, 609–613.
11. Swingler, G. H. & Zwarenstein, M. (2000) An effectiveness trial of a diagnostic test in a busy outpatients department in a developing country: issues around allocation concealment and envelope randomi-sation. Journal of Clinical Epidemiology, 53, 702–706.
12. Schulz, K. F. & Grimes, D. A. (2002) Allocation concealment in randomised trials: defending against deciphering. Lancet, 359, 614– 618.
13. Schulz, K. F. (1996) Randomised trials, human nature, and reporting guidelines. Lancet, 348, 596–598.
14. Huwiler-Muntener, K., Juni, P., Junker, C. & Egger, M. (2002) Quality of reporting of randomised trials as a measure of methodological quality. JAMA, 287, 2801–2804.
15. Hollis, S. & Cambell, F. (1999) What is meant by intention to treat analysis? Survey of published randomised controlled trials. BMJ, 319, 670–674.
16. Sackett, D. L. & Gent, M. (1979) Controversy in counting and attrib-uting events in clinical trials. The New England Journal of Medicine, 301, 1410–1412.
17. Cui, L., Hung, H. M., Wang, S. J. & Tsong, Y. (2002) Issues related to subgroup analysis in clinical trials. Journal of Biopharmaceutical Statistics, 12, 347–358.
18. Rothwell, P. M. (2005) Treating individuals 2: subgroup analysis in
randomised controlled trials: importance, indications, and interpreta-tion. Lancet, 365, 176–186.
19. Wood, L., Egger, M., Gluud, L. L., Schulz, K. F., Juni, P., Altman, D. G., Gluud, C., Martin, R. M., Wood, A. J. G. & Sterne, J. A. C. (2008) Empirical evidence of bias in treatment effect estimates in controlled trials with different interventions and outcomes: meta-epidemiological study. BMJ, 336, 601–605.
20. Carver, R. P. (1978) The case against statistical significance testing. Harvard Educational Review, 48, 378–399.
21. Goodman, S. N. (1999) Toward evidence-based medical statistics. 1: the P value fallacy. Annals of Internal Medicine, 130, 995–1004.
22. Nickerson, R. S. (2000) Null hypothesis significance testing: a review of an old and continuing controversy. Psychological Methods, 5, 241–301.
23. Cohen, L. J. (1989) An Introduction to the Philosophy of Induction and Probability. Oxford: Oxford University Press.
24. Gigerenzer, G., Krauss, S. & Vitouch, O. (2004) The null ritual: what you always wanted to know about significance testing but were afraid to ask. In The Sage Handbook of Quantitative Methodology for the Social Sciences (ed. D. Kaplan), pp. 391–408. Thousand Oaks, CA: Sage.
25. Berger, J. O. & Berry, D. A. (1988) Statistical analysis and illusion of objectivity. American Scientist, 76, 159–165.
26. Lindley, D. V. (1993) The analysis of experimental data: the apprecia-tion of tea and wine. Teaching Statistics, 15, 22–25.
27. Greenland, S. (2006) Bayesian perspectives for epidemiological research: foundations and basic methods. International Journal of Epidemiology, 35, 765–775.
28. Goodman, S. N. (1999) Toward evidence-based medical statistics. 2: the Bayes factor. Annals of Internal Medicine, 130, 1005– 1013.
29. Reichenbach, H. (1956) The Direction of Time. Berkeley, CA: Uni-versity of California Press.
30. Good, I. J. (1961) A causal calculus. The British Journal for the Philosophy of Science, 11, 305–318.
31. Suppes, P. (1970) A Probabilistic Theory of Causality. Amsterdam: North-Holland Publishing Co.
32. Salmon, W. C. (1980) Probabilistic causality. Pacific Philosophical Quarterly, 61, 50–74.
33. Hume, D. (1969) A Treatise of Human Nature (1739). Middlesex: Penguin Books Ltd.
34. Penston, J. (2003) Fiction and Fantasy in Medical Research: the
Large-Scale Randomised Trial. London: The London Press.
35. Fox, K. M. (2003) Efficacy of perindopril in reduction of cardiovas-cular events among patients with stable coronary artery disease: randomised, double-blind, placebo-controlled, multicentre trial (the EUROPA study). Lancet, 362, 782–788.
36. The PEACE investigators (2004) Angiotensin-converting-enzyme inhibition in stable coronary artery disease. The New England Journal of Medicine, 351, 2058–2068.
37. Fox, K., Ferrari, R., Yusuf, S. & Borer, J. S. (2006) Should angiotensin-converting enzyme-inhibitors be used to improve outcome in patients with coronary artery disease and preserved left ventricular function? European Heart Journal, 27, 2154–2157.