臨床試験からの統計的推論が誤った結果や再現性のない結果を生み出す可能性が高い理由
Why statistical inference from clinical trials is likely to generate false and irreproducible results

強調オフ

EBM・RCT

サイトのご利用には利用規約への同意が必要です

bmcmedresmethodol.biomedcentral.com/articles/10.1186/s12874-017-0399-0#Sec7

発行:

レオニード・ハニン

BMC Medical Research Methodology 17巻 記事番号:127(2017

概要

生物医学研究において、再現性の危機が最も顕著で、かつ重大な影響を及ぼしている分野の1つが臨床試験である。なぜこれほど多くの臨床試験の結果が互いに矛盾しているのだろうか?なぜ多くの薬物やその他の医療介入の有効性が低いのか?なぜ処方薬は欧米では心臓血管疾患、癌に次ぐ第3の死因になっているのか?

これらの疑問に対する答えとして、これまで明らかにされてきた主な原因は、臨床試験の計画、実施、分析、そして結果の報告における様々な偏見や利益相反であった。この研究では、臨床試験の計画や試験データの解析に用いられる統計的手法を詳細に検討する。

この方法論は、様々な疑わしい、経験的に検証不可能な仮定、疑わしい近似値、任意の閾値に基づいており、他の多くの点でも欠陥があることを主張する。これらの仮定の中で最も好ましくないのは、医療介入に対する被験者の反応の分布の均質性である。私たちはこの仮定と他の仮定を理論的に、また臨床例を通して分析する。

私たちの主な結論は、完全に公平で、完全に無作為化され、確実に盲検化され、忠実に実行された臨床試験でさえ、誤った、再現性のない結果を生み出す可能性があるということである。

また、私たちの分析に基づき、臨床試験のデザインと統計手法を改善するためのいくつかの提言を行う。

背景

過去数十年の間に、生物医学は生命と疾病の分子およびゲノム機構の理解において著しい進歩を遂げた。しかし、生命の分子機構に対する理解と、生物全体の行動や様々な介入に対する反応を説明する能力との間には、依然として大きな隔たりがある。医学の分野では、臨床試験がこのギャップを経験的な手段で埋めようとしている。このギャップをより顕著に表しているのが、初期の臨床試験における予期せぬ大惨事である。例えば、2015年にフランスのレンヌで実施された不安、運動障害、慢性疼痛の治療を目的とした薬剤BIA 10-2474の第I相試験では、予想外にボランティア1名が死亡し、他の5名が不可逆的な脳障害を負った[1]。2006年にロンドンで実施された第I相試験では、自己免疫疾患や白血病の治療を目的としたモノクローナル抗体TGN1412が、6人の健康なボランティアに多臓器不全を引き起こした[2]。さらに別の例として、1993年にNIHがB型肝炎の治療のために第II相臨床試験を行った抗ウイルス剤であるフィアルリジンは、重度の肝毒性と乳酸アシドーシスにより5人のヒトボランティアを死亡させた[3]。驚くべきことに、ロンドンの試験でボランティアに投与された量は、動物で安全性が確認された量の500分の1であった[4]。

薬物やその他の医療介入の作用に関連する生物学的メカニズムや複雑な相互作用に関する知識が不十分なため、試験の結果を予測し解釈する上でかなりの不確実性が生じている。特に、試験された介入が個々の患者や患者のカテゴリーに有効かどうか、またどのような副作用が生じるかを予測することはまだできない。このため、試験参加者のサンプルは、予測できない多くの点で不均一になる。さらに、倫理的な配慮から、一般的に対象集団よりも若く、健康で、薬物依存度の低い被験者を採用することになり、試験参加者のサンプルが集団を代表するものでなくなってしまう。これらの不確実性は、臨床試験の資金調達、計画、分析、報告に関わる様々なバイアスや利益相反と相まって、多くの薬剤の効果が驚くほど低く、重篤な副作用が多く発生する大きな理由となっている。[5]で報告されているように、アメリカ市場で最も売れている10の医薬品は、服用した患者の75%から96%の状態を改善することができない。のように、高度に処方された薬でさえ、実際に効果があるのかどうか、疑問が残る。さらに不吉なことに、処方薬は欧米では心臓血管疾患、がんに次ぐ第3の死因となっている[6]、p.1)。臨床試験の有用性に対する疑念は、医学界にとどまらず、メディアにも流布している[7]。

学術面では、臨床試験を含む生物医学研究の妥当性と再現性が、20年以上にわたって重大な関心事となっている[8,9]。その顕著な例として、あるメタアナリシス研究[10]によれば、一流医学雑誌に掲載され、医療介入の効果を主張し、後に多くの患者集団で再試行された、最も引用された26件の無作為比較臨床試験のうち、9件(35%)が反論されるか、その効果の主張が大幅に誇張されていることが判明している。

生物医学の研究結果の虚偽性や再現性の根本的な原因は何なのだろうか?John Ioannidisは、「Why Most Published Research Findings are False」と題する論文[11]で、この現象を説明しようと試みている。彼は、次のような科学的発見のモデルを想定している:複数の研究者グループが、経験的データの統計的分析を行うことによって、多くの研究課題を独立して研究している。各研究結果は事前に真である確率を持つが、この確率は統計解析のランダム効果によって調整され、ある確率で偽陽性と偽陰性の発見が起こる。モデルの主要なパラメータは「バイアス」であり、研究チームによって誤りであることが判明した所見を真として報告する確率として定義される。このモデルは、モデルパラメータの関数として、偽の発見の確率を表すベイズ型の公式を導き出す。この式に基づくサンプル計算により、[11]の著者は論文のタイトルにあるような結論に至った。

Peter Gøtscheは、産業界が実施またはスポンサーとなった臨床試験における意図的な偏見と組織の腐敗に関する様々な事例を、その驚くべき本の中で詳しく取り上げている[6]。この本では、データの隠蔽や改ざん、選択的な報告、副作用に関する情報の隠蔽、エンドポイントの事後的な変更、より好ましい結果を得るための患者の組み入れ基準や試験期間の操作、比較対象者の意図的なハンディキャップ、その他さまざまな非倫理的利益誘導行為が数多く報告されている。このような行為は、公衆衛生上の大きな問題を数多く引き起こしてきた。その一例として、メルク社が製造し、主にNSAID鎮痛剤として販売されているCOX-2阻害剤バイオックス(ロフェコキシブ)の心血管副作用に関する試験データの隠蔽と捏造は、1999年から2004年にかけて世界中で約12万人の死亡をもたらした([6], p.161)。ゴーシェは、その広範な研究に基づいて、ビッグファーマの手にかかると、臨床試験は偽装されたマーケティングツールに過ぎなくなると結論付けている。

上記の説明は有効で有益なものであるが、あらゆる研究調査において最も重要な要素である、研究チームによって採用された科学的方法論が無視されている。この論文では、第III相臨床試験の計画と分析に使用される統計的方法論にのみ焦点を当てる。私たちは、完全に公平で、適切に無作為化され、確実に盲検化され、完璧に実施され、忠実に報告された対照臨床試験からの統計的推論でさえ、誤った知識や再現性のない結果を生み出す可能性があることを示す。臨床試験のデザイン、臨床試験データからの統計的推論、臨床試験の質の評価に関連する多くの具体的な問題は、[12]で議論されている。

注意喚起と参考のために、臨床試験の方法論についてごく簡単にレビューする (例:[13])。第III相臨床試験は、医学的介入(そのうちの1つは通常、プラセボまたは標準治療)の大規模な経験的比較を行うために実施される。試験の2つの群は、試験のそれぞれの群におけるすべての被験者のある効果測定の平均値間の差を計算することによって比較される。個々の被験者に対する典型的な効果の指標は、あるイベント(治療への反応、治癒、死亡など)の発生の指標か、ある観察可能な臨床変数の値 (例えば、無病生存時間、収縮期または拡張期血圧、ある種の血球数、あるバイオマーカーの濃度、など)である。上記の平均値の正規化された差は、通常、試験計画や試験データの解析に用いられる検定統計量として機能する。

試験は、治療が同等に行われたという帰無仮説が、実際に同等に行われた場合には十分に低い確率(有意水準といいる)で棄却され、一方の治療が他方より十分に優れているという対立仮説が真であれば十分に高い確率(統計力といいる)で棄却できるように設計されている。通常、様々な偏りに対する予防措置がとられる。特に、患者は治療法にランダムに割り付けられ、可能な限り、患者と治験責任医師はこの割り付けを盲検化される。試験終了後、実際の有意水準と検出力の決定、関心のあるパラメータの推定と信頼区間の計算、副作用の発生率と重症度の評価などのために、その結果の統計解析が行われる。

臨床試験には4つの主な変動要因がある:(1) 関連集団からの試験参加者のサンプリング、(2) 比較した介入の効果における被験者内(個人)変動、(3) これらの効果における被験者間変動、および (4) 試験参加者の治療への無作為割付。臨床試験には、試験参加基準を満たし、インフォームドコンセントを得た患者のみが登録される。このことや他の多くの理由により、母集団からの被験者のサンプリングは非ランダムである。これは臨床試験データの最高の統計解析でも軽減できないので、この研究の対象にはならない。しかし、非ランダムサンプリングは、試験結果の母集団への外挿やその再現性にとって大きな障害となる。バリエーションタイプ2,3、4については、以降のセクションで取り上げることにする。

臨床試験で使用される統計手法に対する私たちの批判は2つの次元で進行する。第1に、統計的手法の基礎となるいくつかの基本的な仮定と原則を明らかにし、臨床試験の場合、それらの妥当性は不確実、疑問、あるいは非常に高い確率で誤りであると主張する。次に、臨床試験でよく用いられる統計解析の重要な技術的側面をいくつか取り上げ、それらもまた誤った結果や再現性のない結果を生み出す一因となる可能性が高いと結論づける。具体的には、まず個々の反応変数に対するランダム性と決定性のジレンマから始める。次に、医療介入の選択における選好ルールとしての平均化原則について論じる。次に、独立性と均質性の基本的な仮定について、まず例題([14]でも取り上げている)を用いて詳細に検討し、より正式な統計解析の立場からこのトピックにアプローチする。さらに、臨床試験の代わりとして、個々のケーススタディについて議論する。儀式としての臨床試験の統計解析」では、臨床試験データの解析によく用いられるいくつかの統計的概念やツールを概観し、基礎となる仮定の無視、様々な近似値や任意の閾値の無批判な使用、無作為化の無視が誤った結果につながる可能性があることを論証している。最後に、得られた知見をまとめ、歴史的・哲学的な観点から整理し、結論と具体的な提言を述べる。

臨床試験で利用される統計的手法に重大な欠陥があるからといって、臨床試験が放棄されるべきということにはならない。慎重に計画され、適切に実施された場合、臨床試験は疾患と比較された治療に対する患者の反応に関する豊富な経験的知識を生み出すことができる。このことは、疾患および/または試験された介入の効果や副作用が非常に不均一である場合に、特に価値があることを証明することができる。しかし、試験が効果的で、その結果からの推論が有効であるためには、統計的方法論をかなり強化し、厳格な数学的および計算的感度分析で強化し、疾患に関する生物医学的知識、ならびに比較した治療の生物学的および薬学的作用と組み合わせなければならない。

治療に対する個人の反応。決定論と偶然性のジレンマ

今日、統計解析は生物医学研究において必須の要素となっている。このコンプライアンス上の圧力により、生物医学の科学者は、ある被験者に起こる健康に関連するすべての事象は本質的に偶然性に依存し、測定可能なすべての量は確率変数であるという仮定を、ほとんど無意識のうちに採用してしまっている。この仮定が単に哲学的なものではないことは明らかである。研究期間中に非ランダム事象の発生を検出するには、1回の観察で済むが、ランダム事象はある確率で発生し、その推定には多数の観察が必要である。同じ治療に対する被験者の反応に大きなばらつきがあることは経験的な事実である。しかし、個々の反応に偶然性が関与しているという科学的根拠はどの程度強いのだろうか。

ジレンマの決定論的側面は、基礎科学から強い支持を受けている。薬物やその他の医療介入の効果は、生命の分子基盤を構成する様々な生化学的システムの作用によって現れるのが普通である。その機能については、生化学反応速度論の微分方程式に支配された決定論的機械として本質的に作用していることが分かっている。すべての分子種の初期濃度、動力学定数、外部および内部の諸条件がわかっていれば、生化学システムの将来の状態を非常に正確に予測することができる。極めて複雑な自己制御的生化学系である細胞の遺伝装置が、ゲノムの保存と複製、転写、翻訳、遺伝子発現の適応的制御に極めて忠実である理由は、このような広い内外の条件下での予測可能な動作による。さらに、活性化閾値、阻害剤、フィードバックループなどの生化学システムの特徴により、ランダムに変化する環境下でも生物機能を安定的に実行し、生理的な恒常性維持に寄与している。

生化学系の決定論的挙動は、量子力学の確率論的法則に支配された非常に多くのランダムな微小事象の集合的結果である。したがって、個々の反応データの統計的解析に着手する前に、確率的な性質が全身的な臨床効果のレベルまで再浮上するようなメカニズムを想定することが必要である。それとも、それは未知の決定論的因果関係を覆い隠す幻想に過ぎないのだろうか?

決定論的な反応という仮説は、経験的に検証できる場合がある。例えば、ある被験者が急性疾患を繰り返し発症し、同じ量の薬物で治癒した場合、その患者の薬物に対する反応は決定論的である可能性が高い。同様に、私たちが何気なく使っている様々な薬物や医療行為も、その多くは、その効果の大きさとタイミングの点で、患者ごとに安定した、明確な定義があることが示唆されている。では、臨床試験で試される実験薬には、なぜこのようなことが起こりえないのだろうか?

一方、ある種の治療による個々の効果は、間違いなく確率的である。典型的な例は、細胞死、突然変異誘発、発癌によって観察可能な影響を引き起こす可能性のある放射線への曝露である。この場合、電離放射線の1粒子またはその2次粒子の1つが、細胞のDNAの近くを偶然通過した場合に、ランダムに蓄積されるエネルギー量によって、細胞への致死的損傷や有害な突然変異が生じる可能性がある。

治療による個々の影響の数学的・統計的モデル化における決定論的アプローチと確率論的アプローチの選択は慎重であるべきで、疾患と治療の本質に関する生物医学的証拠の優越に従うべきである。そのような証拠が決定的でない場合は、両方のアプローチを競争的に追求し、その結果を比較することができる。

臨床試験の方法論 平均化は有効か?

臨床試験における方法論の中心は平均値の比較である。平均化の威力は、(1)ランダムな個人差の本質的なキャンセル、(2)医療介入から生じると想定される系統的な臨床効果の保持、を組み合わせたところにある。しかし、この考え方は、均質性、すなわち、割り当てられた治療に対する個人の平均反応の大きさがほとんどの患者でほぼ同じであるという隠れた仮定に依存している。しかし、ほとんどの臨床試験の現実は非常に異なっている。一般的に、試験に登録された被験者のうち、かなりの割合が割り付けられた治療に反応しない一方で、他の被験者の反応は効果の大きさとタイミングに大きなばらつきがある。さらに、軽微で一過性のものから永久的で生命を脅かすものまで、多種多様な副作用が観察される。

最良の介入は平均的に最もよく機能するものであるという一見魅力的な考え方は、均質な反応の場合には正しいかもしれない。しかし、一般的な比較の原則としては、これは根本的な誤りである。平均的に最善と思われるものが、対象となる集団の一人の患者にとってさえ、最善の介入であるとは限らない。簡単な例として、A、B、Cの3つの競合薬があり、患者の集団で比較されたとする。薬物Aの有効性をある尺度で半分の患者に対して2単位、残りの半分に対して0とし、薬物Bの有効性を後半の患者に対して2、前者に対して0とする。薬剤Cの有効性が一律に1.1であったとする。そうすると、Cという薬は平均的にはAやBより優れているが、特定の患者に対しては、AやBの優れた薬よりも2倍近く効果が低いということになる

平均的な反応に基づいて治療法を比較するために、治験責任者は治験の計画段階で、予想される群別の個人反応の不均一性を最小にしなければならない。このため、治験責任医師は、対象となる疾患や薬物の作用機序に関する利用可能なすべての事前の生物医学的情報を利用し、厳格な試験参加基準を採用することが推奨される。

異質性の呪い 一例

臨床試験において、ある治療に対する反応の均質性に依存することがいかに不合理であるかを見るために、手術と補助的な細胞毒性化学療法、外部照射、ホルモン療法の様々な組み合わせやレジメンを含む2つの治療計画のもとで、I-III期の乳癌患者の生存または無転移生存を比較する仮想の無作為・適正盲検臨床試験を考えてみる。個々の生存成績を決定する主要因は何か?最も重要なのは、手術時の不顕性転移の有無である。(1)手術中に血流に放出された単発のがん細胞、または手術時にすでに循環腫瘍細胞や様々な二次的部位に留まっていた静止がん細胞、(2)休眠またはゆっくりと成長する血管外微小転移、(3)診断時にはまだ検出可能な大きさに達していない積極的に成長する血管内二次的腫瘍。手術時に転移がなければ、原発巣の再発を除けば治癒となる。手術直後にstate 1とstate 2の転移があった場合、転位の休眠状態がどの程度維持されるかが、治療成績に大きく関わってくる。(乳癌における転移性休眠の意義については[15]を参照。実際のデータに適用した数学的モデルに基づく、転移性カスケードの上記の状態1〜3の転移のタイミングへの寄与の定量的評価は[16]にある)。特定の患者において転移が休止状態から脱出するかどうかは、治療の効果、免疫系の機能、循環血管新生促進剤および阻害剤の濃度などの内的要因だけでなく、乳癌とは無関係の手術、感染症、外傷、放射線、ストレスなどの散発的な外部事象が引き金となって病状が増悪する可能性もある。もう一つの重要な予後予測因子は、乳癌に内在する侵襲性であるが、疾患の初期段階におけるその信頼性の高い評価は、これまでのところ困難であることが証明されている。このように、臨床試験の結果を決定する最も重要な要因は、ほとんど観察不能であり、予測不可能である。

実際には、上記の観察不能な予後因子は、(1)試験参加時の年齢、(2)手術時の病期および組織学的グレード、(3)原発腫瘍の局在およびサイズなどの情報量の少ない観察可能な代用因子で代用されている。(4) 腫瘍の周囲組織への浸潤の有無 (5) 結節病変の程度 (6) 閉経状態 (7) エストロゲンおよびプロゲステロン受容体の状態 (8) BRCA1 または BRCA2 遺伝子における特定の変異の存在 (9) 乳がんの家族歴および (10) 他の悪性腫瘍の病歴。このように大まかで不完全な臨床的代用変数のセットでさえ、生存率と無転移生存率の特性が非常に異なる可能性のある、試験の両群の女性の多くのカテゴリーを作り出する。重要なことは、無作為化は観察可能な、そして隠れた異質性を排除するものではなく、治療群と対照群の間の異質性の程度の差を減少させるだけであるということである。

前述の被験者間の不均質性は、臨床試験(細胞株を用いた試験管内試験実験や被験者間のばらつきが厳密に制御された動物モデルでの研究とは対照的)に極めて典型的なものである。したがって、ある臨床試験の両群における被験者の個々の反応は、分布的に同一であることはおろか、近似的に均質であるとみなすことさえできない。

臨床試験からの統計的推論 前提条件は満たされているか?

他の数理科学と同様、理論統計学は仮定と結論からなる定理に基づいている。仮定から結論が導かれる論拠の正当性は、誰でも検証することができる。臨床試験からの推論を含む応用統計学では、これらの定理から導かれる統計的手法や検定が採用され、経験的データに基づいて新しい知識が生み出される。しかし、その手法や検定の背後にある仮定は妥当なのだろうか。

統計学のほぼすべての応用の基礎となる最も基本的な仮定は、観測値の集合(x1、x2、…、xnとする)は、ある確率分布からの無作為なサンプルである、ということだ。非公式には、これは、観察された値は、同じランダムな実験の独立した複製から得られることを意味する。ちょうど、「表」と「裏」の連続がコインの反転から、または1〜6の数がダイスの繰り返しの出番から得られるのと同じである。「ランダム・サンプル」の正確な意味は、確率測度を持つサンプル空間Sと、S上のある点sに対してX1(s) = x1, X2(s) = x2, …, Xn = xnとなる確率的に独立かつ同一分布の確率変数X1、X2、…、Xnが存在する、ということである。決定的なことは、これらの確率変数の各々は、データセットにおいて単一の値で表されるため、iidの仮定は経験的に検証できないことである。確率変数X1, X2, …, Xnがある分布 (例えば、標準ガウス分布)を持つという仮説は、ある確率の誤差を含みながらも、iidの仮定のもとでのみ検定が可能なのである。この前提を超えると、ほとんどの統計手法、検定、ツールは失敗し、標本平均のような単純な尺度でさえ、推論上の有意性を失ってしまう。このように、データからの統計的推測の基礎となる最も基本的な仮定は、必然的に、常に信頼に基づくものとなっている。

臨床試験の場合、独立性仮説はどの程度信頼できるのだろうか。まず独立性に着目すると、臨床試験参加者の選択は、疾患や他の医学的条件の臨床的特徴と関連しており、それによって個々の応答変数間の依存性の系統的な原因を構成していることに留意する必要がある。後者は、すべての参加者が同じ治療を受ける無作為化前のランイン期間によって誘発されることもある[12]。もう一つの要因は、散発的なものと医療介入によって引き起こされるもの、両方の様々な健康関連事象の発生に対する家族歴の重要性である。一卵性双生児の場合、片方の双子にそのような事象が発生すると、もう片方の双子に同じ事象が発生する確率は一般的に急激に上昇し、したがってこれらの事象は高度に依存的となる。同じ効果は、より低い程度ではあるが、兄弟姉妹や他の親族にもしばしば観察される。さらに、比較的均質なヒトの集団では、2人のメンバーが共通の祖先を持つ可能性が非常に高いので、彼らの疾病状態や治療に対する反応は、少なくとも原理的には従属確率変数と見なすべきである。最後に、個人の反応間の確率的依存性は、臨床試験に参加する被験者間の情報交換など、無作為化後の様々な出来事によって生じる可能性があり、それによってプラセボ効果が修飾され、試験の盲検化が部分的に解除される可能性がある。

もちろん、前述のような依存関係は弱いので、無視できると主張することもできる。依存性の強さを分析するためには、依存性を定量化する必要がある。2つの確率変数の間の依存性を測る簡単でほとんど一般的に使われている尺度は、それらの相関係数である。しかし、この指標は、(1)相関がゼロでも独立であるとは限らない、(2)一組の独立な確率変数の集まりが共同独立であるとは限らない、などの理由で不十分である。このように、独立性の乖離を定量的に測定することは、非常に困難である。

個々の応答変数間の確率的依存性の影響を評価する際の中心的な疑問は、帰無仮説(介入の相対効果なし)および対立仮説(与えられた閾値を超える相対効果)のもとで、独立からの逸脱が検定統計量の分布をどの程度修正するのかということである。臨床試験データのパラメトリック分析で通常使用される検定統計量(標準ガウス、スチューデントのt、カイ二乗など)の分布は、独立性の仮定に非常に重要な形で依存している。この仮定がなければ、これらの標準的な分布に頼ることはできなくなる。同様に重要な問題は、検定統計量の分布の誤った仕様が統計解析の結果(帰無仮説の下での検定統計量のp値、試験の統計力、サンプルサイズ、関心のあるパラメータの推定値と信頼区間、試験の停止時間など)に及ぼす影響をどのように評価するかということだ。

前節で述べたように、独立性の欠如の可能性とともに、臨床試験データの統計解析では、より重大な等配置(id)仮定への違反に遭遇することになる。確率的依存性と同様に、id仮定からの逸脱の程度とそれが臨床試験データの統計解析の結果に与える影響を定量的に評価するためには、確率分布間の距離dを用いる必要がある。これは、全変動、Kantorovich、Kolmogorov-Smirnov、Cramér-von Mises、Lévyなどの距離など、よく知られた確率指標の一つを採用することで可能である[17]。

個々のオブザベーションの組の相関係数の絶対値rも、それらの分布の間の距離dも、オブザベーションだけからは推定できないことをもう一度強調する。しかし、私たちの議論のために、基礎となる確率変数のすべての組についてrとdの値を正確に知っていて、それらが小さい、たとえば、ある正の数εより小さいとする。yの計算は、帰無仮説または対立仮説の下での検定統計量の既知の分布、P0に基づくが、iidの仮定が満たされていることが条件である。iid仮定がない場合の当該仮説の下での同じ統計量の「真の」分布をPとする。Pは、「理想」分布P0からどの程度ずれているのだろうか?分布P0がロバストな場合,すなわち、距離d(P, P0)が小さなεに対して小さくなる場合もあれば、εがどれだけ小さくてもd(P, P0)が大きいと分かる場合も想定される。同様に、出力yの「理想」分布P0への依存性も、後者の摂動に対してロバストである場合もあれば、全くロバストでない場合もある。最後に、ロバスト性のシナリオの下でも、このような感度分析の有用性は、出力yの偏差をεの関数として厳密かつ比較的簡単に推定できるかどうかにかかっている。このような推定を得ることは、ほとんどの場合、現代の確率論と統計学の範囲をはるかに超えている。

患者の疾患に関連した隠れた観察可能な臨床変数、比較された介入に対する反応、プラセボ効果に対する感受性によって、照会された集団は、反応の明確な分布特性を持つ多数のカテゴリーに分割される。各カテゴリーが分布的に均質であると仮定しても、両試験群とも未知数のカテゴリーを含み、それぞれが未知数の被験者を含んでいることになる。さらに、各群におけるそのようなカテゴリーの数およびその代表者の数は、未知の分布を持つ従属確率変数である。これらのカテゴリの未知の母集団の重みは、試験結果の統計解析を混乱させる厄介な変数である。さらに、異なる試験間でカテゴリー数および各カテゴリーを代表する被験者の数にばらつきがあるため、その結果は再現できない可能性がある。

理論的には、観察可能な臨床変数に関する層別化によって、臨床試験における反応の分布の均質性を高めることが可能である。しかし、2つの障害があり、この方法の実現性を損なう可能性が高い。第1に、層数が多いため、多くの層で必要なサンプルサイズが達成できず、その結果、臨床試験がパワー不足になることである。第2に、上記の乳がんの例で述べたような実質的な隠れた変異が存在する場合、個々の層は依然として不均質なままである。

要約すると、生物医学研究のゴールドスタンダードと一般にみなされている大規模ランダム化比較臨床試験であっても、「異質性の呪い」によって、収集したデータからの統計的推論の結果が怪しくなり、誤った、再現性のない結論に至る可能性が高いということだ。

最適なサンプルサイズ?n= 1を試してみよう

臨床試験における主要なデザインパラメータの1つは、サンプルサイズである。比較した生物医学的プロセスの根底にある原因やメカニズム、介入の効果に関する知識が結果予測に不十分な場合、大きなサンプルサイズが研究の統計的検出力を保証することになっている。上述したように、このような知識の欠如は、すべての努力にもかかわらず、照会された集団がまだ不均質であり、研究の2つ以上の群間で無作為化された試験参加者の標本も同様であることを意味すると思われる。

しかし、異質性と独立性の問題が存在しない場合が1つある。それは、サンプルが1人の被験者から構成されている場合である。個々の事例研究の大きな利点は、知るべきことをすべて学ぶことが非常に可能であり、この場合、生成されたデータからの推論は、被験者間のばらつきによって混乱することがないことである。生物医学的なプロセスは自然法則に支配され、原因、メカニズム、結果があると考えるなら、一つの被験者を徹底的に研究することは非常に有益であるはずだ。多くの患者を対象にそうすることで、最終的には疾患の主要なタイプや特徴がすべて明らかになり、様々な介入の効果や副作用の評価、予測さえ可能になると期待される。しかし、臨床試験とは異なり、個々の症例研究は推論的価値が不確かなオープンエンドのプロセスであり、医療介入に関する迅速な公衆衛生上の決定を行うには不向きである。

昔から医学者は、患者の健康への害を最小限に抑えながら、効果的な個別治療法を見つけるために試行錯誤の方法をとってきた。試行錯誤の結果、効果のない治療法でも病状の自然経過に大きな変化がない場合は、患者がベストマッチングの自己対照として機能した。このように、複数の症例研究、特に対照となる症例研究が、医学が膨大な経験知を蓄積する方法であった。この2世紀の間に、基礎生物医学の進歩によってこのプロセスは大きく加速され、今後も実を結ばないということはないだろう。医学の集団的側面よりもむしろ個人的側面に焦点を当てた個別症例研究は、臨床試験を自然に補完するものである。したがって、1000人の患者を対象とした臨床試験を始める前に、資格を持ち同意の得られたより多くの患者から無作為に選んだ100人を対象に、より高度で最先端の個別症例対照試験を行った方が科学と医療にとってより有益ではないか(費用対効果もより高い)と考えるのは妥当なことであろう。

儀式としての臨床試験の統計解析

調査対象集団内の回答の分布の不均一性や独立性の欠如は、決して臨床試験データからの統計的推論の結果を疑わせる唯一の要因ではない。臨床試験の統計解析には、以下に述べるような隠れた仮定や検証不可能な仮定、様々な近似値、任意に選択された閾値が多数含まれる。これらはすべて、注意深く正当化し、徹底した理論的、あるいは少なくとも数値的な感度分析を必要とする。これがなければ、臨床試験からの統計的推測は本質的に厳密な科学的裏付けを欠いた儀式となり、公衆衛生に悲惨な影響を与えるかもしれない。

大きなnのマントラと正常性の発動

臨床試験の分析に最も広く用いられている検定統計量の分布は、標準的なガウス分布(正規分布)と密接に関連した分布(χ2やスチューデントのtなど)である。厳密に言うと、それらの正当性は、個々の応答変数が正規分布で同値であるという仮定に依存している。正規性の仮定は、私たちが上で論じたように、決して当然とは言えないiid 仮説なしには、経験的に検証不可能であることを想起してほしい。また、大きな標本サイズでは、ある試験群での応答変数の標本平均の分布は、ほぼ正規分布であると結論づけることができる中心極限定理などの漸近的結果を用いる場合、iid仮説が必要である。重要な問題は、真の有限標本分布が漸近分布に十分に近くなるためには、標本サイズがどの程度大きくなければならないかということである。これらの分布間の距離を標本サイズの関数として推定することは非常に困難である。中心極限定理にしても、Berry-Esseenの定理[18]で与えられるKolmogorov-Smirnov距離の基本的な推定値しか得られていない。さらにもう一つの難しい問題は、このような推定値が統計解析の結果の精度に与える影響に関するものである。

正規性の仮定に対する追加の課題は、個々の応答変数,したがってそれらの標本平均は、それらの真の分布が常に有限の区間に限定されるように、上下に境界があるという明白な事実から来る。このような切り捨てから生じる無限尾を持つ仮定された漸近分布に対する補正は、ある確率指標で測定すると小さいかもしれないが、検定統計量の分布や統計解析の結果に対するこの誤差の下流効果は重要かもしれない。

サンプルサイズ 固定かランダムか?

試験データの統計解析は、固定的なサンプルサイズを想定しているが、実際にはランダムなサンプルサイズに適用されることが多い。サンプルサイズのばらつきにはいくつかの原因がある。一つは、試験群間の患者の無作為化で、ブロック無作為化またはより高度なスキーム[1920]を採用しない限り、各群におけるサンプルサイズのばらつきが大きくなる可能性がある。ランダムなサンプルサイズは、一定のイベント数を必要とする試験でも発生する。最後に、多くの患者が有益性の欠如、重篤な副作用、または他の理由で試験から脱落するため、困難なジレンマが生じる:難解な情報打ち切りの下で固定サンプルサイズで「intent-to-treat」分析を実行するか、または試験期間全体を通して追跡されたランダムな数の患者を処理するかのいずれかである。固定標本サイズを対象とした統計手法は、ランダムサイズの標本に適用すると誤った結果を導く。例えば、多くの統計手法の基礎となっている中心極限定理でさえ、サンプルサイズがポアソン分布の場合など、いくつかの特殊なケースを超えると失敗する[21]、p.4699)。

統計的有意性の偶像

統計的有意性は、仮説検定の文脈でランダムな変動を考慮するための手段として登場した。例えば、δを臨床試験の実験群と対照群の平均効果測定値間の差Δ=A1 – A0の観測値とする。観察された相対効果は、比較された介入策の間の真の差によるものなのか、それとも偶然によるものなのか、あるいはおそらくその両方なのか?この2つの可能性を区別するために、次のような質問をするのが妥当であろう。各試験参加者について、比較された治療の効果が同一であるという(強い)帰無仮説のもとで、値δを観察する確率は何であろうか?言い換えれば、偶然だけでΔ=δになる確率はどのくらいか?帰無仮説のもとでの統計量Δの分布Pが離散的であれば、必要な確率はP(δ)となる。この答えの問題点は、今でも自然科学者の間でやや人気があるが、相互に関連する2つの要素を明確に分離する方法を提供していないことだ。(1)他の許容される観測値xの確率P(x)に対するP(δ)の大きさ、(2)標本サイズn(nが大きくなると、すべての確率P(x)が小さくなる傾向があることに注意)である。連続分布Pの逆の場合、提案された答えは、全く参考にならない。この場合、どんなオブザベーションxに対してもP(x) = 0だからだ。

この難問を解決する方法として、Fisher卿がその有名な著書[22]で提案した方法がある。観測値δの有意性を定量化するために、帰無仮説のもとで、δ>0ならΔ≧δ、δ<0ならΔ≦δの確率(Δの符号が特に重要でない場合は対応する二項確率)を用いることを提案した。この確率はp値と呼ばれ、仮に独立した同一の試験を無限に行った場合に、観察された効果の大きさが少なくとも与えられた試験でのそれと同じくらい極端になる漸近的な割合を表す。したがって、十分に小さいp値は帰無仮説を棄却するために用いることができる。

Fisherの有意水準に対するアプローチには、欠点がないわけではない。第1に、生物医学の経験的性質に反して、与えられた研究で観測されなかった統計量Δの値を採用しており、たとえその研究が無限に再現されたとしても、おそらく観測されることはないだろう。これらの反実仮想のΔの値の唯一の根拠は帰無仮説の下での帰属した分布である。第2に、Fisherの考えは、帰無仮説の下での統計量Δの確率密度関数が片側または両側のベル型の尾を持つという暗黙の仮定に基づいていることである。それ以外の形状では、魅力がなくなるかもしれない (例えば、Δが対称区間上に一様に分布し、その端点がΔの現実的な境界を表していると考えてみてほしい)。さらに、Δの帰無分布が多峰性であれば、p値を末端確率として包括的に定義することは明らかに間違っている。

臨床試験のパラメトリック解析でほぼ普遍的に仮定されているΔの正規分布は、その真の分布に対する中心極限定理に基づく近似に過ぎない(あるいは、個々の応答変数が同値でない場合は近似ですらないこともある)。p値は末尾の確率なので、その決定における結果の誤差は、2つの分布の間のKolmogorov-Smirnov距離と同じくらい大きくなる可能性がある。後者は、平均値A1, A0の分布とその正規近似値との間のKolmogorov-Smirnov距離によって推定することができる。iidの仮定では、Berry-Esseenの定理[18]によると、これらの距離のそれぞれは、0.5Cn-1/2を超えない、ここでnは標本サイズ,C ≥ 1は個々の応答変数の分布の第3絶対中心モーメントとその標準偏差の3乗の比である。重要なことは、Berry-Esseen boundのnへの依存性が改善されないことで、具体的には、0.4Cn-1/2の上界では、一般にもう正しくない[23]。したがって、臨床試験で一般的に遭遇するサンプルサイズ(数百から数千の被験者)では、p値決定の最大誤差は、帰無仮説を棄却するために使用する小さなp値と同等か、それを超えることさえある。このようなサンプルサイズでは、p値の小数点以下1桁の正しさしか保証されない。したがって、臨床試験のパラメトリック分析で小さなp値を追求することは、弁解の余地がない。この問題をいくらか軽減する方法を次に説明する。

ランダム化無視

上記のパラメトリックp値は、無作為化比較臨床試験のデザインに不可欠なランダム化を無視している[12]。p値は(強)帰無仮説のもとで計算されるとする。そして、適切に盲検化された試験において、すべての試験参加者の反応は、治療群への割り当てに関係なく、まったく同じであると期待することは妥当である(この主張は、個々の反応が決定論的である場合、明白に正しい)。これは、採用された無作為化アルゴリズムが生み出す可能性のある治療への被験者のすべての割付に対して、”本当の”ものだけでなく、統計量Δを計算することを可能にする。これは、観察値δの並べ替えに基づくp-値につながる[24,25]。個々の応答が決定論的である場合(この場合、確率的依存性と不均一性は問題ではない)、これは試験結果の実効的な有意性を計算する唯一の方法である。しかし、一般的にこれらのp値は、個々の応答変数のばらつきを考慮していないという点で、部分的なものに過ぎない。そこでΔの漸近的正規性を利用したパラメトリック分析が利用される。(一般化Berry-Essen 不等式[26]は、個々の応答変数の独立性だけを要求するので、分布の均質性の仮定が解除されても、原理的にp値決定の誤差を制御できることを観察してほしい)。無作為化過程のすべての許容される結果について計算されたパラメトリックp値の平均は、従来のパラメトリックp値計算の誤差を最も小さくする順列に基づくパラメトリックp値を表している。

マジック5%などの恣意的な閾値

Fisherも前述の著書[22]で、帰無仮説を棄却するためのp値の閾値として0.05を用いることを提案している。それ以来、この控えめな提案は、統計的有意水準を採用し、信頼区間を計算するための宗教的戒律に近いものとなっている。例えば、最近の大規模なメタアナリシス研究[27]では、過去25年間に発表された200万近い生物医学論文のうち、96%が結果の有意性を主張するためにp値≦0.05をアピールしていることが判明した。以上のように、帰無仮説のもとで検定統計量を誤って規定する要因は数多くあり、臨床試験の実質的な有意水準に大きな影響を与える可能性がある。その結果、p値がたまたま0.05未満であっても、誤った結果を出す可能性があり、逆に、統計的有意性が5%に満たないという理由で、真の価値ある結果が破棄されたり、自己打ち切られたりする可能性がある。同じことが、対立仮説の下での臨床試験の有効な統計的検出力が、計画段階で通常80%または90%と想定される公称値から逸脱している場合にも当てはまる。

考察、結論と提言

あらゆる議論の正しさには、前提条件を慎重に設定することを含む論理学が重要であることは、アリストテレス以来、認識されてきたことである。しかし、科学研究の妥当性にとって仮説と前提が基本的に重要であることを最初に鋭く理解したのは、19世紀から20世紀初頭にかけてのフランスの天才数学者、理論物理学者、哲学者であるアンリ・ポアンカレであった[28]。どうやら、彼の考えはあまりにも時代を先取りしていたようで、1世紀以上たった今でも、科学界では十分に認識され、心に刻まれていないようだ。

この研究では、臨床試験で使用される統計的方法論の基礎となり、試験データからの統計的推論の妥当性にとって重要な次の基本的前提に焦点を当てた:(1)比較された介入に対する個人の反応における被験者内変動の実質的役割、(2)個々の反応変数の確率的独立、(3) 各群内での分布の均質化。私たちは、多くの健康状態や治療法において、仮定1は成立しそうにないこと、仮定2はいくつかの例外を除いてほぼ成立する可能性があり、一般的には個々の特定のケースにおいて慎重な分析を必要とすること、仮定3は誤りである可能性が高いことを見いだした。最後のポイントは、2つの重要な意味を持つ。

  1. (a)試験群の平均的な反応は、最適な介入を選択するための選好関数としては不十分であることが判明する場合があり、同様に群別平均の正規化された差は、帰無仮説と対立仮説の下では最適とはいえない検定統計量に見える場合がある。歴史的なメモとして、生物学や医学において平均値を無差別に使用することは、科学的な真実の曖昧さにつながるかもしれないという考えは、150年前に偉大な実験生理学者の一人であるClaude Bernardによって熱く語られていた。彼はまた、科学者の責務は、個々の患者の健康に関連するすべての出来事の背後にある固有の直接的原因を見つけることであると主張し、決定論的パラダイムに明確に味方した([29], p.137)。
  2. (b)確率的な個人応答を仮定した場合、臨床試験データの統計解析を左右する重要な条件は、個人応答変数の分布の均質性である。均質性の片方では、試験の各群の個々の応答変数が同値であるという状況に遭遇する。この場合、群別平均値による治療法の比較とその差からの推論は、正しく厳格に行われれば、十分に正当化される。より高度な均質性を達成するためには、ゲノム、分子、細胞、組織学、その他の疾患マーカーや比較した治療に対する反応を含む観察可能な臨床変数に基づいて、被験者の募集基準を厳しくすることが必要である。それにもかかわらず、すべての努力にもかかわらず、試験参加者の反応は依然として極めて異質であることは十分にあり得る。ここでは、すべての被験者の反応が非常に異なる分布を持つ、均質性のスペクトルのもう一方の端に出会う。ここでは、個々の被験者が個別の臨床ケースを表し、集団アプローチは記述的な有用性しかない。疾患、医療介入、対象集団のそれぞれの組み合わせは、この両極端の間のどこかに位置するが、均質性スペクトルの中での位置を決定することは困難である。この不確実性に対処する現実的な方法は、臨床試験と対照的な個々の症例研究を競合的に実施し、その結果を比較することである。

医学はその初期から「個別化」されており、医師は一人一人の患者の治療に主眼を置き、その介入は患者固有の状態や疾患の特定の経過に合わせて行われた。集団の平均的な効果に焦点を当てた臨床試験の出現は、このパラダイムからの劇的な逸脱を意味する。この研究の一つの結論は、個別化医療のアプローチを治療から医薬品開発、その他の医療技術革新に拡大する時期が来たということだ。分子生物学やゲノミクスにおける科学技術の飛躍的な進歩と、計算能力の向上や最新の情報技術との組み合わせにより、このような拡張は、過去に比べ、医療の有効性や予後精度の向上をもたらすかもしれない (例えば、[5]を参照のこと)。

また、本研究では、ある介入方法が比較対象よりも優れているという主張の裏付けとして用いられる統計的有意性についても詳しく検討した。(1) 個々の回答の同値性の仮定に反する、(2) 個々の回答またはその群別平均の正規性からの逸脱、(3) サンプルサイズのランダム性、(4) 試験参加者の治療間のランダム化の考慮不足など多くの要因により、検定統計量の想定分布に対して計算されたp値が真の有意性から大きく乖離することがある。例えば、前節で述べたように、パラメトリック解析で名目上の有意差α=0.05(丸め後)を保証するためには、数万人の被験者で試験を実施しなければならない!これは、パラメトリック解析の有効性に重大な疑問を投げかけるものである。このことは、臨床試験の計画や分析におけるパラメトリックp値の有用性に重大な疑問を投げかけ、パラメトリックp値が小さくても無意味である可能性を示唆し、帰無仮説を棄却するための固定閾値(通常0.05)への依存が科学的に根拠のないことを示唆している。最後のポイントは、統計的検出力にも当てはまる。最後に、臨床試験の計画段階における従来のサンプルサイズ計算も、誤った結果を導く可能性がある。

さらに悪いことに、大多数の生物医学研究(臨床試験の報告を含む)において、効果測定の定義、帰無仮説の記述、検定統計量の指定はおろか、検定統計量が仮定された分布を持つことの検証すらせずにp値が展開される。その結果、p値の系統的な誤用、過剰使用、誤った解釈は、誤った結果や再現性のない結果の主な原因となっている。これらの乱用は広く批判されているが[30,31,32,33]、p値は臨床試験の結果を分析し、生物医学研究の妥当性を確認し、重要な医療上の決定を行うために用いられる、唯一最も重要な数値的尺度であることに変わりはない。しかし、臨床試験データの収集、分析、報告に関連するデータの質の低さ、あらゆる種類の偏りや利益相反、そして完全な不正行為に対して都合の良い隠れ蓑となっていることがあまりに多い。

歴史を通じて、医学の実践は伝統、権威ある意見、個人の経験、そして臨床的直感に根ざしていた。臨床試験は、より「客観的」かつ「証拠に基づく」アプローチを試みるものとして登場した。ある治療法が必ず大きな効果をもたらすのであれば、正式な統計解析がなくても、小規模の対照試験で決定的な答えが得られるはずだ。この発見は、壊血病がビタミンCの欠乏によって引き起こされることが判明するよりもずっと前の1747年に、英国海軍の外科医ジェームズ・リンドによって、史上初の対照試験を通じてなされたものである。オースチン・ブラッドフォード・ヒル卿がその古典的著作[34]で力説しているように、観察された効果が一様に非常に大きいか、非常に小さいか、あるいは実質的に取るに足らない場合には、正式な統計解析は必要ない。慎重に計画された大規模な無作為化臨床試験とその結果の厳密な統計解析が必要なのは、サイズが小さいか変動する不均質な効果の場合である。逆説的ではあるが、私たちがこの研究で論じたように、これはまさに個人の反応の分布的不均一性と他の多くの要因が、臨床試験データの統計解析の基礎となる仮定を無効とし、誤った、再現性のない結論をもたらす可能性のある状況なのである。

臨床試験やそれ以外の場面で、統計的手法の価値と誠実さを回復するためにはどうしたらよいのだろうか。その答えは、(1)統計的正統派に抵抗し、創造的に多くの統計手法を用いること(時にはこれらの手法が失敗したことを率直に認めながら)、(2)統計解析の基礎となるすべての仮定を厳密に検証すること、(3)統計解析を生物医学研究と密接に連携させ、統計手法に文脈と外部検証手段の両方を与えることにあると私は考えている。生物医学研究が統計的手法にどれほどの充実、革新、修正をもたらすかの一例として、Bradford Hillが1965年に定式化した疫学研究における関連から因果関係への推論の9原則を21世紀版にした論文[35]を参照されたい[34]。それぞれの臨床試験は、病気とその治療に関連するメカニズムに関する知識をフルに活用し、統計的手法の選択、あるいは発明を行うユニークな科学的プロジェクトとして扱われるべきものである。一方、統計的手法の背後にある仮定を検証し、様々な近似値から生じる誤差を推定するために、高度な数学的・計算的手法を用いることができる。

最後に、本研究で行った分析から得られたいくつかの具体的な提言を紹介する。

  1. 臨床試験は公的資金で行われ、産業界と関係のない生物医学研究者、医師、統計学者によって実施され、利益相反のないものでなければならない。
  2. 臨床試験の結果に基づく医療上の決定は、統計学的証拠と生物医学的証拠の組み合わせに依存すべきである。
  3. 臨床試験から得られる科学的・医療的利益は、同等の費用をかけた最先端の制御された個々の事例研究のものと比較されるべきである。
  4. 試験は、利用可能なすべての事前情報を考慮して、試験のすべての群における予想される個々の反応ができるだけ均質になるように入力する必要がある。
  5. 無作為化臨床試験データの統計解析の結果は、個人の反応が確率的であるという強い科学的根拠がない限り、決定論的な個人の反応と並べ替えに基づくp値に基づく結果と比較されるべきである。
  6. 試験データのパラメトリック解析において、一定の有意水準や統計的検出力を用いることや、小さなp値を追求することは、推奨されない。
  7. 無作為化臨床試験データのパラメトリックp値の計算には、無作為化アルゴリズムによって生成された並べ換えの集合の平均を含むべきである。
この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー