試験サンプルサイズが治療効果推定値に及ぼす影響：メタ疫学的研究

Contents

要旨
はじめに
研究方法
結果
- 試験サンプルサイズと治療効果の関連
- 感度分析
議論
結論

Influence of trial sample size on treatment effect estimates: meta-epidemiological study

www.ncbi.nlm.nih.gov/pmc/articles/PMC3634626/

Agnes Dechartres（疫学助教授1,2,3 Ludovic Trinquart（上級統計学者1,4 Isabelle Boutron（疫学教授1,2,3,4)Philippe Ravaud（疫学教授兼ディレクター1,2,3,4,5）。

要旨

目的

メタアナリシスにおける治療効果推定値に対する試験サンプルサイズの影響を評価する。

デザイン

メタ疫学研究。

データ源

Journal Citation Reportsの各医療主題カテゴリーの主要10誌またはコクラン・システマティックレビューのデータベースに掲載された、バイナリアウトカムを有する治療的介入を評価する93のメタアナリシス（735件の無作為化対照試験）。

データ抽出

各試験からサンプルサイズ、アウトカムデータ、バイアスのリスクを抽出。

データ合成

各メタアナリシス内の試験は、サンプルサイズによってソートされた。治療効果は、各メタアナリシス内で四半期間またはサイズグループ間でオッズ比の平均比（オッズ比が1未満の場合は、小規模試験での効果が大きいことを示す）によって比較された。

結果

サンプルサイズにかかわらず、小規模試験では治療効果推定値が有意に大きかった。第4四半期（最大の試験を含む）と比較して、治療効果は平均して、第1四半期（最小の試験を含む;オッズ比0.68,95%信頼区間0.57～0.82）の試験で32%、第2四半期（0.83,0.75～0.91）の試験で17%、第3四半期（0.88,0.82～0.95）の試験で12%大きかった。異なる規模のグループ間で治療効果の推定値を比較しても、同様の結果が得られた。1000人以上の患者を対象とした試験と比較して、治療効果は平均して、50人未満の患者を対象とした試験で48%大きく（0.52,0.41～0.66)500～999人の患者を対象とした試験では10%大きく（0.90,0.82～1.00）なっていた。

結論

治療効果の推定値は、試験のサンプルサイズのみに基づいてメタアナリシス内で異なり、最大の試験よりも小規模から中規模の試験でより強い効果推定値が認められた。

はじめに

サンプルサイズは試験によって大きく異なり、同じ問題を研究しているメタアナリシスであっても、数十人から数千人の患者1まで様々である。例えば、循環器内科のメタアナリシス2では、62人の患者から45 852人の患者までの規模の試験が含まれている。治療効果推定値に対する試験サンプルサイズの影響についての私たちの知識は、小規模試験効果-同じメタアナリシスで大規模試験よりも大きな治療効果を報告する小規模試験の傾向-に基づいている3 4 5 変形性関節症のメタアナリシスのコレクションに基づいた研究では、1アームあたりの患者数が100人未満の試験は、平均して大規模試験よりも大きな治療効果推定値を得たことが示されている6。

小規模試験と大規模試験を区別するための単一の閾値の概念は、試験されている医療分野や介入がどのようなものであっても、簡単ではない7。したがって、1000人の患者を対象とした試験は、特定の病状では大規模であり、他の病状では小規模であると考えられる。

本研究では，さまざまな病状と介入のメタアナリシスの大規模コレクションにおいて，試験のサンプルサイズが治療効果の推定値に及ぼす影響を評価した。

研究方法

データソース

この研究では、バイナリアウトカムを有する治療的介入を評価するランダム化比較試験の2つの独立したメタアナリシスのコレクションからのデータを組み合わせた。最初のコレクションには 2008年7月から 2009年1月の間 2010年1月から6月の間、または2008年のコクラン・データベース・オブ・システマティック・レビューの第4号に掲載された、Journal Citation Reportsの各医療主題カテゴリーの主要10誌に掲載された48のメタアナリシス（421試験）が含まれている。検索戦略とメタアナリシスの選択についての詳細は公表されている8 。

第2集では 2011年1月から7月までの間にコクラン・データベース・オブ・システマティック・レビューに掲載された45のメタアナリシス（314試験）を収録した。我々は、主要アウトカム指標または主要アウトカム指標のバイナリーアウトカムを評価し、4つ以上の試験が関与しているメタアナリシスを組み入れた。メタアナリシスで2つ以上の主要なバイナリーアウトカムの複合結果が報告されている場合、十分な試験報告に記載されている場合には、最初に報告されたアウトカムを選択した。最初のコレクションと重複するメタアナリシスは除外した。ウェブの付録1には、両方のコレクションの選択プロセスの詳細が記載されている。

データ抽出とバイアスのリスク評価

標準化されたデータ抽出フォームを用いて、各無作為化対照試験について以下のデータを抽出した：発表日、単一センター試験か多施設試験か（少なくとも2つの異なるセンターを有する)各群のアウトカムを有する患者数、各群に無作為化された患者数。バイアスのリスクに関するデータは、コクラン共同研究9 10 のバイアスのリスクツールの以下のドメインを使用して収集された：シーケンスの作成方法と割り付けの隠蔽、盲検化、不完全なアウトカムデータ。9 10 各試験について、全体的なバイアスのリスクは、低（すなわち、すべてのドメインでバイアスのリスクが低い)高（すなわち、1つまたは複数のドメインでバイアスのリスクが高い)または不明（すなわち、バイアスのリスクが高くないのに1つまたは複数のドメインでバイアスのリスクが不明）に分類された。第1集のメタアナリシスについては試験の原報告から、第2集のメタアナリシスについてはコクランレビューからデータを抽出した（メタアナリシスの3分の1については重複している）。

データの合成と分析

試験サンプルサイズと治療効果の関係

各メタアナリシス内の試験は、各メタアナリシス内の四分位（最小試験の25%を含む第1四半期から最大試験の25%を含む第4四半期まで）を使用し、メタアナリシス間のサイズグループ（50人未満、50-99人、100-199人、200-499人、500-999人、および1000人以上の患者）を使用して、サンプルサイズによってソートされた。治療効果（オッズ比として測定）は、ランダム効果を持つ多階層ロジスティック回帰モデルを用いて、四半期およびサイズグループ間で比較された11 。これらの階層モデルでは、メタアナリシス内のランダムな介入効果（試験間の不均一性）およびメタアナリシス間の試験サンプルサイズの効果におけるランダムな変動を考慮に入れることができた。結果はオッズ比の平均値として表された。この尺度は、より大きな試験のオッズ比に対するより小さい試験のオッズ比の比である。オッズ比の比が1より小さい場合は、小規模試験における治療効果の推定値が大きいことを示している。メタアナリシス間の不均一性は、メタアナリシス間の分散であるτ2で定量化した。我々は、四半期および規模グループ間の線形傾向の検定を行った。

感度分析

我々は、試験間の治療効果を四半期別（第1四半期と第2～4四半期、第1・2四半期と第3・4四半期、第1～3四半期と第4四半期）に比較し、試験サンプルサイズの固定しきい値（50,100,200,500,1000人;例えば、200人のしきい値については、200人未満の試験と200人以上の試験の間で治療効果を比較した）によって、治療効果推定値に対する試験サンプルサイズの影響を再評価した。メタ疫学的解析にはSterne et al 12によって記述されている2段階のアプローチを用い、さらに、バイアスのリスクの領域13,14 15 16 17 全体的なバイアスのリスク、施設の状態8 18,および各メタアナリシスにおける最初の試験の発表からの時間という試験の特徴を考慮して、これらの解析を調整した。

統計的方法の詳細はウェブの付録2に記載されている。マルチレベルモデルにはSASバージョン9.2（SAS）を、メタ疫学的解析にはStata MPバージョン10.0（Stata Corp）を使用した。

結果

研究サンプルには93件のメタアナリシス（735件の無作為化対照試験;ウェブの付録3）が含まれていた。1つのメタアナリシスにつき中央値で7試験（範囲3-30）が組み入れられた。試験サンプルサイズは、メタアナリシス間およびメタアナリシス内で大きく異なっていた（中央値34-2371人）（例えば、1つのメタアナリシスでは、試験サンプルサイズは106人から48 835人までの範囲であった）。

試験サンプルサイズと治療効果の関連

治療効果の推定値は、サンプルサイズにかかわらず、小規模の試験で有意に大きかった。第4四半期の試験（最大の試験を含む）と比較して、治療効果は平均して、第1四半期の試験（最小の試験を含む;オッズ比0.68,95%信頼区間0.57～0.82）で32%、第2四半期の試験（0.83,0.75～0.91）で17%、第3四半期の試験（0.88,0.82～0.95）で12%大きかった。メタアナリシス間の不均一性は、3つの比較試験では小さいものから中程度のものまであった（τ2=0.30,0.07,0.02,図11）。

図1 四半期別（最小試験の第1四半期から最大試験の第4四半期まで）と規模別（患者数50人未満から 1000人以上まで）に分類した試験サンプルサイズ間の治療効果推定値の比較

いずれの解析にも、93件の個別メタアナリシス（735件のランダム化比較試験）がすべて含まれている。

1000人以上の試験と比較して、治療効果は平均して、

患者数が50人未満の試験では48％増加（オッズ比0.52、0.41～0.66）
50～99人の患者を対象とした試験では34％増（0.66、0.56～0.79）
100～199人の患者を対象とした試験で30％増加（0.70、0.61～0.80）
200～499人の患者を対象とした臨床試験では19％増（0.81、0.73～0.88）
500～999人の患者を対象とした試験では10％増加した（0.90、0.82～1.00；図1）

メタアナリシス間の不均一性は中等度であった（τ2は0.11～0.26）

いずれの解析においても、オッズ比は有意な線形傾向を示した（いずれもP<0.001）。

感度分析

2段階のメタ疫学的解析において、治療効果推定値は平均して、第1四半期の試験（すなわち最小試験）では他の試験に比べて23%大きく（オッズ比0.77,95%信頼区間0.65～0.91)第1四半期および第2四半期の試験では第3四半期および第4四半期の試験に比べて19%大きく（0.81,0.74～0.88)第4四半期の試験（すなわち最大試験;0.85,0.79～0.90）に比べて第1～3四半期の試験では15%大きくなっていた。サンプルサイズの固定しきい値の比較では、治療効果推定値も、しきい値レベルにかかわらず、より小さい試験で有意に大きかった。メタアナリシス間の不均一性は、すべての解析において低かった（図22）。結果は、バイアスのリスクの領域、全体的なバイアスのリスク、センターの状態、最初の試験からの公表時期（ウェブの付録4）で調整した後も一貫していた。

図2 四半期別（最小試験の第1四半期から最大試験の第4四半期まで）と固定閾値別（患者数別）に分類した試験サンプルサイズ間の治療効果推定値の比較

93件のすべてのメタアナリシスは、使用された閾値によっては解析に寄与しなかった（これらの解析を行うためには、各メタアナリシス内のサンプルサイズが閾値未満または閾値以上の試験が少なくとも1件必要とされた）。*5 件のメタアナリシスが解析に寄与しなかった（3 件のメタアナリシスは 4 件未満であり、2 件のメタアナリシスではメタ回帰モデルが収束しなかったためオッズ比が得られなかった）。1件のメタアナリシスが解析に寄与しなかった（メタ回帰モデルが収束しなかったため、オッズ比の比率が得られなかった）。

議論

735件の試験を対象とした93件のメタアナリシスを行ったこのメタ疫学研究では、サンプルサイズにかかわらず、小規模の試験では治療効果の推定値が有意に大きいことが明らかになった。治療効果の推定値は、試験のサンプルサイズのみに基づいてメタアナリシス内で異なっており、平均的には、大規模試験よりも小規模～中規模試験の方がより強い推定値を示した。平均的な差は大きく、メタアナリシス内の4分の1のサンプルサイズ間で推定値を比較すると、12%～32%の範囲であった。

本研究の長所と短所

我々の結果は、各専門分野の主要ジャーナルまたはコクラン・データベース・オブ・システマティック・レビューに掲載された様々な医療分野を代表する93のメタアナリシスの大規模なメタ疫学研究に基づいている。コクランレビューは一般的に、非コクランレビューに比べて方法論の質が高く、報告がよく、利益相反が少ないことが示されている19 20 21 治療効果に対するサンプルサイズの影響を調べるために、いくつかの補完的なアプローチを用ったが、いずれも一貫した結果を示した。しかし、我々の結果はバイナリアウトカムを評価する試験のメタアナリシスに基づいているため、連続アウトカムを評価する試験に外挿することはできない。

考えられる説明

サンプルサイズにかかわらず、試験のサンプルサイズと治療効果との関連を説明するのには、いくつかのメカニズムが役立つであろう。第一に、報告バイアスに関連している可能性がある。公表バイアスの連続体がある程度存在する可能性があり、試験が大規模であればあるほど、統計的有意性にかかわらず結果が公表される確率が高くなる。また、小規模な試験ほど、アウトカム報告バイアスが発生しやすいかもしれない。

25 我々の結果は、全体的なバイアスのリスクだけでなく、バイアスのリスクの領域でも調整後は一貫している傾向があった。最後に、サンプルサイズが大きいほど、参加者の選択や介入の実施における不均一性が大きくなる可能性がある26 。これらの異なるメカニズムの効果を探るためには、今後の研究が必要である。

研究者への示唆

我々の結果は、臨床試験やメタアナリシス全般の結果の解釈に重要な影響を与える。システマティックレビューとメタアナリシスの主な問題は、含まれているすべての研究を総合して推定された治療効果の合計が真の治療効果の最良の推定値を提供するのか、あるいは研究が治療効果を過大評価しているのか過小評価しているのかということである27 。このように、利用可能なすべての証拠のメタアナリシスは、臨床試験のサンプルサイズがどのようなものであっても、真の治療効果を反映しているとは限らない。

何人かの著者は、大規模ランダム化比較試験の結果は、小規模試験の結果をメタアナリシスでプールした場合でも、小規模試験の結果よりも本質的に優れていることを示唆している29 30 。Glasziouら31もまた、メタアナリシスが利用できない場合には、最も正確な試験の結果に頼ることを提案している。我々の結果は、メタアナリシスをより大規模な試験に限定すべきかどうか（あるいは「最大」の試験に限定すべきかどうかさえも）という疑問を投げかけている。このアプローチの欠点は、治療効果の推定が不正確になることであろう。Rückerらは最近、制限メタアナリシスの方法を提案した。これは、各試験の精度を無限大に高めた場合に治療効果を予測することを可能にするものである。

結論

大規模なメタ疫学研究では、サンプルサイズにかかわらず、小規模な試験では治療効果の推定値が有意に大きいことがわかった。効果推定値は、試験のサンプルサイズのみに基づいてメタアナリシス内で異なっており、平均して、大規模試験よりも小規模から中規模の試験の方が効果推定値が強かった。これらの強い効果は真の治療効果を反映していない可能性がある;したがって、感度分析（例えば、四分の一を比較するサブグループ分析や限界メタアナリシス）を用いた治療効果推定値に対する試験サンプルサイズの影響の評価を含め、メタアナリシスの結論の頑健性を評価すべきである。査読者と読者は、メタアナリシス全体の結果が最大の試験（すなわち、サンプルサイズの第 4 四半期の試験）の結果と一致するかどうかを簡単に確認することができる。そうでない場合は、プールされた結果の解釈に注意が必要である。より一般的には、我々の結果は、現在メタアナリシスがどのように行われているか、特に、利用可能なすべての証拠をメタアナリシスに含めるべきかどうかについての疑問を提起している。