Contents

Considering the methodological limitations in the evidence base of antidepressants for depression: a reanalysis of a network meta-analysis

Considering the methodological limitations in the evidence base of antidepressants for depression: a reanalysis of a network meta-analysis

www.ncbi.nlm.nih.gov/pmc/articles/PMC6597641/

Published online 2019 Jun 27

Klaus Munkholm、Asger Sand Paludan-Müller、Kim Boesen

要旨

目的

成人のうつ病に対して抗うつ薬はプラセボよりも効果的であるという最近のシステマティックレビューおよびネットワークメタアナリシス（Ciprianiら）の結論がエビデンスに裏付けられているかどうかを調査すること。

研究デザイン

システマティックレビューの再解析、メタアナリシスを含む。

データソース

Ciprianiらによるシステマティックレビューで報告された522試験（116 477人）と、これらの試験のうち19試験の臨床試験報告書。

分析

バイアスのリスクとエビデンスの確実性を評価するために、コクランハンドブックのバイアスのリスクツールとGRADE（Grading of Recommendations Assessment, Development and Evaluation）アプローチをそれぞれ使用した。いくつかの研究の特徴と出版状況の影響は、ペアワイズ・サブグループ・メタアナリシスを用いて推定した。

結果

Ciprianiらによるシステマティックレビューでは、抗うつ薬のエビデンスベースにおけるいくつかの方法論的限界が認識されていないか、または過小評価されていた。治験責任者評価のうつ病症状尺度における抗うつ薬とプラセボの効果量は、プラセボを導入した試験では、プラセボを導入しなかった試験と比較して高かった（p=0.05）。抗うつ薬の効果の大きさは、公表された試験では、未公表の試験に比べて高かった（p<0.0001）。Ciprianiらが報告したアウトカムデータは、19試験中12試験（63%）で臨床試験の報告と異なっていた。プラセボ対照比較試験のエビデンスの確実性は、バイアス、エビデンスの間接性、出版バイアスのリスクが高いため、GRADEによれば非常に低いはずである。17項目のハミルトンうつ病評価尺度（0～52点の範囲）における抗うつ薬とプラセボの平均差は1.97点（95%CI 1.74～2.21）であった。

結論

証拠は、成人のうつ病に対する抗うつ薬の有用性に関する決定的な結論を支持するものではない。抗うつ薬がプラセボよりも効果的かどうかは不明である。

キーワード：成人精神医学

本研究の強みと限界

うつ病に対する抗うつ薬のエビデンスベースにおける多くのバイアスや方法論的限界が抗うつ薬の見かけの効果の大きさにどのように影響しているかを示す実証的証拠が提供された。
初めて、プラセボと比較した抗うつ薬の見かけの効果量に対する「プラセボランイン」試験デザインの影響が推定された。
我々は、患者や臨床家が容易に解釈できるアウトカム指標を提供するために、プラセボと比較した抗うつ薬の効果推定値を、治験責任医師が評価したハミルトンうつ病評価尺度の平均差として報告した。
可能な限り、総脱落および有害事象による脱落の転帰についてCiprianiらによって報告されたデータと、以前に欧州医薬品庁から入手した臨床試験報告書とを比較した。
我々の分析は、Ciprianiらによるシステマティックレビューで報告されたデータに依存しており、別途文献検索とデータ抽出は行っていない。

はじめに

1 デンマークでは 2016年に25歳以上の成人の10%が抗うつ薬による治療を受けてた。2 米国では 2014年に12歳以上の13%が治療を受けており、抗うつ薬は最も一般的に使用されている3つの薬物クラスの1つとなっている。

Ciprianiら5による最近のうつ病に対する抗うつ薬のネットワークメタアナリシスは、含まれている研究と参加者の点で、これまでで最大規模の抗うつ薬のメタアナリシスである。特に、成人のうつ病治療のための21種類の抗うつ薬を比較することで、臨床ガイドライン、患者、医師、政策立案者に情報を提供することを目的としている。レビューの主要アウトカムは、「奏効率」（観察者評価のうつ病尺度で少なくとも50%以上の低下を示した参加者数と定義）と全体的な脱落率であった。副次的成果は、うつ病症状スコア、寛解率（観察者評価のうつ病スコアが一定の閾値以下であった参加者の数として定義された)有害事象による脱落率であった。Ciprianiらは、21種類の抗うつ薬すべてがプラセボよりも効果的であったのに対し、プラセボと比較して脱落が少なかったのは2種類の抗うつ薬のみであったことを明らかにした。これらの知見に基づいて、Ciprianiら5は、奏効率および全体的な脱落率に従って抗うつ薬をランク付けし、大うつ病性障害の成人において抗うつ薬はプラセボよりも効果的であると結論づけた。彼らが発見した症状スコアの改善は、以前のメタアナリシス（図1）と非常によく似ており、中には抗うつ薬の有用性が疑わしいと結論づけているものもある6-9。このレビューは広くメディアに取り上げられ、主に抗うつ薬の有効性に関する疑念がようやく払拭されたと引用されている1011 。

図1　成人における抗うつ薬とプラセボの効果量を報告している以前のメタアナリシス

データは、95%CIを持つ標準化平均差として報告されている。NICE 20046：SSRI。Kirsch 20088：「新世代」抗うつ薬。Turner 20089：すべての抗うつ薬。Arroll 200941：プライマリーケアにおけるうつ病に対する抗うつ薬。データは、三環系抗うつ薬とSSRI対プラセボ、固定効果モデルのプールされた推定値を表している。Fournier 201042：すべての抗うつ薬。データは、重症度（軽度から中等度、重症、非常に重症）の3つのグループからのプールされた推定値を表し、固定効果モデル。Gibbons 201243：フルオキセチンとベンラファキシン。Jakobsen 20177。SSRIs. 平均変化スコアの効果の大きさ。Cipriani 20185：すべての抗うつ薬。SSRI、選択的セロトニン再取り込み阻害薬。

抗うつ薬の臨床試験には多くの方法論的限界がある12 が、その多くは数十年前から認識されている13 。我々はすでにCiprianiらのレビューでバイアスのリスク評価の限界のいくつかを取り上げている14 。しかしながら、Ciprianiらのレビューの潜在的な意味合いを考慮して、ここではより包括的な評価を提供することを目指した5 。具体的には、エビデンスベースの方法論的限界にどのように対処したか、レビューの対象となった試験におけるバイアスのリスクの評価とエビデンスの確実性の評価が適切で、著者が述べた方法に従っているかどうか、結論がエビデンスによって支持されているかどうかを調査したいと考えた。我々はさらに、Cipriani er al)。5によって報告されたデータを用いて、これらの方法論的限界の影響に関する実証的証拠を提供することを目指した。

方法

データ収集

オンラインサプリメントからレビューのバイアスのリスク評価と記述データを抽出し、データをMicrosoft Excel形式に変換した。オンラインデータセット5 をし、統計解析のためにファイルをマージした。

私たちは、対象となった臨床試験を 2010年に欧州医薬品庁から入手した臨床試験報告書と相互参照した15 。

統計的分析

記述的分析は Microsoft Excel で行った。逆分散法に基づくランダム効果メタアナリシスには統計ソフトウェアR V.3.4.3を使用し、効果量を標準化平均差（SMD）としてHedges’gと対応する95%CIで計算した。異なる研究で観察された介入効果間の変動の程度をTau2として計算し、不均一性に起因する効果推定値の変動の割合をI2として計算した。評価尺度における抗うつ薬とプラセボの比較については、DerSimonianおよびLairdアプローチよりもタイプIエラーが少ないため、Hartung-Knapp-Sidik-Jonkmanアプローチを使用した16。17 我々は、Ciprianiらが発表した試験の特徴に従って、「プラセボランイン」試験のデザイン、スポンサーシップ、出版状況に基づいてサブグループ分析を行った5。

質の評価

Ciprianiらのバイアスのリスク評価が著者らが述べているコクラン・ハンドブック17に準拠しているかどうかを評価した5。評価された特定の領域（及びバイアスの種類）は、シーケンス生成（選択バイアス)割付シーケンスの隠蔽（選択バイアス)参加者及び要員の盲検化（パフォーマンスバイアス)アウトカム評価の盲検化（検出バイアス)不完全なアウトカムデータ（退会バイアス)選択的アウトカム報告（報告バイアス)及びその他の潜在的バイアスの原因であった17。

我々は、GRADE（Grading of Recommendations Assessment, Development and Evaluation）18 のアプローチを用いて、エビデンスの確実性を評価した。GRADEでは、エビデンスの質に影響を与える5つの領域を考慮している：含まれる試験の内部バイアスのリスク、含まれる試験の結果の不整合性と大きな異質性、外部妥当性の低さによるエビデンスの間接性、効果推定値の不正確さと広いCI、出版バイアス18。

患者と公衆の関与

研究質問の開発、研究の設計と実施、結果の解釈に患者は関与していなかった。

研究成果

バイアスのリスク

ランダム化シーケンスの生成と割り付けシーケンスの隠蔽

Ciprianiら5は、522試験のうち426試験（82%）と460試験（88%）について、無作為化順序の生成と割り付けの隠蔽に関して、それぞれバイアスのリスクが不明瞭であると判断した。残りの試験はバイアスのリスクが低いものであった。Ciprianiらは、無作為化シーケンスの作成や割り付けの隠蔽に関するバイアスのリスクをどのように評価したかについては記述しておらず、その方法がコクラン・ハンドブックに概説されている方法に従っているかどうかを評価することはできなかった。

17 参加者、スタッフ、アウトカム評価の盲検化

Ciprianiら5は、盲検化の欠如により、バイアスのリスクが低い、不明瞭、または高いというコクランの標準的な分類を使用していなかった17。これは盲検化の問題があることを示唆しているが、これらの分類はバイアス評価の全体的なリスクには影響せず5,「試験されていない」と記載されたドメインは「バイアスのリスクが低い」とカウントされているようである。Ciprianiら5によって、参加者の盲検化ドメインでバイアスのリスクが低いと分類された3つの試験のうち2つは、盲検化の完全性がテストされていた（オンラインS1付録）。両試験とも盲検化が損なわれていた可能性が高い。抗うつ薬の副作用は一般的であり、無作為化試験では誰が有効な薬を投与され、誰がプラセボを投与されたかが明らかになることが多い。また、プラセボにアトロピンを加えた盲検化試験では、より小さな効果が観察されている21 。これらの問題を考えると、抗うつ薬のすべてのプラセボ対照試験は、少なくとも不明瞭であるか、あるいはバイアスのリスクが高いと分類されるべきである。

不完全なアウトカムデータ

Ciprianiらは、適切な入力方法を用いた試験をバイアスのリスクが低いと評価している5 。「不適切な」入力方法を用いた試験は、いくつかの任意のカットオフに従って評価された：ヘッド・トゥ・ヘッド比較ではドロップアウト率が5%以上、プラセボ比較では10%以上の差があると定義された場合、バイアスのリスクが高いと評価された。両群間の脱落率に不均衡はないが、脱落率の合計が20%を超える場合は不明と評価し、脱落率の合計が20%未満の場合はバイアスのリスクが低いと評価した。この方法は、バイアスのリスクはいくつかの要因に依存しているため、研究のアトリション・バイアスのリスクが低いか高いかを判断するための単純なルールを策定することはできないと強調するコクラン・ハンドブックに沿ったものではない17 。

Ciprianiらによると、121試験（23%）ではアトリション・バイアスのリスクが高かったが、これらの結果を再現することはできなかった。全体的な減少率は334試験（64%）で20%を超えていた。Ciprianiらによって定義されたカットオフを用いて、202試験（39%）で脱落率が両群間で不均衡であることがわかり、Ciprianiら5に記載された方法によれば、「適切なインputation法」が用いられない限り、バイアスのリスクが高いと評価されるべきであった。CiprianiらはLOCF（Last observation carried forward）法が不適切であると特徴づけていた22 が、対象試験で使用された入力法に関するデータは提供されていなかった。そのため、我々はアトリション・バイアスの再評価においてCiprianiらの分類を適用することができなかった。ほとんどの抗うつ薬試験ではLOCF法を用いている23が、これは変動の過小評価、偽りの低いp値、治療効果の過大評価につながる可能性がある24。

選択的転帰報告

Ciprianiら5は、522試験中402試験（77%）がアウトカム報告バイアスのリスクが低い、100試験（19%）が不明確、20試験（4%）がバイアスのリスクが高いと判断した。これらの評価は、レビューの2つの主要アウトカムである奏効率と全体的な脱落率の報告に基づいており、両方のアウトカムが欠落している場合にのみ、バイアスのリスクが高いと評価された。17 我々の解析では、有害事象による脱落、うつ病症状尺度で測定されたうつ病症状、寛解率の3つの副次的アウトカムである、有害事象による脱落率がそれぞれ93試験（18%)98試験（19%)71試験（14%）で報告されなかった。合計182試験（35%）で少なくとも1つの主要アウトカムまたは副次的アウトカムが報告されておらず、関連するすべてのアウトカムを考慮するようコクラン・ハンドブックで推奨されていることから、これらの試験はおそらくバイアスのリスクが高いと評価されるべきであることがわかった。

その他のバイアス領域

著者らは、「その他のバイアス」領域はコクランのバイアスリスク評価ツールの一部として統合されているにもかかわらず、バイアスのリスク評価から「その他のバイアス」領域を省略している17。この領域に含まれる関連するバイアスは、クロスオーバー無作為化試験とクラスター無作為化試験のベースラインの不均衡とデザイン特有のバイアスのリスクであり、これらの試験はCipriani et alのプロトコルに従って対象となった22。26 我々は、Ciprianiらによる分類を用いて、スポンサーシップに応じたプラセボ対照試験のランダム効果メタアナリシスを実施することにより、企業スポンサーシップがより大きな効果推定値と関連しているかどうかを検討した（オンラインS1付録）。スポンサー付き」と分類された試験（SMDは0.27（95%CI 0.25～0.30,341比較、207試験））では、「不明」（SMDは0.39（95%CI 0.25～0.52,12比較、10試験））および「スポンサーなし」（SMDは0.41（95%CI 0.31～0.52,37比較、36試験））と分類された試験と比較して、効果の大きさが小さいことがわかった。(3つの推定値の差はp=0.005)（表1）。

表1 抗うつ薬とプラセボのランダム効果ペアワイズメタアナリシス

	N回の試行	N比較	ES	95％CI	タウ²	I ²
全体（SMD）
全体	253	390	0.29 *	0.27〜0.31	0.038	40.1％
全体（HAMD17の平均差）
全体	109	166	1.97 **	1.74から2.21	1.896	27.6％
出版状況
公開	196	294	0.33 *	0.30〜0.35	0.037	40.0％
未発表	57	96	0.15 *	0.11〜0.19	0.020	0.0％
「プラセボ慣らし運転」
はい	142	221	0.31 *	0.28〜0.34	0.043	35.0％
不明	79	120	0.29 *	0.25〜0.33	0.032	47.6％
番号	30	46	0.22 *	0.16〜0.29	0.032	35.5％
スポンサーシップ
後援	207	341	0.27 *	0.25〜0.30	0.033	35.4％
不明	10	12	0.39 *	0.25〜0.52	0.026	33.0％
スポンサーなし	36	37	0.41 *	0.31〜0.52	0.075	55.7％

*SMD

**17項目のハミルトンうつ病評価尺度における平均差。

ES、効果量、HAMD17,17項目ハミルトンうつ病評価尺度、I2,不整合性、Tau2,全体的な不均一性の推定値、SMD、標準化平均差。

バイアス評価の要約リスク

著者らは、コクランの全体的なバイアスリスクの分類である低、不明瞭、高のバイアスリスク17から逸脱して、独自の「中等度」バイアスリスクの分類を導入した。評価された領域のいずれもがバイアスのリスクが高いと評価されず、3つ以下が不明瞭なリスクと評価された場合はバイアスのリスクが低い、1つの領域がバイアスのリスクが高いと評価された場合、またはいずれもバイアスのリスクが高いと評価されなかったが4つ以上が不明瞭なリスクと評価された場合は中等度、それ以外の場合はすべてバイアスのリスクが高いと評価された場合はすべての試験をバイアスのリスクが低いと分類した5。このアプローチは、複数の項目のスコアを合計して合計を算出する尺度を使用するのと似ており、コクラン・ハンドブックでは推奨されていない17。我々はこれらの知見を再現することができず、また、盲検化領域がバイアスのリスクの観点からどのように評価されているかが明確でなかったため、これらの努力は困難なものとなった。

このレビューの 5 つのアウトカムがすべてバイアスのリスクドメインの影響を受けている可能性が高いことを考えると、コクラン・ハンドブックで提案されている質的方法は、「バイアスのリスクが高い」ドメインを持つ試験を全体的にバイアスのリスクが高いものとして分類することだ17。盲検化ドメイン（すなわち、すべてのプラセボ対照試験をバイアスのリスクが不明瞭と評価し、選択的アウトカム報告ドメイン）について、当社の分類を用いた場合、バイアスのリスクが低い（0%）試験はなく、リスクが不明瞭な試験は261試験（50%)バイアスのリスクが高い試験は261試験（50%）であった（オンラインS1付録）。プラセボ対照試験において、バイアスのリスクが不明確ではなく、3つの盲検領域をバイアスのリスクが高いと評価した場合、バイアスのリスクが低い（0%）試験はなく、リスクが不明確な108試験（21%)バイアスのリスクが高い414試験（79%）であった（オンラインS1付録）。

発表バイアス

9 Ciprianiら5は436件の公表済み研究と86件の未公表研究を含んでいるが、1000件もの抗うつ薬研究が実施されている可能性がある13。我々はプラセボ比較のランダム効果メタアナリシスを発表状況別に行ったところ、平均効果の大きさは未発表研究（SMD 0.15（95%CI 0.11～0.19,96比較、57試験））の方が発表研究（SMD 0.33（95%CI 0.30～0.35,294比較、196試験）に比べて小さいことがわかった。(2つの推定値の差はp<0.0001)であった（表1）。我々の知見は 2008年に米国食品医薬品局（FDA）に登録された抗うつ薬の公開試験と未発表試験について報告されたTurnerら9の報告と非常によく似ており、公開試験のSMDは0.37（95%CI 0.33～0.41)未発表試験のSMDは0.15（95%CI 0.08～0.22）であった。

このことは、Ciprianiら5による報告された効果量が、出版バイアスのために膨らんでいる可能性が高いことを示している。彼らは出版バイアスのリスクのためにエビデンスへの信頼度を正しく下げたが、出版バイアスが彼らの効果推定値に与える影響を推定することも適切であったであろう。

試験期間と長期効果

Ciprianiら5は、4-12週の間隔で可能な限り8週の追跡調査に近いアウトカムデータを抽出している5が、この決定の根拠は示されていない22。オランダでは、SSRI（選択的セロトニン再取り込み阻害薬）使用者の43%が15ヶ月以上の治療を受けているのに対し、米国では抗うつ薬を使用する人の68%が2年以上、25%が10年以上の治療を受けている。より適切な方法は、治療期間とフォローアップ期間に応じたアウトカムデータを抽出し、治療効果の経時変化を評価することであった。Ciprianiらによって報告された試験の特徴5によると、304のプラセボ対照試験のうち12試験（4%）が12週間以上継続していた。

しかし、これら12試験のうち、12週間以上の中断のない二重盲検プラセボ対照相が含まれていたのは4試験のみであることがわかった（オンラインS2付録）。最も追跡期間が長かった2つのプラセボ対照試験では、36週時点で81人の参加者が含まれていた（オンラインS2の付録）。追跡期間が短いと、重篤な有害事象と非重篤な有害事象が過小評価されることにもなる。

プラセボのランインと既治療患者の取り込み

プラセボ投与試験のデザインは、有益性と有害性の推定値を歪めている（ボックス1）。Ciprianiらはプラセボ実施の明確な定義を示さなかったが22,522試験のうち260試験（50%）をプラセボ実施とし、182試験（35%）を不明確とし、80試験（15%）をプラセボ実施なしとしている5。プラセボ対照試験のランダム効果メタアナリシスをプラセボランインデザインの使用に従って実施したところ、プラセボランインを有する試験ではSMDが0.31（95%CI 0.28～0.34,比較221試験、142試験)プラセボランインを有する試験ではSMDが0.29（95%CI 0.25～0.34,比較221試験、142試験）と群間で効果の大きさに差があることがわかった。 29（95%CI 0.25～0.33,120比較、79試験)プラセボ投与が不明瞭な試験ではSMDが0.29（95%CI 0.25～0.33,120比較、79試験)プラセボ投与のない試験ではSMDが0.22（95%CI 0.16～0.29,46比較、30試験）であった（3つの推定値の差はp=0.05）。プラセボランインのない未発表試験のさらなるサブグループ分析では、効果の大きさは非常に小さかった（SMD 0.08,95%CI -0.27～0.11,8比較、5試験）。プラセボランインデザインの使用とその意味合いについては、Ciprianiら5では議論されていない。

ボックス1

‘プラセボのランイン’、臨床的に有意差が最小、アウトカムとしての’反応’

A. プラセボランインや既に治療を受けた参加者の参加は、利益と害のバランスを歪めている。

Ciprianiら5はプラセボ投与の定義を示していないが、通常、無作為化の前に参加者にプラセボを投与し、通常は約1週間投与した後、非参加者やプラセボによく反応した参加者（「プラセボ反応者」と呼ばれることが多い）を試験から除外することである。試験薬を含め、すでに抗うつ薬による治療を受けている参加者は、事実上、常に試験に参加することが許されており、通常、すべての参加者は、プラセボの投与期間中に継続中の抗うつ薬を漸減させる。この試験デザインは、プラセボ対照試験の効果推定値や、プラセボよりも試験薬が有利になるいくつかのメカニズムを介して、ベネフィット/ヒューマンバランスに影響を与える可能性がある。

被験薬またはそれに類似した薬物で治療された参加者は、組み入れ前に被験薬またはそれに類似した薬物で治療され、その後薬物に無作為に割り付けられた参加者は、薬物を使用していない集団と比較して、ほとんどの場合、薬物に耐性があり、有害事象を経験することが少なくなる（薬物群での有害事象が減少する）だろう。

試験前に抗うつ薬で治療を受け、その後プラセボに無作為に割り付けられた参加者は、離脱症状を経験する可能性があるが、これはうつ病の悪化の兆候や有害事象と誤解される可能性がある44 。

44 離脱症状は通常、中止後数日以内に起こるが、臨床的には大きなばらつきがある44 （プラセボ群ではベネフィットが減少し、有害性が増加する）。

B. 「奏効率」は臨床的な意味を欠いている。

奏効率とは、通常、無作為化臨床試験において、ハミルトンうつ病評価尺度やモンゴメリ-Åsberg評価尺度など、標準化されたオブザーバー評価のうつ病尺度の総スコアの50%以上の低下を達成した参加者の数と定義される。「無反応」は必ずしも参加者の状態が改善していないことを意味するのではなく、単に改善が50%未満の減少と評価されていることを意味する。その差は、「応答者」と「非応答者」の間の評価尺度ではわずか1ポイントであるかもしれない。このように、非応答者に分類された参加者は、実際にはかなりの改善を示しているかもしれない。したがって、抗うつ薬とプラセボの奏効率の差は、改善した人の数の差を示すものではなく、任意に定義された閾値を超えて改善した人の数の差を示しているにすぎない。また、50%減少の閾値を超えた被験者の数に注目することで、試験中に状態が悪化した被験者は無視されている。したがって、プラセボと比較した場合の平均的な効果推定値を見ることは、より臨床的に意味があると思われる。

C. 臨床的に関連性のある最小の差。

Ciprianiらは、抗うつ薬とプラセボの間の標準化平均差（SMD）0.3として測定された全体的な効果推定値を報告している5 。英国国立健康・臨床エクセレンス研究所は 2004年にハミルトンうつ病評価尺度の3ポイントの差、すなわちSMD0.5を臨床的に有意な変化として提案している6 。Leuchtらは2013年の臨床試験データを用いて、臨床家はハミルトンうつ病評価尺度で3ポイント以下の低下を検出できないことを示唆している46 。他の研究者も同じデータを解釈し、臨床家が最小の臨床的改善を検出するためにはハミルトン尺度で7ポイント以上の変化、少なくとも0.875のSMDに相当する変化が必要であることを示唆している47。Ciprianiらのデータに基づく17項目のハミルトンうつ病評価尺度（0-52点の範囲）における抗うつ薬とプラセボの平均差は1.97点であった5。

害の代理としての中退

全体的な脱落率および副作用による脱落率は、それぞれ「受容性」および「忍容性」の尺度としてCiprianiらによって評価されたが、抗うつ薬の実際の有害性および重篤および非重篤な有害事象は評価されなかった。全体的な有益性と有害性のバランスの指標として、総脱落率を使用することは有意義であるが、抗うつ薬の忍容性がすでに知られている参加者を含むことやプラセボの継続使用によってもたらされるバイアスのため、この結果は活性薬に有利に偏る可能性が高い（ボックス1）。さらに、攻撃性、自殺、死亡を含む重篤な有害事象29 と特定の有害事象の慎重な分析が含まれていないため、インフォームド・コンセントと共有された臨床的意思決定、および薬剤の臨床的価値を評価するために不可欠な、有益性と有害性のバランスをとるための基礎が提供されていない。抗うつ薬の副作用は一般的であり、最近行われたうつ病を対象とした131のSSRI試験のメタ解析では、プラセボと比較して重篤な有害事象のリスクが増加していることが示された（OR 1.37;95%CI 1.08～1.75）7 。

しかし、Ciprianiらは抗うつ薬の総脱落率を過小評価している可能性が高いと考えられる。公表されたデータではなく、医薬品規制当局から入手した臨床試験報告書に基づいて73試験の中途退会をメタ分析したところ、プラセボよりも抗うつ薬の方が12%多くの参加者が中途退会していたことが示された31。

我々は、Ciprianiらのレビューに含まれる522試験のうち19試験の臨床試験報告書を入手した。我々は、Ciprianiらのレビューに含まれている522試験のうち19試験の臨床試験報告書を入手した。これらのデータと比較して、Ciprianiらが報告した19試験中12試験（63%）では、総脱落率または有害事象による脱落率が報告されていないか、または誤って報告されていた：総脱落率が報告されていないのは2試験で、誤って報告されているのは7試験で、有害事象による脱落率が報告されていないのは5試験で、誤って報告されているのは3試験でした（オンラインS1表）。

患者に関連したアウトカムの欠如

生活の質や病欠などの患者関連の転帰は、精神科薬物の臨床試験ではほとんど測定されておらず、報告されていない。その代わりに、臨床試験のほとんどは医師が評価した症状スコアに頼っているが、自己評価した症状尺度も存在する。成人のうつ病に対するSSRIの系統的レビューでは、131試験中6試験のみがQOLデータを報告しており7,臨床試験の報告でさえも、このアウトカムの報告が選択的に行われているため信頼性に欠ける。

臨床的に無関係な有効性のアウトカム

ネットワークメタアナリシスの主要な有効性アウトカムは奏効率（ボックス1）であった。33 定格尺度で測定された結果を二分化すると統計的な力が失われ、偽陽性の結果34や効果量が急激に増加するリスクが高まる。Ciprianiら5が相対的なORのみを報告し、試験の絶対奏効率を報告しないという選択をしたことは批判されている35 。Ciprianiら5は「奏効率」と寛解率に関する問題を取り上げていない。

統計的意義と臨床的意義

Ciprianiら5は、二分化されたアウトカムよりも意味のある症状評価尺度でのSMDも報告している33 34 。抗うつ薬対プラセボの総合的なSMDは0.30（95%信頼区間0.26～0.34）と報告しているが、試験数や比較は不明であった5 。これらの効果推定値は統計的には有意であるが、臨床的に関連性のある効果と考えられる値を下回っている可能性が高い（ボックス1）。また、含まれた試験で最も一般的に使用されていた17項目のHamiltonうつ病評価尺度でエンドポイントまたは変化のスコアを報告した試験について、全体的な平均差を計算した（オンラインS2表）。抗うつ薬とプラセボの平均差は、17項目のハミルトンうつ病評価尺度（範囲0～52）で1.97ポイント（95%CI 1.74～2.21,比較166試験、109試験）であった（表1）。ハミルトン尺度でのこの平均差は、臨床的に関連性のある効果と考えられるものを下回っている可能性が高い（ボックス1）。Ciprianiらは、報告された効果の大きさの臨床的意義については言及していない5。

選抜された非代表的な研究集団

抗うつ薬を用いた試験には、通常、外部からの妥当性を制限する広範な除外基準がある。このような除外基準には、精神疾患の併存、アルコール乱用、病気の期間が長いこと、以前の抗うつ薬治療に「無反応」であることなどが含まれている36 。さらに、以前の「非反応者」を除外したり、治療により好ましい反応が得られると予想される患者を含めることで、試験に偏りが生じる可能性がある（ボックス1）。これらの問題はCiprianiら5では考慮されていないが、間接性のGRADEドメインにおけるエビデンスの信頼性を低下させる結果となったはずである。

エビデンスの確実性

Ciprianiら5は、ネットワークメタアナリシスに適応したGRADEアプローチを用いて、2つの主要アウトカムのエビデンスの確実性を評価した。彼らは頭対頭比較のGRADEの結果を提供したが、プラセボ比較の結果を見つけることができなかった5。

証拠の質に関する問題に続いて、プラセボ比較の証拠の確実性は、（Cipriani er al)。5が認めている出版バイアスによる1レベルのダウングレードに加えて、バイアスの「高リスク」による2レベルのダウングレード、試験期間の短さ、厳格な組み入れ基準、プラセボのランインの使用による間接性の領域で2レベルのダウングレードが必要であると考えられる。ネットワークメタアナリシスの方法論の間接性によるダウングレードも考慮する必要がある。

議論

我々は、Ciprianiらによるシステマティックレビューでは考慮されていなかったいくつかの重要なバイアスを同定した5 。我々は、うつ病評価尺度で測定されたプラセボに対する抗うつ薬の報告された効果が小さく、試験におけるいくつかの方法論的制限によって増大している可能性が高いことを示した。我々は初めて、発表バイアスやその他の方法論的制限に加えて、プラセボを用いたランイン試験のデザインが効果の大きさを膨らませるように働くことを示した。さらに、Ciprianiらによって報告されたアウトカムデータは臨床試験の報告とは異なり、バイアスのリスク評価はコクランハンドブックに概説されている方法に従っていないことが示された。最後に、評価されたすべてのアウトカムについて、抗うつ薬とプラセボのエビデンスの確実性は非常に低いはずであることがわかった。以上をまとめると、抗うつ薬がプラセボよりも効果的かどうかを含め、成人のうつ病に対する抗うつ薬の有効性に関する決定的な結論を支持する証拠は得られていない。

これまでのメタアナリシス（図1）では、Ciprianiらと同様の症状スコアの改善が認められている5 。これらのレビューのいくつかでは、方法論の限界を慎重に検討し、有害性を評価し、異なる結論を導き出している6-8 。著者らがデータを共有したことは評価されるべきであるが、各メタアナリシスの対象研究の数、群、参加者などの基本的な情報が報告されていないため、レビューの結果のほとんどを再現することができない。ネットワークメタアナリシスの方法論はある程度期待できるかもしれないが、明らかに効果的な介入が存在し、順位付けが必要な分野でのみ有効であり、多くの統計的選択肢が、証拠の最初の批判的な評価と結果の明確な提示に取って代わられるべきではない。エビデンスへの信頼度が非常に低いときに抗うつ薬をランク付けするのは誤解を招くようである。興味深いことに、症状スコアの改善に関する我々のペアワイズメタアナリシスでは、Ciprianiらが報告した結果と非常に類似した結果が得られた。

5 我々は、ほとんどの患者は何年も治療を受けているにもかかわらず、エビデンスベースは主に短期試験（12週間以下）で構成されており、36週間以上の治療に関するエビデンスはないことを発見した3 27 さらに、Ciprianiら5によるレビューで報告された、医師が評価した症状尺度で測定した抗うつ薬の明らかな効果は小さく、おそらく臨床的には関連性がないと思われる。観察研究はまた、実際の抗うつ薬の効果が非常に低いことを示している。大規模な公的資金によるSequenced Treatment Alternatives to Relieve Depression研究では、登録された4041人の患者のうち、1年後に「寛解状態にある」とみなされたのはわずか3%であった39。

我々の所見では、Ciprianiらのデータ5は不正確であり、公表されているデータに依存しているため、彼らの推定値は正しくない可能性があることが示された。これは、我々がCiprianiらのデータに依存し、独自の系統的な文献検索とデータ抽出を行っていないことが限界として認識されるかもしれない。我々が明らかにした複数の方法論的限界を考慮すると、臨床試験報告書と個々の患者データに基づくデータを分析して、抗うつ薬の有益性と有害性の信頼性の高い評価を行う必要があるだろう。我々のスポンサーシップサブグループ分析にもいくつかの限界がある。産業界がスポンサーとなっている研究は、非産業界がスポンサーとなっている研究に比べて良好な有効性の結果を報告することが多いことがわかっているが、我々の分析では、産業界がスポンサーとなっている研究は、医師評価のうつ病症状尺度において、非産業界がスポンサーとなっている研究に比べて抗うつ薬の効果推定値がプラセボに比べて低いことが報告されていた。しかし、2つのサブグループ間には、観察された違いに寄与すると思われる重要な違いがあった（オンラインS1図）。産業界がスポンサーとなっていない試験は、産業界がスポンサーとなっている試験に比べて規模が小さく、年齢も高く、Ciprianiらが対象とした産業界がスポンサーとなっていない試験のほぼすべてが発表されていた。

我々の結果は、何百もの抗うつ薬のプラセボ対照試験が、抗うつ薬の有益性と有害性に関する最も重要な、患者に関連した疑問に対処していないことを浮き彫りにしている。これは何年も前から知られていることであるが13 、研究実践の変化にはつながっていない。抗うつ薬がうつ病に有効であるという誤った結論は、うつ病に苦しんでいる人々が、心理療法や心理社会的ストレス要因への対処など、症状を緩和するための他の解決策を求めることを妨げる可能性があり、そのような治療法の資金調達や研究を停滞させる可能性があるという影響をもたらす。重要なことに、そのような結論はまた、抗うつ薬の真の臨床的価値を判断するためのより良いエビデンスベースを提供することへの関心の低下につながる可能性がある。

我々のレビューには2つの意味合いがある。第一に、Ciprianiら5によるレビューとその結論は慎重に見直されるべきである。我々の知見に照らすと、このレビューは臨床の実践に情報を与えるべきではない。第二に、我々の再分析により、抗うつ薬の臨床試験の実施、報告、解釈の方法を根本的に変える必要性が浮き彫りになった。我々は、医師、患者、同僚、政治家が、我々が提示したうつ病に対する抗うつ薬の現在のエビデンスの限界を考慮し、それに応じて集団的に行動することを期待している。そのためには、現在のエビデンスの限界を患者さんに伝え、真のインフォームドコンセントの根拠を提供し、うつ病治療における抗うつ薬の使用に関するより良いエビデンスベースに向けて努力することが必要である。成人のうつ病患者における抗うつ薬の有益性と有害性について信頼できる回答を得るためには、ランキング尺度ではなく、患者に関連した結果を用いた、大規模で、業界に依存しない、より良い盲検化された長期的な薬物ナイーブな参加者の試験が必要である。