薬剤のベネフィット | リスク比の評価-無作為化と自然主義のエビデンス

コンテンツ

要旨
自然主義的エビデンスと無作為化エビデンス
医薬品のベネフィット・リスク評価のための定量的手法
規制当局の見解
考察

www.ncbi.nlm.nih.gov/labs/pmc/articles/PMC3181998/

2011 Jun; 13

François Curtin, MD* and Pierre Schulz, MD

要旨

医薬品のベネフィットとリスクの初期および継続的な評価、すなわち治療効果と安全性リスクのバランスをとるためには、臨床試験から得られる無作為化エビデンスと、薬剤疫学やファーマコビジランス活動から得られる自然科学的エビデンスの両方が必要である。

ベネフィット・リスク評価（BRA）は、主に定量的なデータの定性的な評価に依存している。ここでは、BRAを定量化するための現在の試みを、米国食品医薬品局（Food and Drug Administration）や欧州医薬品庁（European Medicines Agency）などの規制当局の期待とともにレビューし、議論する。

BRAについては、他の治療法が役割を果たしている状況では、その多次元的な側面を単純な指標に還元することは困難であるため、完全に満足できる解決策を提供する方法はない。

医薬品のライフサイクル全体を通して実施されるこの評価では、一貫性と透明性が重要だ。BRAは主に、臨床開発期間中の無作為化臨床試験に基づいており、医薬品が市場に出回るようになると、自然科学的データによって継続・強化される。

キーワード：ベネフィット・リスク、有効性、安全性、医薬品開発、ベネフィット：リスク比、BRA

医薬品は、病気を治す、病気の進行を遅らせる、病気の症状を和らげるなどの治療上の効果をもたらすが、一方で、吐き気や頭痛などの頻繁に起こる軽微な症状から、アナフィラキシー、肝不全、がんなどのまれに起こる重篤なイベントまで、医薬品の有害反応（ADR）のリスクを伴う。このような治療介入の二面性は、薬理学以外にも、出血や感染症などの合併症のリスクがある外科手術や、心理療法でも精神症状の悪化を誘発することがある。

薬剤のベネフィットとリスクを検討することを、ベネフィット：リスク評価（BRA)ベネフィット・リスク・バランス、ベネフィット・リスク比評価などと呼ぶ。BRAは基本的に2つの次元の評価である。ベネフィットの次元は、主に治療効果、すなわちその薬剤が適応となる疾患の治療に成功したかどうかという点で評価される。

また、QOL（生活の質）の向上や医療経済的側面など、薬のコストが厳しく問われる時代に注目される他のタイプの利益もある。リスクの次元には、すべてのADRの合計という形で観察される安全性プロファイルだけでなく、作用機序に基づいて予測される観察されないADRの潜在的なリスクも含まれる。

医薬品のベネフィットとリスクの比率を評価することは、医薬品のライフサイクル全体を通じて重要だ。探索段階では、生物学的標的や医化学の分析により、何百もの候補分子の中から最も優れたBRAの可能性を持つリード分子を選択することができる1,2。

医薬品の前臨床開発では、疾患の動物モデルから得られたエビデンスと、毒性試験から得られた前臨床安全性データを比較し、前臨床BRAによって、候補となる医薬品がヒトに初めて投与されるかどうかが決定される3。BRAは静的なプロセスではなく、臨床開発、登録プロセス、そして患者に投与される販売期間中に進化する。

しかし、どのような場合でも、BRAは主要で複雑な概念であることに変わりはない。一般的に、BRAのダイナミックな側面は、医薬品の安全性プロファイルをよりよく特徴づける新しい知見によるものであり、時には副作用が発見され、医薬品の安全性プロファイルが不利になることもある。

長年にわたって販売されてきた医薬品は、「ブロックバスター」と呼ばれる状態の医薬品であっても、有効性の知見に直面して改訂された安全性評価が良好なBRAを支持しなくなったために、販売中止になることがある4。

BRAの改訂は、適応症の制限やモニタリング手段などのリスク管理手段を導入することで正当化される。例えば、多発性硬化症のモノクローナル抗体であるナタリズマブは、重篤な感染症の症例があったために臨床試験が中断された後、対象となる患者層を大幅に制限して登録された。

例外的に、不利なBRAがプラスに転じる例もある。例えば、古い医薬品に新たな適応症が発見されたことで、そのBRAのプラス面が増加する場合である。サリドマイドが多発性骨髄腫と結節性紅斑の適応症で再発売された例がある5。

上記のコメントは、医薬品のBRAは、グローバルな医学・薬学の文脈の中で行われるものであり、単独で行われるものではないことを示している。この評価では、医薬品がどのような適応症を対象としているかが重要だ。重篤なADRのリスクを含む安全性プロファイルを持ち、致命的な可能性もある薬剤は、がん治療には受け入れられるかもしれないが、重篤ではない疾患の治療には導入すべきではない。

絶対的には、薬剤のBRAは代替治療法の存在とは無関係であるが、ある適応症で他の治療法が利用可能な場合、規制当局や処方者はより有利なBRAを持つ薬剤を好むことは明らかである。ここには経済的な配慮も介入しており、この価値尺度に影響を与える可能性がある。

本レビューでは、無作為化臨床試験と自然科学的研究によって収集されたエビデンスに基づくBRAの相対的価値について議論する。自然主義的研究の定義は以下の通りである。「自然主義的研究とは、無作為化臨床試験では得られないが、ファーマコビジランスや薬剤疫学の活動の中で得られるあらゆる種類の観察結果を本質的に表している。

医薬品のライフサイクルと医薬品規制の枠組みの中で、BRAを作成するために使用される異なるアプローチに基づいて、この評価では両方の設定がどのように関心を持たれるかを議論する。

自然主義的エビデンスと無作為化エビデンス

20世紀前半、新薬（特に抗感染症薬）の治療効果を示すエビデンスは明白であり、治療を受けた患者の治療効果を自然に観察するだけで十分であった。しかし、すぐに新薬の治療効果が明らかでなくなり、有効性を証明するための方法論が必要となった7。

治療法の臨床的有効性は、1950年代にSir Austin Bradford Hillが行った初期の実験以来、その方法論が開発され、完成された臨床試験によって評価される8。統計学的な観点から、有効性の証明は、帰無仮説の棄却、すなわち、実験的治療と比較的治療の間に差がないということに基づいている。

医薬品の開発にはいくつかの臨床試験デザインが用いられるが、一般的には数回の無作為化比較試験により、実験的治療が比較対象に対して統計的に有意な優越性を示すことができるはずである。例えば、米国食品医薬品局（FDA）は、新薬の登録を許可するために、少なくとも2つの第3相ピボタル試験で肯定的な結果を得ることを要求している9。

欧州医薬品庁（EMA）の欧州医薬品委員会（CHMP）などの規制当局は、異なる治療領域における医薬品の有効性と安全性をどのように評価し、実証するかについてのガイドラインを定期的に発表しており、例えば、20以上のCHMPガイドラインは、欧州における精神神経系の医薬品の臨床開発および臨床試験方法の枠組みを定めている。

規制当局は、有効性の証拠を裏付けるために、基本的に無作為化比較試験に依存している。有効性の確立は、登録プロセスをサポートする鍵となる重要な試験の結果が得られるフェーズIIIの終わりに達成される。ある適応症に対する有効性の結論は、この段階以降、変更されることはないが、治療効果試験の再現により、枢要試験の結果と比較して期待外れの結果となることもある10 。

セレンディピティによりサブグループの患者に有効性が新たに認められた場合、医薬品の添付文書上で適応症を拡大するためには、第I相試験で得られた無作為化エビデンスにより確認する必要がある。薬効の実証という観点からは、自然主義的な研究は、臨床的・統計的な質と検出力の点で、より弱いデザインである。

自然主義的な環境でも、有効な治療法と比較対照薬の比較は可能であるが、無作為化を行わないため、有効性の推定におけるすべてのバイアスの原因をコントロールすることはできない。無作為化エビデンスは、大多数の薬剤について、BRAで期待される効果を実証するための裏付けとなる。

このルールにはまれな例外があり、それは症例数の少なさや難病の末期であること、あるいは感染症患者による国民への医療上の脅威が差し迫っていることであり11,これらは適切な臨床試験を省略することを正当化できる。

感染症のパンデミックの恐れがある場合には、無作為化臨床試験による情報が限られているにもかかわらず、医薬品やワクチンを販売する必要があるかもしれない。そのような場合には、自然観察に基づく情報もほとんどないだろうから、緊急時に治療を行うかどうかの判断は、代替的な結果に基づいて行われることになる。また、無作為化臨床試験で証明された薬剤の有効性が臨床現場で維持されていないと思われる場合も、自然な観察がBRAに影響を与える可能性がある。

薬剤の安全性の評価は、有効性の評価よりも複雑である。臨床試験は、薬剤の有効性を実証するためにデザインされ、力価が設定されている。無作為化試験では多くの安全性情報が収集されるが、この情報は基本的に頻発するADRを対象としており、正確には薬物反応ではなく頻発する有害事象を対象としている（事象と薬剤の服用との因果関係はまだ確立されていないため）。

12 実際、臨床開発は、患者への曝露や曝露期間が限られており、臨床開発期間中に薬剤を投与される患者はわずか数千人で、そのほとんどが比較的短い期間に投与される。一般的なADRは臨床開発中に特定することができるが、頻度が0.1%未満の稀な反応は一般的に特定されない。

フェーズI～IIIで実施される無作為化比較試験では、医薬品の安全性プロファイル全体を適切に評価する力はなく、登録時に確立された医薬品とそのBRAの安全性プロファイルは、このように稀な、あるいは遅れて発生するADRを捉えることが難しいため、制限されたままとなっている。

登録後の期間は、自発的な報告によるファーマコビジランスが、医薬品の安全性プロファイルを強固なものにするために重要だ。しかし、処方者からの自発的な申告が少ないことや、有害事象の因果関係の評価が複雑であることから、市販後の期間にBRAの特徴を十分に把握するには、ファーマコビジランスが不十分であると考えられている14。

これを補完するのが、欧州では承認後安全性試験とも呼ばれる観察コホート研究などの薬剤疫学研究である15。この研究では、患者は無作為化を行わず、純粋に医学的な根拠に基づいて対象となる医薬品を処方される。ファーマコビジランス・サーベイランスと観察型の薬剤疫学研究は、登録後のより包括的な安全性プロファイルを構築し、登録前のBRAを確認するために不可欠な自然主義的な観察環境を提供する。

医薬品のベネフィット・リスク評価のための定量的手法

BRAを定量的に推定することへの関心が高まっており16,この目的のために開発されたいくつかの定量的および半定量的な手法をレビューする。これらの手法にはそれぞれ利点と限界があり、今のところ、規制当局や製薬企業が満場一致で承認したり、体系的に使用したりしているものはない。紹介されている方法は、患者の集団に対する平均的なBRAを提供するものであり、個々の患者におけるベネフィット・リスクの推定を目的としたものではない。

治療に必要な数

NNT(Number needed to treat)およびNNH(Number needed to harm)は、単一の臨床試験におけるBRAを評価するのに有用な単純な方法である17。

NNTは、その薬剤が対象とする疾患の有効な治療をあと1回実現するために、その薬剤で治療する必要のある患者の数である。NNTは絶対的な値ではなく、実験薬と無治療、あるいは効果の高い代替薬と低い代替薬など、比較する条件に依存する。

NNTは、1人の患者にADRが発生するまでに治療が必要な患者の数を意味する。NNH:NNT比18は、基準となる治療法ではなく対象となる薬剤を使用することで発生するADRが1件増えるごとに達成される治療成功数の増加を測定するものであり、ベネフィット:リスク比を評価するためのシンプルなツールである。

NNILNNTが1より大きければ、ADRが1件発生するよりも薬剤の効果を確認するために治療を受ける必要のある患者数が少ないことを意味し、言い換えれば、少なくとも数値的にはBRAは正となる。この指標は、概念が単純で計算が容易なため、臨床医や償還機関、健康保険会社などで広く使用されている。

この方法の利点は、有効性と安全性に類似した評価基準を使用できることである。しかし、1つの治療成功例と1つのADRを直接比較することには疑問がある。実際、医薬品の治療上の成功は、例えば症状の強さが減少するなど、臨床上の影響は小さいものであるが、ADRは重篤なものになる可能性がある。

したがって、1つの成功の可能性と1つのADRのリスクを単純に数えることは単純ではない。また、医薬品のリスクプロファイルには複数の異なるADRが含まれており、このような複雑さを1つのNNH値だけでまとめることは困難である。

安全性プロファイルの違いを考慮する試みとして、結果に対する患者の効用値を考慮することが可能である。すなわち、患者の嗜好を考慮し、対象となる疾患や特定のADRを回避することに対する嗜好を定量化することができる19,20。これらの効用スコアは、NNH:NNTの計算に含めることができるが、計算はより複雑になり、相対的な効用スコアには主観性が含まれる。

症状および毒性のない質的調整後の時間

Quality-Adjusted Time Without Symptoms and Toxicityは、治療によって得られた時間からADRによって失われた時間を差し引く方法である。この計算には、生活の質と量の両方を表すQALYs（Quality-Adjusted Life Years）を用いることもできる。

この方法では、利益（ベネフィット）と損失（リスク）を1つの指標として直接比較することができる。この方法では、利益（ベネフィット）と損失（リスク）を直接比較し、1つの指標とすることができる。個々の患者については、この推定は有効であるが、集団の患者については、1年の生命の増減の価値について個人の意見が分かれるため、その帰属はより困難である。似たような手法として、増分純保健効果（INHB）があり、上述の手法を 2 つの薬剤間で比較する形で用いられる22。

多基準決定分析

多基準意思決定分析（MCDA）は、複数の利益とリスクを考慮に入れた意思決定を支援するツールである。この手法は、当初、ビジネスおよび管理の領域における意思決定を支援するために開発された。

薬剤関連のMCDAでは、ADR、治療中止、薬剤と薬剤、薬剤と疾患の相互作用などのいくつかのリスクが考慮される一方で、生化学的または臨床的な有効性のエンドポイントやQOLのエンドポイントなどのいくつかのベネフィットが表現される23,24。

この手法は、異なる発生確率で定義された選択肢を含む階層的な決定木に基づいている。異なった期待性能スコアが得られ、各オプションの異なる加重スコアを算出することができる。また、MCDAでは、不確実性パラメータや感度分析も計算することができる。

このアプローチは、どの領域（リスクまたはベネフィット）がより影響力を持ち、より精査する必要があるかを特定し、より明確な意思決定プロセスを可能にするという点で有望である。しかし、このモデルは非常に複雑で統計的に厄介であり、割り当てられた重みがモデルに主観性のバイアスをもたらす可能性がある。

その他の多次元的アプローチ

他のアプローチも提案されている。そのうちの1つ25では、ベネフィットの強さ（有効性反応の大きさなど）と回答率を掛け合わせて長方形を作る。この長方形にエビデンスの次元（定量化）を掛け合わせ、3次元のefficacy cuboidを形成する。

あるADRについては、重症度、頻度、証拠の強さの3つの次元で、安全性の立方体を構成する。ベネフィットのキュボイドの体積が、異なるADRのキュボイドの合計よりも大きい場合、正のベネフィット：リスク比が示される。利点は、異なるADRを一緒に検討できることである。

しかし、この概念が理論的に興味深いものであったとしても、ベネフィットとリスクの立方体を比較する実用的な方法はなく、ADRの総和で表される体積を薬剤のベネフィットを測定する体積と幾何学的に比較できるかどうかも定かではない。

上記の方法は、その複雑さにもかかわらず、特定の適応症における特定の薬剤のベネフィットとリスクの相対的な重要性を、単純な方法で決定することはできない。今のところ、専門家による定性的な判断に取って代わるものではない。

規制当局の見解

BRAの問題に関する規制当局の立場は参考になる。なぜなら、規制当局は、公衆衛生を保護しつつ、医薬品の治療法の進歩を奨励するという2つの目的を持っているからである。規制当局は、基本的に定性的な評価と専門家の意見に依存している。

上述したような定量的な方法は、登録や医薬品モニタリングのプロセスにおいては補助的な役割しか果たしない。定性評価と専門家の意見に頼ることで、規制プロセスの妥当性、一貫性、透明性を確保することが必要となる22。ここでは、米国と欧州の規制当局のアプローチの一部を紹介する。

FDAは、BRAの定量的評価を行わず、医薬品開発時に収集した定量的データの定性的評価に依存している。FDAでは、医薬品のベネフィットは臨床試験の有効性のエンドポイントに由来し、リスクは臨床試験で報告された有害事象と、医薬品が市販された後の自発的な安全性データに基づいている26。

評価は、ベネフィットとリスクに加えて、アンメット・メディカル・ニーズの概念や、医薬品の潜在的な安全性リスクを軽減するために提案されたリスク管理計画などの他の要因が考慮される判断に基づいている。FDAが行うBRAの重要な要素として、医薬品登録前の諮問委員会による意見がある。

諮問委員会では、FDAから独立した複数の専門家、場合によっては患者団体の代表者が医薬品の資料を評価し、投票によって決定を下する。委員会の決定は指標であり、最終的な決定はFDAが行う。FDAの質的評価は、EMAと同様に、フレームワーク27を用いて行うことができる。このフレームワークは、BRAの判断をサポートし、公式化する。特に、処方者、患者、製薬企業にとって不可欠な、BRAのプロセスと判断の一貫性と透明性を標準化することができる。

欧州では、EMAが2008年に「Reflection Paper on Benefit-Risk Assessment Methods in the context of the Marketing Authorisation Applications of Medicinal Products for Human Use」と題した論文を発表している28。

この論文では、評価の方法論と評価の一貫性・透明性を向上させるためのアプローチが検討された。EMAにとって、FDAと同様に、BRAでは専門家による評価が不可欠であり、定量的なアプローチはまだこの定性的な評価に取って代わるものではない。EMAの論文からは、主に2つの結論が得られている。

第一に、EMAは、医薬品添付文書のベネフィット・リスクセクションのために、評価者のための特定のガイダンスとともに、特定のテンプレートの使用を提案している。このガイダンスにより、評価された医薬品のベネフィットとリスクに関する主要なデータを構造的にまとめることができる。

特に、BRAは評価対象となる医薬品の治療上の背景を考慮して実施されなければならない。また、リフレクション・ペーパーでは、これらの推定値の不確実性と変動性、およびそれらが意思決定に与える影響を強調している。次に、定量的または半定量的なBRA手法の開発に向けた研究を支援する必要性があることを認めている。最近設立されたEuropean Network of Centres for Pharmacoepidemiology and Pharmacovigilanceは、この取り組みの一環である。

FDAとEMAは、新薬の登録前にBRAを構築するために、臨床試験で得られたエビデンスを要約するのに、専門家の意見や定性的な評価に依存しており、定量的な手法にはまだ依存していないのは明らかである。しかし、両機関とも、評価と決定に一貫性を持たせるために、これらの評価を構造化するフレームワークの使用を奨励している。

考察

医薬品の有効性については、対照試験デザインにおいて統計的検定を用いて実験薬の比較対照薬に対する優越性を証明することができるが、治療法の安全性を決定的な方法で証明する方法は単純ではなく、無作為化対照試験デザインでは完全に把握することはできない。

ある安全性の問題については、有効な治療法と比較対照薬との間のADRの発生率に基づいてリスクを推定することができるが、医薬品の安全性プロファイルには多くの安全性の問題が含まれており、この構成を一次元の概念にまとめることは困難である。

さらに、安全性リスクが特定されると、ベネフィット・リスクの観点から、それぞれのリスクに対する受容レベルを定義する必要がある。薬剤性肝不全などの重篤なADRについて、許容できる閾値の発生率はどの程度なのか。治療を受けた患者1万人あたり1例、あるいは10万人あたり1例、あるいはそれ以下の発生率を許容すべきなのか。

その答えは、その薬剤の適応と有効性による。さらに困難なことに、薬剤の有効性は無作為化試験で十分に測定されるが、特定のADRのリスクは、そのADRが観察されて初めて評価される。そうでない限り、ADRは仮定の生物学的メカニズムに基づいた仮説のままであり、ADRが特異的な場合には無視される。

例えば、本剤の無顆粒球症のリスクは、登録時ではなく、最初の症例シリーズが記録されたときに明らかになった29。薬剤の既知の作用機序（または薬剤の薬理学的クラスの作用機序）に基づく所定のリスクの可能性もバランスに含まれるが、この潜在的なリスクは多くの不確実性を伴ってのみ定量化できる。

リスク評価の中心となるのは時間の次元であり、医薬品のBRAは前臨床開発に始まり、臨床開発、販売段階へと続くる。新薬が発売されると、患者数、服用期間、臨床試験で選択された患者集団と比較した患者の異質性などの点で、新薬への曝露が大幅に増加するため、最初の数年間は医薬品のBRAにとって非常に重要な時期となる。

がんや慢性臓器毒性などの特定のADRは、数年間の曝露によってのみ観察される可能性があるため、長期的な曝露が重要になることがある。免疫抑制関連のリンパ球減少性障害は発症までに約5年を要し30,肝硬変はメトトレキサートを数十年投与した後に発症する可能性があり31,妊娠中にジエチルスチルベストロールを服用した女性の娘の膣腺がんに見られるように、薬剤に曝露した患者の子孫に遅発性毒性が認められることもある32。

臨床開発中に行われた無作為化試験から得られた情報は、期間限定の薬物曝露に対応している。この段階では、薬物の長期曝露（1年以上）は、100人程度の限られた患者に限定される。長期的な安全性に関する国際調和会議（ICH）のガイドラインElaでは、登録書類において1年間追跡調査する患者数はわずか100人である33。

BRAは、臨床開発の初期段階では無作為化されたエビデンスに基づいているが、市販後の期間では主に自然主義的なエビデンス、すなわち、薬剤疫学的観察研究やファーマコビジランスシステムから得られるエビデンスに基づいて行われる。

このように、BRAは主に質的な活動である。すべての定量的なBRAの推定に固有の重要な制限は、ADRや安全性リスクの影響を推定する際の主観性のレベルである。BRAの定量的な手法の中には、ユーティリティースコアや患者の嗜好を用いて計算するものがある。

このような手法は、すべての条件で患者の嗜好が得られるわけではないため、限界がある。また、がんなどの生命を脅かす疾患に罹患している患者は、うつ病などの重度ではない疾患に罹患している患者と同じようにはADRを評価しないかもしれない。

このように、主観的で個別的な評価を行う実用性ベースのアプローチを、エビデンスに基づく医薬品の評価とどの程度比較できるのかは不明である。BRAの定量的手法のもう一つの限界は、ベネフィット・リスク比のパラメータを単純化しすぎてしまうリスクである。NNH:NNT比は、問題の複雑さを捉えるには単純すぎる数学的ツールの例である。

このレビューでは、公衆衛生の観点、すなわち、潜在的な患者の集団に対するBRAに焦点を当てている：これは規制当局と製薬企業の見解である。平均値に基づいたBRAは、（臨床試験や薬剤疫学研究において）患者の集団に期待されるものを表している。

ある患者にとって、ある治療法の有効性と安全性は、患者の集団に基づいて結論づけられたものとは異なる可能性があり、しばしばそうなる。ある患者は、薬剤に対して反応することもあれば、反応しないこともあり、医学的に認められた薬剤の有効性は、個人レベルでは無効になることがある。

同様に、個人の安全性プロファイルは、集団で見られる平均的な安全性プロファイルとは異なることがよくある。また、ADRに対する主観的な認識も重要な役割を果たす。

あるADRが特定の患者にとっては許容できるものであっても、他の患者にとっては受け入れがたいものである場合もある。この意味で、個人レベルに落とし込まれたMCDA手法は、1960年代から医療分野での使用が示唆されている経済学的手法である意思決定分析と非常によく似ている34。

BRAは確率を統合して計算し、それを用いて特定の患者にとっての最善の選択肢を決定することができる。結論として、BRAは、主に安全性を中心とした医薬品に関する蓄積された知識に加え、公衆衛生上のリスクの受容や代替治療法の存在など、より一般的な条件に応じて進化するダイナミックなプロセスであると言える。

明らかに、無作為化臨床試験からのエビデンスは、医薬品の登録前にBRAの基盤を提供するために重要であるが、医薬品のライフサイクル中にBRAプロセスを追求するためには、医薬品が販売された後に曝露された患者の情報を収集することが重要である。

2024年7月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31