アルツハイマー病から得た教訓 否定的な結果が得られた臨床試験

強調オフ

科学哲学、医学研究・不正認知症研究・試験

サイトのご利用には利用規約への同意が必要です

Lessons Learned from Alzheimer Disease: Clinical Trials with Negative Outcomes

www.ncbi.nlm.nih.gov/pmc/articles/PMC5866992/

Published online 2017 Aug 2

Jeffrey Cummingscorresponding author 1

はじめに

アルツハイマー病(AD)の医薬品開発は失敗率が高い。医薬品開発の意思決定は、過去の試験から得られた教訓に基づいて改善することができる。動物モデルの解釈の改善、第I相および第II相試験におけるより良い薬理学的特徴付け、適切なサンプルサイズ、バイオマーカーサポートによるADの診断、グローバルリクルートの最適化、不適切なサブグループ解析の回避などが、医薬品開発の成功率を向上させる可能性がある。


アルツハイマー病(AD)は、65歳以降5年ごとに頻度が2倍になり、世界の人口高齢化に伴い増加している。この差し迫った公衆衛生上の災害に対処するためには、ADの予防、発症の遅延、進行の遅 延、認知・行動症状の緩和、治療のための新薬の発見と開発が急務となっている。

AD治療薬の開発は 2002年から 20122年までの10年間で99.6%の失敗率で異常に困難であることが証明されており、現在、成功率は同じ低いレベルで続いている。各臨床試験では、狭い範囲の疑問についてのエビデンスが得られている。例えば、特定の期間(例えば、疾患修飾療法(DMT)の場合は18~24ヶ月)定義された集団(例えば、前臨床AD、前駆性AD、軽度、中等度、重度のAD認知症)に試験薬をこの用量で投与した場合、認知を測定するもの(例えば、アルツハイマー病評価試験)のような、事前に指定された主要アウトカム(例えば、アルツハイマー病評価試験)のベースラインからの変化において、プラセボと比較して統計学的に有意な差が生じるのか?4 他の集団、他の投与量、他の曝露時間、他の尺度への影響についての疑問は、すべて別の試験で解決しなければならない。臨床試験におけるこのような複雑な制約は、米国食品医薬品局(FDA)や欧州医薬品庁(European Medicines Agency)などの規制機関に受け入れられる方法で有効性を定義するために発展してきた。規制当局にデータを受け入れてもらうことが、販売承認を得て、その薬剤を患者さんに広く利用してもらうための唯一の方法である。

各試験は狭い仮説の重要なテストであり、それぞれがAD治療薬開発に貴重な洞察を提供する方法論的決定を組み込んでいる。すべての試験から得られた教訓を将来の試験に適用し、成功の可能性を高めることができるように最適化することが重要である。

文献のレビューでは、医薬品開発におけるいくつかのステップが成功への再発の原因となっていることが明らかになっている。ここでは、過去の臨床試験から得られたこれらの教訓についての見解と、これらの教訓を将来の試験にどのように適用す るかについての示唆が示されている。図 11 は、これらの教訓を医薬品開発の各段階にどのように対応させているかを示している。

図1 医薬品開発の各段階に適用する際に得られた教訓。BBB、血液脳関門

教訓 1: 動物モデルはヒトの有効性や毒性を予測しない

ADの動物モデルは、有毒または無効性の可能性のある化合物をヒトに暴露する前に、前臨床状態での有効性と毒性を調査するための重要な手段である。一般的に使用される動物モデルは、アミロイド前駆体タンパク質/プレセニリン1の二重変異を持つトランスジェニックマウスである。多くの動物モデルは、ヒトのADで観察されるものと同様の皮質プラークにつながるアミロイド生成過程を扱っている6。

これらの遺伝子操作動物はアミロイド代謝の異常を有しているが、一般的にはヒトADの他の側面を欠いている。アミロイドトランスジェニック動物はタウの蓄積や細胞死を示さず、炎症性の変化も限られている。多くの治療法がアミロイド異常の軽減に成功しており、Morris Water MazeやNovel Object Recognitionなどのテストで認知能力の改善につながっている。

動物モデルに関して生じた重要な問題は、その再現性のなさだ8 。実験が単一のモデル内で、あるいは関連するモデル間で再現できない場合、ヒトの結果を予測する能力は疑わしいものとなる。系統、年齢、性別、食事、光、ハンドラーの行動はすべて動物の行動に影響を与える可能性がある。9 動物モデル試験のこれらの側面に関する厳密さの欠如は、モデル間での再現性の欠如と、動物からヒトへの結果の変換の際の再現性の欠如の一因となっている可能性がある。

これらの観察から導き出される教訓は、動物実験が厳密に実施されている場合、動物は医薬品開発プロセスにおいて重要なゲートウェイとして機能するということである。これらのモデルは、アミロイド産生やクリアランスなどの特定の経路への介入の影響を明らかにする。動物実験で期待通りに成功しなかった薬剤をヒト試験に進めることは賢明ではないであろう。動物実験での成功は、ADの生物学の特定の側面や、提案された治療法の関連メカニズムや有効性に関する証拠を提供するからである。これらは、ヒトの AD の特徴的な病理学のより広範な配列への潜在的な影響についての証拠を提供することはできないし、ヒトの設定での候補治療の成功を予測することはできない。これらのモデルは、アミロイドーシスなどのヒトADの特定の側面をシミュレートしたものであり、ヒトADの病理学の全領域のモデルとして、あるいはヒトでの有用性を予測するものではない10。

10 アルツハイマー病患者であるヒト由来の人工多能性幹細胞を使用することは、医薬品開発のはるかに早い段階でヒト化を実現し、前臨床試験における薬効や安全性評価のために、より人間に近い状況を再現することができる可能性がある有望な手段である。

教訓 2: 薬物が脳に入ることを確認する

ADの病態生理に影響を与えることを意図した低分子は、血液脳関門(BBB)を越えなければならない。これは、すべてのクラスの薬剤に適用される(モノクローナル抗体[mAbs]は後述する)。いくつかのケースでは、AD治療薬が後期試験に進む前に、中枢神経系(CNS)に入ることが示されていない。一般的に、化合物は、それらが促進された輸送の対象とならない限り、BBBを横断するためには小さい(<500ダルトン)でなければならない13 。タレンフルビルは、AD治療薬候補の一例であり、ADの動物モデル系では効果があったが、ヒトのBBBを十分な量で越えられず、臨床試験では失敗した可能性が高い16。BBB浸透を実証し、血漿/脳比を確立し、前臨床試験で示されたように中枢神経系への曝露が治療効果と適合するかどうかを判断する最適な手段は、脳脊髄液(脳脊髄液)中の薬剤のレベルを測定することである。ヒトの研究では脳レベルにはアクセスできないため、脳脊髄液レベルは脳レベルの妥当な代用となる。脳内蓄積、脳内クリアランスメカニズム、および細胞内への侵入は、脳脊髄液測定では完全には解決されず、依然として不確実性の原因となっている15。

モノクローナル抗体は、BBBを横断するごく少数の薬剤を除き、中枢神経系から排除される大きな分子である。ほとんどの場合、1,000個のmAbのうち1個がBBBを越えて中枢神経系に入る17。mAbはAβまたはタウに直接関与するか、または活性化したミクログリアが標的を摂取して中枢神経系からそれを除去する炎症メカニズムを開始する可能性がある17。17 mAb活性の別の見方としては、末梢Aβを結合させることにより、mAbは末梢/中枢の不均衡を生じさせ、受動的にAβをBBBを越えて末梢に引き寄せて排泄・廃棄する「末梢シンク」を形成することができるというものがある。ソランズマブは末梢Aβレベルを著しく上昇させたが、事前に指定された臨床転帰を満たさず、脳脊髄液のAβ(1-42)レベルは変化しなかった。これらの所見は末梢性シンク効果を支持するものではない18。

これらの観察結果から得られる教訓は、低分子医薬品開発においては、第I相において本剤の中枢神経系レベルを確立すべきであるということであり、中枢神経系への浸透性と血漿/脳脊髄液比を確立しなければ、プルーフ・オブ・コンセプトを決定できないということである。

教訓 3:最大許容量の決定

可能な限り最高用量が探索されていることを保証するために、可能な限り最大許容用量(MTD) を設定することが重要だ。場合によっては、低用量で受容体が完全に占有されている場合には、占有試験により、MTDを設定せずに 投与に関する結論が得られることがある。他のケースでは、溶解性、容量、又は他の制限により投与量が制限され、MTDを決定できない場合もある。これらの例外的な状況を超えて、MTDを決定すべきである。MTDがなければ、第II相または第III相において薬物とプラセボの違いを示さなかった場合、不適切な投与量の問題が生じる。

教訓 4: ヒポセシスを正当に試験するためには、サンプルサイズが適切でなければならない。

試験薬の有効性は、プラセボ群と比較した治療のベースラインからの変化の差によって決定される。短期試験(例えば、3-6ヶ月)で試験された対症療法では、通常、プラセボ群ではベースラインよりも上の改善が見られ、プラセボ群ではベースラインよりも変化がないか、または軽度の低下が見られる19。しかし、小群は外れ値やリクルートバイアスの影響を受けることがあり、プラセボ群では結果が不規則であるため、誤解を招く可能性がある。プラセボ群での異常な改善は、薬剤が有効であるかどうかを判断する能力を損なう一方で、プラセボ群での異常に急速な低下は、治療による利益が過度に強固なものであることを示唆しているという誤解を招く可能性がある。後者の結果は、研究者が同様に頑健な効果を期待して、その後の試験のパワーを過小評価することにつながるかもしれない。症例数が少ないことによる不規則な転帰のリスクを最小化するために、プラセボ群には少なくとも100人の被験者を含めるべきである20 。この教訓は、主に GO/NO GO の決定がなされる第 II 相試験に適用される。第III相試験では、期待される効果を確認するために、より大きなサンプルが必要である。

教訓 5. プラセボ減少は臨床試験に参加した人々の洞察を提供する

AD は進行性の疾患であり、6 ヶ月以上の試験でプラセボ群の低下が見られないことは、試験が失敗したことを示している21 。低下が見られなかったのは、アルツハイマー病患者以外の患者を試験に参加させたことに起因することがある(下記の教訓7を参照)。この教訓は、プラセボ群で低下が認められなかった場合、操作上の欠陥があり、試験が失敗したことを示唆している。

教訓 6:アクティブコンパレータは試験の質を知ることができる

ドネペジルは、軽度中等度アルツハイマー病患者の認知機能を改善することが示されており、ベースラインからの変化はプラセボと比較して1.5~2.5の差が認められている22, 23。22, 23 本剤を用いた積極的な治療群は、臨床試験での比較群として有用である。

導き出された教訓は、アクティブコンパレータ群は臨床試験の質についての洞察を提供することができ、アクティブコンパレータで改善できなかった場合は、その試験の運用上の欠点を示唆しているということである。活性比較薬を含めるために真のプラセボ群が必要な場合は、活性比較薬群の導入は実行可能ではないかもしれない;現在のほぼすべての臨床試験では承認された薬剤による標準治療が認められている。

教訓 7:バイオマーカーの確認を伴わないADの臨床診断は臨床試験のために十分に正確ではない

臨床試験に募集された患者のアミロイドイメージングの研究は、軽度認知障害の最大50%と軽度認知症の人の25%が測定可能なアミロイドプラークの負担を持っておらず、ADのバイオマーカー基準を満たしていないことを示している25.ADのない被験者は、典型的にはほとんどまたは全く経時的な変化を示す26と、AD試験に含まれている場合、プラセボ群の減少が少なく、薬物とプラセボの差を確立するのがより困難であることに反映される。

アポリポ蛋白Eε4遺伝子は、アルツハイマー病患者の65%に存在している27;したがって、アポリポ蛋白Eε4キャリアの実質的に低い代表を持つ試験集団は、試験コホート内のアルツハイマー病患者の数が少ないと仮定することができる。抗アミロイド剤では、脳アミロイドの存在が有効性を実証するために重要である。タウ剤のような非アミロイド性AD関連機序を標的とする薬剤では、診断の正確性を保証するために脳アミロイドの存在が必要である。認知機能の増強をもたらす薬剤は、AD特異的な病理とは独立したメカニズム(例えば、5-HT6拮抗薬)を有しているかもしれないが、正確な診断は、プラセボ群が予想されるADの自然経過を示すことを保証するのに役立つ。

これらの観察から得られる教訓は、ADの臨床診断は臨床試験に被験者を含めるには不十分であるということである。アミロイドイメージングまたはアミロイドとタウまたはリン酸タウの脳脊髄液測定を用いて診断を確認することは、臨床試験参加者のADの存在を保証するために必要である。28

教訓 8: ターゲットの関与は開発計画の第二段階で実証されるべきである

初期段階の試験で仮説された薬理効果を厳密に実証することは、医薬品開発の成功に役立つ。多くの医薬品が第Ⅲ相試験では有効性の欠如により失敗している29 。場合によっては、ヒトにおける標的の関与が第Ⅱ相試験で示されておらず、期待される臨床反応の生物学的基盤が確立されていない。第 IIa 相概念実証試験には、ターゲットエンゲージメントプルーフオブファーマコロジーという 2 つの関連する側面がある。ターゲットエンゲージメントとは、薬物の意図されたターゲットがヒトの環境でエンゲージメントされていることを示す指標である。ポジトロン断層撮影法を用いた受容体占有研究は、特定の受容体が存在する薬剤の標的関与を示すためによく用いられる30 。標的関与のもう一つの例として、βサイト切断酵素(BACE)阻害剤の脳脊髄液 BACE活性に対する効果の評価がある31 。

ターゲットの関与が成功した場合の下流効果を示すことで、プルーフ・オブ・ファーマコロジーを実証することができる。ガンマ-セクレターゼ阻害剤またはガンマ-セクレターゼ調節剤は、β-アミロイド蛋白質合成の減少をもたらすが、これは安定同位体標識キネティクス技術を用いて実証されている32。33 ガンマ-セクレターゼ阻害剤/ガンマ-セクレターゼ調節剤は、アミロイド蛋白質の切断を変化させ、脳脊髄液中で検出可能な短いアミロイド断片を増加させ、薬理学的効果を確立する。

脳からの ß-アミロイドプラークの除去は、ターゲットの関与と薬理効果の証明とみなすことができる。AducanumabはmAbであり、第I相試験でアミロイドプラークの用量と時間に依存した減少と、いくつかの(すべてではないが)認知指標における認知機能低下率の減少を示した36。この種の標的の関与は薬効を予測するのに十分ではない。いくつかの免疫療法(例:AN1792,バピヌズマブ、ガンテロズマブ)では、標的の関与があり、対応する臨床効果をもたらさずにプラークアミロイドを減少させることが示されている37, 38, 39 。このように、標的の関与は治療効果には必要であるが、認知的効果が得られることを保証するものではない。これは、不溶性プラークアミロイドが最も毒性の強いアミロイドではないという事実を反映しているのかもしれない;可溶性の種はより神経毒性が強く、すべての抗体では減少しない可能性がある。

医薬品開発における第II相試験では、第III相に進めるべきターゲットの関与と用量を最小限に確立すべきである。堅牢な第Ⅱ相試験プログラムは、臨床上の有益性も示すであろう。有意な臨床的有用性を示すためには大規模なサンプルサイズが一般的に必要であり、多くのスポンサーは第Ⅱ相試験を実施せずに第Ⅲ相試験に進んでいる。第II相試験で認知的有用性が証明されていなくても、ターゲットの関与証明や薬理学的証明を確立することは、第III相試験のリスクを軽減する一つの手段である。ターゲットエンゲージメントのエビデンスがないまま進行しているDMTは、医薬品開発の基盤となる重要な側面を欠いている。40 バイオマーカーを用いた開発プログラムは、バイオマーカーを用いない開発プログラムよりも成功率が高い。

AD治療薬開発の課題は、ターゲットの関与や薬理学的な証明に利用できるバイオマーカーがないメカニズムが多く存在することである。アッセイでのスクリーニングから動物モデル、ヒトでの試験へと薬剤が進むにつれ、標的の関与を示すバイオマーカーが候補治療と並行して開発されていくことが重要である。医薬品開発プログラムの中で開発されたバイオマーカーは、薬剤が市場に出回るようになったときに、実務家にとって有用なコンパニオンバイオマーカーとなる可能性がある。

既存の研究から得られた教訓は、標的の関与を実証することが開発プログラムのリスクを軽減するための重要な手段であり、標的の関与や薬理学的証明を行わずに第III相に進むことは、プログラムが負の結果をもたらすリスクが高いということである。

教訓 9:フェーズIIにおける確実な用量選択

用量反応関係は、薬剤選択のための重要な情報を提供する。42 投与アプローチは、理想的には、効果のない低用量、効果のある1~2種類の中間用量、忍容性がなく許容できない高用量を設定することである。規制当局は、患者が不必要な副作用にさらされていないことを保証するために、有効な最低用量を患者に投与することを期待している。

教訓 10: アウトカムを評価するために複数のバイオマーカーを収集する

ADの神経生物学に関する知識は不完全である。さらに、ADの生物学は複雑であり43,バイオマーカーはこの複雑でよく理解されていない疾患についての限られた情報しか提供していない。ADにおける事象の順序に関する実用的なモデルが提唱されているが、証明されたものはなく、DMTの開発を成功に導いたものもない。44 DMTを治療の結果として支持するために治験スポンサーは、アミロイドタウ、神経変性のバイオマーカーデータだけでなく、他の新しいバイオマーカーやバイオマーカーを収集し、治療の影響を包括的に把握するために、介入のメカニズムに特化したバイオマーカーを収集すべきである。前臨床、臨床、バイオマーカーデータを合成して、DMTの裏付けを提供することができる。FDAは、推奨されているDMTの臨床試験におけるバイオマーカーの適格性を確認する方法を規定している45。

教訓 11:世界の地域は、試験に参加する患者の観点から様々である。

臨床試験、特にDMTの臨床試験は大規模であり、1,000人以上の患者を必要とすることが多い。このような臨床試験のためのタイムリーな募集には、多くの場合、多くの場合、世界各地の臨床試験施設を含める必要がある。言語、文化、試験経験、標準治療、遺伝学、栄養学、およびADの他の側面の違いは、薬物とプラセボの違いを実証する能力を損なう可能性のあるデータのばらつきを生み出している。グローバルな試験の最近の研究では、ベースラインの特徴、プラセボ群の行動、アウトカム指標、有害事象の報告に関して、北米と西ヨーロッパのデータは非常によく似ていることが示されている。他の世界の地域では、これらのパラメータに大きなばらつきが観察されている。

これらの研究から得られる教訓は、スポンサーは、より大きなデータの均質性を保証するために、グローバル試験のばらつきを最小化する方法を模索すべきであるということである。

教訓 12: 陰性試験のサブグループ分析は誤った方向に進む可能性がある

陰性試験のポストホック分析は、将来の試験で利用可能な治療反応性のあるサブグループを検出するために追求されることが多い。このアプローチには、偽の結果に惑わされる大きなリスクが伴う。サブグループは、元のグループと同じ募集または無作為化の対象とはならない;サブグループのサンプルサイズが小さいことが多く、パワー不足の結果につながる;アウトカム指標は通常、特定のサブグループに最適化されていない。アウトカムが否定的な第II相試験のサブグループ解析に基づいて第III相プログラムをベースにした場合、通常は否定的な第III相試験になっている。その例としては、タレンフルビル48,バピヌズマブ49,ソランズマブ50,ELND005.50の第III相試験の結果が否定的であったことが挙げられる。

これらの経験から得られた教訓は、第Ⅱ相サブグループ解析で誤解を受ける可能性を減らすためのガイドラインを適用することである。表1 51,52 は、サブグループ解析の主要な推奨事項を示している。仮説を生成するサブグループ観察は、このサブグループに対して第Ⅱ相試験を実施することで検証することができる。

表1 追加試験の指針としてサブグループの妥当性を確立するためのガイドライン;「はい」と答えた場合は、スプリアスのないサブグループと最も整合性がある(51,52より

デザイン
  • サブグループ変数はベースライン特性であったか?
  • サブグループ変数は無作為化時の層別化因子であったか?
  • サブグループ仮説は事前に指定されていたか?
  • サブグループ分析は、テストされた少数のサブグループ仮説のうちの1つであった(5個以下)?
分析
  • 偶然性はサブグループの違いを説明できるか?
  • 相互作用の検定は有意であったか(P < 0.05)?
  • 有意な交互作用が複数あった場合、有意な交互作用効果は独立していたか?
コンテクスト
  • サブグループ効果の方向は正しく事前に指定されていたか?
  • サブグループ効果は、以前の関連研究のエビデンスと一致していたか?
  • サブグループ効果は関連するアウトカム全体で一貫していたか?
  • 明らかなサブグループ効果を支持する間接的な証拠(例えば、生物学的根拠、実験室試験、動物実験など)があったか?
システマティックレビュー
  • サブグループの違いは、研究間ではなく研究内での比較によって示唆されるのであろうか?

サマリー

AD治療薬の開発を成功させることはアンメット・ニーズであり、医薬品開発へのより規律あるアプローチは、現在の高い陰性試験の割合を減少させるのに役立つ。ADの前臨床モデルの改善、BBB浸透、MTD、用量反応の知識の改善、標的の関与の実証、バイオマーカーを用いたより正確な診断、試験における地域集団の選択的使用、適切な試験規模、プラセボ群の減少を示す試験集団の構築、積極的なコンパレータ群の改善、誤解を招くようなサブグループ分析の回避は、すべてAD治療薬開発のより大きな成功に貢献する可能性がある。このような臨床試験の実施と解釈の改善は、優れた有効性を有する候補治療法の研究と一致しなければならない。AD治療薬開発へのこの2本柱のアプローチは、急速に増加するAD人口に緊急に必要とされる薬剤を提供することにつながる。

利益相反

カミングス博士は、Abbvie、Acadia、Adamas、Anavex、Avanir、Avid、Axovant、Biogen、Boehinger-Ingelheim、Bracket、Dart、Eisai、Genentech、Lilly、Lundbeck、Medavante、Merck、Neurocog、Novartis、Otsuka、Pfizer、QR Pharma、Roche、武田薬品、富山の製薬会社および評価会社にコンサルティングを提供していた。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー