再現性の危機、分母問題とマルチスケール・モデリングの科学的役割

強調オフ

科学哲学、医学研究・不正複雑適応系・還元主義・創発

サイトのご利用には利用規約への同意が必要です

The Crisis of Reproducibility, the Denominator Problem and the Scientific Role of Multi-scale Modeling

www.ncbi.nlm.nih.gov/pmc/articles/PMC6245013/

オンラインで公開2018年9月7日

要旨

「再現性の危機」は、科学界の中でも外でもかなり注目されている。科学文化や実践に関連した要因が最もよく指摘されているが、私は、「再現性の危機」は究極的には、生物医学研究に用いられている方法の基本的な科学的根拠に基づく一般化の失敗であると提案する。

分母の問題は、臨床研究と前臨床実験生物学という生物医学研究の二つの主要なアプローチに内在する限界が、生物学的異質性の全範囲を効果的に特徴づけることができず、得られた知識を一般化することが困難になることを説明している。

物理科学における理論の統一的な役割の例を用いて、マルチスケールの数学的・動的計算モデルを生物学的システムのモジュール構造にマッピングすることで、ある生物学的文脈から別の生物学的文脈への保存されているものや類似しているものの形式的表現として統一的な役割を果たすことを提案する。

このように、類似性からの異質性の生成を明示的に記述する能力は、分母問題を解決し、再現性の危機に対する科学的な対応を提供するものである。

キーワード

再現性の危機、マルチスケールモデル


「再現性の危」(または複製の危機、または類似の用語のホスト)は、科学の基本的な側面と考えられるもの、すなわち再現可能であるという点で、様々な分野にわたる一連の基礎研究が失敗したという現象を説明するために使用されてきた(Ioannidis 2005; Baker 2016; Prinz er al 2011; Kaiser 2017; Freedman er al 2015)。再現性の危機は、一連の説明が提案された多くの社説の主題となっており(Ioannidis 2005; Drucker 2016; Peng 2015; Frye er al 2015; Jarvis and Williams 2016; Bailoo er al 2014)中には「本当の危機」であるかどうかを疑問視するものさえある(Fanelli 2018)。これらの意見の大半は、2つのカテゴリーに分類される。

  1. 「再現性の危機」は、肯定的な結果に過度に報い、誇張された主張を促し、科学における懐疑主義の根本的な役割に反した「擁護」のマインドセットを伝播させる、現在の科学/学術環境における誤ったインセンティブ構造の副産物である。このような立場の不条理な還元は、ほとんどの人が信じている科学的不正行為であり、それは広まっていないと考えられているが、そのような極端なことがなくても、誤ったインセンティブが重要な役割を果たしているという認識がある。
  2. 再現性の危機は、技術的にも知的にも、ずさんな、あるいは厳密でない科学の副産物であり、#1によってさらにインセンティブを得ている。この分派の意見からの解決策は、報告や公表の方法や結果の透明性について、より厳格な基準を確立することに向けられている。

再現性の危機には確かに「社会的」要因が一役買っているかもしれないが、私は別の仮説を立てている:再現性の危機は、生物学的な「科学」がどのように行われているかという根本的な現象であり、具体的には、既存の方法が生物学的システムの基本的な特性を説明していないという認識の欠如に関連している。したがって、現在の生物医学研究のプロセスに内在する「再現性の危機」には科学的な理由があり、マルチスケールの数学的・動的計算モデル化は、この欠陥を克服するための手段を提供すると主張する。

私は、「再現性の危機」は、過去数十年の間に生物医学研究が直面してきた一連の認識論的課題の一つに過ぎないと主張する。このような問題の代表的な例としては、以下のようなものがある。

  • 医薬品開発におけるTranslational Dilemma(トランスレーショナル・ジレンマ)または “Valley of Death”(死の谷)(Butler 2008)は、前臨床実験レベルで得られた知識を臨床的に有効な治療法に確実に翻訳することができないことを意味している。
  • パーソナライズド・メディシン(Personalized or Precision Medicine)(Collins and Varmus 2015)。これは、既存の薬剤や他の治療法に対する反応性の改善に関連した特定の患者疾患特性を特定することで、臨床環境における個人差を説明することを目的としている。このプロセスは、腫瘍遺伝子型が推定的により効果的な薬剤の組み合わせと相関している腫瘍学の分野で最も顕著に適用されている[しかしながら、既存の有効性と適用可能性に基づいて、このアプローチはまだ発展途上であることは明らかである(Marquart et al 2018)]。

私は、これらの問題はすべて同じ源から生じていることを提案する:生物医学研究における分母問題の認識の欠如である。私は「分母問題」を、研究対象の生物系の「分母」を効果的に特徴づけることができないことと定義している。システムの分母の概念は、知識の一般化のプロセスと直接結びついているので、非常に重要である。分母の問題は、次の質問に答えようとするときに発生する。“あるシステムのすべての可能な結果のうち、ある部分集合から学んだことが、システム全体に一般化できるのはいつだろうか?一般化の過程では、「帰納問題」を扱う必要がある。

科学は、誘導の問題(そして、他の分野では分母の問題)を扱う手段を進化させていた。帰納法の問題に対する一つの解決策は、物理科学に見られるもので、「自然法則」が発見され、数学的な形で特徴づけられている。これは理論に基づいた科学のアプローチである。もう一つの帰納問題への対処法は、統計学の開発と利用である。統計学は、一般化された記述の信頼性を決定するための経験的な手段として発展していたが、その応用には、経験的なサンプリングと評価される可能性のある現象の範囲、例えば、意図された一般化の空間を反映した分母集合との関係を知る必要がある。したがって、理論がない場合、科学の目的である一般化の達成は、検討される現象の分母空間の信頼性に依存する。統計ツールの使用には、システムの基礎となる観測変数の総母集団分布の性質に関する初期の仮定が必ず必要となる。中心極限定理の条件が満たされているときの正規分布の仮定のように、そのような仮定が高い信頼性を持つ場合、分母の特徴付けは問題ではなく、伝統的な統計ツールは非常に効果的である。しかし,分母問題は,そのような仮定ができない場合に発生する。私は、生物医学における分母問題は、動的なマルチスケール生物学的プロセスの現れとしての生物学的不均一性の完全な結果を認識していないことに起因すると主張する。マルチスケールの生物学的異質性の発生は、経験的に収集された観測値(データ)の世界と、それらの観測値を生み出す生成過程や構造に関する推論との間に、広大な表現的な溝を生じさせる。この問題の模式図は図1に示されており、生物学的可能性の集合(例えば、システムの分母)Aと、経験的サンプリングB(すなわち、臨床データセットと可能な生理学的状態の範囲、研究領域内の例としては(Button er al 2013)を参照)および実験によって調査された特定の可能性の範囲C1およびC2のいずれかに基づく空間の推定構造との関係を示している(Refs. Richter 2017; Richter er al)。

図1

分母問題の描写:経験的サンプリングのより小さな空間(B)と「良い」実験(C1とC2)によって調べられたより小さな集合を持つ生物系(A)の可能な行動の間の関係。それらのカバレッジの欠如に加えて、B、C1,C2はAの形状を再現していない。


生物学的調査の限界には、レガシーロジスティックの両方の要素がある。歴史的に見ても、生物学はほぼ完全に経験に基づいた研究であり、より詳細なレベルでの記述を重視していた。動物学も植物学も、生物の様々な特徴や構成要素をより詳細に記述することで、類似性と相違性が分類されるというこの性質を示している。特定のシステムに関する情報の詳細化は、そのシステムに関する知識の向上、すなわちミクロな状態の特徴を追求することにつながると考えられている。今日、生物学的状態や実体を分類するための様々なオミクス技術が重視されているのは、このパラダイムの直接的な結果である。しかし、微小状態の特徴付けは、このように記述された(例えば、微小状態ベースの)表現型空間のrの分母のベースライン確率分布を決定するために使用される場合、システム全体の変数が独立していないため、中央極限定理の条件に違反するので、正規分布を持っていると仮定することはできない。この主張は、様々なオミクスプロファイルやバイオマーカーパネルの発見の試みの場合のように、微小状態変数のリストとして見た場合にのみ分母分布に関係することに注意してほしい。これは、ミクロ状態からマクロ状態へのマルチスケールの移行を組み込んで顕在化させる高次の表現型/観測値の集団(例えば、ヒトの身長の正規分布)の場合はそうではない。しかし、状態記述の粒度をオミクスレベルまで高めようとすると、上述の理由から分母分布の形状を推論する能力が失われる。実世界の母集団のサンプリングによって分母空間の形状を定義することは、「良質な」経験的データを取得する際のロジスティックス上の課題によってさらに損なわれる。

この時点で、生物学の基礎理論、進化、それが生み出す構造への影響、そしてそれらを特徴づける能力の重要性と役割を認識することが重要である。生物学は本質的にマルチスケールであり、非常に多様でありながらもやや冗長なプロセスを包含する組織レベルを持つ。これは、ミクロな状態と高次の表現型/観察可能な間に実質的にパスの一意性が存在しない場合につながる。この “蝶ネクタイ “アーキテクチャ(CseteとDoyle 2004; DoyleとCsete 2011)は、表現型の適合性に最適化された自然淘汰に直面して可能性の多様性の持続を可能にする生物学のためのモジュール化された組織を生成する。生成的なミクロ状態がどのようにして表現型のマクロ状態を生成するのかについて、経路の一意性がないということは、従来の還元主義的なシステム特性化の方法では、生物学的システムの真の多様性(したがって、ミクロ状態という意味での有効な分母空間)を十分に捉えることができないということを意味する。このダイナミックさは図1に反映されているが、C1とC2はAやBよりも意図的に狭く描かれており、還元主義的な実験生物学がシステムの分母空間を効果的に反映することができないことを示している。「良い実験」を構成するものがAを表現する能力に近づくことには、固有の制約があり、すなわち、実験結果の統計的な力を強化するために、変動を制限する高度に制御された条件を作り出す必要がある。言い換えれば、これらの研究では、特定の実験準備を通して得られたより決定的な結論のために、実験システムで表現される可能性のある表現型の範囲を明示的に制限している。このパラダイムは実験生物学にとって不可欠なものであるが、その性質上、「再現性の危機」の前提条件を生み出する。この現象の実際的な現れは、実験生物学における初期条件に対する極端な敏感さに見られ、 基礎科学の研究室を運営したことのある人なら誰もが知っている次のような状況がそれを例示している:以前は信頼性が高く再現性の高かった実験モデルを、新しい研究室の 技術者/博士/大学院生が入ったり、寝具/試薬の供給元が変わったり、研究室の空気や水のフィルターが変わったりすると、ほぼ完全 に再調整する必要がある。実際、このような初期/実験条件への敏感さは、まさに「再現性の危機」が認識されるように なったきっかけとなったのである。実験生物学の限界は、これらの実験から抽出された知識がコンポーネントベースの記述、例えば状態の特定に焦点を当てているという事実によって、さらに強調されている。このようなアプローチでは、必然的に、せいぜいシステムは、その構成要素の静的なスナップショット(すなわち、代謝状態、遺伝子/mRNA/タンパク質の発現レベル、受容体のレベル/タイプ、組織学的特徴、バイオマーカーパネルなど)の連続として見られ、これらの様々なスナップショットを結びつけるプロセスが明示的に記述されていないものとみなされる。

しかし、生物学的システムは静的なものではなく、動的なシステムである。生物学的現象は、ある状態から別の状態への進行を定義する軌跡から成り立っている。このように、生物学のダイナミクスは、機能によって特徴づけられる必要がある。私は、このような機能こそが、組織の規模の大小にかかわらず、生物学に保存されているものであると主張している。この保存された機能こそが、生物学の蝶ネクタイ組織構造に見られるような経路の非一様性とモジュールの冗長性を生み出し、進化を可能にしているのである。このような機能に基づく類似性の見方は、物理学や化学の自然法則が、物理世界に見られる膨大な範囲の異質なイン スタンスを生成するための数学的な形を持っている物理科学における理論の役割をまさに反映している。生物学を機能の観点から考える先例があることは注目に値するが、それは古典的な生理学 と古典的な遺伝学にある。両者とも、抽象化が可能な一般化可能な機能という観点から生物学を考えている(抽象化=一般化であると 認識されている)。しかし、分子生物学の出現により、このような機能に基づいた生物学の表現は、より詳細な記述を求める 欲求に支配されるようになり、古典的な物理学や遺伝学の表現能力が崩壊するまでになってしまった。実際のところ、現在研究されている粒度のレベルでは、生物学的システムの行動のダイナミ ックスや不均一性は、既存の数学的手法を用いて自然法則を統一して特徴づけるには、あまりにも複雑であることが 証明されている(少なくともこれまでのところは)。そのため、現代の生物学(特に生物医学)は、より強力な一般化の視点を見出そうとするのではなく、システム間の違いに焦点を当てて、歴史的な記述的レガシーを後退させていた。私が提案するのは、このような生物学の機能ベースの視点からの乖離を解決するには、保存された機能を表現したり、インスタンス化したりするために、詳細な記述と一般化する抽象化のバランスをとった数学的かつ動的な計算モデルを採用することではないかということである。複雑な生物学的対象を、それらの生物学的対象に見られる複数のレベルの組織にモジュー ル的にマッピングして表現する場合、マルチスケール・モデル(MSM)は、ある生物学的インスタンスから別の生物学的インスタンスへと、保存されて いるものをカプセル化することができる。図2の図を考えてみよう。楕円の上段は、従来の還元主義的な治験のワークフローを表しており、実験室での実験は、臨床対象に対する複雑さと忠実さを増す生物学的モデルシステムの連続したシリーズで実施される。しかし、ある文脈から他の文脈への知識のマッピング/移転は、せいぜい不完全な注入的関係である、すなわち、あるモデルから他のモデルへの構成要素/プロセスから推定される部分的なマッピングがあるが、それは不完全(非包括的)であり、かつ緩く指定されている。これは、生物学的モデルが不透明であり、ドメインオブジェクトとコドメインオブジェクトの両方からのマッピングでは説明されていない多数の「隠された」プロセスで構成されているためです;この不確実性は、各注入矢印の上の「? 別の方法として、各レベルで想定される知識のin silico表現(すなわちモデル)は透明である。また、in silicoモデルは、必ずしも実世界システムの縮小された不完全な表現であるが、その明示的で透明な構成は、それを適切なサブセット(PS)にする。このように、in silicoオブジェクト(ドメイン)とターゲットの実世界オブジェクト(コドメイン)の間の注入関係は、明示的な注入であり、選択されたマクロ状態の表現型がin silicoアナログによって十分な忠実度で生成される限り、実世界オブジェクトの表現されていない側面はマッピングの目的のために「無視」される(※明らかな理由により、in silicoオブジェクトが実世界オブジェクトのすべての特徴を含んでいないことが認められているため、マッピングはミクロ状態レベルでは発生しない)。さらに、in silicoオブジェクトは完全に透明で明示的に指定されているので、下の横軸に沿った関係は明示的な双対関係となる。in silicoモデルの複雑さを増すと、下層モデルには存在しない新しい特徴を組み込むことを必要とし、その結果、ある特定のin silicoモデルからより複雑なin silicoモデルへの部分的な双対関係が生じる可能性があるという注意点があるが、このプロセスは、生物学のモジュール性を利用すべきであり、組み合わせ/結合において、それらがより複雑なin silicoオブジェクトと明示的な双対関係を形成するようなサブセットのin silicoオブジェクトの統合を可能にしている。これにより、臨床集団を表すin silicoオブジェクトの入れ子化が可能になる。ここで重要なのは、ドメインとコドメインの集合全体が明示的に指定され、形式的に表現されていることであり、これにより、それらの動作についての記述が大幅に強化される。これは、物理科学において数学的形式論がどのように使用されているかと一致しており、ターゲットシステムは1つ以上の自然法則に支配されていると明示的に指定されている。類似の方法で使用されるMSMは、分母問題、ひいては再現性の危機に対処する鍵を握っている。MSMは、明示的に指定された関数が与えられたシステムの複数のインスタンスを生成することができ、実世界のシステムでは実現不可能なスケールでデータを生成する。このような規模のデータ生成は、レターBの限界に対応している。レターC1とC2の表現能力を包含し、それを拡張することで、研究対象のシステムのより高密度で拡張性の高いベースライン母集団分布(例えば、分母空間)を生成する(図3を参照)。分母空間の分布は、モデルのパラメータ空間から生成された軌跡の和によって定義される。このように、観察された生物学的不均一性は、基礎となるMSMのパラメータ空間の現れであり、計算能力の向上により、研究されているあらゆる生物系の分母をより完全に特徴づけるために必要なシミュレーション実験の規模が可能になった。

図2

生物学的インスタンス間で何が類似しているかを決定する際のMSMの役割。生物学的オブジェクトは不透明であるため、生物学的オブジェクト間のマッピングは不確実である(上段)。しかし、in silicoアナログ/モジュール間のマッピングは、明示的な注入であり、それらは透明であるため(Proper Subsets = PS)モジュール間のマッピングは明示的であり、双対的(または*部分的に双対的)である。

図3

分母問題をより完全に解決するためのMSMの能力の描写。A′(破線で囲まれた領域)は,実システムのサロゲートとして機能する計算MSMによって提供される潜在的な統一的な記述能力を表している.A′はAの近似値のままであり,時間の経過とともに反復的に洗練されることで改善されることに注意してほしい(A′ → A)


一例として、我々はこれらの概念を敗血症の問題に予備的に適用した(Cockrell and An 2017)。我々は、感染性の侮辱に対するそのシステムの応答ダイナミクスの分母空間を特徴付けるために、プロキシシステムとして自然免疫応答をシミュレートする以前に検証されたエージェントベースモデル(ABM)を使用した。我々は高性能コンピューティングを利用して、6,600万人以上の患者の軌跡をシミュレーションし、ABMの広範なパラメータ空間の特徴付けを行った。比較として、報告されているすべての敗血症の臨床試験(Buchman er al 2016)に登録された患者数は約30,000人であり、データは一般的にいくつかのタイムポイントと限られた観測値のセットで存在している。さらに、敗血症のために生成された状態空間は複雑で多次元のトポロジーを示しており、特性化のための新しいメトリック[Probabilistic Basins of Attraction or PBoA (Cockrell and An 2017)]の開発を必要とし、正規分布や先験的に合理的に推論されうる分布から構成されているわけではない。このほぼ包括的な行動空間の特徴付けをさらに分析した結果、バイオマーカー発見の動機であるシステムの結果を予測する状態ベースのサンプリング戦略を開発しようとする試みは無益であることが実証された(Cockrell and An 2017)。このことは、敗血症の軌跡を信頼できる形で予測しようとする試みは、モデルベースの非線形分類器の何らかの手段を採用しなければならないことを示唆している。この分野の進行中の研究は、予測分類器とマルチモーダル制御戦略の両方を発見するために、高度な学習および最適化技術を利用することを目的としている(Cockrell and An 2018; Petersen er al 2018)。

以下の記述は、再現性の危機が、現在の生物医学研究がどのように行われているかに内在する分母問題からどのようにして生じるかについて、本論文で提供された推論を要約したものである。

  1. 複雑な生物学的システムの微小状態の特徴付けのための分母空間の形状は想定できない。
  2. 分母空間のサンプリングが不十分であると、そのサンプリングから生成された知識を一般化することができなくなる。
  3. 実験生物学のパラダイム/要件は、分母空間のサンプリングを制約するのに役立つ。この同じパラダイムは、条件に対する極端な敏感さと再現性のなさにつながる。
  4. 臨床研究のロジスティックな障壁は、表現と特徴付けの分母空間の密度/粒度を制限する(例:不鮮明さ)。
  5. マルチスケールモデルは、実験知識を結びつける(例えば、還元主義的な実験によって生成された分母空間をリンクさせ、空間全体の形状を定義する)と、臨床データの「ギャップを埋める」(例えば、分母空間の密度カバー率を高める)ことができる代理システムとして使用することができ、また、使用する必要がある。

しかし、この統一的な目的のためのMSMの使用に関しては、重要な注意点がある。具体的には、MSMの妥当性と妥当性を判断する手段として、精密で詳細な予測を重視することは、実験生物学を苦しめているのと同じ限界を生み出する:MSMによって表現される分母空間を制限するために、出力変動やノイズ関数を低減または除去することによって精度を高めようとし、その一般化能力を低下させる。この現象は、オーバーフィットでパラメータがきつく、脆いモデルに最もよく見られる。したがって、この罠を克服するには、MSMの記述の一部として、広く制限されたパラメータ空間を使用するという概念を採用し、より広い行動分母空間の疎なサンプリングを反映した外れ値を組み込んだ実験/臨床データを利用する必要がある。

このようにして、MSMは科学的プロセスにおいて重要な基本的な役割を果たす:それらは、パラメータ空間の拡張または確率過程のいずれかを介して、同じ機能構造を使用して、異なる文脈で見られるデータを生成することができる(それは異なる実験や臨床状況である)。このように、これらのモデルは、表向きには異なる生物学的システムや個体間の「類似」と考えられるものをカプセル化した(t)理論として機能し、それによって、生物医学研究においてロバストでスケーラブルで一般化可能な知識を得るという「危機」を回避することができる。MSMを使用するためのこのアプローチが広く採用されるようになれば、おそらく新しい、より強力な数学的形式論が発見され、生物学的システムのすべての豊かさをより効果的に表現できるようになると期待されている。それがトランスレーショナル・ディバイド(「死の谷」に対処するためのトランスレーショナル・ディバイド)を越えたものであっても、「真の」プレシジョン・メディスンのための個人間のものであっても、異なる生物学的システム間で何が類似していて何が類似していないのかを決定するために、はるかに必要とされるレベルの形式主義をもたらすことができることを提案する。生物学的な異質性を効果的に捉えることができる信頼できる形式的な機能表現を持つことは、病態生理学的プロセスを健康な状態に戻すための制御戦略を特定するための真の工学的原理を適用するために必要なステップである。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー