機械学習を用いて解読されたCOVID-19の重症度と慢性度の免疫学的予測

強調オフ

Long-COVID/後遺症

サイトのご利用には利用規約への同意が必要です

Immune-Based Prediction of COVID-19 Severity and Chronicity Decoded Using Machine Learning

www.biorxiv.org/content/10.1101/2020.12.16.423122v1.full

ブルース・K・パターソン、ホセ・ゲバラ=コト、ラム・ヨーゲンドラ、エドガー・フランシスコ、エミリー・ロング、アムルタ・ピセ、ハリソン・ロドリゲス、プルヴィ・パリク、ハビエル・モラ、ロドリゴ・A・モラ=ロドリゲス

doi: doi.org/10.1101/2020.12.16.423122

この論文はプレプリントであり、査読による認証を受けていない

概要

COVID-19がクリアされた後に全身症状を呈する患者は、COVID-19感染者の約10%に相当する。ここでは、効果的な治療戦略を立案し、モニタリングできるようにCOVIDの段階を予測し、モデル化するためのバイオインフォマティクスのアプローチを紹介する。

健常者とCOVID-19の疾患連続体にまたがる患者を含む144人を調査した。健常者29人、軽度・中等度のCOVID-19を有する26人、重度のCOVID-19を有する25人、および慢性COVID-19の症状を有する64人から血漿および単離PBMCを収集した。免疫サブセットプロファイリングおよび14-plexサイトカインパネルを全患者で実施した。データは機械学習法を用いて分析され、予測モデルをより良く適合させるためにマルチクラスディープニューラルネットワーク分類器を用いて、100%の精度、100%のリコールとテストセット上の1のF1スコアを再現した。さらに、慢性COVID-19患者に特異的な第一のスコアは、S1 = (IFN-γ + IL-2)/ CCL4-MIP-1βと定義された。

第2に、重症COVID-19患者に特異的なスコアは、S2=(10*IL-10+IL-6)-(IL-2+IL-8)と定義された。重症患者は、過剰な炎症および調節されたT細胞の活性化、リクルートおよび対抗活動の異常によって特徴づけられる。

一方、慢性患者は、プロ炎症性を有するエフェクターT細胞の活性化を誘導することができるプロファイルと、ウイルスを排除するための効果的な免疫応答を生成する能力を有するが、活性化されたT細胞を引き付けるための適切なリクルートシグナルがないことを特徴としている。

要約

COVID-19の重症度と慢性化の免疫学的モデリング

序論

慢性COVID-19は、以前に感染していた人たちのグループで、いわゆる「長期不調組」と呼ばれ、急性疾患から回復してから数週間から数ヶ月後、そしておそらくウイルスクリア後数ヶ月後に多数の症状を経験する。これらの症状には、関節痛、筋肉痛、疲労、「ブレインフォグ」などが含まれる。これらの症状は、関節リウマチなどのリウマチ性疾患や自己免疫疾患、線維筋痛症や慢性疲労症候群などによく似ていることがある(1)。これらの一般的な疾患の多くは、炎症、過敏性、自己免疫性が原因であり、慢性疲労のようにエプスタインバーやサイトメガロウイルスなどの病原体に急性感染した後のウイルスの持続性を伴うものもある(2)。我々の研究室を含む最近の研究では、(CC)はCOVIDの持続性自体が原因である可能性が示唆されている(3)。ここでは、COVID-19の重症度の免疫学的特徴を明らかにし、慢性COVID-19が軽度から中等度(MM)または重症/重症のCOVID-19とは異なる免疫学的特徴を示しているかどうかを明らかにしようとした。さらに、免疫学的プロファイルが長期または慢性の抗原性曝露を示す免疫応答を示すものであるかどうかという疑問にも取り組んだ。機械学習を用いて、慢性COVIDと重症COVIDの免疫型を正確に判定できるアルゴリズムを同定した。さらに、定量的な免疫学的スコアを提示することで、患者を治療の対象とする層別化や、治療に対する反応を主観的でない方法で測定することができる。

結果

免疫プロファイリング

免疫学的異常がロングハーラーに残存しているかどうかを判断するために、末梢血単核球が温存されている個体のサブセットにおいて、高パラメーターの免疫細胞の定量化および特徴付けを行った。サブセットを含め、CD4/CD8の活性化と枯渇を含むB細胞、T細胞、および単球を決定した。活性化COVID-19とは異なり、CD4およびCD8 T細胞集団は正常範囲内であり、T細胞の疲弊(PD-1,LAG3,またはCTLA-4の共発現)の証拠はなかった。B細胞は、CD14+、CD16+単球サブセット(P<0.001)と同様に健常者と比較して有意に上昇した(P<0.001)(表1)。興味深いことに、これら、2つの免疫細胞集団は、異なるウイルスに慢性的に感染していることが示されている。B細胞はエプスタイン-バーに感染し、CD14+、CD16+単球サブセットはHIV-1に感染し、HCVに感染する(4)。

表1 試験参加者の免疫学的パラメータ

長期不調組における免疫応答をさらに特徴付けるために、アッセイの正常範囲を確立するために、30人の正常な個体について定量的なマルチプレックスサイトカイン/ケモカインパネルを実施した。次いで、64人の長期不調組を分析し、サイトカイン/ケモカインプロファイルを比較した(表1)。IL-2,IL-4,CCL3,IL-6,IL-10,IFN-γ、およびVEGFは、すべて正常対照と比較して有意に上昇した(すべてP<0.001)。逆に、GM-脳脊髄液およびCCL4は正常対照と比較して有意に低かった。この高免疫性をさらに悪化させるのは、正常者と比較してT調節細胞が有意に減少していることであった(P<0.001)。

特徴選択と予測のためのランダムフォレスト二値モデルとマルチクラスモデル

データセットを90%のトレーニングと10%のテストに分けた。この割合は,データセットのインスタンス数が少なくなったために使用した。また、再現性のある結果を保証するために、すべてのモデルに同じランダム・シードを設定した。

最初に構築したモデルは、マルチクラス予測器であった。このモデルは、重度のロングハッカーと非重度のロングハッカーのクラスを分離することを試みた。この分類器は、訓練分割で97%の精度、97%のリコール、F1スコア0.97を達成した。テスト分割では、精度100%、リコール100%、F1スコア1.00(表2)と、わずかに良いパフォーマンスを示した。次に、このモデルを分析して、最も関連性の高い、または有益な特徴を特定した。その結果、重要度中央値(0.063895)と平均値(0.07143)を上回る重要度スコアを持つ6つの特徴が同定された。識別された特徴は以下の通りであった。重要度の高い順に、IFN-γ、IL-2,IL-6,IL-10,IL-8,CCL4-MIP-1βであった。ランク付けされた特徴の完全なリストは、図2で見ることができる。

図2 ランダムフォレスト予測器を用いた多クラス分類器の特徴重要度

表2 テスト分割におけるランダムフォレスト分類器の性能指標

 

ロング・ホーラーとノン・ロング・ホーラーの2値分類器に関しては、我々の結果は訓練セットとテストセットの間で一貫していた。どちらの分割においても、精度とリコールは100% (1.00)で、F1スコアは1.00に等しくなった。訓練集合と比較した場合、テスト分割でモデルが良好なメトリクスを持っていたという観察は、モデルがオーバーフィットではなく、訓練データで識別されたパターンを一般化することができるという貴重な指標である。表2に、2値長期不調組モデルの精度、リコール、F1スコアの概要を示する。バイナリモデルの特徴重要度分析の結果、このモデルで重要と識別された特徴は、マルチクラス予測器で重要と識別された特徴と同じであることが明らかになった。この発見は、他のインスタンスからのロング・ホーラーのデータ・ポイントの識別に影響力のある特徴または変数の重要なグループがあることを示唆している。これらの特徴は、図2に見ることができる。

インスタンスを非重度と重度の間で分類した重度バイナリモデルは、学習分割とテスト分割の両方で高い性能メトリクスをもたらした。表2に示すように、このモデルの性能は、潜在的なオーバーフィッティングがないことを示す指標であった。このモデルは、重度クラスのインスタンス数が少ないことを考えると、特に注目すべきモデルである。さらに、このモデルの特徴重要度分析では、関連する特徴は、マルチクラス・モデルやロング・ホーラーの2値分類器と同じであることが明らかになった(図2)。この発見は、これらの関連する特徴のグループが分類に影響を与える可能性がある、あるいは、分離ヒューリスティックのような他の分析を用いて探索する価値のある生物学的な意義を持つ可能性があるという我々の考えを補強している。

完全特徴セットを用いたディープニューラルネットワーク二値分類器

ディープニューラルネットワーク(DNN)分類器はニューロンの層で構成されている。各層は、整流線形活性化関数またはReLUを用いて入力を変換した。DNNモデルは、1つの入力層、10個のニューロンを持つ3つの隠れ層、6個のニューロンを持つ層が続くように構築された。最後に、出力層は、出力(クラス)とソフトマックス(マルチクラス)またはシグモイド(バイナリ)関数のための3つのニューロンで構成されている。このアーキテクチャは、マルチクラスモデルとバイナリモデルに使用された。

長期不調組のバイナリモデルの結果は、学習セットとテストセットのメトリクスの間に5%程度の差があることを明らかにした(表3)。このような差は、トレーニングセットのオーバーフィッティングに起因する有意なものではない。対照的に、シビアなバイナリモデルでは、訓練セットとテストセットの性能指標の間に有意な差があった(表3)。これは精度スコアに顕著で、訓練セットでは98%、テストセットでは75%であり、その結果、F1スコアには20%の差があった(訓練セットでは0.99,テストセットでは0.79)。これは、シビアクラスのデータポイント数が限られていることを説明する可能性があるが、シビアクラスのランダムフォレスト分類器では、十分な灌流が得られた。これらの結果は、最適なアプローチはマルチクラス予測器であることを示唆している。

表3 学習分割とテスト分割におけるDNN完全特徴モデルの性能指標

 

完全特徴量集合を用いた多クラスディープニューラルネットワーク分類器

フルフィーチャセットを用いて実装したマルチクラスDNNは良好なメトリクスを持っていた(表3)。テストスプリットでの精度、リコール、F1スコアは100%、100%、1.00でした。これは、モデルがオーバーフィットしていないことを示しており、バイナリモデルよりも一般化しやすいという我々の考えを検証している。モデルの性能は、3つのクラスをどれだけよく予測できるかを決定することができる混同行列(真のクラス vs 予測されたクラス)によってサポートされている(図3)。

図3 テスト分割のための完全特徴量マルチクラスDNNモデルの混同行列。

DNN分類器の可能性は、入力を出力に変換する複数のパラメータを調整することにある。膨大な数のパラメータを調整することで、モデルがデータ中の隠れた信号をより良く識別できるようになるため、これは非常に重要だ。また、DNNでは、モデルの性能に影響を与えるオプティマイザや活性化関数だけでなく、学習率や隠れ層の数、隠れ層あたりのニューロン数などのハイパーパラメータの調整が必要となる。これらのハイパーパラメータを調整し、データ中の隠れた関係を発見できるモデルを去勢することで、このような高い結果を得て、予測多クラスシステムを構築することができた。

縮小特徴多クラスディープニューラルネットワーク分類器

DNNの結果、マルチクラスが最も性能が高いことが示された。これをもとに、ランダムフォレスト変数の重要度によって特定された6つの最も重要な特徴を用いてDNNを構築した。このモデルはミニマムDNNまたはmDNNと呼ばれてた。このモデルは、完全特徴集合DNNと同じアーキテクチャを用いて構築された。このモデルのトレーニングセットとテストセット(表4)での性能は、精度とリコールの両方で有意な差があることを明らかにした。このような差は、6つの特徴が最も関連性の高いものとして識別されたものの、すべての変数がインスタンスの分類を構成する隠れたパターンに寄与している可能性があることを示している可能性がある。この考えは、学習分割とテスト分割の両方において、mDNNと完全特徴分類器の間の性能の違いによって支持されている(表3,4)。これは、混同行列の比較によってさらに支持されており、mDNN(図4A)は完全特徴多クラスDNN(図3)よりも多くのインスタンスを誤分類している。

図4 最小ディープニューラルネットワーク(mDNN)と重要な変数を用いて生成された識別ヒューリスティックの分類能力

A) mDNN分類器の混同行列(重度クラスとその他のクラスの偽陽性の存在を示す)。B) ランダムフォレスト分類器を用いて識別された削減された特徴または最も重要な特徴を持つヒューリスティックの識別能力。ドットはデータポイントを表し、黄色が長距離、緑が重度、紺色がマイルド/中等度、水色が普通である。

表4 最小ディープニューラルネットワーク(mDNN)の学習分割とテスト分割の性能指標

さらに、トップの情報量の多い特徴に基づく2つの分類スコアの特徴工学によって予測モデルを単純化した。第一に、”Long Hauler Score “をS1 = (IFN-γ + IL-2) / CCL4-MIP-lβと定義した。第2に、「重症スコア」を、S2=(10*IL-10+IL-6)-(IL-2+IL-8)として定義した。最初にLong Haulers(S1>0.4)次に重度のCOVID-19患者(S2>0)を分類するために複合ヒューリスティックを使用して、Long Haulersについては感度97%、特異度100%、重度患者については感度88%、特異度96%を得た(図4B)。

考察

SARS-Cov2に感染した患者は、免疫活性化プロファイルが異なるため、重症度のパターンが異なる。興味深いことに、いくつかのケースでは、完全に回復するまでに長い時間が必要とされ、最近ではLong-Covidまたはロング・ホーラー(LH)として記述されている特定の病理学的タイプを表している。

ここ数ヶ月の間に生成された科学的証拠は、COVID-19患者の異なる転帰が、ウイルス感染に応答して活性化された免疫機構によって決定されることを強く支持している。

 

SARS-Cov2に対する免疫応答は、サイトカインおよびケモカインのような炎症性を有する異なる分子の放出を誘導する。サイトカインストームとして知られるこのイベントは、COVID-19の免疫病理学的特徴であり、疾患の重症度と関連している。

IL-6,IL-8,IL-10,TNF-α、IL-1β、IL-2,IP-10,MCP-1,CCL3,CCL4,およびCCL5などの異なるサイトカインおよびケモカインの血中濃度の上昇は、COVID-19患者について記載されている(5)。

これらの分子のいくつかは、COVID-19患者の臨床経過をモニターし、治療選択を決定するためのバイオマーカーとして提案されている。それにもかかわらず、これらの分子のいくつかは文脈に依存した方法で機能することを考慮することが重要であり、したがって、単一のサイトカインの変化を分析することの臨床的妥当性は限られている。

 

パンデミック時の最も重要な課題の一つは、医療システムの飽和を避けることであり、したがって、患者の層別化をより良くするための予測バイオマーカーの決定が最も重要である。IL-6やIL-8のようなサイトカインは疾患の重症度の指標として提案されており、いくつかの研究では患者の生存率の強力な独立した予測因子であった(6)が、単独で分析した場合の予測値は議論の余地がある(7)。免疫学的機能の異なるサイトカインやケモカインの血中濃度を考慮したスコアの生成には、これらの分子の文脈に依存した機能の重要性が組み込まれている。

 

重症例を予測するために、IL-10,IL-6,IL-2,IL-8の血中濃度を考慮したスコアを作成した。この分類では、重症例は、以前にCOVID-19の免疫原性を増加させることに起因するサイトカインと重症例の予測値の両方が高いIL-6およびIL-10レベルによって特徴付けられる(6, 8)。

異なる設定では、IL-6は酸化ストレス、炎症、内皮機能不全、および血栓形成と関連している(9-12)が、過剰な骨髄細胞活性化によって引き起こされる重症COVID-19症例の特徴的な特徴である(13)。

一貫して、IL-10レベルの上昇は適切なT細胞応答を阻害し、T細胞の枯渇と調節性T細胞の分極を誘導し、抗ウイルス免疫応答の回避につながる(14)。さらに、T細胞に対するその抗炎症機能に加えて、いくつかの設定では、IL-10はSTAT1活性化を誘導し、I型IFNプライミングされたミエロイド細胞における炎症反応を促進する(15,16)。

したがって、IL-6およびIL-10のレベルの上昇は、ミエロイド細胞の活性化、酸化ストレス、内皮損傷を促進し、十分なT細胞の活性化を減衰させる。さらに、分類を強化するために、ここで提示したスコアは、適切なT細胞活性化(IL-2)とリクルート(IL-8)に関連するサイトカインであるIL-2とIL-8を差し引くことで、重症例を区別している。

 

ロングホーラーを区別するために生成されたスコアによれば、これらの患者は、IFN-γおよびIL-2が増加し、CCL4産生が減少することを特徴とする。ウイルス感染の文脈では、IFN-γおよびIL-2の組み合わせは、プロ炎症性の特性を有するエフェクターT細胞の活性化およびウイルスを排除するための効果的な免疫応答を生成する能力を誘導するであろう。

しかし、ロングホーラーは、疲労および肺障害などの臨床徴候および症状を伴う期間が長いことが特徴である。このことは、T細胞の活性化を誘導するためにこれらのサイトカインによって作られた炎症性コンテクストは、活性化されたT細胞を引き付けるための適切なリクルートシグナルがなければ、十分な抗ウイルス応答を生成することができないことを示唆している。

CCL4は、炎症部位にT細胞を引き付けるために受容体CCR5を介してシグナルを送り、免疫コンテキストに応じて、この分子は異なる活性化T細胞をリクルートする(17,18)。さらに、最近、単細胞解析により、軽度および重度のCOVID-19患者の末梢性骨髄細胞コンパートメントにおけるCCL4発現のダウンレギュレーションが示された(19)。

ロングホーラーでは、IFN-γとIL-2はTh1分極を誘導する免疫コンテクストを形成するが、CCL4の低レベルはこれらの細胞のリクルートに影響を与え、抗ウイルス応答を損なう。T細胞活性化に対するIFN-γおよびIL-2の増加の効果は、健康なドナーと比較して、疲弊した(CD4+PD1+/ CD8+PD1+)および調節性T細胞(FoxP3+)の割合の減少で明らかである。

興味深いことに、ロングホーラー群では健康なドナーに比べてCTLA-4を発現する循環CD4+およびCD8+ T細胞の割合が増加しているが、循環T細胞におけるCTLA-4の存在は、ロングホーラー群のCCL4レベルの低さに対する代償的なメカニズムを反映している可能性がある。

CTLA-4のシグナル伝達はCCL4受容体CCR5の発現を上昇させる(20, 21)が、ロングホーラー群ではCTLA-4の上昇はIFN-γ/IL-2活性化T細胞のCCL4に対する感受性を高める試みが失敗したことを示唆している。

したがって、適切なT細胞活性化(高いIFN-γ+IL-2)はあるが、効果のないT細胞のリクルート(低いCCL4)は、ウイルスの持続性を支持するロングホーラー群で観察された失敗した抗ウイルス反応の特徴的な特徴である

さらに、IFN-γの増加は骨髄細胞の活性化を促進するが、これはロングホーラー群の炎症性CD14+CD16+単球の割合が健康なドナーと比較して増加していることで観察され、これらの患者ではリンパ球減少症とウイルスの持続性が支持されている。このことは、軽度および重度のCOVID-19患者における末梢骨髄系細胞におけるIFN-γに反応して遺伝子発現が増加していることを記載した最近の知見(19)およびCOVID-19患者で記載された単球サブセットの拡大による単球集団のバランスの異常(22)によって裏付けられている。

最後に、ロングホーラーで観察される長期にわたる肺障害は、

1) IFN-γとIL-2レベルが高いことを特徴とするロングホーラー免疫プロファイルの影響を受けてウイルスがより長く持続し、Th1分極を誘導するが、CCL4誘導性T細胞のリクルートが低いために効果がなく、炎症性ミエロイド細胞の活性化につながること、および

2) ロングホーラー免疫プロファイルの結果として生じる免疫病理学的な肺への影響を含む複合的な要因によって引き起こされることを提案する。

 

ロングホーラー免疫プロファイルの免疫病理学的影響については、マウスモデルを用いて、IFN-γレベルが高いと、炎症誘発性肺損傷の消失の機序や血栓の消失に影響を与えることが示されている(23, 24)が、これは肺凝固症や免疫介在性組織障害に関連したロングホーラーの長期にわたる症状に関連している可能性がある。

 

興味深いことに、COVID-19の個体(ロングホーラー、軽度、重度を含む)は、CCL4と同様にCCR5を介してシグナルを送る化学吸引剤であるCCL5の高レベルを示す。実際、CCL5-CCR5経路の破壊は、重症のCOVID-19患者において免疫バランスを回復させる(4)。ロングホーラーの場合、高濃度のCCL5にもかかわらず、CCL4が媒介する活性化T細胞のリクルートが減少することが提案されている。これは様々な要因が関係していると考えられる。

  1. CCL4濃度が低い場合のロングホーラーにおける総リクルートシグナルの減少。
  2. CCL4とCCR5の多型に対するCCL4とCCL5の機能的応答の違い。CCR5の多型に対するCCR4とCCL5の機能的応答の違い。CCL4とCCR5との間には、CCR5との相互作用の機序的な違いは明らかにされていないが、CCR5多型に関する知見をHIV/AIDSの文脈で検討することが重要であることが示唆されている(26)。
  3. CCL5の代替受容体を介したシグナル伝達 CCR5以外にも、CCL5はCCR1とCCR3という受容体を介してシグナル伝達を行うことができる(27)が、CCL4の効果はCCL5に限定されている。CCL4はCCR1に結合することができるが、化学吸引刺激を活性化するために必要な細胞内経路を誘導することができないことが示されている(27,28)。したがって、CCL4はCCR1のアンタゴニストとして提案されているが(28)、これについてはさらなる解析が必要である。興味深いことに、CCR1は単球や好中球などの血中骨髄系細胞で発現しており(27)、COVID-19患者ではアップレギュレートされている(29)。さらに、高レベルのIFN-γ(ロングホーラーの特徴)は、ヒト好中球におけるCCR1発現の増加と関連している(30)。したがって、ロングホーラーでは、高レベルのCCL5(潜在的なCCR1アンタゴニストCCL4の低レベルと組み合わせて)は、CCR1を発現するミエロイド細胞のより高いリクルートを導く。

材料/方法

患者さん

インフォームドコンセントの後、全血を10 mL EDTAチューブと10 mL血漿調製チューブ(PPT)に採取した。健常者29名、軽度中等度COVID-19患者26名、重度COVID-19患者25名、慢性COVID(長期不調組-ロングホーラー)64名からなる合計144名が本試験に登録された。長期不調組の症状を図1に示す。試験対象者は、以下の基準に従って層別化された。

図1 研究に登録された長期不調組の患者が報告した症状

軽度
  1. 発熱、咳、喉の痛み、倦怠感、頭痛、筋肉痛、吐き気、下痢、味覚低下、小
  2. 胸部撮影(CXRまたはCT胸部)で肺炎の兆候なし
  3. 息切れや呼吸困難はない。
中庸
  1. 肺炎熱と呼吸器症状の放射線学的所見
  2. 海面下の室内空気中の酸素飽和度(SpO2)≧94
重度
  1. 海面下の室内空気中の酸素飽和度(SpO2)<94
  2. 酸素の動脈分圧(PaO2)/触発された酸素(FiO2)の分率 < 300mmHG
  3. 24~48時間以内に50%の肺浸潤
  4. HR ≥ 125 bpm
  5. 呼吸数≧30回/分
クリティカル
  1. 呼吸不全で機械換気を必要とする場合、ECMO、高流量経鼻カニューレ酸素補給、非侵襲的陽圧換気(BiPAP、CPAP)
  2. 敗血症性ショック-収縮期血圧<90mmHgまたは拡張期血圧<60mmHgまたは血管抑制剤(レボフェド、バソプレシン、エピネフーリン)を必要とする場合
  3. 多臓器不全(心疾患、肝疾患、腎疾患、中枢神経系疾患、血栓性疾患
亜急性期COVID-19(ロングCOVID)
  1. 最初の症状の発症から3週間を超えて延長
慢性COVID-19
  1. 最初の症状の発症から 12週間を超えて延長している(表1

高パラメータ免疫プロファイリング/フローサイトメトリー

末梢血単核細胞を、Lymphoprep密度勾配(STEMCELL Technologies、Vancouver、カナダ)を用いて末梢血から単離した。細胞のアリコート200個を、90%ウシ胎児血清(HyClone、Lougan、UT)および10%ジメチルスルホキシド(Sigma-Aldrich、Strousi、MO)を含む培地中で凍結し、-70℃で保存した。細胞を、17色抗体カクテルを用いて、以前に記載されたように染色し、分析した(4)(Patterson)。

多重サイトカインの定量

新鮮な血漿を、以下の分析物を用いて以前に記載したように、CytoFlexフローサイトメーター上でカスタマイズした14-plexビーズベースのフローサイトメトリーアッセイ(IncellKINE、IncellDx、Inc)を用いてサイトカインの定量に使用した。TNF-α」、「IL-4」、「IL-13」、「IL-2」、「GM-脳脊髄液」、「sCD40L」、「CCL5(RANTES)」、「CCL3(MIP-1α)」、「IL-6」、「IL-10」、「IFN-γ」、「VEGF」、「IL-8」、および「CCL4(MIP-1β)」(4)。各患者サンプルについて、25μLの血漿を96ウェルプレートの各ウェルに使用した。抗原の連続6点希釈と標準曲線は、各サイトカインの各プレート上で実行された。生データは、LegendPlexソフトウェア(Biolegend, Inc San Diego CA)を使用して分析した。サンプルは二重に実施した。

データ処理

データはpandasライブラリ(バージョン1.1.0)とnumeric pythonモジュールのnumpyバージョン1.18.5を使用して、Python 2.7を使用してインポートして処理した。データは、4つのクラス(Normal-n=29,Mild-Moderate-n=26,Severe-n=25,Long Hauler-n=64)を表す144個のインスタンスで構成されている。各クラスには14列のカラムがあり、異なるサイトカイン/ケモカイン分析物を表している。各分析物はそれぞれ異なる測定値を持っており、外れ値の影響を減らし、アルゴリズムの収束を容易にするために正規化処理を必要とした。

正規化は、Min-Maxを使用して、元のデータの線形変換に基づいて行われた。Min-Maxは、あらかじめ定義された境界線内でデータをフィットさせながら、データ間の元の関係を維持する。Pythonの実装であるmin-maxは、特徴量の範囲が0と1の間で定義されるような方法で範囲を計算する。 このため、min-max正規化は0-1正規化(またはスケーリング)とも呼ばれている。典型的なmin-max変換は、式1で与えられる。

Embedded Image

対象変数処理

Min-max正規化は数値変数にしか適用できないので、targetsとして定義された新しい変数が作成された。変数targetsは、データセット内のインスタンスの異なるクラス(Long Hauler, Severe, Mild-Moderate, Normal)を表する。結果として得られる配列は、各状態に対して4つのクラスを持っている。我々の分析の目的は、他の状態と比較して、Severe状態やLong-Hauler状態に属するインスタンスを適切に識別することである。この目標は、Severeクラス用のバイナリ分類器とLong Haulerクラス用のマルチクラス予測器のどちらかを構築することで達成できる。両方のモデルを構築するためには、投薬の質問を反映するためにターゲットを分離するためにtが必要です:予測器はSevere、Long Hauler、およびその他の状態を識別できるかどうか。

この質問に答えるモデルを構築するために、我々は、M-MラベルとNormalラベルを、SevereとLong-Haulerの状態から区別された新しいクラスにグループ化した。次に、タスク(バイナリまたはマルチクラス分類)に基づいてフィルタを適用した。Severeのバイナリ予測器については、ターゲットが正確にSevereであることを条件とし、そうでない場合はNot-Severeに割り当てました。これと同じタスクがロング・ホーラークラスで行われ、インスタンスラベルが正確にロング・ホーラークラスとラベル付けされているか、そうでなければ非ロング・ホーラークラスに割り当てられた。マルチクラス予測処理では、3つのクラスを定義する必要があるだけである。予測処理では、Severe、Long-Hauler、Non-Severe-Non-Long-Haulerの3つのクラスを定義する必要があり、これはNormalとMild-Moderateのケースで構成されていた。

ターゲットのワンホットエンコーディング

対象変数に対するワンホット符号化の実装は、複数の機械学習アルゴリズムがカテゴリデータを適切に処理できないという考え方に基づいている。整数値などの数値置換を使用することは可能であるが、これは変数内に順序関係がある場合にのみ有用である。このような使用は、ラベル間にベクトル関係が存在することを意味する。0から4までの整数のベクトルをクラスに対応する順序で代入すると、NormalとLong Haulerの間にベクトル的な距離が存在するか、あるいはV0 -> V4が存在することを仮定することになる。

これを反映した実験を適切に設計するために、ワンショット符号化を使用する。 ワンショット符号化を適用した後、ラベルは1と0で置換される。ワンショット符号化を使うことで、整数やカテゴリカルなクラスのベクトル距離の仮定を補正している。

精度,リコール,F1スコアの定義

精度 (式2) は,関連する結果のパーセンテージの尺度である.メトリックRecallは,予測変数(式3)によって正しく分類された関連する結果全体のパーセンテージを測定する.これら、2つの測定値の間の調和平均はF1スコアとして知られており,0から 1までの範囲で、1に近いほどモデルの性能がよい(式4)。F1スコアは,真の陽性(TP)と同様に,偽陽性(FP)と偽陰性(FN)の両方についてのスコアである.

Embedded Image

Embedded Image

Embedded Image

ランダムフォレストを用いた特徴選択と分類

分類の前に、上記のようにデータの前処理、ターゲット変数の処理、ターゲットの符号化を行った。特徴選択とは,そうでないものよりも情報量の多い特徴や変数を選択することで,データセットの次元を下げる処理である.

特徴選択を行うために,Sci-kit LearnのRandomForestClassifierメソッドを実装した。Random Forestでは,その特徴を利用しているノードのうち,エントロピーや不純物(特徴を利用しているインスタンスがどれだけ分離されているかを示す指標)が減少しているノードの割合を決定することで,クラスをより良く分離する特徴を識別することができる.

2値分類器は、データポイントとその特徴を使用して構築され、対応するワンショット符号化されたターゲットを使用している。1)重度・非重度モデル、2)ロング・ヘーラー・非ロング・ヘーラーモデル、3)マルチクラスモデル。モデルは Sci-kit Learn の RandomForestClassifier メソッドを用いて構築され、構築された木の数は 750,特徴数は特徴空間の平方根、オーバーフィットを避けるためにノードの深さは 4 に設定されている。これらのパラメータは,バイナリおよびマルチクラスの予測変数に設定した。モデル性能は、精度、リコール、F1スコア(補足情報を参照)を用いて測定された。

ディープ・ニューラル・ネットワークを用いた予測器の構築

ディープニューラルネットワーク(DNN)のバイナリおよびマルチクラス分類器は、パーセプトロンのスタック上に構築された基本的なDNNアーキテクチャを用いて構築された。各層は整流線形活性化関数(ReLU)を用いて入力を変換した。DNNモデルは、1つの入力層、10個のニューロンを持つ3つの隠れ層、6個のニューロンを持つ層を持つように構築された。

最後に、出力層は3つのニューロンで構成され、出力(クラス)とソフトマックス(マルチクラス)またはシグモイド(2値)関数のためのものである。

DNNが最良の予測値を生成するために、ADAMオプティマイザを用いてモデルの損失関数や誤差を最小化し、ハイパーパラメータの最適な組み合わせを探索した。オプティマイザを設定する際には、学習率を1e-3と定義した。損失関数は、ターゲットがワンホット符号化されているため、カテゴリークロスエントロピーに設定した。

資金調達

なし

著者投稿

R.Y.は臨床試験を企画し、患者を積極的に募集した。

B.K.P.、A.P.、H.R.、E.L.は実験を行い、データの解析を行った。

J.G-C.、R.A.M.、J.M.はバイオインフォマティクスを実施した。

B.K.P., J.M., J.G-C., R.A.M.が原稿のドラフトを執筆し、すべての著者が投稿前の原稿の改訂に貢献した。

競合他社との利害関係

B.K.P.、A.P.、H.R.、E.L.はIncellDx社の社員である。

データと材料の入手可能性

資料やデータのご請求は、該当する著者までお願いする。

謝辞

著者は、研究を調整し、患者と交流したChristine Medaの仕事に感謝したいと思う。

略語

  • IL インターロイキン
  • RANTES 活性化規制
  • ノーマルT 表出分泌
  • CCR ケモカイン受容体
  • IFN インターフェロン
  • TNF 腫瘍壊死因子
  • MIP マクロファージえんかたんぱくしつ
  • GM-脳脊髄液 顆粒球マクロファージ結腸刺激因子
  • VEGF 血管内皮増殖因子
  • HIV ヒト免疫不全ウイルス
  • HCV C型肝炎ウイルス
この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー