SARS-CoV-2の選択的ランドスケープが世界的に大きく変化した時期に、N501Y系統が出現し、現在も収斂進化していることがわかった。

強調オフ

SARS-CoV-2ジョン・キャンベル変異株・ウイルスの進化

サイトのご利用には利用規約への同意が必要です

The emergence and ongoing convergent evolution of the N501Y lineages coincides with a major global shift in the SARS-CoV-2 selective landscape

www.ncbi.nlm.nih.gov/pmc/articles/PMC7941658/

Darren P Martin,1,* Steven Weaver,2 Houryiah Tegally,3 Emmanuel James San,3 Stephen D Shank,2 Eduan Wilkinson,3 Alexander G Lucaci,2 Jennifer Giandhari,3 Sureshnee Naidoo,3 Yeshnee Pillay,3 Lavanya Singh,3 Richard J Lessells,3 NGS-SA,4, Ravindra K Gupta,6,7 Joel O Wertheim,8 Anton Nekturenko,9 Ben Murrell,10 Gordon W Harkins,11 Philippe Lemey,12 Oscar A MacLean,13 David L Robertson,13 Tulio de Oliveira,3,14,* and Sergei L Kosakovsky Pond2,*

要旨

2020年の最後の3カ月間に、B.1.1.7,B.1.351,P.1という3つの独立したSARS-CoV-2「501Y系統」が出現し、パンデミックが急速に増加したことで、SARS-CoV-2の進化能力が、集団免疫力の上昇と、ワクチンや社会的距離を置くといった公衆衛生上の介入の両方に適応できるかどうかについて、新たな懸念が生じた。501Y系統のウイルスは、おそらく宿主環境の変化に伴う激しい自然淘汰の中で、独自の収束的な変異を複数獲得したと考えられる。その結果、すべてのウイルスが疫学的・免疫学的特性を獲得し、COVID-19の制御を困難にしていると考えられる。

ここで、パンデミック中にSARSCoV-2のゲノムに生じた突然変異のパターンを調べると、様々なSARS-CoV-2の遺伝子や遺伝子セグメント(S、nsp2,nsp6など)に作用する選択力に大きな変化があったことを示す証拠が見つかり、これは501Y系統の出現と同時期であると考えられる。また、501Y系統の適応進化の大部分には、継続的な配列の多様化に加えて、系統間のさらなる収束が関与しているという証拠も得られた。

今回の発見は、これらの既知の501Y系統のメンバーと、まだ発見されていない他の系統のメンバーが、感染の拡大やワクチンによる宿主の免疫認識に直面しても、自分たちが確実に生き残るために、同様の戦略を収束的に進化させていることをモニタリングすることの重要性を強調している。

はじめに

SARS-CoV-2パンデミックの最初の11カ月間(2019年12月~2020年10月)では、世界中でウイルスの進化は、感受性の高い新しい宿主集団の中で行われた(Dearlove et al 2020,MacLean et al 2021)。ウイルスのスパイクタンパク質のD614G置換(Korber et al 2020,Plante et al 2021年、Zhang et al 2020)とウイルスのRNA依存性RNAポリメラーゼタンパク質のP323L(Garvin et al 2020)が早期に確認された以外は、どちらも病原性に影響を与えずにウイルスの伝達性を高めている可能性がある(レビューは(Peacockら、。2021))疫学的に重要な変異はほとんどなく、ウイルスの進化のダイナミクスは、ゆっくりとした選択的に中立なランダムな遺伝子ドリフトの変異パターンによって主に特徴付けられた(Dearlove et al 2020;MacLean et al 2021)。この挙動は、感染イベントの前に病原体に大きな選択圧を与えない素朴な感受性宿主の集団における指数関数的な成長と一致する(MacLean er al)。 過去のパンデミックやRNAウイルスの長期的な進化のダイナミクスは、このような進化の「小康状態」が必ずしも続かないという事実を証明している。実際 2020年後半には、比較的分岐した3つのSARS-CoV-2系統が次々と出現した。(i)アルファ、B.1.1.7または501Y.V1(以下、V1と略す)(Rambaut et al 2020a)(ii)ベータ、B.1.351または501Y.V2(以下、V2と略す)(Tegally et al 2021)(iii)ガンマ、P.1または501Y.V3(以下、V3と略す)(Faria et al 2021)である。

これら3つの系統(以下、501Y系統と総称)のウイルスは、複数の特徴的な(または系統を決定する)欠失やアミノ酸置換を有しており(図1)その多くが感染およびワクチンによる免疫反応の主要な標的であるスパイクタンパク質の主要ドメインに影響を与えている。これまで、多くのスパイク変異が観察されていたが、流通しているSARS-CoV-2の系統はすべて、少数の変異によって定義されていた。また、501Y系統はすべて、表現型が大きく変化しており、ヒトACE2受容体親和性の増加(V1,V2,V3)(Nelson et al 2021、Starr et al 2020,Zahradnik et al 2021)伝達性の増加(V1,V2,V3)(Althaus et al 2021、Faria et al 2021年、Lubinski et al 2021、Pearson et al 2021、Public Health England 2020,Volz et al 2021)。2021年)先行感染および/またはワクチン接種による免疫を克服する能力が実質的に増加していること(V2およびV3)(Cele et al 2021)Garcia-Beltran et al 2021)Hoffmann et al 2021)Shinde et al 2021)Wibmerら、Wu et al 2021)病原性の増加との関連(V1およびV3)(Faria et al 2021)などが挙げられる。なぜ、大きく変異した501Y系統は、すべて異なる大陸でほぼ同時に発生したのであろうか?それは、SARS-CoV-2の適応能力の本質的な変化によるものなのか、それともウイルスに外在する宿主選択環境の変化によるものなのか?

図1 SARS-CoV-2のゲノムマップ

ここではV1,V2,V3配列の特徴的な変異と考えられるものの位置とコード化されたアミノ酸の変化を示している。水色のブロックで示された遺伝子は非構造タンパク質を、オレンジ色のブロックで示された遺伝子は構造タンパク質をコードしている:Sはスパイクタンパク質、Eはエンベロープタンパク質、Mはマトリックスタンパク質、Nはヌクレオカプシドタンパク質をコードしている。Sはスパイクタンパク質、Eはエンベロープタンパク質、Mはマトリックスタンパク質、Nはヌクレオカプシドタンパク質をコードしている。S遺伝子の中で、受容体結合ドメイン(RBD)は濃い色で示され、受容体結合と細胞侵入のためのプライミング時にSタンパク質が2つのサブユニットに切断される部位は縦の点線で示されている。


V1,V2,V3の出現に自然選択が極めて重要な役割を果たしている証拠は、これらの系統のメンバーの中に生じた独立して進化した収束的な突然変異の顕著なパターンに見出すことができる(図1; (Peacock et al 2021))。このような並行した変化の中でも特に目を引くのが、ゲノム座標11288と11296の間にある9ヌクレオチドの欠失である(ここから先は、すべてのヌクレオチドとアミノ酸の座標はGenBank参照ゲノムNC_045512を参照)。この欠失は、ORF1abのうち、非構造タンパク質6(nsp6)をコードする部分である。このタンパク質は、SARS-CoV-2の膜結合型複製複合体の構成要素であり、オートファゴソームの形成と成熟に影響を与える可能性が高い(Cottam et al, また、感染細胞のI型インターフェロンに対する反応性を低下させ、I型インターフェロンの産生に拮抗することで、宿主の自然抗ウイルス防御の効果を低下させる(Lei et al 2020,Miorin et al 2020,Xia et al 2020)。初期のSARS-CoV-2 AおよびB変異株と比較して、V1およびV2ウイルスは、I型インターフェロンに対する感受性が明らかに低く(Guo et al 2021年、Thorne et al 2021年)V1は、培養肺上皮細胞における感染の初期段階で、I型インターフェロンを媒介とした免疫活性化に大きく拮抗する(Thorne et al 2021)。しかし、V1ウイルスとV2ウイルスのこれらの特徴が、11288-11296の欠失に起因するのかどうかは不明である。この欠失が独立して進化した例は、501Y系統が出現する前から繰り返し見つかっており、同一の独立して進化した欠失は、SARS-CoV-2系統のB.1.620(Dudas et al 2021年)B.1.1.318,B.1.525(https://github.com/cov-lineages/pango-designation/issues/4)B.1.526(Annavajhala et al 2021)の他の501Y系統の特徴的な変異とともに見つかっている。この程度の収斂進化は、少なくともB.1.620,B.1.1.318,B.1.525,B.1.526および501Y系統の文脈では、11288-11296の欠失は高度に適応的である可能性が高いことを示唆している。

さらに、異なる501Y系統のメンバー間で共有されている4つの収束的なスパイク遺伝子変異がある。これらの系統の配列のほぼすべてのスパイク遺伝子は、重要な受容体結合ドメイン(RBD)部位にN501Y変異を持ち、スパイクタンパク質のヒトACE2受容体に対する親和性を約2.1~3.5倍に高めている(Starr et al 2020,Yuan et al 2021年、Zahradnik et al 2021)。V2およびV3変異株の大多数、およびV1変異株のより最近のサンプルの~0.3%もスパイクE484K変異を有している。501Nの存在下では、484KはACE2結合にわずかなプラスの影響を与えるが(Starr et al 2020)501Yと一緒に存在すると、これらの変異は相乗的にACE2-RBD結合親和性を約12.7倍に増加させる(Nelson et al 2021年、Zahradnik et al 2021)。また、E484Kやその他のS/484の変異は、回復期血漿(Greaney et al 2021a)ワクチン誘発抗体(Collier et al 2021;Wang et al 2021a、2021b;Wu et al 2021)およびいくつかのモノクローナル抗体(Greaney et al 2021a;Starr et al 2021;Wang et al 2021b)による中和からの保護を与えることが多いことも重要である。したがって、E484K変異(501Yの有無にかかわらず)を有するウイルスは、以前に感染した個体とワクチン接種を受けた個体の両方に、より頻繁に感染することができるという証拠が増えている(Collier et al 2021年、Wang et al 2021a、2021b、Wu et al 2021)。

V2とV3の両方で変異している第3のRBD部位は、S/417である。V2の配列は一般的にK417Nの変異を持つのに対し、V3の配列はK417Tの変異を持つ。K417NおよびK417T変異はいずれもスパイクのACE2に対する親和性を低下させるが、N501YおよびE484K変異を併用するとACE2の結合は野生型スパイクのそれに回復する(Yuan et al 2021)。K417NおよびK417Tもまた、スパイクの発現に中程度の正の影響を与え(Starr et al 2020)S/417におけるこれらおよび他の変異は、いくつかの回復期血漿による中和からの中程度の保護を提供する(Greaneyら、。2021a; Wang et al 2021b)、ワクチン誘導抗体(Wang et al 2021b)およびいくつかの中和モノクローナル抗体(Starr et al 2021; Wang et al 2021b; Wibmer er al)。)による中和から適度に保護される。

V2配列の約48%とすべてのV3配列で共有されている第4のスパイク遺伝子変異はL18Fである。このアミノ酸の変化は、スパイクの構造にわずかな影響を与えることが予測され(Nguyen et al 2021年)また、いくつかの中和モノクローナル抗体から保護される(McCallum et al 2021)。L18F変異を持つウイルスは、パンデミックの開始時からパンデミックが増加し、現在ではサンプルされたSARS-CoV-2の配列の約10%を占めている。

このように、急速に広まったSARS-CoV-2の異なる系統に5つの収束的な変異が存在することは、それぞれの変異が単独で、あるいは組み合わせて、何らかの重要な適応上の利点をもたらすという説得力のある証拠である。V1,V2,V3の他の特徴的な変異が、個々に、あるいは全体として、どのような適合的影響を与えるのかはまだ不明である。これらの突然変異が適応度に与える影響を推測するには、突然変異が発生したコドンサイトにおける同義置換と非同義置換のパターンを調べることが重要だ(Kosakovsky Pond and Frost, 2005)。具体的には、生物学的に最も重要な突然変異は、SARS-CoV-2の系統樹の中で、非同義的な突然変異(コード化されたアミノ酸配列を変化させる突然変異)が主となる置換パターンを示すコドン部位で発生していると予想され、これは正の選択を示すパターンである。

ここでは、系統学に基づく自然淘汰分析手法を用いて、V1,V2,V3系統のウイルスのタンパク質コード配列における正の選択のパターンを調べ、経時的な変異頻度の変化と合わせて、これらの系統の適応度向上に最も貢献していると考えられる特定の変異を特定した。その結果、501Y系統の出現は、正の選択シグナルが世界的に大きく変化した時期と一致しており、SARS-CoV-2が進化する上での選択的環境が大きく変化したことを示している。このような背景から、501Y系統のウイルスはすべて、積極的に選択されたゲノム部位に突然変異が生じ、他の501Y系統のウイルスに見られる突然変異に収束したり、異なる系統で頻度が急速に上昇したりするなど、実質的に継続的な適応の証拠を示している。このパターンは、3つの系統のウイルスが現在も非常に類似した適応のピークを登っていることを示唆しており、したがって、3つの系統のウイルスが類似した適応の終点に収束する過程にある可能性が高いと考えられる。

結果と考察

循環するSARS-CoV-2の変異株に作用する選択圧には、最近、明らかな変化が見られた
501Y系統が出現する前に行われたSARS-CoV-2ゲノムの正の選択の分析では、中立的な進化が支配的な変異パターンが示された(MacLean et al 2021)。しかし、ゲノム上のいくつかの部位では、正の選択のエピソードがあったことが示唆されている(Garvin et al 2020,Korber et al 2020,Plante et al 2021年、Zhang et al 2020)。2020年3月から世界のGISAIDデータ(Elbe and Buckland-Merrett, 2017)を定期的に解析することで、SARS-CoV-2ゲノムに対する正負の選択圧の程度と位置を追跡した(図2)。これらの分析により、個々のコドン部位に作用する選択の証拠を検出する力は、サンプルされたゲノム配列の数の増加と配列の多様化に伴い、時間の経過とともに徐々に高まっていった。

図2 2020年3月から 2021年4月の間の異なる時期にFEL法で検出された個々のコドン部位における正負の選択のシグナルを、90日間隔でサンプリングした配列に適用したもので、プロットされた日付は90日の期間の終わりを示している。

A/Bである。2020年3月から 2021年2月の間に正/負の選択で進化したことが検出されたコドンの遺伝子ごと/1Kbあたり/単位木長あたりの密度。2021年2月にポジティブ/ネガティブ選択されたサイトの観測された密度が最大になった遺伝子は太い線で示されているが、ある期間の全長が0.5サブ/サイトよりも短い関連ツリーを持つ遺伝子は示されていない。パネルAの全遺伝子を個別に表示したものを図S1に示す。C 2020年3月から 2021年4月の間に、37のV1,V2,V3シグネチャー変異サイトで検出されたポジティブセレクションのシグナル。また、501Yの3系統すべてに存在するD614G変異部位であるS/614,S/5,RdRp/P323L(ORF1b/314)など、以前に正の選択下で進化していることが検出された部位も参考までに含まれている。丸印はFELテストの統計的有意性を示し、赤は正の選択、青は負の選択を示す。縦線は、V1系統とV2系統の重要性が初めて注目された2020年12月1日を示している。

この予想される検出力の向上を考慮しても 2019年12月に武漢市でSARS-CoV-2感染者が初めて報告されてから約11カ月後に、選択圧の大きな変化が起きたことが明らかになった。具体的には 2020年11月、この選択圧の変化は、正と負の両方の選択下で進化が検出されたSARS-CoV-2のコドン部位の数の大幅な増加となって現れた。この増加は2021年2月にかけて加速し、いくつかのゲノム領域で多様な正の選択を受けて進化していることが判明したサイト(FEL選択検出法(Kosakovsky Pond and Frost, 2005)でp≦0.01)は、S、nsp2,nsp6などのいくつかの重要な遺伝子で急激に密度が高まった(図2A、図S1)。この密度の増加は、後の時点でのサンプリングの増加によって完全に説明することはできない。

なぜなら、我々の密度測定は、木の内部の枝の全長で測定される系統的シグナルの増加を補正するからである(MacLean er al)。 正の選択の下で検出可能な進化を遂げている部位の密度が急激に増加したのは、両半球の世界各地でパンデミックが急増した時期と重なり、その多くは新興のV1,V2,V3系統によってもたらされたものであった。

V1,V2,V3の37カ所のシグネチャー変異(図1)のうち 2020年11月には14カ所が正の選択下で進化していることが検出されたが、2021年1月には22カ所、2021年4月には30カ所に増加した(図2C)。3つの501Y系統に共通するシグネチャー変異のうち 2020年11月以前に陽性選択下で検出されたのは 2020年8月に初めて検出されたS/18のみであった。

このように 2020年11月以前のSARS-CoV-2のコドン部位を定期的に追跡調査した結果、重要なRBD部位であるS/417,S/484,S/501(501Y系統の他の重要な収束性シグネチャー変異部位)での非同義置換が、パンデミックの最初の11カ月間にSARS-CoV-2に実質的な適応度の優位性を与えたことを示す明確な証拠は得られなかった。その代わり、7月から11月の間に、これらの解析で得られた散発的な弱い選択シグナルは、スパイクのN末端ドメイン(S/18,V3シグネチャーサイトのS/26とS/138)フーリン切断部位付近(V3シグネチャーサイトのS/655とV1シグネチャーサイトのS/681)C末端ドメイン(V1シグネチャーサイトのS/1118とV3シグネチャーサイトのS/1176)における適応的なアミノ酸の置換であった。逆に 2020年後半のほとんどの期間、V1シグネチャーサイトのN/3とV2シグネチャーサイトのORF1ab/265(nsp2コドン85)およびORF3a/57で比較的強い選択シグナルが一貫して検出されたことから、これらのサイトでの置換は少なくとも軽度の適応である可能性が高いことが明らかになった。

これらの選択パターンを総合すると、501Y系統の特徴的なRBD変異の適応的価値は 2020年11月の少し前に起こった選択的シフトの後にのみ現れた可能性があることを示唆している。

2021年3月までのV1,V2,V3系統における選択のシグナル

2020年後半にSARS-CoV-2の選択環境が変化した際に、その直後にこれらの系統で起こった適応プロセスを評価するために、当初は2021年4月以前に採取されたV1,V2,V3系統の配列に生じた変異のみを対象として選択分析を行った。特に、これらの「初期の」選択的プロセスを反映した、個々のコドン部位での正の選択シグナルを特定することに関心があった。

2021年4月20日時点でGISAID(Elbe and Buckland-Merrett, 2017)のB.1.1.7(V1)B.1.351(V2)P1(V3)のPANGO系統(Rambaut et al 2020b)に割り当てられているすべての配列を収集し、これらの配列について、MEME(Murrell et al 2012)とFEL(Pond et al 2006)を用いて、個々のコドン部位での正の選択の証拠を調べることにした。いずれの方法も、V1,V2,V3の系統樹の内枝にマッピングされた変異、つまり、2021年3月中旬以前に発生したことがほぼ確実な変異に限定して分析した。

その結果、V1では80個、V2では41個、V3では37個など、すべての系統で151個のコドン部位で正の選択の証拠が得られた(表S1)。これは、V1,V2,V3の配列が出現してから 2021年3月までの間に、かなりの適応があったことを示している。

特徴的な突然変異部位における進行中の突然変異収束のシグナル

系統固有の正の選択シグナルの中で注目すべきは、系統を特徴づける突然変異部位での22/151のシグナルで、V1の特徴的な部位では8/11,V2の特徴的な部位では4/14,V3の特徴的な部位では13/17であった(図3,図1の下線付きのコドンサイト番号を参照)。(i)各系統は、そのクレードの基底部にある系統樹の枝に沿ったシグネチャー変異によって定義され、(ii)これらの基底部の枝が系統別の選択分析に含まれていることから、これらの選択分析の結果は、シグネチャー変異が正の選択下で進化していると検出される方に偏ってた。そこで、2021年3月以前に、バックグラウンドの参照配列と比較して、最も強い正の選択の下で進化しているシグネチャー変異を特定するために、シグネチャー変異部位の選択結果のみを使用した。

図3 501Y系統の配列の中で特徴的な変異と収束的な変異が起こるゲノム部位

V1,V2,V3系統の内部分岐に沿って正の選択で進化していることが検出された部位(MEME p-value ≤ 0.05)を赤いアイコンで示した。2021年3月以前に発生した変異から生じる予測的な正の選択シグナルを解釈することに重点を置き、2021年4月までに収集されたデータに限定して解析を行った。このシグナルは、その後の月の変異頻度データを調べることで裏付けられる。色のついたブロック内のラベルはアミノ酸置換を示し、ブロックの色は、他の宿主種に感染する関連するコロナウイルスでこれらの置換が観察された回数に基づいて、観察されたアミノ酸置換の進化上の実行可能性をモデルに基づいて予測したものである。色がない場合は前例のない置換を、赤は非常に珍しい置換を、緑はSARS-CoV-2以外のコロナウイルスの相同部位で見られる一般的な置換を示す。ORF8のシグナルは除外されている。

系統特異的な正の選択の証拠を最も強く示した22のシグネチャー変異部位の中で最も注目すべきは、コドンS/18,S/80,S/417,S/501,S/655,S/681であり、これらはすべて、潜在的に重大な適応度の影響を持つ変異が存在することが疑われているか、知られている(Garry et al, 2021; Greaney et al 2021b, 2021a; Lubinski et al 2021; McCallum et al 2021; Starr et al 2020; Wang et al 2021a, 2021b; Zahradnik et al 2021)。

2021年3月以前には、V1系統のコドンS/18で特に興味深い突然変異の動態があった。このL18F変異は、現在サンプルされているすべてのV3系統の配列ではほぼ固定されているが、V1系統では少なくとも2回、V2系統では少なくとも4回発生している(子孫の変異でも継続して発生している)。S/18は、予測される複数の異なるCTLエピトープに含まれ(Campbell et al 2020)、L18F変異は、いくつかの中和モノクローナル抗体に対するウイルスの感受性を低下させることが知られている(McCallum et al 2021)。S/18残基のFは、既知の他のサルベコウイルスの10%でも観察されており、L18F変異は2021年6月4日にサンプルされたSARS-CoV-2のゲノムで28番目に多く見られた。パンデミックが始まって以来、独立して何度も発生してきたS/18は 2020年8月以降、世界のSARS-CoV-2ゲノムデータセットにおいても、正の選択の下で検出可能な進化を遂げている(図2C)。

S/18と同様の収束パターンは、2021年3月以前に、グローバルデータ(図2C)または系統別データ(図3)のいずれかで正の選択下で進化していることが検出された他の17のシグネチャー変異部位にも見られた。このうち、2021年3月以前に正の選択のもとで進化していたのは、ORF1a/265,ORF1a/1188,S/26,S/138,S/215,S/417,S/484,S/501,S/655,S/681,S/701,S/716,S/1027,S/1176,ORF3a/57,N/205,N/235の17カ所であった。

これらのうち、S/655,S/681,S/701,S/716は、生物学的に重要なスパイクタンパク質のフーリン切断部位(S/680〜S/689)から30残基以内に収まっている点で注目される。2021年3月までに、V2とV3の一部の配列がV1のシグネチャー変異であるP681HとT716Iを独立して獲得したのに対し、V1とV2の一部の配列はV3のシグネチャー変異であるH655Yを独立して獲得し、V1の一部の配列はV2のシグネチャー変異であるA701Vを独立して獲得した。さらに、ニューヨークで最初に同定されたB.1.526とS/E484Kを持つ系統にもA701V変異が収束しているのに対し(Annavajhala et al 2021年)フィリピンで最初に同定されたS/E484KとS/N501Yを持つP.3 の系統がフィリピンで最初に同定され(Tablizo et al 2021年)S/H655YおよびS/P681Hの両方が、タンザニアの旅行者で最初に同定されたA.VOI.V2を有する高変異のS/E484Kの系統に見られる(de Oliveira et al 2021)。

H655Y、P681H、A701V、T716Iのいずれかは、ウイルスの宿主細胞への侵入効率に直接影響を与える可能性がある(Garry er al 2021)。SARS-CoV-2の変異株では、フーリン切断部位が欠失しているものは病原性が低下しており(Johnson et al 2021; Lau et al 2020)この部位に該当するP681H変異は、好ましくない非電荷のアミノ酸を好ましい正電荷の塩基性アミノ酸に置き換えることで、フーリン切断の効率を高めていると考えられる(Garry et al 2021; Lubinski er al)。 また、S/655,S/681,A/701,S/716は、2021年3月および4月のグローバルSARS-CoV-2データセットにおいて、正の選択の下で検出可能に進化しており、H655Y、P681H、A701V、T716I変異が適応的であることを示す重要な指標となっている。

シグネチャー変異部位の非収束性変異は、進化的に収束している可能性がある

V1系統、V2系統、V3系統の間で収束的な変異が見られ、グローバルデータや系統別データで正の選択が見られた17のシグネチャー変異部位に加えて、系統別に正の選択のシグナルが見られた4つのシグネチャー変異部位(S/20,S/138,S/215,S/570,図1)では、他の系統と同じ部位が異なるアミノ酸に変異しているという、主に発散的な変異(アミノ酸置換レベル)の証拠が見られた(図3)。5番目のサイトであるS/80は、収束性変異と発散性変異の両方の証拠を示している。S/20を除くすべての部位は、グローバルなSARS-CoV-2データセットにおいても、正の選択のもとで検出可能な進化を遂げている(図2)。

これらの5つの部位における分岐した突然変異は、実際には、異なる経路を経て、系統間の進化収束のパターン全体にも寄与しているかもしれない。これらのうち4つの部位(S/20,S/80,S/138,S/215)は、スパイクのN-末端ドメインの一部であり、複数のモノクローナル抗体や感染誘導中和抗体が標的とする「抗原性スーパーサイト」に該当する(McCallum er al 2021)。したがって、これらの部位が免疫主導の多様な選択圧のもとで進化していることはもっともなことである。この点に関して、異なる系統のS/20,S/80,S/138,S/215,S/570の変異は、主に同じコード化されたアミノ酸の状態に収束しないが、それにもかかわらず、類似した適応度の目的(免疫逃避または他の変異の適応度コストの補償)に収束している可能性がある。

正の選択が非シグネチャー変異部位でのさらなる収束を促している可能性がある

V1,V2,V3のそれぞれを特徴づけるシグネチャー変異部位のうち22箇所で系統別に正の選択のシグナルが検出されたことに加え(図1)129箇所の非シグネチャー変異部位でも系統別のデータセットでそのようなシグナルが検出された(表S1)。これらの選択シグナルは、シグネチャー変異サイトと同様に、V1,V2,V3の内部の木の枝にマッピングされた変異に基づくものであり、2021年3月中旬以前に作用した選択プロセスを反映していると考えられる。

これらの129個のコドン部位に作用する正の選択が、3つの系統間で収束的なアミノ酸の変化を促進したかどうかを調べるために、これらの部位で発生した突然変異について、2つ以上の系統間で収束している証拠がないかどうかを調べた。その結果、28/129(21.7%)の部位で、異なる系統の配列間で収束性のある変異が発生していることがわかった。その内訳は、ORF1aに10個、N-遺伝子に7個、S-遺伝子に5個(図3)ORF3Aに3個、ORF1Bに3個(図3)であった。

これらの28箇所で検出された系統特異的な正の選択シグナルは、各系統内で収束的な非同義反復変異が繰り返され、それが発生したゲノムの適応度を高めていると考えられる。したがって、これらの系統間および系統内の収束的な突然変異が発生したコドンのうち18/28個は、4月に世界各地で収集したSARS-CoV-2のデータセットにおいても、広義の正の選択または一過性の正の選択のもとで進化していることが検出された(IFEL p-values < 0.05; Figure S2)。このように、系統特異的な選択シグナルとグローバルな選択シグナルが一致していることは、収束した非署名部位変異のかなりの割合が広範に適応していることの強い証拠である(501Y系統のウイルスゲノムではエピスタティックにしか適応していないのとは対照的である)。

V1,V2,V3系統で選択的に進化した非シグネチャー変異部位と、系統間で収束した変異の証拠を示す部位との重なり具合(図3と表S1)は、偶然だけでは十分に説明できない。そこで、各系統間で共有されている可変部位(選択や収束変異の検出が可能な部位)と、各系統における選択部位の数に限定して、各組の系統間で検出可能な収束的な正の選択を受けた非シグネチャー部位の変異の数について並べ替え検定を行った。V1/V2(p<0.001)、V1/V3(p=0.002)、V2/V3(p=0.002)では、偶然によるオーバーラップを否定することができる。このパターンは、3つの系統が現在、非シグネチャーサイトの変異を収束的に蓄積し、同じ適応度ピークの上昇に寄与しているという仮説を支持するものである。

2021年3月中旬以降の突然変異頻度の変化は、正に選択されたゲノム部位での収束的な突然変異による適応度の優位性を裏付けている
2020年12月以降、501Y系統のウイルスのパンデミックが増加した世界の地域では、これらのウイルスがそれ以前のSARS-CoV-2の変異株に比べて実質的な適応度の優位性を持っていたことは明らかであるが、その正確な生物学的優位性が何であったかは依然として不明である。彼らの適応度が向上した理由として、最も可能性の高い2つの理由(非排他的)がある。(1)過去に感染したことのある人への感染性が高い(V2およびV3)(Cele et al 2021年、Garcia-Beltran et al 2021年、Wibmerら、Wu et al 2021年)および/または(2)感染性が高い(V1,V2およびV3)(Faria et al 2021年、Pearson et al 2021年、Volz et al 2021)。

正の選択部位(図3)で検出可能なすべての収束性突然変異は、少なくともいくつかの特定の状況でSARS-CoV-2の伝達性および/または免疫逃避に影響を与えていると考えられるが、これらの部位の特定の突然変異の相対的な適応度の影響がどのようなものであるかは依然として不明である。しかし、適応度の向上に直接貢献する新たな突然変異の頻度は、少なくとも最初は、その適応度貢献度の大きさに比例して集団全体で増加するはずである。そこで、図3に示した28の非シグネチャー変異部位と、501Y系統のウイルスに見られる32のシグネチャー置換変異部位(図1)の、系統間の収束変異の頻度の変化を調べた。具体的には、6月1日までにGISAIDに登録されたV1,V2,V3の配列を、2021年3月15日以前と以後に採取された配列を含む「前期」と「後期」のデータセットに分割した。これは、系統別の選択分析データセット(図3と表S1に示されているもの)で検出可能な正の選択シグナルをもたらしたすべての内枝変異がすでに生じている日付である。次に、32のシグネチャー変異部位と28の非シグネチャー変異部位で明らかになった変異の頻度を、V1,V2,V3の初期データセットと後期データセットのそれぞれの間で比較した。

2021年3月15日から6月1日の間に、501Yの3つの系統のうち少なくとも1つの系統で、解析したゲノム部位の28/60において、観察された変異の少なくとも1つについて、頻度が2倍以上に増加していることが確認された(これらの増加はすべて、保守的なボンフェローニ多重検定補正を用いた2×2分割表において、統計的に有意であった)。この28カ所のうち19カ所では、501Y系統の1つ(14カ所)または2つ(5カ所)の変異が、異なる501Y系統を特徴づけるシグネチャー変異に最初に収束し、その後、2021年3月15日から6月1日の間に頻度が2倍になった(表S2)。観察された頻度の増加の度合いから、ORF1a/1708D(V2とV3でそれぞれ15.8倍と12.0倍以上増加したnsp3/890Dに相当)S/26S(V2で13倍以上増加)S/716I(V2とV3でそれぞれ3.7倍と13.5倍以上増加)S/1027I(V2で44倍以上増加)S/1118H(V2で4.0倍と20倍以上増加)などの変異は、V2で20倍以上増加したと考えられる。 S/1118H(V2とV3でそれぞれ4.0倍と20倍以上の増加)S/1176F(V2で19.5倍の増加)ORF3/171L(V3で11.9倍の増加)は、ORF1a/3675-3677Del、S/18F、S/417N/T E484K、S/501Yの各変異に加えて、これらの変異が発生した501Y系統のウイルスの適応度に最も大きなプラスの影響を与えると考えられるシグネチャー変異である。

同様に、非シグネチャー変異が2つ以上の501Y系統のウイルス間で収束し、2021年3月15日から6月1日の間に頻度が2倍以上になる9つのポジティブセレクションサイトの中で、ORF1b/1522I(Helicase/590Iに対応し、1. ORF1b/1522I(Helicase/590Iに対応し、V1,V2,V3がそれぞれ1.9倍、12.7倍、4.8倍に増加)S/98F(V1,V2,V3がそれぞれ2.5倍、5.3倍、6.0倍以上に増加)E71T/R(V1がそれぞれ5.8倍、10倍以上に増加)が最も適応度を高める変異であると考えられる。

2021年3月以前に501Y系統のウイルスの適応度に貢献したと考えられる収束性変異のうち、グローバルおよび系統別の正の選択分析で示唆された19/47が、2021年3月15日から6月1日の間に、少なくとも1つの系統で頻度が2倍以上になっていた。6月1日のデータセットでは、501Y系統のシグネチャーサイトにある、これまで検出されていなかった9つの収束変異(ORF1a/1001I、ORF1a/1655N、ORF1a/1708D、ORF1b/970,S/215,S/1118,S/1176F、E/71L、N/205;表S2)が、グローバルデータセット(図4)で正の選択シグナルと関連しており、これらも3月15日から 2021年6月までの間に頻度が2倍以上に増加していた。これまでに観測されたすべての501Y系統の変異の中で、これら28カ所の収束性変異は、パンデミックの現在の段階で501Y系統のウイルスが継続的に適応していくために、個々または集団で貢献していることを裏付ける最も強力な証拠となる。

図4 ポジティブセレクション、コンバージェンス、変異頻度変化の解析により、501Y系統ウイルスの適応度に寄与している可能性が高いと同定された部位のサブセットにおいて、グローバルデータで明らかになった選択シグナル

501Y系統メタシグネチャーと呼ぶ部位のサブセットとその関連するアミノ酸状態。検出された選択シグナル(FEL法)の強さは、赤い点の大きさで示されている。選択テストは、過去3ヶ月以内に収集された配列データに対して行われた(すなわち、4月にプロットされた赤い点は、1月1日から4月1日の間に採取された配列の分析を反映している)。縦棒は2020年12月1日を示す。代表的な変異の世界的な頻度を灰色で示している。これらの頻度は、イギリス、ヨーロッパ、北米におけるV1ウイルスの急速な増加に大きく影響されており、多くの場合 2001年1月以降、SARS-CoV-2のゲノム配列決定の90%以上を担当した地域である。

501Y系統の進化はどこへ向かうのか?

これらの28の収束変異が501Y系統のウイルスの適応度にどのような影響を与えているかはさておき、これらのウイルスの進化には、個々の系統のウイルス間、あるいは異なる系統のウイルス間で、これらの部位での選択による更なる変異収束が必要になるであろうことは明らかである。我々の選択分析、これまでに検出された収束パターン、そして2021年3月15日から6月1日の間に特定の収束変異を持つ501Yウイルスの頻度が上昇したことに基づいて、501Y系統のゲノム内の35箇所で最も適応的なアミノ酸の状態を示す「メタシグネチャ」を提案することができる(表S3,図4)。メタシグネチャーには、2021年3月15日から6月1日の間に頻度が増加した28の収束変異に加えて、ORF1a/3675-3677,S/69-70,S/144,S/241-243の欠失変異(異なる501Y系統間で収束を示しているが、選択分析には適さない)収束シグネチャーの置換L18F、K417N/K、N501Y(2021年3月15日までに複数の501Y系統ですでに高頻度に存在していた)が含まれる。

2021年3月15日以前、ほとんどのV1,V2,V3ウイルスは、このメタシグネチャーに含まれる変異のうち、それぞれ10,13,11を持ってた。2021年6月1日までに、17種類のV1変異株(53個のシークエンスされたゲノムで表される)がメタシグネチャーの13個のサイトに一致し、2種類のV2変異株(20個のシークエンスされたゲノムで表される)が16個のサイトに一致し、1種類のV3変異株(4個のシークエンスで表される)が14個のサイトに一致した。つまり、3つの系統すべてにおいて、メタシグネチャーに収束する3つの追加の変異ステップを経たウイルスが存在していたのである。

メタシグネチャーサイトのうち19/35がS遺伝子にあることから 2020年10月以降の501Yの異なる系統におけるメタシグネチャースパイクS遺伝子サイトの収束状況を調べることで、これらの継続的な収束パターンを最もよく示すことができる(図5)。プロトタイプのV1,V2,V3ゲノムは、メタシグネチャーの19個のS遺伝子変異のうち、それぞれ4個、4個、6個しか持っていなかったが、2021年6月1日までに、V1,V2,V3の変異株が生まれ、それぞれ7個の変異を持つようになった(図5)。

図5 501Y系統のウイルスに選択的優位性を与えると我々の解析で予測されたスパイクの19部位に複数のコンバージェンス変異を示す配列の数の週ごとの変化

この501Y系統のメタシグネチャーには、以下の変異が含まれている。18F, 26R/L/S, 69-70Del, 98F, 138HY, 144Del, 215G/H/V/Y, 241-243Del, 417N/T, 484K, 501Y, 655Y, 681L/R/H, 701V, 716I, 1027I, 1118H, 1176F, 1264L. マッチプロット(上段)は、このリストの部位に所定の数のマッチする変異を持つ、配列されたV1,V2,V3ゲノムの数を示している。典型的なV1,V2,V3の配列には、それぞれ4個、4個、6個のマッチするスパイク配列がある。シグネチャー配列のプロット(下段)は、マッチ数の多い特定のV1,V2,V3スパイク配列のハプロタイプの数を示しており、これらのハプロタイプ配列に含まれる変異のサブセットを示している。これらのプロットと一緒に掲載されているシグネチャーリストは、プロットに表されている異なるスパイクハプロタイプ配列に存在する19のコンバージェンスリストサイトの変異のサブセットを示している。「の記号はコンバージェンスリストの変異がないことを、「-」の記号はコンバージェンスリストの欠失変異の発生を、アルファベットはコンバージェンスリストのアミノ酸置換の存在を示している。


501Yの3つの系統以外に、2021年6月1日にGISAIDに登録されているすべてのSARS-CoV-2ゲノム配列のうち、Public Health EnglandまたはUS CDCのいずれかが懸念される変異株(VOC)関心のある変異株(VOI)調査中の変異株(VUI)として指定した系統に属すると分類されたものについて、501Yメタシグネチャの収束度を比較した;表S3)。これらの系統のすべてに、メタシグネチャーの変異の少なくとも1つに一致するウイルスが割り当てられてた。最も一致した配列を持つ系統は、B.1.526とB.1.621(いずれも一致数の最小値は5,最大値は7)であり、これらの系統も501Y系統のウイルスと同じ適応度ピークを迎えている可能性が示唆された。

しかし、その他の著名なVOC、VOI、VUI系統のウイルスは、ほとんど一致しなかった。例えば、B.1.617.2系統、P.2系統、R.1系統では、メタシグネチャーと最もよく一致した配列はそれぞれ3つしかなく(最もよく一致した配列はそれぞれ1つ、2つ、1つ)これらの系統のウイルスは、501Y系統のウイルスとは異なる適応度ピークを目指している可能性が高いことが示唆された。不思議なことに、B.1.617.2の姉妹系統であるB.1.617.1のウイルスのメタシグネチャーとの一致数の平均値は1個であるが、この系統にはメタシグネチャーと6箇所で一致する配列がいくつか含まれており、B.617の中の少なくともいくつかのサブ系統も501Y系統のウイルスと同じ適応度ピークを登っている可能性があることが示唆された。

501Y系統以外のSARS-CoV-2は、B.1.620に含まれており、リトアニアで初めて検出された系統(ただし、中央アフリカが起源である可能性が高い)で、現在はVOI、VOC、VUIとは見なされていない(Dudas er al)。 B.1.620のメンバーのメタシグネチャーの平均的なマッチ数は8個(ORF1aの3675-3677Del、S遺伝子の26S、69-70Del、241-243Del、484K、681H、1027I、1118H)であるが、この系統の中には10個のマッチを持つ配列もあり、この系統のメンバーは501Y系統のウイルスと同じ適応度のピークにいること、そしてその頂上への予測可能な経路を発見していることを示唆している。

したがって、現在進行中の501Y系統のウイルスの進化的収束の頂点は、501Y系統のメタシグネチャー変異のサブセットを持つ変異株を次々と生み出すことになると予想される。最も重要な問題は、35のメタシグネチャーサイトの全てに変異を持つ超変異株の出現を正しく予測しているかどうかではない。むしろ、501Y系統のメンバーやB.1.620,B1.621,B1.526などの系統のメンバーの両方で発生し続けている収束的な変異は、これらすべてのウイルスが現在、適応度ランドスケープの同じ広いピークにいて、積極的にスケーリングしていることを意味しているSARS-CoV-2の変異株が最終的にこのピークを越えれば、現在分かっているものよりもはるかに大きな問題になる可能性がある。なぜなら、それらの変異株は、伝達性の増加、毒性の変化、集団免疫から逃れる能力の増加など、あらゆる組み合わせを持つ可能性があるからだ。

この予測が正しいかどうかは時間が経ってみないとわからないが、試験管内試験の進化を利用して、この適応度ピークの適応的な頂上にあるいくつかのアミノ酸配列の特徴を推測することも可能なはずである。議論を呼ぶ可能性はあるものの、明らかなアプローチとしては、V1,V2,V3系統の現在の多様性を代表する変異の組み合わせを持つ、合成または採取した生のウイルスを実験室で複製感染させることが挙げられる。これらの感染は、過去に感染した人やワクチンを接種した人の混合血清の存在により、遺伝子の組み換えが起こり、組み換えによって生じた、入力された免疫回避変異、細胞侵入変異、複製に影響を与える変異の組み合わせを、選択によって迅速に選別するための適切な条件を作り出すことができる。最終的にこれらの試験管内感染を支配するキメラは、間違いなく細胞培養に最適化されたものになるであろうが(ヒトの間での感染や体内での複製に最適化されたものではない)それにもかかわらず、継続的なパンデミックに関連する多くの突然変異の組み合わせを持っているはずですし、パンデミックが終了する前に発生する可能性のある最も気になる突然変異の組み合わせのいくつかも含まれているはずである(おそらく501Y系統のウイルスが頻繁に組み換えを開始した場合は特にそうであろう)。たとえ、発見された変異の組み合わせが3つや4つであったとしても、急速に増加しているSARS-CoV-2のゲノムサーベイランスデータの中から、ワクチンから逃れる可能性のある変異株や、その他の潜在的に問題のある変異株を探す際に、何を探し始めるべきかを示す貴重なヒントとなるだろう。

方法

グローバルなSARS-CoV-2配列データセット

遺伝子やペプチドが選択の対象となるため、特に明記しない限り、すべての解析は単一の遺伝子(例:S)またはペプチドをコードする遺伝子セグメント(例:nsp3)に対して行われた。大量のシーケンスデータ(1,000,000塩基以上)を体系的かつスケーラブルに扱うために、オープンソースのバイオインフォマティクスワークフローを開発した(covid19.galaxyproject.org)。2019年にSARS-CoV-2が出現するまでは、数千のウイルス配列を用いた自然淘汰の分析は「大規模」と考えられていた(Murrell er al 2013)。我々のアプローチは、これまでの技術水準を大幅に上回るものである。また、選択圧の時間的な傾向にも関心があったので、すべての配列をサンプリング日に基づいて3か月間隔に分割し 2020年3月から 2021年5月までの各月1日を起点としたスライド式の時間軸を分析した。

GISAIDの配列データをしてキュレーションを行い、曖昧な塩基や未解決の塩基を多く含む配列を削除し、23のゲノム領域ごとにユニークなハプロタイプをすべて特定して個別に分析した(3C, E、エンドルナーゼ、エキソヌクレアーゼ、ヘリカーゼ、リーダー、M、メチルトランスフェラーゼ、N、nsp2,nsp3,nsp4,nsp6,nsp7,nsp8,nsp9,nsp10,ORF3a、ORF6,ORF7a、ORF8,RdRp、S)を同定した。)

それぞれのユニークなハプロタイプは、アウトオブフレームシーケンスエラー(一般的ではないが、GISAIDにはこのようなエラーを持つ配列が数千個存在する)を修正できる手順でアミノ酸配列に翻訳され、その後、これらの翻訳配列は、急速に進化するRNAウイルス用に開発されたスコアリングマトリックス(Nickle er al 2007)を用いて、BioExtパッケージ(github.com/veg/bioext)のbealignツールを使用してNCBI SARS-CoV-2ゲノムリファレンスにマッピングされた。参照ゲノムに対する挿入を記録していない(広く流通している株で挿入の証拠があるものは存在しないため、この点は現場では一般的な手法である)。そのため、個々の遺伝子および遺伝子セグメントの参照配列にマッピングすることで、下流の解析に適した複数の配列アライメントが生成された。これらのデータは、変異頻度の集計や、特定の変異シグネチャーに合致する変異を持つハプロタイプの追跡に直接使用された(https://observablehq.com/@spond/spike-trends参照)。

数万から数十万のハプロタイプを直接比較分析することは技術的に非常に困難であるが、利用可能な選択シグナルの大部分を抽出することに関しては必要ない。これには2つの理由がある。第一に、個々のゲノムの変動の多くは、人工的なもの(シーケンスやアセンブリのエラー)あるいは生物学的に有益ではないもの(少数の系統にしか存在しない)である。第二に、このような環境下での解析では、ウイルス進化のよく知られた特徴(Poon et al2007)を考慮する必要がある。すなわち、末端の枝には、個々の宿主の中の「行き止まり」の突然変異イベントが含まれており、集団レベルでは不適応または有害であるにもかかわらず(Pybus er al)。 一方、木の内部の枝にマッピングされた変異は、少なくとも1つの伝搬イベントを含んでいる必要があるため、深刻な不適応を起こす可能性ははるかに低くなる。そこで、比較分析の対象となる配列ハプロタイプの数を減らすために、3段階の圧縮を行った。

同一の配列のコピーは残しなかった。その代わり、すべての同一配列を1つのハプロタイプで表した。これは、進化速度の比較系統分析では、同一の配列を含めることで情報が得られないためである。

推定上の配列エラーと「問題のある」配列をフィルタリングした。N個の配列のうちX個の配列に生じた突然変異(ユニークなものだけでなく、すべての配列を数える)は、配列エラー率を1:10,000と仮定して、ある部位でX個以上のエラー突然変異を観測する二項確率が十分に高い場合(ここではp > 0.999)「エラー」と見なされた。例えば、N = 500,000であれば、Xは29となる。つまり、50万分の30以上の配列に突然変異が起こらない限り、その変異はエラーとして扱われ、系統的に情報を与えないギャップ文字(つまり「-」)に置き換えられていたことになる。このルールの例外として、単独で考えると除外されてしまうような2つの稀な突然変異aとbが、2つ以上の配列で同時に発生した場合(つまり、稀な連結突然変異)があったが、偶然に二重に発生する確率は二次関数的に小さいので、このような突然変異を残した。さらに、すべての配列における参照配列との差異の分布が平均値M、標準偏差Dであると仮定して、M + 5D以上の変異がある配列をすべて削除した。これらの配列は、「異常に」変異しており、シーケンシング装置の汚染、広範なシーケンシングエラー、シーケンシングアセンブリに関連した組み換えの可能性があると判断した。

残りのフィルタリングされたハプロタイプを、ペアワイズ配列の類似性を計算するためのTN93距離を用いて、完全な連鎖に基づいてクラスターにグループ化した(Rhee er al)。

例えば、2021年3月1日から 2021年5月31日の間にサンプリングされたスパイク配列を考えてみよう。534,345個の配列が最初のステップ1フィルターを通過した。ステップ3aのフィルターを経て、これらは63,559のユニークなハプロタイプに減少した。ステップ3bでエラー修正とハプロタイプ再圧縮を行った結果、41,103個のハプロタイプが残った(修正された推定シーケンスエラーを反映して「-」文字が導入され、「-」が解決された文字と一致した)。ステップ3cでは、これらのハプロタイプを5,147のクラスターに圧縮し、それぞれのクラスターから代表的なハプロタイプの配列を1つ得て、下流の選択分析に使用した。

次に、RapidNJ (Simonsen et al 2008)を用いて、残ったハプロタイプ配列の系統樹を再構築した。

HyPhy v2.5.31 (www.hyphy.org/) (Kosakovsky Pond et al 2020)を用いて一連の選択分析を行った。このバージョンのHyPhyには、大規模なSARS-CoV-2データセットに対応するために特別に導入された多くの最適化が含まれている。2020年3月以降、1,000葉以上の木を対象とした最適化により、HyPhyは以前のバージョンの10~25倍の配列を処理できるようになった。我々は、SLAC(置換マッピングのための(Kosakovsky Pond and Frost, 2005))FEL(pervasive positive diversifying and negative selection detectionのための(Kosakovsky Pond and Frost, 2005))MEME(episodic positive diversifying selection detectionのための(Murrell et al 2015))分析を、推測される木の内枝にマッピングされる変異のみを考慮するように制限して行った。これらの解析では,p値や,個々のコドン部位におけるdSおよびdNの割合や比率が推定された。

系統別データセット

RASCLツール(Faria et al 2021; Lucaci et al 2021; Tegally et al 2021)を用いて、ダウンサンプルされたV1,V2,V3の遺伝子および遺伝子セグメントのデータセットをより詳細に解析した。与えられた遺伝子または遺伝子セグメントについて、個々の系統(すなわち、V1,V2またはV3)からのすべての配列および参照配列(対応する遺伝子/ペプチドコード化遺伝子セグメントにおけるGISAIDユニークハプロタイプ;図6)を、多様性の低いウイルス配列に最適化されたHIV-BETWEEN-Fスコアリングマトリクスを用いたbealignを用いて、その遺伝子/ペプチドコード化遺伝子セグメントのGenBank参照ゲノムタンパク質配列にアラインした。

図6 選択分析の際に、系統樹が重ならない2つの枝に分割された例

 

前景のクレード(ここではオレンジ色で示されている)が背景の木(青色で示されている)の中に入れ子になっている。本研究では、V1,V2,V3系統のいずれかの配列を相互に関連付けるサブツリーを前景クレードとし 2020年10月15日以前に採取されたSARS-CoV-2の遺伝的多様性を代表するアルゴリズムで選択されたSARS-CoV-2参照配列に501Y系統の配列を関連付けるツリーを背景クレードとした。

我々が行ったコドンベースの選択分析では、同一の配列を含むことではパワーが得られず、本質的に同一の配列を含むことではパワーが最小となるため、tn93-clusterツール(https://github.com/veg/tn93)を用いたペアワイズ遺伝的距離の完全連鎖クラスタリングを用いて、V1,V2,V3,および参照(GISAID)配列をフィルタリングした。グループ内の他のすべての配列からD遺伝的距離(Tamura-Nei 93ヌクレオチド置換モデルを用いて決定)以内にある配列のすべてのグループを、グループ内でランダムに選ばれた1つの配列で表した。Dは、系統特異的な配列セットでは0.0001,GISAIDの参照配列(または「バックグラウンド」)セットでは0.0015とした(図6)。系統ごとに 2020年10月15日以前に作用した選択的プロセスの影響と、それ以降に作用した選択的プロセスの影響を分離することに特に関心があったので、参照配列セットは2020年10月15日以前に採取された配列に限定した。2020年10月15日は、SARS-CoV-2が進化する上での選択的環境が大きく変化したと考えられる日である。

raxml-ngを用いて、デフォルトの設定(GTR+Gヌクレオチド置換モデル、20本のスタートツリー)で、結合した配列データから最尤ツリーを推定した。結果として得られた木の内部の枝を、テストに使用する重複しない2つのセット(図6のオレンジと青の枝など)に、Newick木に加えられたコード化されたアノテーションによって分割した。一部の遺伝子/ペプチドをコードするセグメントでは系統学的な分解能が低いため、すべてのセグメント/遺伝子ですべての分析ができるわけではない。特に、V1系統、V2系統、V3系統の配列が特定の遺伝子/セグメントにおいて単系統ではなく、内部の枝が前景の系統に属するものとしてラベル付けされていない場合には、このような結果になる。

系統別選択解析

HyPhy v2.5.31 (www.hyphy.org/) (Kosakovsky Pond et al 2020)を用いて、一連の選択分析を行った。グローバルデータセットの解析と同様に、系統別選択解析では内部分岐変異のみを考慮した。

2021年4月20日までにGISAIDに寄託された配列を含むV1,V2またはV3クレードデータセットの内枝に対して、エピソード的多様化(MEME)(Murrell et al 2015)および広汎な正または負の選択(FEL)(Kosakovsky Pond and Frost, 2005)に関するコドンサイトレベルの検定を行い、異なるSARS-CoV2遺伝子間の個々のコドンサイトにおける選択的ダイナミクスを推測した。解析はデフォルトの設定で行い、–branches Internalコマンドラインフラグを用いて、dN/dSテストを内部ブランチのみに制限した。複数のフレームで発現しているヌクレオチドを含まないコドン部位で検出された選択シグナルのみを有意とした。

他の宿主種における関連コロナウイルスの進化に基づいて、SARS-CoV-2に生じると予想されるコドンのモデルベース予測を、デフォルト設定でPRIME法http://hyphy.org/w/index.php/PRIME を用いて行った。

これら全ての解析結果をPythonスクリプトを用いて結合し、ObservableHQ(https://observablehq.com/@spond/n501y-clades)のいくつかのオープンソースライブラリを用いて可視化した。

分析の限界

ここで採用したセレクション分析は、特定のタイプのセレクション(例:方向性のあるセレクション)を検出するのには適していないが、その場合は他の特殊な技術(例:DEPS法)を使用することができる。また、今回の解析では、厳しいフィルタリングを行ったにもかかわらず、検出された選択シグナルの中には、シーケンスエラー、遺伝子組み換えの未検出、系統推論の不正確さなどによる偽陽性が含まれていた可能性がある。同様に、SARS-COV-2ゲノムの分岐度が比較的低いことから、正の選択(すなわち、個々のコドン部位で十分な同義置換と非同義置換が行われていること)を検出する力が不足していることが、SARS-CoV-2配列の正の選択を検出する上での継続的な問題となっていた。さらに、今回の比較解析では、時間的・空間的なサンプリングの偏りや、ウイルスがサンプリングされてからその配列が公開されるまでの時間差が国によって異なることも影響している。

適応性のある収束変異の同定

2021年3月以前に、いずれかの501Y系統のウイルスに生じた変異が、他の501Y系統のウイルスのシグネチャー変異状態に収束する501Y系統シグネチャー変異部位のリストを作成した。このリストに、2021年3月以前に発生した収束変異が、2つ以上の異なる501Y系統間で観察され、内部の木の枝に沿って十分な収束性の非同義変異が発生した(つまり、末端の木の枝にマッピングされた変異を除く)MEMEまたはIFELのp値が0.05未満の正の選択シグナルが発生した、非シグネチャー変異サイトのリストを追加した。次に、2021年3月15日から6月1日の間に採取されたV1,V2,V3配列において、構成する収束変異の頻度が、それ以前にこれらの系統で見られた頻度と比較して2倍以上になっているかどうかを、この統合された「収束リスト」で検証した。次に、2021年3月以前に収束型突然変異が検出されなかった501Y系統のシグネチャー突然変異部位について、このテストを繰り返した。最後に、これらのテストで分析された収束変異のうち、(1)2021年3月15日から 2021年6月1日の間に個々の501Y系統内で頻度が2倍以上になり、(2)グローバルSARS-CoV-2配列データセット(IFEL p値<0. 05)または系統別データセットのいずれか(MEME/IFEL p-value < 0.05)において、ポジティブセレクションのシグナルを示したシグネチャー変異部位または非シグネチャー変異部位に生じたものを、501Y系統ウイルスの適応度にポジティブな影響を与える可能性が最も高い変異として同定した。この変異リストは、501Y系統の特徴である欠失変異のリストと、3つの501Y系統の特徴的な変異であるL18F、K417N/K、N501Yと統合された。これらの変異は、複数の501Y系統ですでに高い頻度で存在しているため、2021年3月15日から6月1日の間に頻度が2倍になることはなかった。この最終的な変異リストを501Yメタシグネチャーと呼んでいる。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー