SARS-CoV-2の進化に明確な型の証拠はない

強調オフ

COVIDメカニズムウイルス学・その他のウイルスパンデミック予測

サイトのご利用には利用規約への同意が必要です

No evidence for distinct types in the evolution of SARS-CoV-2

www.ncbi.nlm.nih.gov/pmc/articles/PMC7197565/

要旨

Tangらによる最近の研究では、進行中のCoV病2019パンデミックにおいて、2つの主要なタイプの重症急性呼吸器症候群-コロナウイルス-2(CoV-2)が進化し、これらのタイプのうちの1つが他のタイプよりも「攻撃的」であると主張していた。これらの主張の反響と、これらのタイプの論文の激しいメディア報道を考えると、我々はTangらによって提示されたデータを詳細に検討し、その論文の主要な結論が立証できないことを示している。また、他のウイルスアウトブレイクの例を用いて、ウイルス変異の機能的効果の存在や性質を証明することの難しさを論じ、パンデミック時のゲノムデータの過大な解釈を避けるよう助言する。

キーワード COVID-19、 SARS-CoV-2、 適応

2019年12月下旬の肺炎アウトブレイク(WHO 2020)の報告を受けて、2020年1月10日に初の重症急性呼吸器症候群-コロナウイルス-2(SARS-CoV-2)ゲノム配列が公開された。ウイルスゲノムのリアルタイムシーケンスは、パンデミックの感染履歴を理解するのに役立ち、病原体がどのように進化しているかについての洞察を提供することができる(Gardy and Loman 2018)。さらに、CoV病2019(COVID-19;Rambaut et al 2020)のために提案されているような動的命名法システムは、追跡目的に有用であり得る。

2020年3月12日までに、SARS-CoV-2の396の高品質ゲノムが公開され、合計301のユニークな非同義置換、すなわちアミノ酸置換に関連する変異が表示されている(図1)。これらのデータは、例えば、異なる地理的地域への複数の導入を実証するなど、パンデミックの歴史に関する有用な疫学的洞察を提供してきた(Deng et al 2020;Gudbjartsson et al 2020)。これらのゲノムを用いて、パンデミックの最後の共通祖先の時期は2019年11月下旬頃と推定されており(Rambaut 2020)、その日以降の感染数は指数関数的に増加している。ウイルスの進化速度の推定値は、1年あたりの部位あたりの置換数が8×10-4置換(Rambaut 2020; Su et al 2020)であり、これはSARS-CoV-1や中東呼吸器症候群(MERS; Zhao et al 2004; Dudas et al 2018)から推定されたものとほぼ一致しており、インフルエンザBについて推定されたものの約3分の1である(Virk et al 2020)。

 

図1.
2020年3月12日までのSARS-CoV-2パンデミック配列に見られる遺伝的変異の可視化。非同義(ピンク)および同義(緑)の置換(武漢-Hu-1、GenBankアクセッション番号MN908947に関して)は、各行で色で表され、行の横にはゲノム位置と対応するORFがラベル付けされている。突然変異は、各列がサンプルであり、各行が指定されたゲノム位置でのユニークな変異であるグリッド形式でプロットされている;突然変異は、複数のサンプルで観察されたもののみを表示するようにフィルタリングされている(同義でないものが74個、同義でないものが41個)。最も一般的な突然変異のいくつかのゲノム位置は、プロット上で直接ラベル付けされている。プロットはRのd3heatmapパッケージを使用して作成し、サンプルの列はWardの方法を使用してクラスタ化した。


SARS-CoV-2遺伝子データの解析は、Tangらによるジャーナル「National Science Review」に2020年3月3日に掲載された(2020)。この研究は、SARS-CoV-2の誤った解釈によって到達したと思われる2つの主要な主張を行っており、論文には追加の方法論的限界が含まれている。それぞれの主張を順番に検討する。

1. 最初の主張

本研究では、今回のパンデミックではSARS-CoV-2には明確に定義可能な2つの「主要なタイプ」が存在し、それらの感染率には差があることが示唆されている。Tangらはこの2つのタイプを「L型」と「S型」と呼んでいる。

2つの主要なタイプ(L型とS型):S型は先祖代々のものであり、L型はS型から進化したものである。興味深いことに、S型とL型は、8、782(ORF1ab: T8517C、同義)と28、144(ORF8: C251T、S84L)の位置にある2つの緊密にリンクされたSNPだけで明確に定義することができる’。

1つの非同義置換、特に機能的意義が評価されていない1つの非同義置換は、明確な「型」や「主要な型」を定義するのに十分ではない。2020年4月9日現在、アウトブレイクで同定された2、334個の非同義置換があり、CoV-GLUEリソース(http://cov-glue.cvr.gla.ac.uk)にカタログ化されている(Singer er al)。 現時点では、これら2、334個の点突然変異のいずれかが、宿主内感染または感染率の機能的文脈において何らかの意味を持つという証拠はない。さらに、純粋に2つの突然変異に基づいて「型」を定義することを選択した場合、これらの「型」がその2つの突然変異によって異なるのは当然のことである。

しかし、Tangらはさらに、これらの2つのタイプは伝達率が異なると主張している。

これまでのところ、我々が調査したSARS-CoV-2ゲノムの中では、L型はS型から派生したものであるにもかかわらず、L型(約70%)の方がS型(約30%)よりも有病率が高いことがわかった。このパターンは、S型よりもL型の方が感染率が高いことを示唆している。

論文の要旨には、さらに次のように書かれている。S型は進化的に古く、攻撃性が低い。しかし、特定の突然変異を持つサンプルの大半が見つかったからといって、その突然変異を持つウイルスがより感染しやすいという証拠にはならないことを理解することが重要である。このような提案をするためには、最低でも、感染率が等しいと仮定したヌル分布の下での予想と比較する必要がある。著者らはこれを行っていないので、この提案を行うには十分な証拠がなく、したがって、感染率に差があるというのは正しくない(そして、我々は無責任であると主張する)。ゲノム配列の解析だけでは、アミノ酸置換の可能性のある影響を評価し、あらゆる機能的効果を評価する慎重な実験を行わずに、ウイルス表現型に対する突然変異の機能的効果を実証するには不十分である。この突然変異がある場合とない場合の観察されたサンプル数の違いは、確率的な疫学的効果や、場所間でのウイルスゲノムのサンプリングの偏りによるものである可能性がはるかに高いである。

パンデミックが発生すると、以前は感染していなかった新しい地域や国にウイルスが拡散するため、創始者効果が突然変異の頻度に大きな影響を与えることになる。少数のウイルスコピーが局所的なパンデミックに広がると、最初のウイルス感染に存在していた突然変異は、たとえ感染の種となった特定の地理的地域ではまれであったとしても、急速に非常に一般的なものになる。これは、SARS-CoV-2のような新型ウイルスによるアウトブレイクの場合に特に当てはまる可能性が高いと考えられる。このような創始者効果は、例えばチクングニヤウイルスや複数の局所的なHIVのパンデミックなど、以前のウイルスのパンデミックでも観察されている(Rambaut er al 2001; Foley er al  2000; Bhattacharya er al)。 2007; Rai er al)。 2010; Tsetsarkin er al)。 2011)。

基本的な進化論では、選択的に中立な突然変異は、遺伝的ドリフトの過程を通じて時間の経過とともに頻度が変化すると予測されている(Wright 1942)。ウイルスの大発生では、ある感染者から別の感染者への各感染イベントはランダムな確率的イベントであり、一部の感染者は他の感染者よりも多くの頻度で感染するか、または少ない頻度で感染する。感染者の中には、様々な理由で他の感染者よりも高い感染率を示すものがある。このような「スーパー・スプレッダー」は、社会的接触率が高いか、あるいはより多くのウイルスを長期間にわたって排出している可能性がある。このような小規模な疫学的現象が時間の経過とともに蓄積され、発生時の突然変異の頻度に大きなばらつきが生じる。また、感染した宿主が少なければ少ないほど、これらの小規模な変異がウイルス集団の突然変異の頻度に影響を与える可能性が高いことを理解することも重要である。問題の2つの突然変異は、感染者が少なかった時期に発生したように見えることから、その頻度は遺伝的なドリフトの影響を特に受けている可能性が高いと考えられる。

対立遺伝子頻度の分析は、配列決定されたウイルスゲノムが全世界の集団のランダムなサンプルではないことを考慮しなければならず、偏りがある可能性がある。SARS-CoV-2パンデミックでは、サンプリングの偏りは2つの方法で生じる。第一に、シークエンシングのための感染症のサンプリングは、それらが発生した国によって大きく偏る。例えば、2020年3月9日までのCOVID-19の確定症例の80%は中国から来ていたが、SARS-CoV-2のフルゲノム配列のうち中国由来のものは40%に過ぎなかった。第二に、接触トレーシングが症例検出の重要な推進力となるため、検出されたサンプルと配列決定されたサンプルの間には、疫学的に関連性があることが多いため、相関関係が存在することになる。サンプリングされたゲノム間の独立性の欠如は、事実上、観察されたハプロタイプの擬似的な複製を発生させる。これらの要因が組み合わさって、特定の遺伝子型や突然変異のオーバーサンプリングを引き起こし、観測された突然変異の頻度にばらつきが加わる。これは、自然淘汰の作用を伴わずに時間の経過とともに観察された突然変異頻度の変化を引き起こし、疫学によって駆動される突然変異頻度の変動をさらに誇張する可能性がある。

過去に発生した2つのウイルスの例は、これらの要因を実証している。エボラとSARS-CoV-1の発生では、少数の突然変異が高頻度に上昇することが観察された。どちらのウイルスにおいても、突然変異の機能的効果を明確に示すことは困難であり、いくつかの直感的ではない観察もあった。

2013-16年のエボラ発生時のGPタンパク質におけるA82Vのアミノ酸置換は、突然変異の機能的効果を実証することの難しさを示している。エボラ発生時の3つの新しいアミノ酸置換は、配列決定された全ゲノムの90%以上で発見される頻度が高くなっている。NP遺伝子のR111C、GP遺伝子のA82V、L遺伝子のD759Gである。A82Vの置換は、受容体結合界面に位置していたため、特に注目された。しかし、この頻度の上昇だけでは、この突然変異の機能的意義についてしっかりとした結論を出すには不十分であった。A82V置換の意義を実証するために、Diehlら(2016)は多数の追加解析を行った。その中には、タンパク質に対する変化の構造的影響をin silicoで予測すること、ウイルス負荷、地理的位置、および医療へのアクセスを制御して、症例致死率に対する変異の影響をモデル化すること、およびこの変異の有無にかかわらず、3つの異なるヒトおよび9つの異なる非ヒト細胞株を用いた試験管内試験(in vitro)実験的感染が含まれていた。A82Vに置換されたウイルス感染では死亡率が高く、変異がヒトおよび霊長類細胞株の感染性を高めたという重要な証拠が見つかったにもかかわらず、著者らは、この変異が感染の拡大と発生の重症化に寄与していると結論づけることはできなかった。

しかし,頻度の増加は,EBOVがギニアからシエラレオネに移動した際の創始者効果や,GP-A82Vのギニアへの複数回の再導入などの確率的効果にも起因する可能性があるため,この仮説について結論を出すことは困難である.

同時に、Urbanowiczら(2016)は、A82Vがヒト細胞株の感染性を増加させ、コウモリ細胞株の感染性を減少させたことを「A82Vがフィットネス適応であるという仮説を支持する」ことも明らかにした。しかし、追跡研究では、マカクの実験的感染において、変異がより高いウイルス力価または脱落率をもたらす証拠を見つけることができなかった(Marzi er al)。 2018)。生きた動物モデルと細胞株との間のこの不一致の理由はまだ理解されていないが、これはA82V置換の機能的意義が未解決のままであることを意味する。

同様の例が、SARS-CoV-1アウトブレイクに見られる。発生の初期段階では、オープンリーディングフレーム8(ORF8;SARS-CoV-2でS型およびL型を定義するために使用されたS84L置換型と同じORF)内の29ヌクレオチド(nt)欠失が同定され、この欠失を持つウイルスはその後、発生内で優勢になった(The Chinese SARS Molecular Epidemiology Consortium 2004)。この突然変異により、ORF8は2つのORFに分裂した。ORF8aとORF8bである。この欠失は、ORF8が機能的に重要でない中立的なものであるか(The Chinese SARS Molecular Epidemiology Consortium 2004)、または適応的なものであり、ヒトにおけるSARS-CoV-1の拡散を促進するものであるという仮説が立てられた(例:Chen er al)。 2007; Wong er al)。 2018)。しかしながら、1匹のコウモリおよび2匹のヒト細胞株の実験的感染は、29nt欠失がSARS-CoV-1の複製能力を有意に低下させることを示した(Muth et al 2018)。さらに、完全なORF8遺伝子の欠失は、複製能力のさらに大きな低下を引き起こした。この明らかに強く欠失性のある突然変異の広がりは、パンデミック初期の創始者効果の結果であるという仮説が立てられた(Muth et al 2018)。

これらの要因と例を組み合わせると、特定の突然変異の頻度は、それ自体が機能的意義を示すものではないことを示している。

2. 第二の主張

Tangら(2020)は、データ中の非同義置換と同義置換の頻度を比較し、アウトブレイクで非同義置換の頻度を抑制する選択の有意な証拠があると主張している。この分析は3つの理由で欠陥がある。

第一に、この図の数字には意味がない。提示されたデータによると、7つの(同義の)置換が50%以上の頻度で派生しており、これらの突然変異のうち4つは集団の中で95%以上の頻度で派生している。図2のツリーをざっと見ただけでは、これが真実ではないことがわかる。ここでいう「派生」とは、発生の最後の共通祖先のゲノムから離れた配列変化を意味するはずである。4つの突然変異が95%以上の頻度で派生するためには、アウトブレイクツリーの残りの部分に姉妹系統として分岐しているサンプルが少数存在する必要がある。しかし、そうではない。

 

図2.
2020年3月2日時点のSARS-CoV-2アウトブレイクデータの系統樹。ツリーはRAXMLソフトウェア(Stamatakis 2014)を使用したCoV-GLUEリソースによって生成された。青く着色された枝と先端はORF8のコドン84にセリンがあり、赤い先端と枝はロイシンがある。


Tangらが提示する結果を得る唯一の方法は、先祖状態を、発生の最後の共通祖先ではなく、発生の最新の共通祖先と最も近いコウモリサルベコウイルスRaTG13として定義することである。SARS-CoV-2およびRaTG13の最も最近の共通祖先は、何十年も前に存在していた(Boni er al)。 このように、多くの突然変異が、特に同義部位において、これらの推定される2つの祖先状態を分離している(図3)。

 

 

図3.

時計のような突然変異率を仮定して、Tangら(2020)の表1からサイトごとに推定された発散値を用いて、非同義部位(左)と同義部位(右)から推定した系統樹の模式図(縮尺なし)。SARS-CoV-2アウトブレイクの最後の共通祖先(LCA)は、同義部位よりも非同義部位の方が、コウモリに感染したRaTG13サンプルと共有するLCAにはるかに近い。RaTG13およびGuanandong(GD)Pangolin-CoVサンプルのGISAIDによるアクセッション番号は、それぞれEPI_ISL_402131およびEPI_ISL_410721である。


Tangらは、現在の発生の非常に有益な系統樹や、各サンプルに関連する時間的情報を無視して、各突然変異の祖先状態を独立して推定している。この方法は、独立した祖先を持つリンクされていない突然変異を持つ自由に組み換えられた種の突然変異の祖先状態を推測するために、はるかに近縁のアウトグループ種を使用する場合にのみ意味がある。さらに、そのような方法は、先祖状態を推論する際に内在する不確実性(例えば、est-sfs; Keightley and Jackson 2018)を組み込むべきであり、Tangらの実装ではそれが行われていない。

組換えがないと仮定したウイルス発生のコンテキストで先祖状態を推論するこの欠陥のある方法を実装することは、「高頻度に派生する突然変異」は、実際には、推論された先祖状態に突然変異して戻ってきた発生中の新しい突然変異にすぎないことを意味している。これは、「派生」突然変異の進化的に無意味な定義を生み出している。

Tangらは、7つの同義置換と1つの非同義置換が0.5以上の派生頻度を持っていると主張している。しかし、同義部位は、最も近縁のコウモリ配列RaTG13(図3)に対して非同義部位よりも20倍も発散しているため、これら2つの祖先状態の間の差は、同義部位の方がはるかに大きい。したがって、同義置換は非同義置換よりも誤分極化しやすい。これは、発生中の新しい同義置換は、新しい非同義置換よりも、木のこの深い祖先の状態に突然変異して戻ってくる可能性がはるかに高いからである。したがって、この欠陥のある「派生」の定義を使用すると、そのような選択が発生していなくても、浄化選択に似た高頻度の同義置換の偶発的な過剰が観察されることになる。

さらに、Tangらの図2でのこれらのデータの表示方法は、たとえ彼らの方法論が賢明で、そのような選択がなかったとしても、浄化的選択が作用していることを偽って示唆している。彼らの図のバーの高さは、各頻度での生の突然変異の数を、各クラスの突然変異の数のためにバーの高さをスケーリングせずに比較している。母集団の中では同義置換よりも非同義置換の方が多く、自然選択の作用に関係なく、ほとんどの置換は母集団の中で低頻度であると予想されるため(Fay and Wu 2000)、このプレゼンテーションでは常に低頻度の非同義置換が比例して多く存在するように見える。

Tangらは、彼らの結果を解釈する際に、配列決定の誤りがシングルトンの非同義置換の相対的な過剰のドライバーになる可能性を考慮していない。シーケンシングエラーは稀であり、伝達されることができないため、頻度が低くなるが、実際の突然変異は伝達される可能性があるため、どのような頻度でも起こり得るため、この可能性は重要である。さらに、浄化選択は真の突然変異にのみ作用し、配列決定エラーには作用しないので、真の突然変異として観察されない強い欠失性/致死的な非同義置換が配列決定エラーとして現れる可能性がある。したがって、配列決定エラー変異は、同義語に対する非同義語の比率が高くなり、これらの変異は低頻度になる可能性が非常に高い。このパターンは、循環する変異に対する精製選択の作用を模倣し、非同義置換の頻度を抑制するだろう。

より技術的な点では、Tangらは、ソフトウェアPAML(Yang 2007)を使用して選択パラメータを推定し、SARS-CoV-2と他の関連CoVとの間の発散における正の選択の証拠を探した。PAMLは同義率の変動を認めていないが、彼らは論文の中で突然変異のホットスポットがあると考えていることを明示的に述べている。最近の研究では、このような同義率変動が発生した場合、陽性選択推論の偽陽性率が許容できないほど高いことが示されている(Wisotsky er al)。 2020)。したがって、同義率変動が本当に存在する場合、SARS-CoV-2の系統内で陽性選択のシグネチャを確実に同定するためには、突然変異率変動をモデル化した手法を使用しなければならない(例えば、Hyphyパッケージの多くのモデルによって提供されている ・Pond and Muse 2005)。

上記の欠陥を考えると、Tangらの主張は明らかに根拠のないものであると考える。この論文(最後に数えた時点で186件の記事)に対するメディアの関心の広さと、ソーシャルメディア上での多くのコメントは、SARS-CoV-2の攻撃性の増加という主張が、パンデミックの重要な時期にすでに不必要な懸念と混乱を引き起こしていることを示唆している。

最近の論文では、SARS-CoV-2の3つの「タイプ」が提案されており(Forster er al)。 2020)、メディアでもかなりの注目を集めている。その論文では、これらの「タイプ」間の機能的な違いを主張していないが、上で議論された問題の多くは、本研究にも再び当てはまる。Forsterらが作成したネットワークは、発生の祖先状態を推測するためにRaTG13コウモリサレベコウイルスのサンプルを使用している。ウイルスツリーによって与えられた時間的情報と、RaTG13とSARS-CoV-2を分離する進化の数十年を無視することによって、このネットワークで推定されたアウトブレイクの祖先は間違っている可能性が高い。ネットワーク内のどのクラスタをどのくらいの数のクラスタと命名するかは、各ノードに属するサンプル数とその周辺のサンプル数に基づいて選択された。この方法論は、先に述べたサンプリングバイアスがこの分類の原動力となっている可能性が高いことを意味する。

展開されている病気のアウトブレイクを迅速に公表することは非常に重要であるが、結果を迅速に公表するためには、徹底した独立したピアレビューを回避すべきではない。現在のウイルス学に対するメディアの関心の高さは前例のないものであり、迅速なオープンアクセス研究が最も重要である一方で、研究者はデータの過剰な解釈や結果を説明するために使用される言語に注意を払わなければならない。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー