SARS-CoV-2のホットスポット変異は逆向き反復配列およびCpG島座に有意に富む

サイトのご利用には利用規約への同意が必要です

ウイルス学

SARS-CoV-2 hot-spot mutations are significantly enriched within inverted repeats and CpG island loci 

https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbaa385/6042389

掲載:2020年12月21日 記事履歴

要旨

SARS-CoV-2は、ヒトにCOVID-19病を引き起こすニドウイルス目(Coronav逆向き反復配列idae)のウイルスである。膨大な科学的努力の結果、これまでに何千ものウイルス株が配列決定されており、SARS-CoV-2ゲノムのバイオインフォマティクス研究の基盤となっている。本研究では、SARS-CoV-2の高頻度変異を調べ、その変異が逆向き反復配列(IR)遺伝子座やCpG島と重なっているかどうかを系統的に解析した。

その結果、SARS-CoV-2のホットスポット変異は、逆向き反復配列とCpG島の両方に有意に濃縮されていることが明らかになった。このことは、ゲノムの不安定性におけるそれらの役割を指摘しており、SARS-CoV-2ゲノムのさらなる変異駆動を予測している可能性がある。

さらに、CpG島はウイルスORFの上流に強く存在することから、転写やウイルスのライフサイクルに重要な役割を果たしている可能性が示唆された。これらの遺伝子座のハイパーメチル化は、ウイルスORFの転写を減少させ、病気の進行を抑制する可能性があると考えられた。

SARS-CoV-2,逆向き反復配列、CpGメチル化、ホットスポット

課題部門 ケーススタディ

序論

進行中のコロナウイルスパンデミックのため、新規の重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)は、新興の現代医学およびウイルス学研究の対象となっている。2019年12月にSARS-CoV-2関連の非定型肺炎コロナウイルス疾患19(COVID-19)の最初の症例が報告されて以来、ウイルスの起源、系統形成、および治療標的に関するいくつかの重要な疑問が生じている[1,2]。これまでに、SARS-CoV-2の15,000以上の配列がGlobal Initiative on Sharing All Influenza Data(GISAID)データベースで、900以上の配列がNCBIデータベースで利用可能になっている[3]。この一本鎖の正極性RNAウイルスの起源は依然として不明であるが、いくつかのシナリオがすでに示唆されている[4-6]。SARS-CoV-2のゲノム配列の96%がコウモリコロナウイルス株RaTG13と同一であることから、SARS-CoV-2はコウモリで進化した可能性が高いと考えられる [7]。マレーシアのパングリン(Manis javanica)が中間宿主として提案されているが、Pangolin-CoVは91%の配列相同性を持ち、SARS-CoV-2の2番目に近い親戚であることから、Pangolin-CoVが中間宿主として提案されている[8]。全ゲノムレベルでは、SARS-CoV-2はSARS-CoVと82%同一であるが[9]、両ウイルスのスパイク糖タンパク質の受容体結合ドメイン(RBD)はアミノ酸配列において72%の同一性を有し、三元構造は類似しているが、SARS-CoV-2のRBDはエントリー受容体アンジオテンシン変換酵素2(ACE2)とより強い相互作用を有することが報告されている[10]。ACE2配列のアラインメントに基づいて、潜在的な宿主の範囲をイヌ、ネコ、パンゴリン、およびイヌ科の小型哺乳類に拡大した[11]。ヒトACE2への結合については、Q493およびP499ウイルスのアミノ酸残基(参照ゲノムNC_045512.2のヌクレオチド座23 039-23 041および23 057-23 059に対応)の関連性が実証されており、SARS-CoV-2からSARS-CoVへのN493Q変異はACE2への親和性を高め、T499P変異はACE2と相互作用するRBDの界面を安定化させる役割を果たしている[12]。

SARS-CoV-2は、スパイク糖タンパク質(S)膜タンパク質(M)エンベロープタンパク質(E)および免疫原性が高く豊富に発現するヌクレオカプシドタンパク質(N)という4つの主要な構造タンパク質を含む10の正準ORFをコードしている[13, 14]。また、SARS-CoV-2のトランスクリプトーム解析では、融合、欠失、フレームシフトにより発現する未知のORFも明らかにされている[15]。一般的にRNAウイルスは突然変異率が高く,急速に進化するという特徴を持っている.SARS-CoV-2の4254個の配列を解析した結果、突然変異はORF1a、ORF1b、S遺伝子、N遺伝子の内部に多く見られることが明らかになったが、突然変異率の低いORF7bやE遺伝子とは対照的であった[16, 17]。突然変異は地理的に分布しているが、2891, 3036, 14 408, 23 403, 28 881 の位置にある突然変異はヨーロッパに多く、17 746, 17 857, 18 060 の位置にある突然変異は北米に多く見られることは驚くべきことである[18]。

G-四重鎖、十字形、ヘアピン、三重鎖などのいくつかの非定型核酸構造は、ゲノム制御に不可欠であり、遺伝的不安定性の原因となりうることが示されている[19-22]。SARS-CoV-2のゲノムには少数のG-四重鎖形成配列しか存在しないが、SARS-CoV-2のゲノムは(ニドビラレス属の他のウイルスと比較して、またG-四重鎖形成配列と比較して)逆向き反復配列(逆向き反復配列)の存在下に豊富に存在する[23]。逆向き反復配列はすべての生物のゲノム中にランダムに分布しており、一本鎖核酸中ではヘアピンステムループ二次構造を、二本鎖核酸中では十字形構造を採用することができる[24, 25]。これらのタンパク質は、DNAとRNAの両方のゲノムにおいて基本的な生物学的プロセスを制御する上で重要な役割を果たしており、多くの調節タンパク質の標的となっている[19, 26, 27]。最近、SARS-CoV-2およびSARS-Co-Vの2つの保存領域がステムループ構造を形成し、ヒト細胞株においてウイルスRNAを急速な分解から保護し、それによってウイルスRNAゲノムの安定性を高め、ウイルスの複製効率と病原性を増強する可能性があることが実証された[28]。さらに、アルテリウイルス科のPRRSVウイルスの5′UTRに位置する系統的に保存されたステムループ構造の幹の完全性は、複製とサブゲノムmRNA合成に重要であることが確認された。同様の二次構造は、SARS-CoV-2が属するArteriv逆向き反復配列idaeやCoronav逆向き反復配列idaeのウイルスにも存在することが提案されている[27]。DNAの逆向き反復配列は遺伝的不安定性のホットスポットであることが証明されており、二次構造を形成する可能性のあるリピートにおける突然変異の確率が高くなっている[29]。

 

SARS-CoV-2を含む多くのRNAウイルスは、CpGジヌクレオチドの枯渇を示す[30]。CpG枯渇を説明するために、2つの主要な理論が提唱されている。

1つは、シトシンのメチル化が5-メチルシトシンからチミンへの自発的な脱アミノ化によって突然変異率を増加させるため、突然変異感受性に基づくものである[31]。この突然変異率は、CpGが他のシトシンやグアニンに挟まれている場合の方が、チミンやアデニンに挟まれている場合よりも高いことが示されている[32]。

もう一つの仮説は、ウイルスが宿主のCpG頻度とメチル化パターンを一致させようとしているため、宿主免疫系との相互作用に焦点を当てている。インフルエンザウイルスのCpG頻度は、鳥類からヒトへの移行後に急速に低下することが示されている[33]。脊椎動物、特にヒトに感染するウイルスでは、CpG頻度は極めて低い[31]。CpGの頻度が高いほどウイルスの減衰と関連している[34, 35]。

 

逆向き反復配列とCpG島の枯渇の両方がウイルスの複製と病原性に影響を与えることから、我々はSARS-CoV2の逆向き反復配列とCpG島の位置を変異の可能性とゲノム局在と関連させて調査することにした。我々は、SARS-CoV-2ゲノム内のホットスポット変異に関連した逆向き反復配列およびCpG島の発生を系統的かつ包括的に探索するバイオインフォマティクス研究を行った。

結果

SARS-CoV-2の全ゲノムにおける逆向き反復配列の存在を解析し、そのGISAID頻度に基づいてホットスポットとして同定された18の高頻度ヌクレオチド位置のオーバーレイを作成した。18個のホットスポット変異(表1,完全な解析結果は1および2,オンライン(https://academic.oup.com/bib)で入手可能)のうち、12個(すなわち66.7%)が逆向き反復配列配列内に存在していた。比較のために、ランダムに配置された18の位置のセット(10回のレプリケートで)では、平均50.6%のオーバーレイと8.1%の標準偏差が明らかになった。このように、SARS-CoV-2のホットスポット変異は逆向き反復配列s遺伝子座内に富み、この関連は統計的に非常に有意であった(P値=0.0001085; t=-5.94,df=9,1サンプルt検定)(図1)。

表1 SARS-CoV-2のホットスポット位置(GISAID頻度>0.04

RefP RefN AltN FreqGis Feature Gene product AltAA Mutation* IR CpG
241 C T 0.69 5′ UTR N Y
1059 C T 0.21 ORF1ab nsp2 T85I NS Y N
1605 A C 0.04 ORF1ab non-structural polyprotein 1AB N267T NS Y N
2891 G R 0.06 ORF1ab nsp3 A58T NS Y N
3037 C T 0.65 ORF1ab nsp3 F106F S N N
8782 C T 0.14 ORF1ab nsp4 S76S S N N
11 083 G T 0.15 ORF1ab nsp6 L37F NS Y N
14 408 C T 0.64 ORF1ab RNA-dependent rna polymerase (nsp12) P314L NS N N
14 805 C T 0.11 ORF1ab RNA-dependent rna polymerase (nsp12) Y446Y S Y N
17 247 T C 0.04 ORF1ab helicase (nsp13) R337R S Y Y
17 747 C T 0.09 ORF1ab helicase (nsp13) P504L NS Y N
17 858 A G 0.08 ORF1ab helicase (nsp13) Y541C NS Y N
18 060 C T 0.1 ORF1ab 3′-5′ exonuclease activity L7L S Y N
23 403 A G 0.64 S spike glycoprotein D614G NS Y N
25 563 G T 0.24 ORF3a ORF3a protein Q57H NS N N
26 144 G T 0.11 OR3a ORF3a protein G251V NS N Y
28 144 T C 0.13 ORF8 ORF8 protein L84S NS Y N
28 881 G A 0.2 ORF9/N nucleocapsid phosphoprotein R203K NS Y N

注釈 NC_045512.2ゲノム中のRefP-参照位置、RefN-参照ヌクレオチド、GISAIDによるAltN変異、標準IUPACコード使用、GISAIDによるFreqGis-変異頻度、NCBIによるFeature-annotated features、アミノ酸のAltAA-変異、突然変異の種類、逆向き反復配列-逆向き反復配列の存在、CpG-CpG島の存在。

*S同義突然変異、NS非同義突然変異

図1 SARS-CoV-2のホットスポット変異とSARS-CoV-2ゲノムの逆向き反復配列(左)およびSARS-CoV-2のCpG島(右)とのオーバーレイとランダム変異との比較(ボックスプロット)

SARS-CoV-2のホットスポット変異とSARS-CoV-2ゲノムの逆向き反復配列(左)およびSARS-CoV-2のCpG島(右)との重ね合わせ、ランダム変異との比較(ボックスプロット)。1標本のt検定を用いた。***はP値<0.001を示す。

6例において、ホットスポット変異は逆向き反復配列のステム領域内に位置していた(ヌクレオチド位置1059,2891,17 747,17 858,18 060,および28 144)。5つの実施例において、ホットスポット変異は逆向き反復配列のループ領域内に位置していた(ヌクレオチド位置1605,11 083,14 805,17 247,および23 403)。ヌクレオチド位置28 881の1つのケースでは、ホットスポット変異はステムとループの両方が存在し得る逆向き反復配列内に位置していた(2つの逆向き反復配列のオーバーレイ、3にグラフで示す)。さらに、ホットスポット変異の有無を逆向き反復配列の1回の繰り返しの長さで比較した(表2)。逆向き反復配列の長さが最も短い逆向き反復配列は、SARS-CoV-2ゲノムに最も多く存在していた。すべてのホットスポット変異は、長さ9までの逆向き反復配列に存在していた(逆向き反復配列の1回の繰り返しの場合;スペーサーがない場合は逆向き反復配列の全長は18となる)。つのホットスポット変異が2つ以上の逆向き反復配列に存在していた。位置14 805の変異は、逆向き反復配列の長さカテゴリ6および9のステムに存在した。位置2881の変異は、3種類の逆向き反復配列長さカテゴリ6,7,および8の逆向き反復配列長さカテゴリのゲノムに存在していた。8つのホットスポット変異(53.3%)は、長さカテゴリ6の最も多い逆向き反復配列の内側に位置していた。より長い逆向き反復配列は稀であり、長さカテゴリ10~13の逆向き反復配列にはホットスポット変異は認められなかった。

 

表2 逆向き反復配列カテゴリ別の逆向き反復配列数と頻度(1回の逆向き反復配列リピートの長さに基づく

IRカテゴリ ケース 1000ntあたりのIR ホットスポット変異 ホットスポット変異の%
6 737 24.65 1059、1605、2891、11 083、14 805、17 747、23 403、28 881 53.3%
7 263 8.80 17 247、18 060、28 144、28 881 26.7%
8 127 4.25 28 881 6.7%
9 39 1.30 14 805、17 858 13.3%
10 28 0.94 NIL NIL
11 4 0.13 NIL NIL
12 3 0.10 NIL NIL
13 2 0.07 NIL NIL

注釈:SARS-Cov2ゲノムの逆向き反復配列数 症例数-SARS-Cov2ゲノムの逆向き反復配列数、1000ntあたりの逆向き反復配列数-1000ntあたりの逆向き反復配列数の頻度、ホットスポット変異-NC_045512.2ゲノム中のホットスポット変異の参照位置、ホットスポット変異の割合-異なるサイズの逆向き反復配列に分布するホットスポット変異の割合


さらに、SARS-CoV-2ゲノム中のCpG島の存在を解析した。閾値の最小スコアが17,最大スコアが107で、50個のCpG島を発見した。平均CpG島長は27ヌクレオチド、最小長は3ヌクレオチド、最大長は217ヌクレオチドであった。18個の高頻度ホットスポット突然変異とCpG島のオーバーレイにより、3個のホットスポット突然変異(すなわち16.7%)がCpG島内に位置していることが示された。比較のために、18個のランダムに配置された位置のセット(10回の複製で)では、平均CpGオーバーレイは5.0%であった(標準偏差は4.6%)。SARS-CoV-2のホットスポット変異は、このようにCpGアイランド内に濃縮され、この関連は統計的に有意であった(P値=0.0000169;t=-7.58,df=9,1サンプルt検定)(図1およびhttps://academic.oup.com/bib からオンラインで入手可能な4を参照のこと)。

我々は、ホットスポット変異、逆向き反復配列、CpG島、およびゲノム特徴のオーバーレイの全体像を提供するために、Circosプロット(図2)を構築した。逆向き反復配列はSARS-CoV-2ゲノムの約50%で発生したのに対し、CpGアイランドは主にORFの先頭に発生した。最も顕著なCpG島は、241位(5′UTR)の最も頻度の高いホットスポット変異に関連していた。同時に、最も高いスコアを持つCpG島は、SARS-CoV-2の最長の転写産物であり、7096アミノ酸残基の長さのポリタンパク質をコードするORF1abの転写開始部位に重なっていた。このポリタンパク質は、その後、主要なウイルスプロテイナーゼであるMpro(3CLproとも呼ばれる)によって切断され、重要な機能性タンパク質を形成する[36]。

図2 SARS-CoV-2のホットスポット変異と逆向き反復配列およびCpGのオーバーレイの円グラフ

外側の円-ヌクレオチド位置、2番目の円-遺伝子アノテーション(ORFは共通の記号[Sはスパイク糖タンパク質、Eはエンベロープタンパク質、Mは膜糖タンパク質、Nはヌクレオカプシドリンタンパク質]で示されている)。オレンジ色の逆向き反復配列の存在、青色のCpG島の存在(CpGピークの高さはnewcpgpeakのスコアに比例して対応している[高いピーク=高いスコア])。赤色のホットスポット変異(ホットスポット変異のバンドの高さは、解析した全ゲノムの頻度に比例する)。灰色の円は、プロットの記述部分(外側)と解析部分(内側)を分けている。


SARS-CoV-2のホットスポット変異と逆向き反復配列およびCpGのオーバーレイの円グラフ。外側の円-ヌクレオチド位置、2番目の円-遺伝子アノテーション(ORFは共通の記号[Sはスパイク糖タンパク質、Eはエンベロープタンパク質、Mは膜糖タンパク質、Nはヌクレオカプシドリンタンパク質]で示されている)。オレンジ色の逆向き反復配列の存在、青色のCpG島の存在(CpGピークの高さはnewcpgpeakのスコアに比例して対応している[高いピーク=高いスコア])。赤色のホットスポット変異(ホットスポット変異のバンドの高さは、解析した全ゲノムの頻度に比例する)。灰色の円は、プロットの記述的な部分(外側)と解析的な部分(内側)を分けている。

結果をさらに検証するために、CpG島と逆向き反復配列の両方のオーバーレイをBallouxグループが発表した突然変異データセットと比較した。Ballouxグループは、SARS-CoV-2ゲノム内で独立して複数回出現した突然変異(すなわちホモプラス)に注目していた[37]。彼らの研究では、SARS-CoV-2のシークエンシングデータから様々な頻度で発生する198の再発変異を発見した。我々の解析では、ランダムに配置された変異を100回繰り返した場合の68.29±5.29(34.49%)と比較して、198個の変異のうち92個が逆向き反復配列内にあることが示された(46.4%)。このように、SARS-CoV-2の再発変異は逆向き反復配列s内に富み、この関連は統計的に非常に有意であった(P値<2.2e-16;t=-35.55,df=99,1標本t検定)。これらの変異とCpG島のオーバーレイの解析は、198個の変異のうち19個がCpG島内にあることを示している(9.60%)。対照的に、ランダムな突然変異の配置を100回繰り返した場合には、9.21±2.23(4.65%)のみがCpG島内に存在した。SARS-CoV-2の再発変異は、このようにCpGの島の中に濃縮され、この関連は統計的に有意であった(P値<2.2e-16; t = -35.70, df = 99, 1標本のt検定)。どちらの比較も、逆向き反復配列とCpG島領域の両方で突然変異率が有意に増加していることを示し、ホットスポット突然変異に関する我々の結果を確認した(5を参照してほしいhttps://academic.oup.com/bib、オンラインで入手可能)。

考察と結論

エピジェネティック修飾と非カノニカル核酸構造は、ゲノムの調節と組織化に不可欠な役割を果たしている[19, 36, 38]。G-四重鎖形成が重要なRNA合成を制御することが実証されている[39]。しかし、SARS-COV-2ゲノムの場合、潜在的なG-四重鎖形成配列は非常に稀であることが示されており[23, 40]、G-四重鎖は進化的に淘汰されている可能性が高いと考えられる。この示唆は、SARS-COV-2ゲノムがC > U変異の蓄積とCpG欠乏を示すという最近の知見によって支持されている[6]。

したがって、我々はSARS-COV-2ゲノムのホットスポット変異に焦点を当ててきた。我々のホットスポットの選択はBallouxグループ[37]が用いたものと非常によく似ているが、我々はより厳しい閾値を適用し、より最近のSARS-COV-2ゲノムのデータベースセットを用いた。そのグループのデータセットから得られたホットスポットの大部分は、我々が発見したものと同じであり、我々の結果を確認した。

逆向き反復配列およびCpG島における変異の有意な豊富さは、van Dorpら[37]によって発見されたすべての再発変異のデータセットにおいても有効である。SARS-COV-2のホットスポット変異が逆向き反復配列およびCpG島に有意に多いことは注目すべきことであり、したがって、SARS-COV-2ゲノムは、ヒト宿主に適応し、細胞性免疫応答を調節し、あるいは病原性および病原性を増大させるという点で、ウイルスの生存戦略および/または進化的利益をもたらす可能性があることを示唆している。

逆向き反復配列は一般的にssRNAのゲノム構成にとって非常に重要である[41-43]。18の高頻度ホットスポット変異から 12のホットスポット変異は非同義変異として観察され、5つのホットスポット変異はタンパク質配列に変化がなく同義変異として観察され、これらのホットスポット変異のうち1つは5′UTRに存在していた。したがって、これらの変異の大部分は、タンパク質の配列を変化させ、その機能や免疫原性の迅速な改変に寄与する可能性がある。

我々の解析では、CpG島はORFの先頭に位置しており、SARS-CoV-2のライフサイクルにおいてCpG島が重要な制御的役割を果たしていることが示された。一方、RNA中のCpG島はメチル化酵素の標的となることが多くウイルスゲノムのメチル化がDNAとRNAの両方のウイルスの阻害につながることが実証されている[44, 45]。

興味深いことに、葉酸関連酵素変異[メチレンテトラヒドロ葉酸還元酵素(MTHFR)]とCOVID-19病の重症度との間には相関関係がある。677位のMTHFR遺伝子の点突然変異は、この酵素の熱可溶性および活性低下を引き起こし[46,47]、突然変異した677対立遺伝子は、他の集団と比較してイタリア、スペイン、およびヒスパニック系の集団で非常によく見られる(20%以上)[47]。

注目すべきことに、これらの同じ国およびグループ(イタリア、スペイン、およびブラジル)は、COVID-19パンデミックによって最も影響を受けた国の一つである。メチル化状態は、栄養および葉酸の補給によって有意に影響を受けることが実証されている[48]。

ウイルスのメチル化状態の調節における微量栄養素および葉酸の重要性は、いくつかの論文によって支持されている。例えば、葉酸がヒトパピローマウイルス(HPV)のCpG部位における高いメチル化状態を維持する上で重要な役割を果たし、HPV関連子宮頸部上皮内新生物におけるリスク低下と関連していることが示されている[49,50]。葉酸代謝MTHFR酵素におけるいくつかの多型は、高血圧患者のリボフラビン補充に対する反応と関連している [51]。

 

エピジェネティックな改変だけでなく、局所的な核酸構造がウイルスゲノムにおける治療標的となりうることが示されている[52, 53]。逆向き反復配列によって形成されたG-四重鎖およびヘアピンの両方が、多くの細胞タンパク質によって認識されている[19, 26, 54]。逆向き反復配列はウイルスゲノムの組織化に不可欠であるが、ウイルスが細胞免疫を迂回するのを助けるために、G-四重鎖は効果的に排除されているようである[23, 55, 56]。

それにもかかわらず、ホットスポット変異と逆向き反復配列遺伝子座との関連は、特定の位置のヘアピンに対する選択的圧力を示唆している。SARS-CoV-2ゲノムにおけるCpG島の変異の豊富さは、CpGメチル化の重要性を示唆している。ヒトウイルス中のCpG島は、抗ウイルス防御システムの一部であるいくつかのタンパク質によって標的化されることが示されている。

例えば、HIVウイルスでは、CpGメチル化の増加は病原性の低下をもたらした[32]。我々のデータは、CpG島のハイパーメチル化がSARS-CoV-2 ORFの転写を減少させ、疾患の進行を制限することにつながる可能性があるという仮説を導いている(図3)。

図3 SARS-CoV-2のホットスポット変異と逆向き反復配列およびCpG島のオーバーレイから提案された知識と仮説のスキーム

SARS-CoV-2のホットスポット変異と逆向き反復配列およびCpG島のオーバーレイから提案された知識と仮説のスキーム。SARS-CoV-2のRNAゲノムは逆向き反復配列(A)[23]によって構成されており、その逆向き反復配列はCpG島(B)とともにホットスポット変異に有意に富む。CpG島のハイパーメチル化は、ウイルスの活性を低下させるための有望な戦略である可能性がある(C)。

材料と方法

ホットスポット突然変異の選択

SARS-CoV-2配列中の一塩基多型を、snp-sitesソフトウェア[57]および-vスイッチを用いて検索し、VCFファイルを作成した。報告されたすべての差異を合計し、その合計を配列総数で割った(GISAIDデータでは2020年5月5日時点で15 290個、NCBIデータでは2020年4月23日時点で942個)。Nsや’-‘記号の割合が高い領域(参照ゲノム座標1-47または29 834-29 903)の位置は無視した。これらを除去した後、フィルタリングされたファイルの残りのVCF列をさらなる解析に使用した。GISAID解析では、snp-sitesの入力として、多重配列アラインメントファイル(msa_0506.fasta2020年5月6日)を使用した。NCBIデータについては、-outfmt 0を用いてblastn [58]を用いて参照配列にアラインメントし、mview [59]を用いてmultiFASTAアラインメントに変換した。このSNP解析結果から、GISAID頻度>0.04のホットスポット位置のみを選択した。このカットオフの決定は、SNP頻度ヒストグラムを検査して、どのSNPのパーセンテージがカーブのロングテールに位置しているかを判断することに基づいている。これは、一般的なランダムな突然変異の背景よりも頻繁に変異している参照ゲノム位置を表している。

逆向き反復配列の解析

SARS-CoV-2ゲノム(NC_045512.2)をPalindromeアナライザーウェブサーバのコア[60]で解析した。逆向き反復配列の1リピート単位の大きさは6〜30nt、スペーサーの大きさは0〜10ntとし、最大1個のミスマッチを許容した。逆向き反復配列は、1リピートの長さに応じて分類された(例えば、スペーサーを含まないカテゴリ’6’の逆向き反復配列の長さは、したがって、12ntである)。ホットスポット突然変異およびランダムに生成された突然変異を有する逆向き反復配列のオーバーレイは、https://academic.oup.com/bib からオンラインで入手可能な1に示されている。ホットスポット変異と個々の長さカテゴリの逆向き反復配列とのオーバーレイは、https://academic.oup.com/bib でオンラインで利用可能な2に示されている。

CpG島の決定

SARS-CoV-2完全ゲノム(NC_045512.2)の参照配列をNCBIデータベースからFASTA形式でし、GALAXYウェブサーバーにアップロードした[61]。SARS-CoV-2のCpG島を決定するために、しきい値17を有するnewcpgseekツール[62]を使用した。同様に、SARS-CoV-2完全ゲノム[63]から得られた逆相補配列を処理し、次にGALAXYウェブサーバーにアップロードし、またnewcpgseekツールを用いて処理した。詳細な出力は、https://academic.oup.com/bib からオンラインで入手可能な4に記載されている。予測プログラムnewcpgseekはスコアを生成するために実行和を使用する: 位置iにCpGがない場合はrunSumカウンタをデクリメントするが、CpGがある場合はrunSum+(=CPG SCORE)を使用する。しきい値以上のスパンは再帰的に探索される。スコアが閾値よりも高ければ,島が宣言される.

統計解析

SARS-CoV-2のホットスポット変異および無作為に配置されたホットスポットオーバーレイ(10回の複製)とSARS-CoV-2の逆向き反復配列およびCpGとの統計的比較には、1標本t検定を使用した。標準的なP値閾値(0.05)を適用した。

キーポイント

  • SARS-CoV-2のホットスポット変異はゲノム内に非ランダムに局在している。
  • ホットスポット変異は、逆向き反復配列とCpGアイランド遺伝子座に有意に富み、CpGアイランドはウイルスORFの上流領域にも関連している。
  • CpG島はまた、ウイルスORFの上流領域にも関連している。