摘要
冠状病毒的核衣壳(N)蛋白在病毒组装和 RNA 转录中起着至关重要的作用。重要的是在核苷酸水平上对病毒进行表征,以发现病毒的基因组序列变化和相对于其他病毒的相似性,这些病毒可能会对其基因和蛋白质的功能产生影响。这需要全面和比较分析首选核苷酸感兴趣的病毒基因组、密码子偏倚、第 3 位(N T3s)的核苷酸变化、同义密码子的使用和相对同义密码子的使用。在本研究中,在核苷酸和氨基酸水平上分析了 13 种不同冠状病毒(CoV)中 N 蛋白的变化,试图揭示这些病毒相对于它们在 N 基因中的首选密码子使用如何适应它们的宿主。结果表明,总的来说,18 个氨基酸具有不同的首选密码子,其中 8 个是过度偏倚的。其中 N 基因的 AT% 高于 GC%,其有效密码子数量的值介于 40.43~53.85 之间,表明密码子存在轻微的偏差。中性图和相关分析显示,猪流行性腹泻 CoV(pedCoV)的 GC3s/GC 相关性很高,其次是中东呼吸综合征-CoV(MERS CoV)、猪三角洲 CoV(dCoV)、蝙蝠 CoV(bCoV)和猫 CoV(fCoV),r 值分别为 0.81、0.68、-0.47、0.98 和 0.58。这些数据意味着 CoV 基因组的高进化率和突变对 CoV N 基因进化选择有强烈的影响。这种类型的遗传分析将有助于评估病毒的宿主适应,进化,因此对疫苗设计策略有价值。
1、前言
冠状病毒(covs)是一种包膜的正链 RNA 病毒,含有 30kb 的基因组和四种结构蛋白,即刺突蛋白(S)、包膜蛋白(E)、膜蛋白(M)和核衣壳蛋白(N) (Siddell et al., 2005) 。S 蛋白调节病毒对目标宿主细胞上受体的附着 (Cavanagh, 1995)。E 蛋白质的功能是组装病毒并充当离子通道(Ruch and Machamer, 2012);M 蛋白与 E 蛋白一起在病毒组装中发挥作用,并参与新病毒颗粒的生物合成(Neuman et al.,2011);N 蛋白与病毒 RNA 形成核糖核蛋白复合物(Risco et al,1996)。N 蛋白是一种多功能结构蛋白,具有增强病毒基因组转录、在病毒组装过程中与其他蛋白质(M 蛋白)结合、通过破坏各种细胞活动而对宿主细胞产生毒性等不同特征 (Berry et al., 2012; McBride et al., 2014)。在 COV 的结构蛋白中,N 蛋白是最保守和最稳定的蛋白;而 S 蛋白在病毒感染过程中经历了几个剧烈的变化。例如,它大的部分在感染时被细胞蛋白酶切割,并暴露出受体以激活病毒附着在宿主身上 (Fiscus, 1987; Wu et al., 2004a, 2004b; Maache et al., 2006; Gao et al., 2013)。此外,S 蛋白容易发生突变,特别是在与尖峰蛋白-细胞受体界面相关的氨基酸中,以克服宿主免疫反应 (Wu and Yan, 2005; Sui et al., 2014)。在一项有趣的研究中,发现 COV 的 N 基因比 S 基因更有效地评估密码子的使用偏差 (Ahn et al.,2009)。研究报告指出,由原核生物产生的 N 蛋白已被用来产生针对各种动物冠状病毒的特异性抗体,包括 SARS(Loa et al., 2004; Timani et al., 2004; Wu et al., 2004a, 2004b; Blanchard et al., 2011)。针对 hCoV OC43 的抗体抗兔多克隆的 hCoV OC43 重组抗原 N 蛋白,没有与其他冠状病毒发生交叉反应(SARS CoV 和 hCoV 229E) (Liang et al., 2013)。此外,在不同的老年人血清样品中进行了检测,由于 N 蛋白的有效中心部分(174-300 个氨基酸),其次是 C(301-448)和 N(1-173)的终端部分,其反应性很强 (Lee et al., 2008; Yu et al., 2008; Liang et al., 2013)。因此,N 蛋白作为 hCoV OC43 的敏感和特异性诊断工具(Di et al., 2005; He et al., 2005),它在检测 SARS CoV 感染(感染第一天后)方面进一步发挥了作用(Che et al., 2004)。对 SARS CoV 蛋白的类似研究报告了免疫优势区 N1(1-422 氨基酸)和 N3(110-422 氨基酸)在 Balb/c 小鼠中产生特异性抗原,并与 SARS 患者的血清反应,因此可用作有效的 SARS DNA 疫苗(Dutta et al., 2008)。在重组浣熊痘病毒中表达的 CoV N 蛋白揭示了皮下注射预防猫传染性腹膜炎病毒感染的有效疫苗 (Wasmoen et al., 1995)。
必须在密码子或核苷酸水平上研究病毒基因结构和组成,以揭示病毒-宿主关系和病毒进化的机制(Bahir et al., 2009; van Hemert et al., 2016)。有 20 个氨基酸由 61 个密码子编码,这意味着一个氨基酸可以由多个密码子编码。这些替代密码子,每个氨基酸多达 6 个密码子,被称为同义密码子(Nakamura et al., 2000)。在基因到蛋白质翻译过程中,一些同义密码子优先于其他密码子。这被称为密码子偏差或密码子使用偏差。病毒基因和基因组可以根据宿主表现出不同数量的同义密码子(Lloyd and Sharp,1992)。此外,病毒中密码子的使用受选择压力的影响,并且其组成约束由病毒宿主系统决定(Karniychuk,2016)。选择力作用于维持密码子偏倚和基因进化的基因序列(Ikemura, 1985; Sharp and Li, 1987; Sharp et al., 1993)。密码子偏差有助于分析水平基因转移,也是研究基因分子进化的关键进化力量( Doolittle, 1998; Ochman et al., 2000; Woese, 2002)。密码子偏差发生在蛋白质表达过程中,当存在相似的 tRNA 含量时,蛋白质基因中的密码子偏差将是相同的(Kanaya et al., 2001)。密码子偏差影响蛋白质的功能及其翻译效率 (Chaney and Clark, 2015; Supek, 2016)。
本研究的目的是对 13 种不同 CoVs 的 N 基因进行综合分析,包括首选核苷酸、首选密码子、密码子偏倚和同义密码子的使用,并提供对这些病毒的密码子模式与其宿主和基因组进化关系的理解。
2、材料和方法
2.1 基因数据收集和分析程序
13 种不同 CoV 的 N 基因,即猪流行腹泻冠状病毒(pedCoV)(171),中东呼吸综合征冠状病毒(MERS-CoV)(265),传染性支气管炎 CoV(ibCoV)(279),骆驼α-冠状病毒(cCoV)(31),猪三角冠状病毒(dCoV)(74),可传播胃肠炎冠状病毒(tgCoV)(69),人冠状病毒 229E(hCoV 229E)(34),牛冠状病毒(bvCoV)(49),蝙蝠冠状病毒(bCoV)(34),人冠状病毒 HKU1(hCoV HKU1)(36)、犬冠状病毒(caCoV)(40)、猫冠状病毒(fCoV)(40)以人 CoV-OC43(hCoV-OC43)(112)为研究对象。这个 N 个基因的编码序列及其登录号从 GenBank 数据库(补充文件)获得。CLC Genomics Workbench 12.0 (QIAGEN, Aarhus, Denmark) (2019) (https://www.qiagenbioinformatics.com/) 用于量化核苷酸组成,A+T% 和 G+C%。密码子模式使用密码子 1.4.2 评估使用和多变量统计(http://codonw.sourceforge.net//),(Peden,2000)和 GraphPad 相关分析采用 prism 软件。
2.2. 密码子使用特性
每个冠状病毒的 N 基因参数如下,以评估确定密码子偏差:四种核苷酸碱基(A,T,G 和 C)中每一个的百分比和频率, 密码子的起始(GC1)和终止核苷酸(GC3)处的 G+C 碱基发生率,以及每个氨基酸的同义密码子数量和第三位核苷酸的频率(A3s、G3s、T3s 和 C3s)。
2.3. 相对同义密码子用法分析
RSCU 计算氨基酸使用同义密码子的预期频率与其观察到的频率之比,假设某一特定氨基酸的同义密码子得到了公平的利用。在 RSCU 表中,密码子的值为 1 意味着氨基酸使用密码子的观察频率相当于可预测频率的频率,或表示没有密码子使用偏差;而 RSCU 值 <1 和> 1 表示负密码子使用偏差和正密码子使用偏差。用于计算 RSCU 的公式(Behura and Severson,2013 )是:
其中 Xij 表示氨基酸使用的观察到的密码子数目,Ni 代表氨基酸的同义密码子的总和。
2.4. 相对二核苷酸频率分析
在基因中,通过计算观察到的二核苷酸与估计频率的比值来确定相对二核苷酸频率,以确定密码子偏差。计算二核苷酸相对频率的公式为:
其中 f(X)和 f(Y)是单核苷酸频率,f(XY)代表观察到的二核苷酸频率。
小于 0.78 的相对二核苷酸频率值表示二核苷酸用法的代表性不足,值> 1.23 表示过度表示(Chen and Chen,2014a)。所提到的值表示与随机分布相比二核苷酸的相对丰度。
2.5. 确定有效密码子数目
通过确定 ENc,可以有效地测量基因中密码子的使用偏差。ENc 值的范围是 20-61。较高的 ENc 值表示低密码子偏差,其中更多的同义密码子用于氨基酸,而较低的 ENc 值表示高密码子偏差,用于氨基酸的同义密码子数量较少。通常,具有强烈密码子使用偏差的基因的 ENc 值为 35 或以下。
2.6 突变压力对密码子使用偏差影响的评估
分析密码子使用偏差模式,使用 ENc 图以评估有效突变压力,其中 GC3 发射值与 enc 值绘制 其中 GC3 的发生率值是根据 enc 值绘制的(Jenkins and Holmes,2003 年;Chen et al.,2004)。在 ENc 图中,点表示低于预期值曲线的个体基因,受突变压力的影响。随着 GC3- ENc 关系的标准曲线的扩展,ENc 值与突变压力相关(Fig.1)(Jenkins and Holmes,2003; Shi et al.,2016)。
Fig.1. 13 种不同冠状病毒 N 基因的 ENc 图显示了 GC3s 与 Nc 频率的关系
第三位置的 GC 核苷酸频率(GC3s)与有效密码子数(Nc)相对应。GC3s 和 Nc 回归用线性虚线表示。实线表示 GC3 和 Nc 之间的关系。
2.7. 评估自然选择对密码子使用偏差的影响
中性图分析用于评估密码子使用的偏差,因为它受自然选择、密码子适应指数以及芳香度(AROMO)和亲水性(肉汁)指标(Kumar et al.,2016)的影响。它是用 GC1,GC2 和 GC3 绘制的。它估计了定向突变压力相对于选择的中立性效应(Sueoka,1988 年)。密码子 GC1、GC2 和 GC3 的三个核苷酸位置可以观察到的 GC 含量,而 GC3 位置的 A/T 和 G/ C 核苷酸的数目相等。由于定向突变压力,GC1、GC2 与 GC3 回归值之间会有变化。
2.8. 多元或对应分析(COA)
通过使用基因的 RS
CU 值,COAC 按几何级数地表示数据(Greenacre,1984)。对 CoVs 的 N 基因进行 COAC 分析,利用密码子分析程序分析 RSCU 值, 比较氨基酸中密码子使用的基因内变异 (Fellenberg et al., 2001; Perrière and Thioulouse, 2002)。每个基因作为一个 59 维载体(59 个同义密码子表示,不包括三个停止密码子,以及 UGG 和 AUG 编码的单密码子)几何级数地显示 59 个正交轴上的每个密码子,并且变化由轴投影的(Suzuki et al.,2008; D’Andrea et al., 2011)。
3、结果
3.1. CoV N 基因的核苷酸组成
对 13 种不同 CoV 的 N 基因进行了比较分析,发现核苷酸 A(29.61%)是最常见的碱基,核苷酸频率为 A>T>G>C (表 1)。因此,病毒使用的 AT% 大于 GC%。不管 CoVs N 基因之间的核苷酸相似性如何,在密码子的第三位(NT3s)处的核苷酸都有变异,这有助于密码子的偏置和密码子模式的差异。总的 NT3s 频率为 T3s>A3s>C3s>G3s。然而,当通过将每个基因的 NT3s 按以下病毒顺序相加来单独观察时,会显示出一些差异(表 1)。tgCoV,fCoV>pedCoV,caCoV>cCoV,hCoV 229E>ibCoV,bvCoV,hCoV HKU1,hCoV-OC43>MERS CoV、dCoV、bCoV。在 NT3s 中,T3s 核苷酸是频率为 0.62,最不易复发的是 G3s,频率为 0.12(hCoV HKU1)(Table 1)。
粗体的值是相应氨基酸的首选密码子。带有负偏压值的单元格有一条对角线。过度偏倚密码子值以粗体显示,并带有阴影单元格。
3.2. RSCU 分析
具有 RSCU 值的密码子分为 3 组:i)RSCU 值 <0.6 表示被低估的密码子(负偏压);ii)从 0.6 到 1.6 的值构成代表密码子(没有偏差);和 iii)值大于 1.6 表示密码子过多(正有偏见)。A3s 和 T3s 是代表(首选)密码子从,在所有研究过的病毒中,C3s 和 G3s 是最不常见的(Table 2)。观察到 18 个氨基酸(90%)具有不同的密码子偏好(Phe,Leu,Ile,Val,Ser,Pro,Thr,Ala,Tyr,His,Gln,Asn,Lys,Asp,Glu,Cys,Arg,Gly)(Table 2)。它们对应的密码子值表示为表 2 中带阴影单元格的粗体。
氨基酸 Leu 与 CUU 密码子在所有基因中的过度偏倚,除了在 hCoV HKU1 中,它与 UUA 过度偏倚。除在 ib CoV 和 bCoV 中的 UCA 外,氨基酸 Ser 在所有 UCU 中均有过多的表达。氨基酸 Pro 的偏密码子在 MERS CoV 和 IbCoV 中是 CCA,而在其他情况下为 CCU。除了在 ibCoCV 和 caCoV 中首选 ACA 外,所有基因中的氨基酸 THr 都优于 ACU 密码子。氨基酸 Ala 在 12 个基因中与 GCU 密码子高度偏倚,而在 IbCoV 中更倾向于 ACA。同样,在 MERS CoV 中与 UAC 编码氨基酸 Tyr,而在 hCoV HKU1 中过度代表 UAU;在 pedCoV 中,Cys 氨基酸与 UGC 过度偏倚,而在其他基因中则是 UGU;Arg 氨基酸在 pedCoV 和 CCcoV 中与 CGU 过度偏倚,而在其他基因中则占主导地位。总的来说,在过度代表或过度偏倚密码子的 NT3s 中,A3s 和 T3s 在 C3s 和 G3s 中占主导地位,而在负偏倚或代表性不足的 NT3s 中,顺序为 G3s>C3s>A3s>T3s。
3.3 ENc 和 ENc 图
一般来说,ENc 的值在 20-61 之间。当特定氨基酸的密码子数减少时,会导致 ENc 值降低,表明密码子偏差较高。相反,密码子数量的增加对应于更少或较少的氨基酸密码子偏差。所有研究过的 CoVs 的 ENc 值在 40.43 至 53.85 之间(Table 3)。一般来说,RNA 病毒的估计平均 ENc 值从 38.9 到 58.3( Jenkins and Holmes,2003)。高 ENc 值表明,CoVs 基因与有效复制一起高度保守,而最低的 ENc 值例如 20,反映了密码子使用与极端偏差(一个氨基酸由单一密码子编码)。我们的研究发现 18 个氨基酸具有不同的同义密码子。此外,RNA 病毒通常含有较高的 ENc 值,这些值有助于它与首选密码子的复制和宿主适应。
ENc 图有助于分析突变压力和密码子使用的组成限制,以及由 ENc 和 GCs 的标准曲线上的点表示的组成偏差。其它影响突变偏差的力由标准曲线下面的点定义。在所有病毒中,所有的点都位于标准曲线以下,因此表明密码子使用偏差受到成分限制和病毒宿主等因素的影响,而且自然选择也可能影响密码子偏差。
相关值范围从 r=0.0005(f CoV)到 0.924(bvCoV),如图 1 所示。在补充数据文件中提出的各种相关分析中达到了显著性水平。ibCoV、tgCoV 和 bvCoV 的 GC3s 与 ENc 的相关性有显著性差异(p<0.001),这揭示了突变偏差的影响以及额外的密码子使用偏差。而其余的 CoVs 没有产生显著的相关性,反映了成分限制的影响较小。
3.4 中立图
中立图通过评估选择和突变对密码子使用偏差的影响来分析进化的中立性。当基因处于统一的斜率时,GC3s 和 GC1,2s 的显著相关性是通过随机选择来实现的,然后特定的基因被称为中性突变。密码子使用的定向突变压力发生在斜率向 x 轴移动时。在 GC3s 上绘制了 GC1,2s 图,斜率意味着突变和选择力进化的运动。回归系数表示突变选择的平衡系数,如图 2 所示。
相关分析表明,pedCoV 与 MERS CoV、dCoV、bCoV 和 fCoV 的相关性很高,分别为 0.81、0.68、-0.47、0.98 和 0.58。用于 ped CoV 的 N 基因序列是从 2007 年 3 月至 2007 年 8 月的广泛的时间尺度上获得的。相反,MERS CoV N 基因序列是从 2014 年 7 月至 2008 年 1 月。这 c 反映了组分变异和适应宿主的速率。因此,pedCoV 通过改变其基因组组成来适应宿主的尝试更多。由于 MERS CoV 仍被认为是一种新兴的病毒,其基因组组成仍在不断变化,其宿主适应仍然是一个争论的问题。其中三种病毒表现出中等或中等相关性,例如具有以下 r 值的 cCoV、hCoV229E 和 caCoV:0.35、-0.41 和-0.5(负相关)。在图中所代表的所有研究病毒中,回归斜率从-0.8954 到 0.5891 不等。因此,这揭示了定向突变压力和中立性对它们的影响。补充数据文件包括 AROMO 和 GRAVY 分析,这些分析揭示了所研究的 CoVs N 基因之间的适度相关性,以及它们可能由 ENc、GC3s、GC 变异而产生的不同显着性水平。因此,我们可以从芳香性和亲水性推断对密码子使用的影响。
4. 讨论
计算方法与大多数研究有关,包括基因组分析、进化和药物发现等( Kandeel et al., 2009a, b; Kandeel et al., 2009c)。在目前的工作中,我们通过自然选择、突变选择等多种因素对不同 CoV 的 N 基因进行了评价,以确定调节病毒 RNA 在 CoV 中的病毒组装和转录的密码子偏差和密码子使用指数。核苷酸含量较高的 AT% 和较低的 GC% 是常见的 RNA 病毒,如严重急性呼吸综合征(SARS)(Jenkins and Holmes, 2003; Gu et al., 2004; Zhou et al., 2005)。ENc 值>35 表示由于突变压力或核苷酸组成限制而产生的轻微密码子偏差。这表明具有高 ENc 值的 RNA 病毒适应了具有各种首选密码子的宿主 (Jenkins and Holmes, 2003)。本研究的正偏密码子或代表密码子与其他两项关于 MERS CoV 蛋白酶和大流行流感病毒(H1N1 和 H3N2)的研究相似 (Kumar et al., 2016; Kandeel and Altaher, 2017)。在 zika 病毒和 tembusu 病毒中,密码子的使用是由突变偏差驱动的 (Cristina et al., 2015; Zhou et al., 2015),而在小孢菌科和平孢菌科则以选择压力为主 (Shi et al., 2013; Chen et al., 2014b)。在适应过程中观察到的一些带有密码子偏差的病毒与宿主有关 (Chantawannakul and Cutler, 2008; Bahir et al., 2009; Cheng et al.,2012; Kattoor et al., 2015; Ma et al., 2015; Nasrullah et al., 2015)。针对病毒蛋白保守区域的研究有助于开发诊断试剂和探针,用于在一次试验中检测一系列病毒和分离物,并有助于疫苗的研制 (Du et al., 2010; Johnson et al., 2019)。鉴于冠状病毒(CoV)N 基因的突变率和相对保守的序列较低,研究这些基因作为开发疫苗和诊断这些病毒的中介步骤是理想的。本研究有助于理解影响不同 CoV 之间 N 基因变化的不同因素及其与宿主的关系。
Fig 2. 13种不同CoV N基因的中性图
根据第一和第二位(GC)的GC频率,绘制了第三位(GC3s)的GC核苷酸碱基频率。
参考文献:
A Sheikh et al. Analysis of Preferred Codon Usage in the Coronavirus N Genes and Their Implications for Genome Evolution and Vaccine Design.J Virol Methods (2020)
文章来源:微信公众号「生物制品圈」
* 本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系(邮箱:biomart@dxy.cn),我们将立即进行删除处理;同时转载内容不代表本站立场。
为更好地保障疫情防治需要,丁香通诚邀您提供相关信息,不限于:可供应产品信息、捐赠意向、技术资料等内容,请通过邮件 biomart@dxy.cn 联系我们!
直击抗疫科研前线,丁香通与你同在!