1. 引言
2019冠状病毒病(Corona Virus Disease 2019, COVID-19)与严重急性呼吸综合征(severe acute respiratory syndrome, SARS)和中东呼吸综合征(Middle East respiratory syndrome, MERS)同属冠状病毒属所致疾病,其临床表现从轻微的流感样症状到严重危及生命的重症肺炎 [1] [2] [3]。2019年12月有新型冠状病毒(SARS-CoV-2)感染的新型冠状病毒肺炎(COVID-19)对全球公共卫生造成了巨大的威胁 [4] [5]。2020年1月12日,世界卫生组织正式将其命名为2019-nCoV [6]。新型冠状病毒的传染性强,有症状和无症状感染者均可传播,现在研发有效的治疗方法迫在眉睫。从2019年12月新型冠状病毒(SARS-CoV-2)大面积爆发后,我国投入了大量的财力物力人力,给我国经济造成了巨大损失,同时也严重危害了人类的健康。与此同时,疫情迅速蔓延,造成人员恐慌、严重的社会危害,引起了中国政府以及世界有关组织的密切关注 [7]。2019-nCoV的出现提醒了我们建立系统的冠状病毒监测网络的重要性。也给突发疫情防控和应急科研提出了新的挑战。
新型冠状病毒属于β属冠状病毒,其遗传物质是单条正义RNA链。目前,SARS-CoV-2基因组序列已经绘制完成(NCBIBioProject: PRJNA485481) [8]。2019新型冠状病毒信息库 (https://ngdc.cncb.ac.cn/ncov/)也在不断更新数据。有报道基于生物信息学分析方法已经将部分病毒基因组数据构建了系统发育分析树,但是关于具体的SARS-CoV-2的序列分析还未被报道。我们的研究从生物信息学角度出发对SARS-CoV-2的部分序列进行分析,以期望可以为研究SARS-CoV-2的分子诊断,筛选抗病毒药物靶点提供有效依据,并且期望可以为抗SARS-CoV-2的疫苗或药物提供新的思路。
2. 材料与方法
2.1. 序列的搜索与鉴定
本文的研究对象是病毒株名为SARS-CoV-2/human/CHN/Bejing_BJ0613-12-HJ/2020的SARS-CoV-2。从新型冠状病毒信息库(https://ngdc.cncb.ac.cn/ncov/)下载了SARS-CoV-2的12个蛋白序列,并同时下载了蝙蝠冠状病毒和SARS的参考序列,表1列出了3种病毒的名称和对应的序列号。通过上述下载的数据,利用软件Mega7.0的最大自然法推断系统发育关系,构建系统发育树,并通过ITOL (http://itol.embl.de)美化系统发育树。
2.2. 蛋白质特征分析
使用蛋白质分析工具ExPASy Server10 (SIB Bioinformatics Resource Portal, https://prosite.expasy.org/PS50011)预测SARS-CoV-2蛋白的特征,包括蛋白质长度,分子量(MW),等电点(pI),稳定性和亲水性的平均值(GRAVY) [9]。
2.3. 蛋白模型的预测
使用SWISS-MODEL server (https://www.swissmodel.expasy.org/)对12个SARS-CoV-2蛋白序列进行三维建模 [10]。在模板的基础上,预测的模型试探性地最大化了测试序列的比对范围、百分比识别率和可信度。
3. 研究结果
3.1. 系统发育树
系统发育树分析表明3种病毒的蛋白序列可以分为a,b,c三组(见表1和图1)。a组中有6个SARS序列,2个蝙蝠冠状病毒序列,2个SARS-CoV-2序列。b组中有17个SARS序列,1个蝙蝠冠状病毒序列,3个SARS-CoV-2序列。c组中有15个SARS序列,5个蝙蝠冠状病毒序列,7个SARS-CoV-2序列。结果显示,和蝙蝠冠状病毒比起来,本文中我们研究的SARS-CoV-2与SARS的亲缘关系可能更接近。

Table 1. Virus name and corresponding serial number
表1. 病毒名称及对应的序列号

Figure 1. Phylogenetic tree of SARS, SARS-COV-2, Bat SARS-like coronavirus
图1. SARS、SARS-CoV-2、蝙蝠冠状病毒的系统发育树
3.2. 蛋白质特征分析
预测结果显示,SARS-CoV-2蛋白的氨基酸数量从38~7096 aa不等,平均值是1179.08 aa。分子量在4449.23~794,063.8 kDa之间,平均值为131,664.31 kDa。等电点从4.17到10.09变化,平均值是6.90,其中有7个SARS-CoV-2的等电点小于7,被预测为酸性蛋白质,剩余的被预测为碱性蛋白质,其中序列号GWHPANPA000011的等电点是10.09,是所有蛋白质序列中等电点最大的蛋白质,根据等电点数值的变化,我们做了折线图,可以明确的看出等电点的变化(见图2)。蛋白质不稳定指数分布范围在16.06~55.81之间,平均值为38.35,表明大多数SARS-CoV-2是稳定蛋白,但是GWHPANPA000008,GWHPANPA000009,GWHPANPA000010,GWHPANPA000011被预测是不稳定的。SARS-CoV-2蛋白质的亲水性(GRAVY)在0.98~1.449之间变化,平均值为0.30,表明它们大部分是亲水性蛋白质,但是GWHPANPA000005,GWHPANPA000009被预测不是亲水性蛋白质(见表2)。

Table 2. Protein characteristics table
表2. 蛋白质特征表

Figure 2. Line diagram of predicted isoelectric points of 12 SARS-CoV-2 protein sequences
图2. 预测的SARS-CoV-2的12个蛋白序列的等电点的折线图
3.3. 蛋白模型的预测
使用SWISS-MODEL server (https://www.swissmodel.expasy.org/)对12个SARS-CoV-2蛋白序列进行三维建模 [10]。在模板的基础上,预测的模型试探性地最大化了测试序列的比对范围、百分比识别率和可信度。3D模型结果显示,预测的SARS-CoV-2蛋白质的三级结构各不相同,其中GWHPANPA000006,GWHPANPA000008,GWHPANPA0000010不含α螺旋,剩余9个序列都含有α螺旋,它在蛋白子结构中起着重要作用(见图3)。对GWHPANPA000006的模型预测描述说明是SARS-CoV-2 ORF3a的Cryo-EM结构,GWHPANPA000008的模型描述说明是SARS冠状病毒ORF7a编码的X4蛋白的溶液结构,GWHPANPA0000010的模型描述说明是SARS冠状病毒ORF7a附件蛋白的结构。
4. 讨论
对于SARS-CoV-2的传染性强,传染范围广,各个国家都在加紧研发有效的药物来控制新冠肺炎的蔓延。目前,已有大量的基于全基因组测序和临床防治的SARS-CoV-2研究 [1] [5] [11],但是仍然缺乏强有效的疫苗和抗病毒药物。随着SARS-CoV-2的传染性增强,感染人数的增多,病毒也在不断变异,因此从生物进化学、遗传学、基因组学的角度深入认识和了解SARS-CoV-2是必不可少的。

Figure 3. The predicted tertiary structure of the protein
图3. 预测的蛋白质三级结构
在我们的研究中通过多序列比对,蛋白质特征的分析和预测蛋白质特征等生物学方法分析了SARS-CoV-2/human/CHN/Bejing_BJ0613-12-HJ/2020的序列,结果显示和蝙蝠冠状病毒比起来,本文中我们研究的SARS-CoV-2与SARS的亲缘关系可能更接近。蛋白质的氨基酸数量、分子量、等电点等特征变化很大。预测蛋白质模型结果显示有一部分含有α螺旋,另外几个的模型结构简单,同时预测这几个模型时对它们的模型描述说明都与它们的ORF有关。这种简单和复杂的蛋白结构之间可能存在功能上的联系或者蛋白的相互作用。有趣的是我们并未预测到GWHPANPA0000012的模型,可能是因为它的结构过于简单或者复杂。从图中我们可以看到,预测的蛋白模型有复杂结构(例如:GWHPANPA000003)也有简单结构(例如:GWHPANPA000007)。说明这些蛋白质之间可能存在功能联系或者相互作用。
依据SARS-CoV-2复制的过程,目前可检测病毒的技术或者方法有定量PCR、多重PCR、反转录等,主要针对病毒正链单股RNA、抗体等 [12] [13]。本文中我们的分析期望可以为了解SARS-CoV-2的根源有所贡献,并且可以为精准快速地进行核酸分子的诊断、有效的预防、和临床的防治提供新的思路。同时期望为抗SARS-CoV-2药物的研发提供有效的依据,也可以为其它流行性病毒诊断防控提供新的思路和方法。
致谢
感谢实验室的师兄师姐教会我们做生物信息学分析,感谢马东方老师对本文的指导。
NOTES
*第一作者。
#此作者和第一作者同等贡献。