1. 引言
蛋白质与配体的相互作用本质上就是通过蛋白质序列上的部分残基的相互作用来实现的,这些残基被称为蛋白质的相互作用位点。而蛋白质功能的实现离不开与配体的相互作用,而这其中蛋白质与金属离子配体相结合就发挥着很重要的生物学功能。研究蛋白质与金属离子配体的结合残基,对理解生命活动的机制,探究蛋白质相互作用原理,发现新的药物靶标等相关研究都具有重要的影响和意义。
目前,研究者们对金属离子配体结合残基进行了大量的预测工作 [1]。2004年,Sodhi等人 [2] 利用序列特征,结合人工神经网络(Artificial neural network, ANN)方法,在5交叉检验下Zn2+、Fe3+、Ca2+等配体总精度(Accuracy, Acc)达到了94.5%。2006年Lin等人 [3] 基于序列的理化特征对10种配体结合残基进行识别,支持向量机(Support Vector Machine, SVM)算法下,预测总精度达到了74.9%以上。2016年Jiang等人 [4] 基于蛋白质的序列信息,利用信息学和统计学算法对Ca2+配体的结合残基进行预测,5交叉检验下得到的预测总精度为75.0%。2017年Cao等人 [5] 对BioLip数据库中的Fe2+、Fe3+、Co2+等10种金属离子配体的结合残基进行预测识别,应用序列组合特征结合SVM算法,5交叉检验下MCC值均达到0.5以上,总精度均高于74.8%。2020年,Liu等人 [6] 应用二面角作为参数结合随机森林(Random Forest, RF)算法,对10种离子结合残基进行预测,总精度高于77%,MCC值高于0.55。2021年,Wang等人 [7] 应用能量特征参数结合支持向量机算法,对10种离子结合残基进行预测,独立检验最佳精度值高于92.5%。综上所述,有关蛋白质与各类金属离子配体的结合已经进行了大量的研究,并提供了一些可靠的模型。但目前尚未有一种令人满意的方法来特定的识别疾病相关蛋白质与金属离子配体的结合位点。本文基于此,首先构建了人类三大疾病相关的蛋白质数据库,并利用其结构信息和biolip数据库 [8],建立了与三种金属离子结合残基的数据集,基于该数据集,我们提取了序列保守性PSSM特征、氨基酸组分特征,二肽组分特征,并使用随机森林和支持向量机算法对三类金属离子配体结合残基进行预测,取得了较好的结果。
2. 材料与方法
2.1. 数据集
2.1.1. 数据集的构建
本文基于Uniprot数据库 [9] 中注释信息,获得了三类疾病(心血管疾病、神经退行性疾病、癌症)相关的蛋白,然后利用Biolip数据库 [8],获得这三类疾病相关蛋白与三种金属离子Ca2+、Mg2+、Zn2+配体的结合残基信息,并在序列中标记结合残基。为构建非冗余数据集,我们对序列进行了筛选,首先剔除序列长度不足50个氨基酸、其三维结构分辨率大于3 Å,以及序列一致性高于30%的蛋白质链。最后获得三种金属离子配体与三类疾病相关蛋白的结合残基数据,列在表1中。

Table 1. Datasets of three metal ion ligands
表1. 三种金属离子配体数据集
Notes:Chains表示与金属离子配体结合的蛋白质链数;P表示金属离子配体的结合残基数量;N表示金属离子配体的非结合残基数量。
2.1.2. 不平衡数据集的处理
鉴于数据集中正集(P)数量远远小于负集(N),严重的数据倾斜普遍存在于蛋白质——配体结合残基预测中,为避免不平衡数据集对模型预测性能的影响,我们采取随机采样的手段,在非结合位点数据集中随机选取了与正集数量相等的序列片段作为负集;同时为了确保预测结果的科学性,我们进行了采样的最终结果取N/P(取整)次预测结果的平均值。
2.2. 特征参数的选取
2.2.1. 位置特异性打分矩阵
位置特异性打分矩阵(Position-Specific Score Matrix, PSSM)可以反映蛋白质序列上每个氨基酸的进化保守信息。在生物学上面认为,相互作用位点通常是一些保守的氨基酸,因此在本文中我们选择了PSSM作为特征参数。我们首先利用BLAST软件包中的PSI-BLAST来搜索Uniref90数据库来生成PSSM文件,迭代次数设为3,期望值设为0.001,其它参数均采用默认值。对于每一条蛋白质序列P来说,其PSSM可表示为如下形式:
(1)
(2)
其中
表示蛋白质序列的第一个氨基酸残基,
表示第二个氨基酸残基,以此类推,
表示第L个氨基酸。PSSM为一个L × 20的矩阵,其中20表示标准氨基酸,L为该蛋白质序列的长度,矩阵中元素
表示序列上第j个氨基酸突变为第i个氨基酸的得分,得分值越低说明概率越小,得分值越高表示概率越高。
2.2.2. 氨基酸组分
本文选取的20种氨基酸组分(Amino acids composition, AAC)信息作为特征参量,对于数据集中的序列我们可以利用20种氨基酸组成来表示。
(3)
(4)
2.2.3. 二肽组分
本文选取的400种二肽组分(Dipeptide composition, DC)信息作为特征参量,对于数据集中的序列我们可以利用20种氨基酸组成来表示。
(5)
(6)
2.3. 算法
2.3.1. 方差分析
方差分析(Analysis of Variance,简称ANOVA)又称为“F检验”或“变异数分析” [10],这种方法常用于两个及两个以上样本均数差别的显著性检验。我们选用单因素方差分析,公式(7)计算多组样本均数的显著性差异:
(7)
其中MST代表总均方,MSB代表组间均方,MSW代表组内均方。统计值F值是组间均方和组内均方的比值,为了消除因各组样本数不同而产生的影响,F值的计算如公式(8)表示
(8)
F值大就说明处理之间差异比较明显,误差项小就说明试验的精度较高。一般F值越大,P值越小。统计学上规定,一般当P值小于0.05时,可以说各组样本间存在差异,当P值小于0.01时,则说明各组样本之间存在着显著的差异。本文利用方差分析对三种金属离子配体的结合残基和非结合残基进行了氨基酸分布是否具有差异显著的分析。
2.3.2. 随机森林算法(RF)
随机森林(Random Forest,简称RF)算法是Leo Breiman在2001年提出的一种分类预测模型 [11],是由许多单棵分类回归树组合而成的,一棵分类回归树就是一个分类器,最后的决策结果由投票法决定。它的基本思想是将很多弱分类器集成一个强分类器。随机森林算法是一种通过自助法采样来构造多个分类器的组合分类器 [12]。它通过在各个节点处随机选择特征进行分支,这样可以最小化各棵分类树之间的相关性,从而提高分类的精度,所以随机森林算法已经被广泛地应用到分类以及模式识别等问题中 [13] [14]。
随机森林有两个重要的参数,一个是单棵决策树每个节点处分裂时所选用的候选特征参数的个数m,另一个是随机森林中决策树的棵数k (k = 500)。用随机森林分类器对新的数据进行判别与分类,按照树分类器进行投票,最后由投票法决定分类结果。随机森林通过在每个节点处随机选择特征进行分支,这样可以最小化各棵分类树之间的相关性,提高分类的精确性。随机森林算法不会出现过度拟合现象、分类效率也很高,而且能够快速处理大样本数据,同时需要调整的参数也比较少,能更好的估计哪个特征在分类中更重要。
2.3.3. 支持向量机(SVM)
支持向量机(Support Vector Machine,简称SVM)是由Vapink等人在1995年所提出的一种基于统计学习的机器学习算法,它的基本模型是定义在特征空间上的间隔最大化线性分类器。SVM在各领域内的二分类和多分类问题中都有应用 [15]。在SVM中,数据会通过核函数将低维线性不可分的数据映射到高维空间中,使得原本不可分的数据变得线性可分。最后通过最优化算法求得数据集的几何间隔最大的分离超平面。本文选取了径向基核函数(Radial Basis Function,简称RBF)来训练模型。通过台湾大学Lin Chih-Jen开发的LIBSVM3.21软件包 [16],搜寻最优的参数,来实现特征参数的最优化和预测。
2.4. 评价指标
目前,预测算法性能检验常用的方法主要有独立检验(independent test)和K-折交叉检验(K-fold cross-validation test)。本文采用5折交叉检验,即将数据集随机分为5个子集合,依次从中取出一个子集作为测试集,而将剩余的4个子集合则作为训练集,此过程一共循环5次。
对于任何预测算法性能的评价,主要是保证该预测算法能对属于同一数据域的新样本具有推广性能。本文采用了四种评估指标来评估模型的性能,精确度(Precision, Pre)、召回率(Recall, Rec)、预测总精度(Accuracy, Acc)、马修斯相关系数(Mathews correlation coefficient, Mcc),定义如下。
(9)
(10)
(11)
(12)
3. 结果与讨论
3.1. 结合残基与非结合残基处氨基酸分布的差异性分析
本文统计了金属离子Zn2+,Mg2+,Ca2+结合残基与非结合残基处的20种氨基酸的分布,并利用方差分析,公式(7)~(8)对三种金属离子配体的结合残基与非结合残基处的氨基酸的分布进行了差异是否显著的分析,结果如表2所示,Ca2+结合残基与非结合残基处有显著差异的氨基酸有16个,分别是氨基酸A、C、D、E、G、I、H、K、L、N、Q、P、R、S、V;在ZN2+结合残基与非结合残基处有显著差异的氨基酸有13个,分别是氨基酸A、C、E、H、I、K、L、N、Q、R、S、T、V;在Mg2+结合残基与非结合残基处有显著差异的氨基酸有9个,分别是氨基酸D、E、G、H、K、L、P、Q、R。可见三种金属离子的结合残基与非结合残基处氨基酸的分布是有显著差异的,基于此接下来利用序列特征识别这些结合残基。

Table 2. Amino acids with significant differences in the binding and non-binding residues for 3 metal ion ligands
表2. 三种金属离子配体的结合残基与非结合残基处有显著差异的氨基酸
3.2. 随机森林(RF)算法的预测结果
考虑到蛋白质与金属离子配体相互作用时,并不只与某一特定结合残基发生相互作用,也受到其周围残基的影响,所以我们选用滑动窗口的方法截取一定长度的序列片段,若片段中心为金属离子配体的结合残基,则定义该片段为正集片段,反之则为负集片段。为保证蛋白质上的每一个残基都能出现在窗口中心,我们分别在蛋白质链的两端加上(L − 1)/2个伪氨基酸X,L为所选取的窗口长度。
下面是利用随机森林算法在单特征(PSSM, AAC, DC)以及特征融合后5折交叉检验的预测结果列在表3中。其中应用20种氨基酸组分(AAC)在Zn2+、Mg2+、Ca2+结合残基与非结合残基识别中最佳识别窗口分别为11、9、7;400种二肽组分(DC)在Zn2+、Mg2+、Ca2+结合残基与非结合残基识别中最佳识别窗口分别为7、7、5;特异性打分矩阵(PSSM)在Zn2+、Mg2+、Ca2+结合残基与非结合残基识别中最佳识别窗口分别为5、7、9;在组合特征最佳窗口取9的情况,精度有一定程度的提高,可见以上特征融合还是有助于识别这些结合残基的。
3.3. 支持向量机(SVM)算法的预测结果
在数据集中,我们再次选取AAC (最佳窗口均为11)和DC (最佳窗口均为7)作为特征参数,用支持向量机算法进行预测,在5折交叉检验下,预测结果列在表4。
鉴于特征融合计算量大,故在SVM预测算法中没有进行特征的融合,但对比表3的结果,发现在相同的特征参数(AAC、DC)下,随机森林算法(RF)比支持向量机算法更适合识别这三种金属离子配体的结合残基。

Table 3. Prediction results based on RF in 5-fold cross-validation
表3. 5-折交叉下随机森林算法的预测结果

Table 4. Prediction results based on SVM in 5-fold cross-validation
表4. 5-折交叉下支持向量机算法的预测结果
3.4. 三种金属离子配体结合位点的预测结果
金属离子配体的结合残基的准确识别有助于理解蛋白质的功能,所以我们进一步应用随机森林和支持向量机两种算法对三种金属离子的结合残基进行3分类的识别,滑动窗口均取11时分类效果最好,结果列在表5中。

Table 5. Prediction of binding sites of 3 metal ion ligands
表5. 三种金属离子配体结合位点的预测结果
以上结果可见,二肽组分(DC)特征更有利于识别三种金属离子结合残基。对比两种算法的结果,可以看出对于三种金属离子配体的结合残基,随机森林(RF)算法要比支持向量机(SVM)算法识别效果好。
4. 结论
本文研究的蛋白质是源于Uniprot库中与人类疾病相关的三类蛋白,中间剔除了结合后有突变残基的蛋白、还有长度不足50个残基的蛋白以及没有对应三维结构信息的蛋白,最后获得的蛋白质数量有限,所以本文只研究了其结合位点较多的三种金属离子配体的结合。首先,通过方差分析发现三种金属离子的结合残基与非结合残基处氨基酸的分布存在显著的差异性,然后,基于氨基酸序列分别提取3种特征(PSSM, AAC, DC)应用两种算法实施分类。在三种金属离子结合残基与非结合残基识别中,应用随机森林算法(RF),氨基酸组分(AAC)结合特异性打分矩阵(PSSM)特征预测正确率较高,Zn2+结合残基的预测总精度(Acc)最高达到87%。而在三种金属离子配体结合残基的分类识别中,利用随机森林算法(RF)和二肽组分(DC)特征结合,取得总精度(Acc)最高为82%。可见,该模型对于疾病相关蛋白与金属离子配体的结合残基还是有一定的识别能力的。下一步随着公共数据库的扩增,我们获得更多疾病相关的蛋白,将开展多种金属离子配体的研究。
基金项目
感谢匿名的评审专家对本文给出的宝贵意见,同时感谢国家自然科学基金专项项目(62141204),内蒙古自治区研究生教改项目(YJG20191012908)对本论文的资助。
省略语表
SVM (Support Vector Machine):支持向量机;
PSSM (Position-Specific Score Matrix):位置特异性打分矩阵;
RF (Random Forest):随机森林;
ANN (Artificial neural network):人工神经网络;
ANOVA (Analysis of Variance):方差分析;
AAC (Amino acids composition):氨基酸组分;
DC (Dipeptide composition):二肽组分;
Acc (Accuracy):准确率;
MCC (Matthew’s correlation coefficient):马修斯相关系数;
Pre(Precision):精确度;
Rec(Recall):召回率。