1. 引言
抗癌肽(anticancer peptides,ACP)是一种具有明显抗肿瘤活性的抗微生物肽 [1] ,近年来生物学家们在抗癌肽这一领域做了大量研究,随着研究的深入,科学家们惊奇地发现,抗癌肽不仅能快速高效地消灭致病病菌,还能有效地作用于人体肿瘤细胞,使肿瘤细胞的核染色体合成受阻,造成DNA断裂而导致肿瘤细胞死亡 [2] [3] [4] ,抗癌肽(ACP)的发现为癌症治疗提供了新的希望 [5] [6] ,因为抗癌肽(ACP)不会损害正常的机体生理功能。在过去十年中,许多针对各种肿瘤类型的抗癌肽已经在临床上应用 [7] [8] [9] [10] ,表明抗癌肽(ACP)可能成为癌症治疗的一种手段。
2013年,Tyagi等人 [11] 基于氨基酸组分等特征信息,运用支持向量机(Suppoa Vector Machine,SVM)算法对抗癌肽进行预测,总精度(Acc)为88.89%;2014年,Hajisharifi等人 [12] 基于伪氨基酸组分信息和局部比对内核理论,运用支持向量机(Suppoa Vector Machine,SVM)算法在5折交叉检验下对抗癌肽进行了预测,总精度(Acc)达到89.7%;2016年Chen等人 [13] 基于序列工具在五折交叉检验下对抗癌肽进行预测,总精度(Acc)达到94.77%。
本文应用二次判别法 [14] [15] [16] ,选取20种氨基酸组分(20AAC)、蛋白质3种二级结构组分(3PSS)信息和6种亲疏水氨基酸组分(6HP)作为特征参量进行预测,最好的预测总精度(Acc)达到94%,同时在和其他预测算法进行对比时,结果显示应用二次判别法预测要优于其他预测算法。
2. 材料与方法
2.1. 资料库
为了便于和同类工作比较,本文也选取了Hajisharifi等人 [12] (http://aps.unmc.edu/AP/main.php)构建的抗癌肽数据集,称为数据集P。其中正集包含138条抗癌肽序列,称为PAC;负集包含206条非抗癌肽序列,称为Pnon-AC。
2.2. 特征的选取
2.2.1. 蛋白质二级结构组分
本文选取蛋白质3种二级结构组分(3PSS)信息作为特征参量,蛋白质3种二级结构分别为:α螺旋、β折叠和无规则卷曲(Coil)。数据集中,正集138条抗癌肽序列,负集206条抗癌肽序列,其二级结构信息是由PSIPERD [17] 软件预测获得。
2.2.2. 氨基酸组分
本文选取的20种氨基酸组分(20AAC)信息作为特征参量。
2.2.3. 亲疏水氨基酸组分
本文中根据氨基酸的亲疏水 [18] 将20种氨基酸分为6大类,具体分类信息如下:将强亲水类氨基酸天冬氨酸(D)、精氨酸(R)、谷氨酰胺(E)、天冬酰胺(N)、谷氨酸(Q)、赖氨酸(K)、组氨酸(H)归为一类,记作H;将强疏水类氨基酸丙氨酸(A)、蛋氨酸(M)、苯丙氨酸(F)、亮氨酸(L)、异亮氨酸(I)、缬氨酸(V)归为一类,记作L;将弱亲水性或弱疏水性氨基酸丝氨酸(S)、苏氨酸(T)、酪氨酸(Y)、色氨酸(Z)归为一类,记作W;剩余的3种氨基酸,即脯氨酸(P)、甘氩酸(G)、半胱氨酸(C)因其特殊的化学结构各成一类。这样20种氨基酸可以归并为6种(即H,L,W,P,C,G),我们计算了这6种亲疏水氨基酸组分(6HP)作为特征。
2.3. 二次判别法(QD)
早期的二次判别法(QD)是从正负两个集合中判断待测序列的归属,本文参考冯永娥和罗辽复 [14] [15] [16] 的工作,使用广义的二次判别法,对任意两个集合i,j之间的判定关系,用下面的公式(1)表示:
(1)
根据贝叶斯理论,可以导出:
(2)
其中Pi和Pj分别为i, j两个集合的样本数
我们设定:
(3)
(4)
平均值向量
可用下式表示
(5)
其中
是某一集合中的序列总数,
是
和
之间的马氏距离。
是协方差矩阵
的行列式。(注意:
和
在训练集中给定。)
为协方差矩阵:

协方差矩阵的元素:
(6)
在方程(2)中令
写成
,
两数之差:
(7)
我们可以从
,
的大小来判断出
(
and
)的大小顺序。即对于一个待测蛋白质序列
,如果分别算出
,
然后进行比较这2个
的大小,如果
是
中最大的一个,很容易证明
就是
中最大的,说明
出现在这个类别中的概率最大,则待测序列
就属于可k类。
然而在统计算法中,经常伴随着涨落现象,所以我们定义了允许误差范围内的修正系数:
(8)
其中,
表示属于自己结构的
,
表示被错误预测为其他结构的
(属于某类,但被预测为此类的
)。我们通过对
值进行合适的设定,就能利用公式(8)对预测结果进行适当的修正。
2.4. 随机森林算法(RF)
随机森林 [19] [20] 算法是Leo Breiman在2001年提出的一种分类预测模型,是由许多单棵分类回归树组合而成的,一棵分类回归树就是一个分类器,最后的决策结果由投票法决定。它的基本思想是将很多弱分类器集成一个强分类器。随机森林算法是一种通过自助法重采样来构造多个分类器的组合分类器。
随机森林有两个重要的参数,一个是单棵决策树每个节点处分裂时所选用的候选特征参数的个数m,另一个是随机森林中决策树的棵数k (k = 500)。用随机森林分类器对新的数据进行判别与分类,按照树分类器进行投票,最后由投票法决定分类结果。随机森林通过在每个节点处随机选择特征进行分支,这样可以最小化各棵分类树之间的相关性,提高分类的精确性。本文使用的是R语言下的RF程序包。随机森林算法不会出现过度拟合现象、分类效率也很高,而且能够快速处理大样本数据,同时需要调整的参数也比较少,能更好的估计哪个特征在分类中更重要。
2.5. 分类预测性能评估
目前,预测算法性能检验常用的方法主要有独立检验(independent test)和K-折交叉检验(k-fold cross-validation test)。
本文采用7折交叉检验,即将数据集随机分为7个子集合,依次从中取出一个子集作为测试集,而将剩余的6个子集合则作为训练集,此过程一共循环7次。对于任何预测算法性能的评价,主要是保证该预测算法能对属于同一数据域的新样本具有推广性能 [21] 。在我们的研究中主要使用敏感性(Sn)、特异性(Sp)、预测总精度(Acc)和Mathew’s相关系数MCC这4个指标评价预测算法的有效性:
1) 敏感性:表示数据集中每一类的预测正确率,定义如下:
(9)
2) 特异性:表示分类预测中每个类别预测结果的可信度,定义如下:
(10)
3) 预测总精度:表示预测的总体正确率,定义如下:
(11)
4) 马修相关系数:一个整体评价指标,反应预测的综合能力,定义如下:
(12)
其中,TP表示该类中正确预测的样品数,FN表示该类中错误预测的样品数,FP表示其他类被预测为此类的样品数,TN表示其他类中正确预测为其他类的样品数,N表示样品总数,敏感性(Sn)表示预测算法的能力,特异性(Sp)表示结果预测的可信度,预测总精度(Acc)表示预测结果的正确率,Mathew’s相关系数MCC表示对预测算法的综合评价,MCC的取值范围在[−1,+1]之间,MCC值等于1时,表示预测结果与真实类别完全相关,MCC值等于0时,表示是完全随机的预测,MCC值等于-1时,表示负相关性。
3. 结果与讨论
3.1. 二次判别法(QD)对抗癌肽的预测
在抗癌肽数据集P中,我们分别提取20种氨基酸组分(20AAC)、蛋白质3种二级结构组分(3PSS)、6种亲疏水氨基酸组分(6HP)作为特征参量,应用二次判别法进行预测,在7折交叉检验下,取R < 0.3,预测结果列在表1。
由表1可见,在7折交叉验证下,采用二次判别法,选取20种氨基酸组分(20AAC)结合蛋白质3种二级结构组分(3PSS)信息作为特征参量时,预测正确率最高,预测总精度(Acc)达到94%,敏感性Sn、特异性Sp与马修相关系数MCC分别为90%、96.67%、和0.87。由表1可见:在序列信息作为特征参量的基础上,加入了二级结构信息,预测精度都有了很大的提高,说明蛋白质二级结构信息是非常有效的特征参量。
3.2. 随机森林(RF)算法对抗癌肽的预测
为了确定我们所选的特征参量{20种氨基酸组分(20AAC)、蛋白质3种二级结构(3PSS)、6种亲疏水氨基酸组分(6HP)}对于识别抗癌肽具有不错的效果,我们又使用了随机森林算法结合这些特征参数实施预测,7折交叉检验,取R < 0.3,预测结果列在表2。
通过表2,再次确认加入了二级结构信息,预测精度都有了不错的提高。最后,在7折交叉检验下,采用随机森林算法,选取20种氨基酸组分(20AAC)结合蛋白质3种二级结构组分(3PSS)信息作为特征参量,预测正确率最高,总正确率(Acc)最高达到88%,敏感性Sn、特异性Sp与马修相关系数MCC分别为80%、93%、和0.75。同时对比表1的结果,发现在相同的特征参数下,二次判别法(QD)比随机森林(RF)更适合于抗癌肽的预测。
近几年,研究者对于抗癌肽作了大量的研究,为了显示我们预测模型的有效性,在相同的抗癌肽数据集P下,我们对比了Hajisharifi [12] 等人的研究结果,对比结果列在表3。

Table 1. Prediction results based on QD in 7 fold cross-validation
表1. 7折交叉下二次判别法的预测结果
Notes: PSS:蛋白质二级结构;AAC:氨基酸组份;HP:亲疏水氨基酸

Table 2. Prediction results based on RF in 7- fold cross-validation
表2. 7-折交叉下随机森林法的预测结果
Notes: PSS:蛋白质二级结构;AAC:氨基酸组份;HP:亲疏水氨基酸

Table 3. Comparison results by using different method
表3. 不同方法的对比结果
Notes: Hajisharifi [12] see in ref [12] .
表3的对比结果显示了我们的结果是优于其它工作的,可见我们的预测模型值得推广。尤其是加入结构信息后,预测精度有很大的提高,说明添加二级结构信息在抗癌肽预测中是个不错的选择。
4. 结论
在本文中,我们首次将蛋白质3种二级结构组分(3PSS)作为特征,并结合20种氨基酸组分(20AAC)、6种亲疏水氨基酸组分(6HP),应用二次判别法(QD)进行预测,结果显示:应用20种氨基酸组分(20AAC)结合蛋白质3种二级结构组分(3PSS)进行预测时正确率较高,总精度(Acc)最高为94%,并且高于其它的预测算法 [19] [20] 。希望我们的预测模型可以运用到其它抗微生物肽的识别中。
基金项目
本项目由国家自然基金项目(31360206);内蒙古自治区高等学校科研项目(NJZY067);内蒙古农业大学基础科研基金(JC2013004)资助。
NOTES
*通讯作者。