1. 引言
蛋白质的二级结构是指多肽链中主链原子的局部空间排布,是不涉及侧链部分的构象。它们是完整肽链构象(三级结构)的结构单元,是蛋白质复杂的空间构象的基础。蛋白质二级结构预测通常作为蛋白质空间结构预测的第一步,是了解蛋白质的折叠模式和三级结构的基础,并为研究蛋白质的功能以及它们之间的相互作用模式提供结构基础,同时还可以为新药研发提供帮助。因此,对蛋白质二级结构的预测具有重要的理论意义和应用价值。
以往对蛋白质二级结构的预测研究大多集中在3态(H, E, C) [1] - [7],近年来,有一些研究已经从3态拓展到8态(G, H, I, E, B, T, S, C),8态二级结构能够比3态二级结构提供更加细致的结构信息,在很多应用中特别重要,但是对8态二级结构的预测仍然相对较少。2002年Pollastri [8] 等人首次用服务器SSPRO8预测了8态蛋白质二级结构,平均预测精度Q8在62%~63%之间;2011年王 [9] 等人用有条件的神经域模型(CNFs)预测8态蛋白质二级结构,平均预测精度Q8达到67.9%,但是,其中G,I,B,S的预测精度非常低,主要原因是在蛋白质数据库中出现的频率较低;2013年从 [10] 等人基于结构的位置特异性打分矩阵(SPSSM8)预测8态蛋白质二级结构,预测精度更高,Q8达到71.7%,G,I,B,S的预测精度也有所提高并且各类预测精度相对平衡;2014年Yaseen [11] 等人利用结构信息和环境特性建立结构模板(C8-SCORPION)对8类蛋白质二级结构预测,预测精度进一步提高,Q8达到78.85%,但是I的预测精度为零,主要由于I太少,常常被错误的归类为H。
本文对酶蛋白质中8类二级结构进行预测,还未见相关报道。酶是一类特殊的蛋白质,是生命中必需和通用的大分子,研究酶类中二级结构对研究酶催化作用的分子机制 [12],酶活性 [13] 等方面有重要意义。
2. 材料和方法
2.1. 数据库
首先从SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/)数据库中整理出序列相似性 < 25%,分辨率 < 3.0 Å的蛋白质4442个,从中按照酶的EC编号 [14] 挑选出2261个酶蛋白质。为了构建更大的数据库,又选取了另外一个数据库EVA,来自http://cubic.bioc.columbia.edu/eva/res/weeks.html#unique (on November 25, 2002),包括2878个蛋白质,序列相似性小于33%,去掉和SCOP中重复的蛋白质632个后,剩余蛋白质2246个,再按照酶的EC编号 [14] 挑选出841个酶蛋白质,所以最后得到的酶蛋白质数量是3102个。依据DSSP [15] 定义,蛋白质二级结构分成8类,H (alpha-helix),G (310 helix),I (π-helix),E (extended beta-strand),B (isolated beta-strand),T (turns),S (bend) and others (C)即H,E,B,G,I,S,T,C 8个字符。
在3102个酶蛋白质中,每个氨基酸序列,每次移动步长为1个残基,分别截取21残基长度的片段981,470个,然后依据其中心残基的二级结构类型分成8个子库,即H,E,B,G,I,S,T,C库。中心残基为H的有324,461个,中心残基为E的有324,461个,中心残基为B的有12,236个,中心残基为G的有39,193个,中心残基为I的有241个,中心残基为S的有89,792个,中心残基为T的有114,909个,中心残基为C的有200,245个。去掉非标准氨基酸残基后,中心残基为H的有300,045个,中心残基为E的有182,930个,中心残基为B的有10,957个,中心残基为G的有35,770个,中心残基为I的有222个,中心残基为S的有81,612个,中心残基为T的有104,981个,中心残基为C的有182,218个,见表1。

Table 1. The numbers of the 8-state secondary structure
表1. 8类二级结构数量
2.2. 计算方法
2.2.1. 矩阵打分算法(PCSF)
矩阵打分方法在转录因子结合位点预测,超二级结构预测方面取得较好结果 [16] [17] [18] [19]。本文以位点氨基酸和20种氨基酸n-gap 2肽组分(n = 1,即紧邻,n = 2,次紧邻,n = 3,次次紧邻)作为参数,将酶蛋白质中的8类二级结构用矩阵打分的方法分类。
1) 位置权重矩阵(PWM)
考虑到氨基酸频率计数时的标准偏差的影响,我们引入了伪计数概率 [19] 来计算二级结构的位点位置概率,公式如下:
(1)
这里,以位点氨基酸为参数时,l = 20,j表示20种氨基酸,
表示第i个位置上所有氨基酸出现的总数,
表示第i个位置上第j种氨基酸出现的频数;以20种氨基酸n-gap 2肽组分为参数时,l = 400,
表示第i个位置上所有氨基酸2肽组分出现的总数,
表示第i个位置上第j种氨基酸2肽组分出现的频数。
利用位点位置概率,构建位置权重矩阵W。位置权重矩阵的矩阵元定义为:
(2)
其中,
表示氨基酸j出现的背景概率。以位点氨基酸为参数的矩阵是20行L列;以氨基酸2肽组分为参数的矩阵是400行
列,L为选取的酶蛋白质二级结构序列模式的片断长度。
2) 打分函数
为识别待测序列的二级结构类型, 我们在训练集中建立了8种二级结构相应的位置权重矩阵{WH},{WE},{WB},{WG},{WI},{WS},{WT},{WC}。对于任意一个待测序列,应用位置权重矩阵中每一位置上与所给序列对应氨基酸的矩阵元之和,即打分函数:
(3)
这样对于同一待测序列,通过和8种二级结构序列构建的位置权重矩阵{WH},{WE},{WB},{WG},{WI},{WS},{WT},{WC}比对打分, 得到8个不同的分值SH,SE,SB,SG,SI,SS,ST,SC,分值越大,与位置权重矩阵描述的二级结构类型越相似。我们比较8个分值,谁的得分最大,待测序列的结构就被预测为该类。
2.2.2. 系统检验
本文对分类结果的评价使用10交叉检验的方法,随机将8类数据集共898,735个21残基片段(H:300,045个,E:182,930个,B:10,957个,G:35,770个,I:222个,S:81,612个,T:104,981个,C:182,218个)分为10个子集,依次取出1个子集作测试集,而其余9个子集作为训练集,此过程循环10次。
2.2.3. 精确度评价指标
本文用2个指标来衡量预测的精度,第一个是蛋白质二级结构8态预测的总精度:
(4)
其中,
表示被正确预测的8态总样本数(i = H, E, B, G, I, S, T, C),N表示蛋白质二级结构8态(H, E, B, G, I, S, T, C)的总样本数。另外一个指标是8种二级结构的正确预测率:
(5)
其中,
表示二级结构为i被正确预测的样本数,
表示该结构中总样本数。
3. 结果与讨论
在3102个酶蛋白质中,分别截取全长21残基的片段,移动步长为1个残基,将得到的所有21残基片段根据其中心残基的二级结构类型(H, E, B, G, I, S, T, C)分成8个集合。依据公式(1-3)统计21残基片段中21个位点上20种氨基酸出现的频率,建立位置权重矩阵,是个20 × 21维的矩阵;同样,我们也可以统计20种氨基酸n-gap 2肽组分出现的频率,建立位置权重矩阵,当n = 1时是个400 × 20维的矩阵,当n = 2时是个400 × 19维的矩阵,当n = 3时是个400 × 18维的矩阵。这样基于8个集合,我们可以分别建立8个位置权重矩阵即{WH},{WE},{WB},{WG},{WI},{WS},{WT},{WC}。对于一个中心残基待测的21残基片段,通过打分函数计算出SH,SE,SB,SG,SI,SS,ST,SC 8个打分值,找出最大的分值,从而得到预测的结果。采用10交叉检验,计算结果见表2。

Table 2. The predicting results of using scoring matrix
表2. 使用矩阵打分的预测结果
从表2中可以看出,当n = 1时,即以紧邻关联为参数,预测效果最好,8态预测总精度达到61.4%。我们发现,无论以位点氨基酸还是20种氨基酸n-gap 2肽组分为参数,都是H的预测精度比较好,n = 1时达到79.6%,其次是E、C,此外,I的预测精度几乎为零,原因是由于I太少,常常被错误的归类为H,这也和文献 [11] 是一致的。
本文尝试预测酶蛋白质中8类二级结构,是前人所没有研究过的。参考前人对各类蛋白质中二级结构的预测结果,我们的预测精度虽不及前人,但是我们的数据集更大,是我们后续研究工作的有利基础。而且本文首次将矩阵打分的方法用于酶蛋白质中8类二级结构的预测,计算简单,操作方便。
4. 结论
本文选取了3102个酶蛋白质,分别截取21个氨基酸残基片段,统计位点氨基酸以及20种氨基酸n-gap 2肽组分在8种二级结构序列中各个位点的位置权重矩阵,然后利用打分函数来预测,取得了比较好的预测效果。但是位点氨基酸及其n-gap 2肽组分还不足以提供足够的二级结构信息,因此,预测精度还有待提升。近几年的研究工作 [20] [21] [22] [23] [24] 表明:除了氨基酸序列信息外,影响其二级结构的形成还取决于其它因素,如残基的亲疏水性和当地环境,接触数,溶剂易访问性的残留物,蛋白质结构类,甚至受到不同物种的影响,所以今后的工作中也可以考虑整合这些信息,进一步提高酶蛋白质8类二级结构预测的精度。
基金项目
内蒙古工业大学科学研究项目(X201517)。