1. 引言
酶是活细胞内产生的具有高度专一性和催化效率的蛋白质,又称为生物催化剂,生命活动中引起新陈代谢的千千万万的化学变化几乎都是在酶的催化下进行的,酶与生命现象息息相关。因此,对于酶结构及功能的研究对生命科学的发展至关重要。近年来研究者们在酶蛋白质分子的功能研究上获得了较大的成果,比如关于酶与非酶[1] [2] 、酶的亚类分类[3] -[7] 方面的研究。但是对酶蛋白质结构的研究还相对较少,只有2011年Liu和Hu[8] 、2012年Long和Hu[9] 对酶蛋白质中的β发夹模体进行了识别。
酶作为一种具有催化功能的蛋白质,它具有一般蛋白质分子所有的一级结构和高级结构,蛋白质的超二级结构(supersecondary structure)是指两个或几个二级结构单元被连接多肽(loop)连接起来,进一步组成有特殊几何排列的局域空间结构,简称Motif[10] 。简单超二级结构分为β-loop-β、β-loop-α、α-loop-α和α-loop-β四类。由于超二级结构是α螺旋、β折叠简单排列形成的局域结构,有着比较强的序列信号,而且在三级结构中频繁出现,对蛋白质折叠及稳定性起重要作用,因此,学者们非常重视对超二级结构的研究,做了许多工作[11] -[18] 。酶蛋白质中的超二级结构除了具有一般蛋白质中超二级结构的特点,还有其自身特点,常常参与形成一些结合位点和活性位点,执行复杂的生物学功能。例如,丝裂原活化蛋白激酶(mitogen-activated protein kinases, MAPKs)是信号从细胞表面传导到细胞核内部的重要传递者,其中就包含一个β-loop-α结构,氨基端的β折叠和羧基端的α螺旋之间形成一个裂隙,为ATP结合位点[19] 。又如,SnRK3是植物特有的一类蛋白激酶,又被称为类钙调磷酸酶B亚基互作蛋白激酶(calcineurin B-like calcium sensor-interacting protein kinases, CIPK)。CIPK激酶在C端的酶结合区中含有一个抑制区域,与钙离子结合蛋白CBL(calcineurin B-like calcium sensor, CBL)结合来激活这些激酶。而CBL蛋白有包含4个α-loop-α结构的保守核心区域[20] ,每个α-loop-α结构的保守性与结合的激酶的差异有关。因此,酶蛋白质中的简单超二级结构对酶结构及功能研究有特殊意义。
对蛋白质中四类超二级结构的研究,2008年Hu和Li[16] 、2010年Zou[15] 等人取得了较好的预测结果。本文在前人研究各类蛋白质超二级结构的基础上,首次对酶蛋白质中的简单超二级结构进行研究,将2261个酶蛋白质的超二级结构,按照loop连接的二级结构类型,分为β-loop-β、β-loop-α、α-loop-α和α-loop-β四类。从超二级结构的一级序列出发,序列模式固定长度选取24个氨基酸残基,采用第6位点为loop的N端、第19位点为loop的C端、第10位点为loop的N端、第15位点为loop的C端和以loop序列为中心对齐五种片段截取方式,以位点氨基酸和位点氨基酸紧邻关联作为参数,分别采用矩阵打分算法和支持向量机方法的预测结果不理想,将支持向量机的预测结果通过整体分类器加权融合,进一步预测四类超二级结构,取得了较好的预测效果。
2. 材料和方法
2.1. 数据库的构建及统计分析
选取SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/)数据库中ASTRAL 1.75版的序列相似性≤95%的16712个蛋白质,从中删除一些小蛋白质后,剩余14977个蛋白质。经过Blastcluster软件处理,得到序列相似性<25%的蛋白质有8704个,其中,序列片段长度大于100个氨基酸残基、分辨率<3.0 Å的蛋白质有4442个。再从这4442个蛋白质中按照酶的EC编号[21] 挑选出2261个酶蛋白质(其中包括氧化还原酶393个,转移酶637个,水解酶776个,裂解酶199个,异构酶112个、连接酶115个和同时属于两种以上的酶29个)。根据dssp数据库提供的二级结构,将H、G、I归为α螺旋,E、B归为β折叠,其余为loop。按照loop连接的二级结构类型,得到独立的超二级结构单元53367个,其中,β-loop-β(以下用“EE”表示)有14037个,β-loop-α(以下用“EH”表示)有13391个,α-loop-α(以下用“HH”表示 )有13539个,α-loop-β(以下用“HE”表示)有12400个。对四类超二级结构序列片段进行统计分析,我们发现,loop长度主要集中在2-12个氨基酸之间(见图1),包含四类超二级结构单元45506个,其中,EE有12956个,EH有10646个,HH有10682个,HE有11222个,分别占总数的92.3%、79.5%、90.5%、78.9%。loop长度在2~12个氨基酸之间的四类超二级结构中,序列片段长度主要分布在6-30个氨基酸之间(见图2),包含四类超二级结构41793个,具体有EE12847个、EH10090个、HH8103个、HE10753个,分别占其中的99.2%、94.8%、75.8%、95.8%。因此,我们以loop长度在2~12个氨基酸之间的序列片段长度在6-30个氨基酸之间的超二级结构为研究对象。
2.2. 计算方法
2.2.1. 四类超二级结构序列片段的截取
通过对四类超二级结构序列片段的统计分析,我们得到EE、EH、HH、HE的平均长度分别为15个氨基酸、19个氨基酸、24个氨基酸、19个氨基酸。而且,α螺旋的平均长度为9个氨基酸,loop的平均长度为4个氨基酸,β折叠的平均长度为5个氨基酸。因此,为了保证四类超二级结构的重要信息都不丢失,选取固定模式长度为24个氨基酸,保证loop两端连接的二级结构都能进入序列片段,同时,由于loop两端有较强的氨基酸保守性,比如,氨基酸G在loop两端出现较为频繁[10] ,所以,我们采用以第6位点作为loop的N端、以第19位点作为loop的C端、以第10位点作为loop的N端、以第15位点作为loop的C端和以loop序列为中心对齐五种片段截取方式,见图3。
2.2.2. 位点信息的统计分析及参数选取
对2.2.1的5种序列片段截取方式,分别使用weblogo软件进行位点保守性统计分析,由于篇幅限制,这里选取部分为例说明(见图4)。以第10位点为loop的N端为例,(a) 图代表超二级结构EE,(b) 图代表超二级结构HH,比较(a)和(b),(a) 图中第10位点到第13位点最保守的氨基酸都是G,其中第10位点和第11位点氨基酸D的保守性次之,其它位点最保守的氨基酸多为V、L;而(b)图中第12、13位点最保守的氨基酸是P,第10位点和第11位点最保守的氨基酸虽然也是G,但是次之保守的氨基酸分别是L和P,其它位点最保守的氨基酸多为L、A。说明同一种片段截取方式,不同超二级结构的保守性不同。以超二级结构HE为例,(c) 图代表第15位点为loop的C端,(d) 图代表第6位点为loop的N端,
Figure 1. The distribution of sequence numbers with different loop length in the supersecondary structures
图1. 不同loop长度对应的四类超二级结构数目
Figure 2. The distribution of pattern numbers with different pattern length
图2. 不同序列片段长度对应的四类超二级结构数目

Figure 3. The diagram of the best patterns fixed-length: (a) beginning of loop locates the sixth position (b) end of loop locates the nineteenth position (c) beginning of loop locates the tenth position (d) end of loop locates the fifteenth position (e) loop sequence locates the center (the length of loop is an odd number) (f) loop sequence locates the center (the length of loop is a even)
图3. 最佳固定模式长度选取示意图:(a) 第6位点为loop N端;(b) 第19位点为loop C端;(c) 第10位点为loop N端;(d) 第15位点为loop C端;(e) 以loop序列为中心(loop长为奇数);(f) 以loop序列为中心(loop长为偶数)
Note: first row is amino acid sequences, second row is secondary structures corresponding sequences, “*”is a terminal residue
注:第一行表示氨基酸序列,第二行表示序列对应的二级结构,“*”表示一个空位
(a)
(b)
(c)
(d)
Figure 4. Sample of the position conservation: (a) beginning of loop locates the tenth position of EE (b) beginning of loop locates the tenth position of HH (c) end of loop locates the fifteenth position of HE (d) beginning of loop locates the sixth position of HE.
图4. 位点氨基酸的保守性举例:(a)以第10位点为loop的N端(EE) (b)以第10位点为loop的N端(HH) (c)以第15位点为loop的C端(HE)(d)以第6位点为loop的N端(HE)
Note: the overall height of the stack indicates the position conservation, while the height of symbols within the stack indicates the relative frequency of each amino acid at that position
比较(c)和(d),(c)图中第13、14位点最保守的氨基酸是G,第15位点最保守的氨基酸是P,其它位点最保守的氨基酸多为V、A、L;而(d)图中,第6、7、8位点最保守的氨基酸是G,其它位点最保守的氨基酸多为A、L、V,另外,第24位点的氨基酸保守性有明显特点,最保守的氨基酸是S、F、T、V。可见,不同的片段截取方式有着不同的位点氨基酸保守特性,所以5种截取方式的位点氨基酸保守信息可以作为预测参数。这里我们选取位点氨基酸(20种氨基酸加一个空格)和其紧邻关联为参数。
2.2.3. 矩阵打分算法(PCSF)
矩阵打分方法在转录因子结合位点预测方面取得较好结果[22] [23] 。本文以位点氨基酸及其紧邻关联的保守性作为参数,将酶蛋白质中的四类简单超二级结构用矩阵打分的方法分类。
矩阵相似性打分函数为:
其中,
是位置权重矩阵的矩阵元,
,
为选取的蛋白质超二级结构序列模式的片断长度,
以氨基酸为参数的矩阵是21行
列,以氨基酸紧邻关联为参数的矩阵是441行
列。
表示位置权重矩阵的第
列上出现的矩阵元最小值,
表示第
列上出现的矩阵元最大值。
表示氨基酸
出现的背景概率。
是位点位置概率,
。以氨基酸为参数时,
,
表示20种氨基酸和空位,