1. 引言
蛋白质在我们的生命活动中发挥着极其重要的作用,具有免疫和细胞信号传导等功能。其不同的功能取决于其不同的结构。因此,为了研究蛋白质的功能并开展相关应用,需要对蛋白质的结构进行预测。蛋白质二级结构是蛋白质多肽链中氨基酸残基的局部空间构象,分别以8态的形式出现,即α-螺旋(H)、310-螺旋(G)、π-螺旋(I)、折叠(E)、分离β转角(B)、转角(T)、弯曲(S)和其他(C) [1] [2] [3] 。
1990年代,Burkhard Rost和Chris Sander首次使用神经网络预测蛋白质的二级结构 [4] 。该方法在取得优异结果的同时,也在蛋白质结构预测领域具有开创性。随着“人类基因组计划(Human Genome Project, HGP) [5] ”的展开,标志着后基因组时代的到来,蛋白质数据的数量也呈爆炸式增长。由于成本高、难度大等缺点,传统的实验测定方法已无法满足日益增长的蛋白质和结构数据分析需求。因此,蛋白质结构预测逐渐成为生物信息学研究的热点。随着AlphaFold2 [6] 的出现改变了蛋白质结构预测的格局,它对于蛋白质三级结构的预测已经取得了非常可靠的结果,尽管如此,二级结构的预测仍然具有重要意义,这是因为三级结构是通过多个二级结构元素在三维空间上的排列所形成的一个蛋白质分子三维结构,了解蛋白质的二级结构将会影响和改善蛋白质三级结构的对齐,从而影响和改变蛋白质的空间形态,这对分析和探索蛋白质的功能和作用有重要的作用,通过结构分析可以进行功能注释,能够更好地知道生物实验,也可以为设计和改造已有的蛋白质提供可靠的依据。
近年来,许多学者和研究人员在蛋白质二级结构的8态研究领域取得了优异的成绩。文献 [7] 提出了一种蛋白质序列预测技术,将过去使用卷积神经网络的成功经验与语言建模相结合,取得了很好的效果。文献 [8] 设计了一个由卷积滤波器和原始输入组成的局部块来捕获局部序列特征,该方法利用卷积神经网络、残差网络和双向循环神经网络预测的组合协同作用。文献 [9] 使用最近邻搜索确定蛋白质中残基的估计类成员概率,然后将其输入另一个动态规划算法,在CASP数据集上取得了良好的结果。文献 [10] 提出将self-attention机制与Deep Inception-Inside-Inception (Deep3I)网络相结合,通过Interaction跟踪不同距离氨基酸之间的残基。文献 [11] 设计一个由1D-Convnet和改进的循环神经网络组成的模型,该网络具有改进的顺序抛硬币优化器,在CB513和CullPDB上实现了良好的预测精度。
2. 实验模型与实验数据
本文提出了一种基于Wasserstein生成对抗网络(WGAN)和残差网络(ResNet)的8类蛋白质二级结构预测方法,具体过程是首先通过WGAN提取蛋白质的特征信息,然后将这些信息与原始特征信息位置特异性评分矩阵(PSSM) [12] 相结合,位置特异性评分矩阵(PSSM)是一种广泛使用的特征信息。PSSM是通过NR数据库中蛋白质的多序列比对,将PSI-BLAST [13] 参数阈值设置为0.001和3次迭代生成的,其形式为20 * L矩阵,20为特征维度,L代表不同蛋白质的长度。组合后的特征集合形式为40 * L,它包含更丰富的蛋白质信息起到特征增强的作用。组合后的特征集合将作为ResNet的输入数据,经过深层次网络的训练和学习,最终得到预测结果。
2.1. Wasserstein生成对抗网络
生成对抗网络(GAN)由 Ian Goodfellow在2014年提出 [14] ,已被广泛应用于图像去噪和特征提取 [15] [16] [17] ,并被证明具有良好的性能。GAN由两部分组成,生成器(G)和鉴别器(D)。G通过学习真实数据的分布特征来生成相似的模拟数据,而D则对模拟数据的真实性进行判断和评分。但是,由于GAN的近似最优D,G损失面临梯度消失的问题,以及优化目标不明确,梯度不稳定。WGAN使用Wasserstein距离可以改善该问题,其优点是可以反映两个分布之间的距离,即使它们没有任何重叠。WGAN对GAN的目标函数进行改进和优化。GAN的目标函数如(1)所示。
(1)
在这里,x和z分别代表真实数据和随机数据,G(z)是G生成的模拟数据,D(x)代表数据是否真实的概率。WGAN将WGAN要优化的目标函数(1)分成两个部分:第一部分为保持G固定,此时优化D,则公式(1)改写为公式(2),将公式(1)转化为最小化的形式,可以改写为公式(3);第二部分为当固定D,优化G时,则公式(1)可以改写为最小化,即公式(4)的形式,要使D的参数不超过一个固定的常数,则只需要最大化公式(5)。
(2)
(3)
(4)
(5)
在该方法中,我们首先输入随机数据和PSSM,经过G的不断地学习会不断地模拟PSSM并生成一组与PSSM“相似”的虚拟数据,D网络将对虚拟网络进行评分,当判定为假时,会反馈给G网络,G网络将继续模拟,直到D网络无法判定真伪,此时,G网络生成的数据就是实验所需要的。WGAN的工作过程如图1所示。
2.2. 卷积神经网络
卷积神经网络(CNN)近年来已广泛应用于图像处理 [18] 、计算机视觉等领域。在本实验中,我们在WGAN中引入了CNN来协助特征提取。CNN的传统结构由3部分组成,输入层、特征提取层和一个全连接的多层感知器。卷积神经网络中的局部感受野和权重共享操作可以实现位移、缩放和失真不变性。局部感知场就是让每一层中的每个神经元感知上一层输入数据的局部部分,从而减少参数的数量。权重共享在卷积运算时提取特征时做同样的约束,可以减少自由参数的数量,降低网络复杂度,提高学习效率。卷积层卷积运算公式如(5)所示。
(5)
在公式(5)中,f 为激活函数,
表示输入数据与上一层的卷积核得到的特征图,
是第i层的一个卷积核,k表示卷积核的数量,b代表偏置参数。
2.3. 残差网络
网络模型的深度会对实验结果产生很大的影响,理论上,网络深度越深,训练将会更充分,但事实上深层次的卷积网络模型会产生梯度爆炸和梯度消失的问题,而ResNet [19] 引入了残差学习框架来缓解该问题,具体过程是,对于一个堆积层结构,当输入为x时起学习到的特征记为H(x),我们希望其可以学到的残差F(x) = H(x) − x,此时原始特征是F(x) + x。之所以这样是因为残差学习相比原始特征直接学习更容易,当残差为0时,此时堆积层仅仅做了恒等映射,这使得网络性能不会下降,而实际上残差不会为0,这也会使得堆积层在输入特征的基础上学习到新的特征,从而使拥有更好的性能。残差学习类似于短路连接,其结构如图2所示。

Figure 2. The structure of residual learning
图2. 残差学习的结构图
值得注意的是在ResNet中,当特征图的大小降低一半时,其数量要增加一倍,以保持网络层复杂度不变。在该实验中使用ResNet-N来预测蛋白质的8态二级结构。N是指具有特权值的网络层数,包括卷积层、全连接层和池化层。我们将权重为10、18和34的层数设置为实验模型,ResNet-10、ResNet-18和ResNet-34的结构分别如表1所示。

Table 1. System resulting data of standard experiment
表1. 标准试验系统结果数据
2.4. 模型的整体结构
我们提出的整体结构如图3所示,可以看出我们的网络模型主要分为WGAN和ResNet两个模块,其中WGAN的作用是特征增强,我们使用浅层CNN辅助G和D网络,G网络使用泄漏ReLU作为激活函数,由于G网络的迭代次数很多,为了防止过度拟合,我们也使用Dropout。ResNet用于局部特征提取和预测工作,由多个残差学习单元组成,目的是使用更深层次的卷积网络进行深度训练,以获得更好的预测结果。

Figure 3. Network structure based on WGAN and ResNet
图3. 基于WGAN和ResNet方法的网络结构
2.5. 实验数据集
本实验中使用的主要公共数据集是CullPDB [20] 数据集和CASP [21] [22] [23] [24] [25] 数据集CASP10、CASP11、CASP12、CASP13、CASP14和CB513 [26] 数据集,它们包含的数据的相似性小于25%。本文去除重复的蛋白质数据集CullPDB作为训练集,共有11,650个蛋白质。数据集中的蛋白质序列数量如表2所示。

Table 2. The number of proteins in the dataset
表2. 数据集中蛋白质的数量
3. 实验结果与参数分析
我们在实验中调整了相关参数以测试其对网络模型的影响,首先我们调整了WGAN中生成器和判别器的迭代次数,并且在测试集CASP11-14上测试了其对WGAN提取特征的影响,其中G网络中卷积层数设置为3,卷积核参数分别为3 × 3 × 64,3 × 3 × 128和3 × 3 × 256,不同迭代下的实验结果如图4所示。

Figure 4. Q8 accuracy at different iterations
图4. 不同迭代次数下的Q8精度
如图所示,当迭代次数为20万次时,效果最好,即G提取的特征最真实有效。超过20多万次迭代以后,D判断所生成数据真实性的能力下降,模拟特征与真实特征误差较大。此外,为了测试滑动窗口长度对实验结果的影响,我们选择了13、15、17、19和21进行Q8预测。实验结果如表3所示,表明当滑动窗口为19时,实验结果最好。

Table 3. Q8 accuracy at different sliding windows
表3. 不同滑动窗口下的Q8精度
使用不同网络层数的ResNet,我们对CASP11-14进行了测试,得到了如图5所示的实验结果,可以看出WG-Res-18的精度最高,因为WG数据的维度不高,当层数太深时,部分数据会丢失,从而导致精度下降。

Figure 5. Q8 accuracy at different residual network depth models
图5. 不同残差网络深度模型下的Q8精度
我们做了消融实验来证明每个结构的重要性。我们用四种网络模型对CASP11-14进行了测试,实验结果如表4所示。其中WGAN + ResNet是本文提出的模型,WGAN + CNN是WGAN和CNN相结合的网络模型,输入数据采用特征增强后的数据,CNN的网络模型结构使用3个卷积层,尺度为3 × 3 × 64、3 × 3 × 128和3 × 3 × 256。ResNet是基于最佳ResNet-18的残差网络模型,CNN使用的是3层卷积神经网络,结构为3 × 3 × 64、3 × 3 × 128和3 × 3 × 256。ResNet和CNN的输入数据是PSSM。通过对比表中的实验结果可以看出,与CNN相比,ResNet深度训练提高了预测精度;WGAN对PSSM的原始数据进行了特征提取和特征增强,也提高了蛋白质二级结构预测的准确性。

Table 4. Q8 accuracy at different methods
表4. 不同模型下的8态预测精度
4. 结论和未来工作
蛋白质二级结构的预测是全面认识和探索蛋白质多样化功能和空间结构的重要工作。本文首次将Wasserstein生成对抗网络和残差网络相结合,用于预测蛋白质的8态二级结构。首先利用WGAN依照PSSM提取蛋白质序列特征,其中G和D模型都使用卷积神经网络辅助,然后将PSSM与提取的特征组合成一个新的特征矩阵,该矩阵将包含更丰富的蛋白质特征信息,最后将该矩阵输入不同层次的残差网络训练,残差网络可以训练更深层次的网络结构,以获得更好的预测结果。经过我们的实验证明,Wasserstein生成对抗网络具有较强的特征提取能力,残差网络也可以更好地训练数据,该方法下的蛋白质8态二级结构预测精度有更显著的结果。在未来的工作中,我们将继续优化残差网络,该实验使用的残差网络模型虽然在一定程度上使得深层次的网络模型得到了充分训练,但是其深度同时也预示着残差网络的训练参数巨大,训练时间也会相应的增加,这给实验环境带来了一定的压力。多尺度卷积理论上是通过不同大小的卷积核经过卷积运算得到不同大小的特征图,在不增加网络深度的基础上拓宽了视野宽度,也起到了特征增强的作用,在未来我们期望将多尺度卷积神经网络融合到我们的模型中,使得训练模型可以从深度和宽度两个方向着力,在加深网络层数的基础上尽可能地减少训练参数。
基金项目
国家自然科学基金(No. 61375013),山东省自然科学基金(No. ZR2013FM020)。
NOTES
*通讯作者。