1. 引言
N6-甲基腺嘌呤(6mA)是DNA分子中最重要的表观遗传修饰之一,它在基因表达、核小体定位、细胞周期调节、DNA修复和复制以及限制性修饰(R-M)中起着重要作用[1]。近年来,通过高效液相色谱(HPLC)分离与串联质谱(MS/MS)联用[2]、单分子实时(SMRT)测序[3]等生物实验方法,已经鉴定出一些6mA位点,但该类方法由于劳动密集型、耗时和昂贵等特点,其在大规模数据的应用中受到了限制。因此,发展高效的生物信息学方法来识别6mA位点尤为重要。
随着人工智能技术的发展,基于机器学习和深度学习的计算方法为6mA位点的识别提供了新的解决方案。这些方法不仅高效且成本低,还能在基因组尺度上进行大规模预测。目前,已开发了多种基于ML和DL的6mA预测模型,涵盖从单一特征到多特征融合的不同方法。Chen等[4]开发了一种基于支持向量机和DNA序列特征编码筛选策略的i6mA-Pred预测器,用于识别水稻基因组中的6mA位点。Pian等[5]利用马尔可夫模型计算DNA序列中相邻核苷酸的转移概率,提出了MM-6 mAPred来预测水稻物种6mA位点。Kong和Zhang [6]开发了i6mA-DNCP,该通过二核苷酸频率和二核苷酸理化性质来表示水稻DNA序列,并采用启发式方法来选择最具代表性的特征。Hasan等[7]提出了一个多特征融合的计算模型i6mA-Fuse,使用5种编码方案建立单编码随机森林模型,并通过线性回归模型整合这些模型的预测概率评分,用于蔷薇科植物月季和野草莓的6mA位点预测。Xu等[8]通过整合7种类型的序列衍生信息和3种类型的基于物理化学的特征开发了6mA-Finder,用于一般和物种特异性的6mA位点预测。Hasan等[9]提出的i6mA-stack使用递归特征消除交叉验证策略从5种不同的DNA序列编码方案中提取最优特征子集,并使用双层堆叠模型进行预测。Ha等[10]提出的Meta-i6mA方法选择了5种基于物理化学和位置特定信息的编码方式,并结合6种常用的机器学习方法生成30个基线模型,通过元学习预测方法整合这些模型。该模型在蔷薇科植物、水稻和拟南芥上表现出高马修斯相关系数值。He和Chen [11]开发了iDNA6mA-Rice-DL,通过深度学习方法利用嵌入层和密集层自动编码和提取关键DNA特征,成功预测了水稻基因组中的6mA位点。Huang等[12]提出了6mA-StackingCV,一种基于交叉验证的叠加系综模型,通过元学习算法整合多个基线模型的输出,在蔷薇科植物上表现出高级性能和稳定性。Teng等[13]提出了i6mA-Vote采用多数投票策略,结合6种不同的特征编码方案和机器学习分类器,有效预测了蔷薇科植物、水稻和拟南芥的6mA位点。尽管上述模型在特定物种中取得了较高的预测准确性,但是跨物种预测能力上存在不足。
本文基于长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)和卷积神经网络(Convolutional Neural Network, CNN),提出一种高效且具有泛化能力的6mA位点预测方法(BiLSTM→CNN)。首先将DNA序列使用one-hot [14],EIIP [15]和DNA二聚体(DNA 2-mer) [16] 3种编码方式进行编码,然后将编码后的序列输入到BiLSTM层提取序列的长距离依赖关系,再将这些长距离依赖特征传入CNN层,通过卷积操作进一步提取局部特征,最后使用Sigmoid激活函数得到DNA 6mA甲基化位点的最终预测。结果表明,与现有方法相比,BiLSTM→CNN模型具有较高的预测性能和泛化能力。
2. 模型及相关理论介绍
2.1. BiLSTM
BiLSTM [17]是一种特殊的递归神经网络,能够同时捕捉序列的前向和后向信息。
(1)
(2)
(3)
其中公式(1)~(3),
代表输入门,
为sigmoid函数,
代表遗忘门,
为当前隐藏状态,
表示当前输入的单元状态,
代表保留程度,
表示偏置项。前向LSTM的输出为
,后向LSTM的输出为
。每个时间步
的BiLSTM输出
计算如公式(4)所示。
(4)
2.2. CNN
CNN [18]能够学习序列局部依赖关系,有效地处理和提取基因序列的特征。
(5)
(6)
公式(5)~(6)中,
是输入序列,
表示卷积核,
表示卷积输出,
表示卷积权重,
是输入序列的局部区域,
是池化窗口的大小,
是最大池化。
2.3. 激活函数
神经网络中常用的激活函数有tanh,relu,elu,sigmoid和softmax [18] [19]等,这些激活函数在模型中具有不同的作用,本文激活函数的选择主要涉及tanh和sigmoid函数。
tanh函数是一种双曲正切函数,将输入值压缩到[−1, 1]范围内,该函数是中心对称的,即tanh (0) = 0,在二分类问题中tanh函数多用于隐藏层部分,具体表示为公式(7)。
(7)
sigmoid函数将输入值压缩到(0, 1)范围内,该函数的输出可以解释为某个事件发生的概率,故sigmoid函数常用于二分类问题的输出层,将输出转换为概率值,具体表示为公式(8)。
(8)
2.4. 优化器
随机梯度下降(Stochastic Gradient Descent, SGD)是一种简单且常用的优化算法,用于在梯度下降过程中最小化损失函数。
(9)
在公式(9)中,
表示在第
次迭代时,使用第
个样本
和其对应的标签
计算的损失函数梯度,
为学习率。
Adam [20]通过计算梯度的一阶矩(即梯度的均值)和二阶矩(即梯度的平方均值)的指数移动平均值来动态调整学习率,从而在保证收敛速度的同时提高模型的性能,具体计算为公式(10)~(13)。
(10)
(11)
(12)
(13)
初始时刻的一阶矩和二阶矩均为0,
和
是动量参数,分别设置为0.9和0.999。参数
沿着修正后的一阶矩方向更新,步长由学习率
和修正后的二阶矩的平方根控制,
是一个非常小的常数,防止除零错误。
2.5. BiLSTM→CNN模型的建立
Figure 1. Overall workflow of BiLSTM + CNN model
图1.
模型结构
为充分发挥BiLSTM在长距离依赖关系建模方面的能力,本文提出
模型,将one-hot,EIIP和DNA 2-mer编码后的序列首先传入BiLSTM层,通过双向长短期记忆网络提取序列的长距离依赖关系,然后再将这些长距离依赖特征传入CNN层,通过卷积操作进一步提取局部特征,模型结构如图1所示。
2.6. 损失函数
该模型采用二进制交叉熵作为其损失函数,适用于二元分类任务,公式如下:
(14)
表示真实标签,
表示预测标签。
2.7. 性能评价指标
为了评估模型性能,我们使用准确度(ACC),马修斯相关系数(MCC),灵敏度(SN)和特异度(SP)作为模评价指标,具体计算如公式(15)~(28)所示。
(15)
(16)
(17)
(18)
其中,TP (真阳性)和TN (真阴性)分别表示正确预测的6mA和非6mA样本的数量;FP (假阳性)和FN (假阴性)分别是错误预测的非6mA和6mA样本的数量。
3. 实验设计
3.1. 实验数据集
本文使用拟南芥(Arabidopsis)、水稻(Rice)和蔷薇科(Rosaceae)三种植物的DNA 6mA数据进行模型的训练和结果的评估。三个物种的数据集中共包含1个训练集和3个独立测试集,分别是Rosaceae训练集,Rosaceae测试集,Rice测试集和Arabidopsis测试集。本文使用Rosaceae训练集训练模型,将其分成两部分,80%的数据用于训练,20%的数据用于验证,通过对模型的训练,使得该模型能够泛化到Arabidopsis和Rice物种上。四个数据集的详细信息见表1。
Table 1. Dataset information
表1. 数据集信息
数据集 |
阳性样本个数 |
阴性样本个数 |
Rosaceae训练集 |
29,237 |
29,433 |
Rosaceae测试集 |
7298 |
7300 |
Rice测试集 |
153,635 |
153,629 |
Arabidopsis测试集 |
31,414 |
31,843 |
3.2. 特征编码方式
本文将one-hot、EIIP和DNA 2-mer 3种特征组合进行组合,对给定的DNA序列进行编码。在one-hot编码中,每个核苷酸被编码为一个4维二进制向量,即核苷酸A、C、G和T分别被表示为
、
、
和
。EIIP根据核苷酸在给定DNA序列中的电子–离子能量分布来表达核苷酸,四个核苷酸分别表示为A = 0.1260、C = 0.1340、G = 0.0806和T = 0.1335。DNA二聚体编码(DNA 2-mer Encoding)的方法将DNA序列转换为数值数组,即
当然,为了处理DNA序列中的缺失值(表示为“N”),在One-Hot编码和EIIP编码过程中,对于遇到的“N”碱基,我们分别使用了零向量
和数值0.0进行填充;在2-mer编码过程中,缺失碱基分别编码为
。
3.3. 参数选择
3.3.1. BiLSTM模块参数选择
BiLSTM模块的参数主要涉及BiLSTM的层数以及优化器,我们选取常用的BiLSTM层数1,2和3,优化器为SGD和Adam,并在Rosaceae训练集上对模型进行调试,调试结果见表2,表3。
Table 2. The effect of BiLSTM layers on the BiLSTM module
表2. BiLSTM层数对模型的影响
层数 |
SN |
SP |
ACC |
MCC |
AUC |
1 |
0.943 |
0.926 |
0.934 |
0.869 |
0.978 |
2 |
0.926 |
0.930 |
0.928 |
0.856 |
0.970 |
3 |
0.920 |
0.929 |
0.925 |
0.850 |
0.970 |
Table 3. The influence of the optimizer on the BiLSTM module
表3. 优化器对BiLSTM module预测结果的影响
优化器 |
SN |
SP |
ACC |
MCC |
AUC |
SGD |
0.425 |
0.659 |
0.542 |
0.088 |
0.562 |
Adam |
0.943 |
0.926 |
0.934 |
0.869 |
0.978 |
从表2和表3可以看出,当BiLSTM层数为1层,优化器为Adam时,BiLSTM模块性能达到最优。因此BiLSTM的层数和优化器分别选取1和Adam。
3.3.2. CNN模块参数选择
对CNN模块的选择,我们同样选取常用的参数,并在Rosaceae训练集上进行调试,结果见表4~6。
Table 4. The effect of convolution layers on the CNN module
表4. 卷积层数对模型的影响
层数 |
SN |
SP |
ACC |
MCC |
AUC |
1 |
0.933 |
0.952 |
0.942 |
0.885 |
0.982 |
2 |
0.927 |
0.925 |
0.926 |
0.852 |
0.974 |
3 |
0.929 |
0.924 |
0.927 |
0.853 |
0.973 |
Table 5. The effect of activation function on the CNN module
表5. 激活函数对模型的影响
卷积层 |
压平层 |
SN |
SP |
ACC |
MCC |
AUC |
relu |
relu |
0.935 |
0.946 |
0.940 |
0.881 |
0.981 |
elu |
elu |
0.938 |
0.948 |
0.943 |
0.886 |
0.982 |
relu |
tanh |
0.942 |
0.944 |
0.943 |
0.887 |
0.982 |
elu |
relu |
0.937 |
0.944 |
0.941 |
0.882 |
0.981 |
tanh |
tanh |
0.940 |
0.947 |
0.944 |
0.888 |
0.982 |
relu |
elu |
0.932 |
0.952 |
0.942 |
0.885 |
0.982 |
tanh |
relu |
0.941 |
0.942 |
0.941 |
0.883 |
0.981 |
elu |
tanh |
0.940 |
0.946 |
0.943 |
0.887 |
0.982 |
tanh |
elu |
0.937 |
0.947 |
0.942 |
0.885 |
0.982 |
Table 6. The influence of the optimizer on the CNN module
表6. 优化器对CNN模块预测结果的影响
优化器 |
SN |
SP |
ACC |
MCC |
AUC |
SGD |
0.901 |
0.892 |
0.896 |
0.793 |
0.958 |
Adam |
0.939 |
0.949 |
0.944 |
0.889 |
0.983 |
从表4~6可以看出,当卷积层数为1层,卷积层和压平层的激活函数均为Tanh,优化器为Adam时,CNN模块达到了最优性能。因此取CNN模块的卷积层数为1,各部分激活函数均为Tanh,优化器选择Adam。
4. 结果与分析
4.1 与现有方法的性能比较
基于上述3个物种的独立测试集,我们将
方法与现有方法进行比较。表7列出了与目前在相应物种上预测能力较好模型的比较结果,主要有Meta-i6mA [10],iDNA6mA-Rice [11],MM-6mAPred [5]和6mA-StackingCV [12]。
在Rice物种中,尽管
模型的SN值(0.946)略低于几种方法,但在其他三3个评估指标上表现出色。与目前对Rice 6mA位点预测的最优方法Meta-i6mA相比,ACC提高0.058,MCC提高0.108,SP提高0.128。与最新的6mA-StackingCV相比,上述3个指标分别高0.093,0.169和0.204。表明
模型在Rice物种中具有卓越的预测性能,尤其是在减少假阴性方面表现优异。
在Arabidopsis物种中,
模型在4个评估指标中依然表现出色。与目前对Arabidopsis中6mA位点预测最好和最新的方法6mA-StackingCV相比,其ACC提高0.084,MCC提高0.154,SN提高0.180,并且在所有方法中均为最优。其SP值为0.873,仅低于Meta-i6mA的0.936,排名第二。表明,
模型在对Arabidopsis物种的6mA位点预测方面具有显著的优势。
尽管
模型在Rosaceae独立测试数据集上的表现性能略低于6mA-StackingCV和Meta-i6mA,但是4个指标的值在所有方法中均位于前列。并且与最好的方法6mA-StackingCV相比,各项指标的差异最大为0.029,展示了其在该物种上同样具有竞争力。
综上所述,
在3个独立测试集上均达到了较好的性能,并且相对于其他方法,具有更好的泛化能力。
Table 7. Comparison results with existing methods
表7. 与现有方法结果比较
独立测试集 |
模型 |
ACC |
MCC |
SN |
SP |
Rosaceae |
Meta-i6mA* |
0.953 |
0.905 |
0.954 |
0.951 |
iDNA6mA-Rice* |
0.878 |
0.764 |
0.951 |
0.805 |
MM-6mAPred* |
0.873 |
0.758 |
0.961 |
0.785 |
6mA-StackingCV* |
0.960 |
0.920 |
0.959 |
0.961 |
BiLSTM + CNN |
0.945 |
0.891 |
0.945 |
0.945 |
Rice |
Meta-i6mA* |
0.880 |
0.768 |
0.957 |
0.802 |
iDNA6mA-Rice* |
0.755 |
0.561 |
0.960 |
0.547 |
MM-6mAPred* |
0.834 |
0.689 |
0.958 |
0.710 |
6mA-StackingCV* |
0.845 |
0.710 |
0.963 |
0.726 |
BiLSTM + CNN |
0.938 |
0.876 |
0.946 |
0.930 |
Arabidopsis |
Meta-i6mA* |
0.787 |
0.600 |
0.636 |
0.936 |
iDNA6mA-Rice* |
0.734 |
0.473 |
0.655 |
0.812 |
MM-6mAPred* |
0.765 |
0.531 |
0.784 |
0.747 |
6mA-StackingCV* |
0.782 |
0.576 |
0.677 |
0.866 |
BiLSTM + CNN |
0.866 |
0.730 |
0.857 |
0.873 |
星号(*)表示结果来自文献[12]。
4.2. 模型分析
为了验证各模块的有效性以及BiLSTM和CNN顺序的合理性,我们还比较了仅使用CNN或者BiLSTM,以及BiLSTM和CNN不同的组合方式在不同数据集上的预测结果。这几种模型分别记为CNN,BiLSTM,
(表示CNN在前,BiLSTM在后)以及
(表示CNN和BiLSTM并联),本文模型记为
。表8列出了比较结果。
从表8可以看出,
模型在3个独立测试集上的ACC均达到最优,在Rosaceae中的SN,Rice中的MCC和SP,以及Arabidopsis中的MCC略低于CNN,Arabidopsis中SP略低于
,其他指标均达到最优。这表明相对于只使用单一的CNN或者BiLSTM模块,或者其他的BiLSTM和CNN的结合顺序,
模型无论是在6mA位点的预测准确性方面,还是模型的泛化能力,都表现出优越的性能。图2所示的ROC曲线进一步支持了这些发现。
Table 8. Performance comparison of five models on independent test data sets
表8. 五种模型在独立测试数据集上的性能比较
独立测试集 |
模型 |
ACC |
MCC |
SN |
SP |
Rosaceae |
BiLSTM |
0.912 |
0.825 |
0.914 |
0.910 |
CNN |
0.942 |
0.884 |
0.948 |
0.937 |
|
0.940 |
0.879 |
0.939 |
0.940 |
|
0.941 |
0.882 |
0.940 |
0.942 |
|
0.945 |
0.891 |
0.945 |
0.945 |
续表
Rice |
BiLSTM |
0.938 |
0.876 |
0.945 |
0.931 |
CNN |
0.938 |
0.877 |
0.943 |
0.934 |
|
0.937 |
0.875 |
0.941 |
0.933 |
|
0.937 |
0.875 |
0.942 |
0.933 |
|
0.938 |
0.876 |
0.946 |
0.930 |
Arabidopsis |
BiLSTM |
0.847 |
0.694 |
0.826 |
0.867 |
CNN |
0.865 |
0.733 |
0.849 |
0.884 |
|
0.864 |
0.729 |
0.844 |
0.883 |
|
0.863 |
0.727 |
0.840 |
0.886 |
|
0.866 |
0.730 |
0.857 |
0.873 |
Figure 2. The roc curves of different models on three independent test datasets
图2. 不同模型在三个独立测试数据集上的ROC曲线
5. 结论
本文提出了一种基于BiLSTM和CNN的DNA 6mA甲基化位点混合预测模型
。首先利用one-hot、EIIP和DNA二聚体3种编码方式对DNA序列进行编码,然后在不同网络结构、层数、优化器和学习率下优化模型,并在拟南芥、水稻和蔷薇科三种植物上进行了实验验证。本文通过对比单一CNN模型、单一BiLSTM模型、CNN↔BiLSTM模型、CNN→BiLSTM模型以及本文提出的BiLSTM→CNN模型在Rosaceae、Rice和Arabidopsis三个独立测试数据集上的预测结果,表明BiLSTM→CNN模型在总体准确率(ACC)方面均达到最优,且在多数性能指标上也表现出色。尽管在Rosaceae中的敏感性(SN)、Rice中的马修斯相关系数(MCC)和特异性(SP),以及Arabidopsis中的MCC和SP方面略低于某些模型,但其综合性能和泛化能力仍然显著优于其他模型。因此,BiLSTM→CNN模型在6mA位点预测任务中展现出优越的性能。与现有方法相比,本文模型在DNA 6mA甲基化位点的预测上表现出更优的性能。
值得注意的是,DNA 6mA甲基化位点的预测工作相当复杂,算法的预测能力不仅取决于模型本身,还与位点附近的序列和位点分布相关,有效结合这些特征可以显著提升预测效果。随着研究手段和计算方法的不断进步,大量新的DNA 6mA甲基化位点将被确定,为识别这些位点提供新的数据支持。在未来的研究中,我们还考虑进一步优化特征编码融合方式,集成多种深度学习方法,以及在更广泛的数据集进行试验评估,从而得到更优的DNA 6mA预测模型。
基金项目
云南省研究生优质课程建设项目“高等数理统计”(云学位[2022] 8号)。
NOTES
*通讯作者。