1. 引言
长非编码RNA (long non-coding RNA, lncRNA)是一种长度超过200个核苷酸,且缺乏编码蛋白质能力的RNA [1]。越来越多研究表明,lncRNA参与很多生物学过程,例如细胞的增殖[2]、分化和凋亡[3]、基因表达与转录[4]、与蛋白质的相互作用[5]以及免疫应答[6]等。正是lncRNA在生命活动中的重要调控作用,使其与很多疾病的发生、传播和治愈有关。然而,生物实验的方法有耗时长和成本高的缺陷,这很大程度上限制了相关领域的研究进展。基于生物实验所积累的实验数据,研究者们提出使用计算方法来预测lncRNA-疾病关联(lncRNA-disease associations, LDAs),这些方法大致可以分为三类:基于生物网络的方法、基于矩阵分解(补全)的方法和基于机器学习的方法。
基于生物网络的计算方法是通过整合lncRNA和疾病的各种相似度和关联信息构建异构网络,并使用随机漫步和各种传播算法构建预测模型,揭示lncRNA和疾病的潜在关联[7]。例如,RWRlncD [8]通过在lncRNA功能相似网络上进行重启随机游走来检测潜在LDAs。LncRDNetFlow [9]利用lncRNA相似网络、蛋白质相互作用网络和疾病相似网络之间的关系,并采用流传播算法推断LDAs。然而,基于生物网络的计算方法一般不适用于没有已知关联的lncRNA和疾病。
基于矩阵分解(补全)的方法通过将矩阵分解为低秩矩阵,矩阵分解提供了一个降维和矩阵补全的框架[10],可以应用于LDAs预测。LDCMFC [11]使用相关熵的协同矩阵分解来识别LDAs。GMCLDA [12]采用基于几何矩阵互补的计算方法来推断潜在LDAs。然而,基于矩阵分解(补全)的方法仅仅使用简单的线性建模,无法捕捉疾病与lncRNA之间的复杂关系。
在LDAs预测领域,机器学习方法是近些年最热门的方法之一[13] [14]。机器学习方法是将lncRNA和疾病的各种特征进行学习训练,最终预测潜在LDAs。机器学习被分为两大类:传统机器学习和深度学习。LRLSLDA [15]发现了一种基于拉普拉斯正则化最小二乘法的半监督传统机器学习框架,其被用以预测LDAs。随机森林(RF)是一种典型的传统机器学习模型,RFLDA [16]开发出一种结合RF和特征选择的LDAs预测框架。与传统机器学习方法相比,深度学习算法能够更好地适应复杂的数据分布和特征之间的非线性关系。CNNLDA [17]是一种基于注意力机制的双卷积神经网络,用以预测与疾病相关的潜在lncRNA。GCRFLDA [18]提出了一种基于具有条件随机场的图卷积矩阵补全的LDAs预测方法。
尽管上述的基于机器学习的方法已经取得了不错的成绩,但仍有些改进的空间。传统卷积神经网络(CNN)在图像领域的成功启发了研究者将其扩展到时间序列领域,但传统CNN缺乏对时序因果关系的建模能力。因此2018年Bai等人提出了时序卷积网络(Temporal Convolutional Network, TCN),TCN通过因果卷积、扩张卷积和残差连接,解决了传统RNN的并行性差和长期依赖问题,同时继承了CNN的高效计算优势,成为时间序列建模的强有力工具。TCN结合了CNN的并行处理能力和循环神经网络(RNN)的长期依赖建模能力,成为一种专门用于处理序列数据的深度学习模型。
因此,本文提出了一种基于自编码器和时序卷积网络的LDAs预测模型TCNLDA。具体来说,首先使用了三种lncRNA相似性和两种疾病相似性中的信息数据,并使用矩阵融合的方法将其融合为lncRNA相似性矩阵和疾病相似性矩阵。其次,TCNLDA将构建好的lncRNA-疾病对利用自编码器进行数据降维,以获取特征的低维表示。最后,TCNLDA采用时序卷积网络框架学习特征并完成最终的预测。在两个数据集上,使用多个评价指标对预测LDAs的结果进行可视化,相比于其他几个模型,TCNLDA拥有更优越的性能。案例研究进一步说明TCNLDA是一个有前景的预测模型。
2. 材料与方法
2.1. 数据集
在本研究中使用两个数据集对TCNLDA进行了评估:
数据集1来自于Li的研究[19]的基准数据集。它包含861个lncRNA,253种疾病,495个miRNA,4517个LDAs来自Lnc2Cancer v2.0 [20]和LncRNADisease [21],831个lncRNA-miRNA关联对来自starBase v2.0 [22],11,486个miRNA-疾病关联对来自HMDD v2.0 [23]。
数据集2是我们自己集成的数据集。它包含707个lncRNA,269种疾病,252个miRNA,8101个LDAs来自Lnc2cancer v3.0 [24]和LncRNADisease v2.0 [25],来自starBase v2.0的1942个lncRNA-miRNA关联,来自HMDD v3.2 [26]的9825个miRNA-疾病关联。
随着近些年各个版本的公共数据库更新,数据集2拥有更加全面的LDAs。同时,为了验证模型的泛化能力以及避免过拟合,将保证数据集2中数据集1的lncRNA和LDAs的数据重叠率低于20%。两个数据集中所有已知的关联对被作为阳性样本,其余的作为阴性样本。
2.2. 模型架构
如图1所示,本文介绍了一个新的框架,名为TCNLDA,将其用于预测lncRNA-疾病的关联。首先,分别从三个方面构建lncRNA相似性矩阵和从两个方面构建疾病相似性矩阵,并将它们进行了矩阵融合处理。将融合后的lnRNA相似性矩阵和疾病相似性矩阵结合lncRNA-miRNA相互作用矩阵、miRNA-疾病关联矩阵共同构建为lncRNA-疾病对。然后,使用自编码器进行特征的提取,用以获得lncRNA-疾病的低维特征表示,并将数据转化为序列特征矩阵。最后,使用时序卷积网络进行特征学习,并输出分类预测结果。
Figure 1. The flowchart of TCNLDA
图1. TCNLDA的流程图
2.3. 构建lncRNA疾病对
2.3.1. 疾病相似性
Wang等[27]的方法被采用计算疾病语义相似性(disease semantic similarity, DSS)。DSS的构建分为四部分:1) 从国家医学图书馆(https://www.nlm.nih.gov/)下载了疾病的医学主题标题(MeSH)。基于获得的MeSH信息,为每个疾病构建有向无环图(DAGs)。2) 构建每个疾病
对
语义贡献,如公式1。DAGs被用于计算疾病的语义相似性。疾病
可以被描述为
,其中
是
及其所有祖先节点的节点集。3) 计算疾病
的最终贡献,如公式2。4) 计算
和
的DSS,如公式3。DSS计算方法如下:
(1)
这里
代表疾病节点间边缘的语义贡献衰减因子。
取值在
,这里
为0.5。
(2)
(3)
基于邻接矩阵LD计算了疾病高斯相互作用普核相似性(Gaussian interaction profile kernel similarity for diseases, DGS)。假设疾病有m个,则DGS为:
(4)
(5)
2.3.2. LncRNA相似性
根据计算出的疾病语义相似性和LDAs方法计算lncRNA功能相似性(lncRNA functional similarity, LFS)。假设与lncRNA
和
相关的疾病分别有m和n种,这些疾病分别表示为
和
。然后,
和
的LFS可以计算为:
(6)
与DGS类似,基于邻接矩阵LD计算了lncRNA高斯相互作用普核相似性(Gaussian interaction profile kernel similarity for lncRNAs, LGS)。假设lncRNA有n个,则LGS为:
(7)
(8)
Liang等[28]利用lncRNA序列计算了lncRNA序列相似性(lncRNA sequence similarity, LSS)。我们从国家医学图书馆中下载了lncRNA的序列信息。假设
和
的序列长度分别为
和
,
和
的莱文斯坦距离为
。则LSS为:
(9)
2.3.3. 疾病和lncRNA相似矩阵融合
Lu等[29]基于DSS和DGS进行矩阵融合,得到疾病相似性矩阵(DS),如公式10。我们进一步基于LFS、LGS和LSS进行矩阵融合,得到lncRNA相似性矩阵(LS),如公式11。
(10)
(11)
2.3.4. lncRNA-疾病对的构建
本文模仿Xuan等[30]构建嵌入矩阵的方法构建了lncRNA-疾病对。在这里使用
和
为例说明lncRNA-疾病对的构建过程,如图2所示。首先,如果
和
与数据库中的某个lncRNA同时具有相似性和相关性,则它们之间存在关联的可能性将会很高。lncRNA-疾病对
第一部分的第一行是
与其他lncRNA的相似性,第二行是
与lncRNA的相关性。其次,如果
和
与数据库中的某个疾病同时具有相关性和相似性,则它们之间存在关联的可能性将会很高。
第二部分的第一行是
与疾病的相关性,
Figure 2. Construction of li-dj pairs
图2. li-dj的构建
第二行是
与其他疾病的相似性。最后,如果
和
与数据库中的某个miRNA同时相互作用和关联,则它们之间存在关联的可能性将会很高。
第三部分的第一行是
与miRNA的相互作用,第二行是
与miRNA的关联。至此,整合lncRNA相似性、疾病相似性、lncRNA-miRNA相互作用和miRNA-疾病关联,构建了节点
-
的lncRNA-疾病对
。用同样的方法可以构建其他lncRNA-疾病对。
2.4. 自编码器
自编码器[31]是一种强大的神经网络架构,用于数据降维和特征提取。多层式自编码神经网络是一个由多个自编码器层组成的神经网络,其前一层自编码器的输出作为其后一层自编码器的输入。本文模型使用自编码器对构建好的lncRNA-疾病对进行数据降维,提取数据的低维表示。
多层自编码器的基本思想是尝试将输入数据通过多个编码器映射到一个低维的隐藏表示,然后再通过与编码器对称的多个解码器将隐藏表示重构为原始数据。这个过程可以理解为一个数据的压缩和解压缩过程,其中隐藏表示被认为是数据的有价值特征。多层自编码器的编码器部分的目标是将输入数据
压缩为一个较小的隐藏表示。本文使用的编码器结构是多层神经网络,其中逐渐减少神经元的数量,使得网络逐渐捕捉到数据的主要特征。解码器部分的目标是将隐藏表示解码为重构数据
。解码器部分的结构与编码器相似,但神经元数量逐渐增加,最终生成与输入数据相匹配的输出。使用MSELoss作为损失函数,即:
(12)
通过多轮学习,得到lncRNA-疾病对降维后的特征。
2.5. 时序卷积网络
时序卷积网络是一种专门用于处理序列数据的深度学习模型。它结合了卷积神经网络的并行处理能力和循环神经网络的长期依赖建模能力,成为处理序列特征任务中的理想工具。如图1所示,TCN主要包括因果卷积、扩张卷积和残差连接三部分,可以让所有特征步的卷积操作可同步进行,显著提升训练速度,而且通过因果卷积和填充,输入与输出序列长度一致,非常适合序列标注与分类任务。TCN在LDAs预测中的作用机制核心在于将静态生物数据转化为时序或序列化表示,将lncRNA的碱基序列视为“伪时间序列”,并通过其特有的因果卷积、扩张卷积和残差连接,捕捉局部与全局特征。
2.5.1. 因果卷积
因果卷积(Causal Convolution)的作用主要是确保模型不会违反序列顺序。本文中因果卷积的输出只依赖于当前LDAs及其之前的输入,而不依赖于后面输入的LDAs。在标准的卷积操作中,每个输出值都基于其周围的输入值,包括未来的时间点。但在因果卷积中,权重仅应用于当前和过去的输入值,确保了信息流的方向性,避免了信息泄露到当前输出中。为了实现这一点,通常会在卷积核的右侧填充零,即因果填充,这样只有当前和过去的信息被用于计算输出。
对于输入序列
和卷积核
,因果卷积的输入
表示为:
(13)
其中k为卷积核大小。
2.5.2. 扩张卷积
扩张卷积(Dilated Convolution)的使用主要是为了增加感受野而不增加参数数量。扩张卷积,也被称为空洞卷积,是一种在卷积核之间插入空隙的卷积形式,即跳过某些输入单元。这种技术允许模型在不增加参数数量的情况下捕获更大的感受野,从而更好地理解输入数据中的上下文信息。通过引入扩张率(dilation rate) d,扩大卷积核的感受野,捕捉长期依赖,其决定了卷积核中元素之间的间距。扩张卷积的输出
为:
(14)
其中扩张率d按层级指数增长(如d = 1, 2, 4, 8)。当d = 1时,退化为普通因果卷积。
TCN的总感受野(Receptive Field, RF)为:
(15)
这里L为扩张卷积层数,dl为第l层的扩张率。
2.5.3. 残差连接
残差连接是残差网络(ResNets)的关键组成部分,它的主要目的是解决深层神经网络训练中的梯度消失或爆炸问题,以及提高网络的训练效率和性能。在残差连接中,网络的某一层的输出直接加到几层之后的另一层上,形成所谓的“跳跃连接”。本文TCNLDA中使用残差连接来缓解梯度消失问题并促进更深层网络的训练。具体来说,假设有一个输入x,经过几层后得到F(x),那么最终的输出不是F(x)而是x + F(x),也就是输入 + 输出。这种结构允许梯度在反向传播时可以直接流回更早的层,减少了梯度消失的问题,并且使得网络能够有效地训练更深的架构。残差块的输出可以表示为:
(16)
TCN的基本结构包括多个残差块,每个残差块的内部流程包括:
(17)
(18)
(19)
最后,对于输入序列X,经过多个残差块后,得到输出Y,取最后一个时间步的输出并通过Softmax进行分类:
(20)
3. 结果
3.1. 交叉验证和评估指标
在实验中,5折交叉验证(5-CV)被用在评估TCNLDA的性能。我们将已知LDAs所得到的lncRNA-疾病对作为阳性样本,未知的作为阴性样本。由于样本中负样本远远大于正样本,这会影响最后的预测概率,欠采样被用于平衡正负样本。我们将正样本分成五个子集,其中四个与等大小随机选择的阴性样本进行训练,其余一个与剩余的阴性样本中随机抽取等数量的阴性样本进行测试。
为了准确评估TCNLDA的性能,之前的很多研究采用ROC曲线和PR曲线,以及曲线下的面积(AUC和AUPR值)作为评价指标。因此本文绘制了ROC曲线和PR曲线,并计算了AUC和AUPR值。除此之外,还使用了其他六个评价指标进一步评估模型的预测LDAs的能力,它们分别是准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值(F1-score)、kappa系数和马修斯相关系数(Matthews correlation coefficient, MCC)。这六个评价指标的计算公式如下:
(21)
(22)
(23)
(24)
(25)
(26)
其中TP和TN分别表示正确预测阳性和阴性样本的数量,FP和FN分别表示错误预测阳性和阴性样本的数量。
3.2. 参数选择
在这里展示了在数据集1的实验中的六个重要超参数的调整结果,它们分别是:自编码器的层数(表示为m),时序卷积网络中扩张卷积的扩张率(表示为d),批次大小(表示为bs)和学习率(表示为lr)。m从3,5,7中选择(当m = 3时,自编码器只有输入层、输出层和重构层,没有中间层),d在2,4,8中选择,bs在32,64,128中选择,lr在0.002,0.001,0.0005中选择。如表1所示,当m、d、bs和lr分别设置为5,4,128,0.001时,TCNLDA在5-CV中可以获得本数据集的最佳AUC和AUPR。
Table 1. Performance of TCNLDA using different values of m, d, bs and lr on Dataset 1
表1. TCNLDA在数据集1上使用m,d,bs和lr的不同值时的性能
参数 |
参数值 |
AUC |
AUPR |
m |
3 |
0.9323 |
0.9425 |
|
5 |
0.9762 |
0.9773 |
|
7 |
0.9147 |
0.9022 |
d |
2 |
0.9665 |
0.9723 |
|
4 |
0.9762 |
0.9773 |
|
8 |
0.9548 |
0.9572 |
bs |
32 |
0.9732 |
0.9769 |
|
64 |
0.9762 |
0.9773 |
|
128 |
0.9643 |
0.9721 |
lr |
0.002 |
0.9540 |
0.9327 |
|
0.001 |
0.9762 |
0.9773 |
|
0.0005 |
0.9637 |
0.9705 |
3.3. 与其他模型比较
为了证明TCNLDA的优越性能,在两个数据集中将其与以下四种方法进行了比较:SIMCLDA (2018) [32]、IPCARF (2021) [33]、VGAELDA (2021) [34]、gGATLDA (2022) [35]。其中,SIMCLDA和IPCARF使用了传统机器学习方法,gGATLDA和VGAELDA使用的是深度学习预测方法。VGAELDA与本文方法的中间介质不同,其使用基因作为中间介质。为了比较的公平性,将上述模型在本文所用的两个数据集上进行训练和测试,并采用5-CV的方法输出预测结果。同时,训练和测试中所使用的超参数皆为原模型的默认参数。
Figure 3. The ROC and PR curves of TCNLDA compared to other benchmark models on Dataset 1
图3. 在数据集1上,TCNLDA与其他基准模型的ROC和PR曲线对比
Figure 4. The ROC and PR curves of TCNLDA compared to other benchmark models on Dataset 2
图4. 在数据集2上,TCNLDA与其他基准模型的ROC和PR曲线对比
如图3,图4所示,相比于其他五个模型,在两个数据集中TCNLDA的AUC和AUPR值皆是最优。在数据集1中,TCNLDA的AUC值为0.9762,比gGATLDA、VGAELDA、SIMCLDA和IPCARF分别高出1.38%、2.35%、4.85%、47.53%。TCNLDA的AUPR值为0.9773,比gGATLDA、VGAELDA、SIMCLDA和IPCARF分别高出1.23%、3.41%、8.12%、49.16%。在数据集2中,TCNLDA的AUC值为0.9647,比gGATLDA、VGAELDA、SIMCLDA和IPCARF分别高出0.29%、3.58%、1.11%、64.77%。TCNLDA的AUPR值为0.9661,比gGATLDA、VGAELDA、SIMCLDA和IPCARF分别高出0.07%、22.96%、85.86%、56.50%。本文模型较高的AUC和AUPR,说明TCNLDA在排序能力、鲁棒性以及正例预测精确率上要优于其他五个模型。然后,在Precision, Recall, F1-score, Accuracy, Kappa coefficient, and MCC这六个评价指标上,将TCNLDA与其他五个模型进行了对比,如图5,图6。可以看出,TCNLDA在数据集1上的Precision,Recall,F1-score,Kappa coefficient,MCC等评价指标基本优于其他五个模型,仅有Recall略逊色于模型VGAELDA。然而,TCNLDA在数据集2上各评价指标全部都优于其他五个模型。这表明,TCNLDA在整体正确率、正例准确率和覆盖率、平衡性、一致性以及全面综合性能等各方面要优于其他模型。因此可以证明TCNLDA在预测LDAs的方面具有很强的竞争力。
Figure 5. Comparisons of precision, recall, F1-score, accuracy, Kappa coefficient, and MCC among various models on Dataset 1
图5. 数据集1上各种模型的精度、召回率、F1分数、准确率、Kappa系数和MCC的比较
Figure 6. Comparisons of precision, recall, F1-score, accuracy, Kappa coefficient, and MCC among various models on Dataset 2
图6. 数据集2上各种模型的精度、召回率、F1分数、准确率、Kappa系数和MCC的比较
3.4. 消融实验
消融实验经常被用于在LDAs预测中验证模型各部分的存在有效性。在本实验中,首先要验证自编码器、TCN加入的Dropout层和时序卷积网络本身的有效性。因此,将原始模型与其去掉自编码器(TCNLDA-noAE),去掉Dropout层(TCNLDA-noD)和TCN变成卷积神经网络(TCNLDA-CNN)后的变体模型进行了比较。在两个数据集中,比较了模型所得出的AUC值和模型训练至收敛所需要的时间,如表2所示。在表中可以看出TCNLDA在两个数据集上的AUC都优于其它三个变体。虽然TCNLDA和变体TCNLDA-noAE的各项指标差别不大,但其所耗时间远远小于去掉自编码器的变体模型,这说明自编码器可以对数据进行降维,节省训练时间和计算成本。Dropout层可以在训练过程中防止模型过拟合。此外,虽然变体TCNLDA-CNN训练所耗时间最少,但是CNN模型过于简单,无法学习到LDAs中的复杂特征,因此其AUC值很差,而相比于CNN,TCN拥有更好的预测性能和鲁棒性。
3.5. 案例分析
为了进一步检验TCNLDA在特定疾病的新型LDAs方面的预测能力,我们在数据集1上进行了胃癌(GC)和肺癌(LC)的案例研究,具体步骤如下:1) 将数据集中所有已知的LDAs作为阳性样本,随机抽取
Table 2. The impact of AE, BN layers and dropout layers on model performance and computational time on Dataset 1 and Dataset 2
表2. 数据集1和数据集2上的AE层、BN层和剔除层对模型性能和计算时间的影响
Dataset Model |
数据集1 |
数据集2 |
AUC |
时间(分钟) |
AUC |
时间(分钟) |
TCNLDA |
0.9762 |
11.28 |
0.9647 |
19.49 |
TCNLDA-noAE |
0.9699 |
463.73 |
0.9652 |
728.25 |
TCNLDA-noD |
0.9490 |
11.15 |
0.9056 |
18.91 |
TCNLDA-CNN |
0.7239 |
2.14 |
0.5961 |
4.59 |
等量的未知LDAs作为阴性样本,将阳性样本和阴性样本合并用于模型的训练。2) 将所有未知的lncRNA与两种特定疾病之间的关联分别用于模型测试。3) 使用TCNLDA对测试样本输出预测得分,然后进行排序,并选取与这些疾病相关的排名前10位的lncRNA。然后通过PubMed文献检索实验证据,每种疾病的具体分析如表3所示。
Table 3. Top 10 TCNLDA predicted lncRNAs associated with GC and LC on Dataset 1
表3. 数据集1中与GC和LC相关的前10个TCNLDA预测lncRNA
疾病 |
序号 |
LncRNA |
证明(PMID) |
Gastric cancer (GC) |
1 |
MALAT1 |
32104001 |
2 |
NEAT1 |
未证实 |
3 |
LINC01133 |
30134915 |
4 |
ERICH1-AS1 |
未证实 |
5 |
HOTAIR |
30810117 |
6 |
CCAT2 |
29435046 |
7 |
UCA1 |
29805620 |
8 |
LSINCT5 |
30127643 |
9 |
NPTN-IT1 |
25674261 |
10 |
MIR124-2HG |
未证实 |
Lung cancer (LC) |
1 |
OIP5-AS1 |
29897167 |
2 |
SNHG12 |
30719111 |
3 |
MALAT1 |
31133357 |
4 |
CCAT2 |
30214594 |
5 |
KCNQ1OT1 |
未证实 |
6 |
MIR155HG |
32432745 |
7 |
HOTAIR |
32248643 |
8 |
LINC01133 |
26840083 |
9 |
GAS5 |
30926767 |
10 |
XIST |
29812958 |
胃癌是全球第五大常见癌症,也是癌症死亡的第三大常见原因[36]。根据TCNLDA预测的与胃癌相关的前10个lncRNA中有7个得到确认。例如,沉默CCAT2基因可以抑制胃癌BGC-823细胞的增殖,以及诱导胃癌BGC-823细胞的凋亡和自噬[37]。LSINCT5的激活将影响GC细胞迁移和侵袭,其可能成为新的GC疗法的靶点[38]。MALAT1可以调节奥沙利铂对胃癌的耐药性[39]。
肺癌是世界上癌症死亡的主要原因之一[40],其包括小细胞肺癌(SCLC)和非小细胞肺癌(NSCLC)。模型预测与肺癌相关的前10个lncRNA中有9个得到文献证实。例如,GAS5的上调可以抑制NSCLC的生长、迁移和侵袭[41]。HOTAIR表达水平的变化会影响NSCLC细胞的迁移和侵袭能力[42]。OIP5-AS1基因的反义是一种lncRNA,其在肺癌组织中高表达与肿瘤大小和肿瘤生长速度相关[43]。
上述预测结果可以进一步指导那些未被证实过的LDAs在生物医学实验中进行验证,使实验方向更加明确,减少不必要的成本损耗。
4. 总结与讨论
随着生物医学领域的不断发展,越来越多人发现lncRNA在许多疾病的发病和治疗等生物学过程中起到重要作用。同时,miRNA作为lncRNA与疾病关联的中间介质也不断被验证。本文提出一种基于自编码器和时序卷积网络的LDAs预测模型TCNLDA。首先,TCNLDA使用矩阵融合的方法将多种lncRNA和疾病相似性矩阵分别融合为lncRNA相似性矩阵和疾病相似性矩阵,它们与lncRNA-疾病关联矩阵、lncRNA-miRNA相似性矩阵和miRNA-疾病关联矩阵共同构建了lncRNA-疾病对。然后,自编码器用于特征提取,并将提取好的特征输入时序卷积网络中进行训练并输出预测得分。多个实验结果表明,TCNLDA相比于其他基准模型和近些年先进模型拥有更优越的性能,其各部分都在模型中都具有重要作用,并且能够很好地预测出新的LDAs。
然而,本文模型中还存在一些问题需要进一步研究。首先是数据正负样本不平衡的问题,和LDAs预测相关领域的许多研究一样采用了欠采样以平衡正负样本。但是欠采样的方法必然会舍弃一部分数量过多的负样本,因此会丢失一些负样本所包含的特征,对模型的最终预测结果产生一定程度的误差。此外,本模型验证的数据集仅包含很小一部分现实中的lncRNA和疾病,并且数据量的不断扩增是未来LDAs预测领域的趋势。因此,在未来的研究中,我们将会尝试整合出包含更多lncRNA和疾病的数据集进行LDAs预测研究,同时尝试探索新的模型结构,使之可以在不平衡的样本中得到较高的预测性能。
NOTES
*通讯作者。