1. 引言
根据分子生物学的中心法则,遗传信息主要编码在蛋白质编码基因中。然而这些基因仅占人类基因组的约1.5%,表明超过98%由非蛋白质编码序列组成[1]。长链非编码RNA (long non-coding RNA, lncRNA)被定义为长度超过200个核苷酸的非编码RNA [2],以前被视为转录噪声。然而,有证据表明lncRNA在多种细胞过程中发挥重要的调控功能,包括细胞周期控制、胚胎发育、基因表达的时空调控和细胞命运决定[3]。此外,lncRNA与各种疾病的发病和进展越来越相关[4]。lncRNA的失调或突变会导致复杂且通常难以治愈的疾病,如心血管疾病[5]、阿尔茨海默病[6]和糖尿病[7]。lncRNA表达异常与多种癌症的发生和发展也密切相关[8]。阐明lncRNA与人类疾病之间的关联已成为揭示潜在疾病机制[9]和确定新的治疗靶点[10]的关键研究焦点。尽管一些长链非编码RNA-疾病关联(lncRNA-disease association, LDA)已经通过实验验证,但传统的生物学方法通常费力、耗时和资源密集,从而限制了LDA的全面识别。这一瓶颈突显了迫切需要有效的计算模型。利用现有的实验数据,已经开发了许多计算方法来预测潜在的LDA。这些方法可以大致分为三类:基于生物网络的模型、矩阵补全和基于机器学习的方法。
基于生物网络的模型通过构建整合了实验验证的LDA、疾病相似性和lncRNA相似性的异构网络来预测潜在的LDA。这些方法通常采用随机游走和标签传播算法来捕获全局网络结构并推断潜在的关联。Sun等人[11]提出了一种名为RWRlncD的方法,该方法在lncRNA功能相似性网络上应用带重启的随机游走,从而改善了对特征较少的lncRNA的预测。Chen等人[12]开发了KATZLDA,整合了LDA、lncRNA表达、疾病语义相似性和高斯相互作用谱核相似性,以提高预测准确性。KRWRH [13]通过lncRNA的表型信息和组织特异性表达细节来推断疾病-lncRNA关联。
基于矩阵补全的方法构成了预测LDA的第二大类。这些方法利用归纳矩阵补全来恢复一个低秩矩阵,该矩阵整合了lncRNA和疾病的先验知识,从而补全LDA矩阵[14]。Lu等人[15]提出了SIMCLDA,它计算lncRNA高斯相互作用谱核相似性和疾病功能相似性,然后应用主成分分析提取特征进行归纳矩阵补全。GCRFLDA [16]从已知的LDA构建一个图,并使用带有条件随机场和注意力的编码器–解码器框架来预测关联。MFLDA [17]可以通过为数据源分配不同的权重来选择和整合数据源,进一步引入了一种迭代解决方案,以同时优化权重和低秩矩阵。
基于机器学习的方法是LDA预测的第三个大类,包括传统机器学习和深度学习方法。Zhu等人[18]将增量主成分分析与随机森林相结合,开发了IPCARF,这是一种集成多种相似性度量的LDA预测方法。CNNLDA [19]采用了一种具有注意力机制的双路径卷积神经网络来学习全局和关注特征表示,然后将这些表示结合起来估计关联概率。GCNLDA [20]集成了图卷积网络和卷积神经网络来提取网络级别和局部特征。gGATLDA [21]通过为每个lncRNA-疾病对提取子图、分配基于相似性的节点属性并采用图神经网络进行预。GTAN [22]利用多个图注意力网络以及卷积和多层感知器层对拓扑结构和节点属性进行编码。
现有方法在预测潜在LDA方面取得了显著进展,但仍有很大改进空间。一方面,直接利用原始的相似性和关联信息在计算上是低效的,一些模型的计算可能会模糊节点嵌入的语义表示从而削弱分类性能。另一方面,越来越复杂的模型架构所带来的性能提升相对有限,这表明这些方法可能并没有完全符合LDA预测的基本假设。Geoffrey Hinton等人[23]开发的胶囊网络克服了传统卷积神经网络的一些限制,通过将特征信息表示为向量,更好地捕获了节点的相对位置和方向。胶囊网络还引入了一种动态路由机制,可以动态调整胶囊之间的连接权重,从而在处理复杂的输入变化方面表现出更高的性能。Transformer架构[24]已被广泛应用于各个领域,并越来越多地应用于LDA预测[25]。虽然Transformer中的自注意力机制有效地捕获了全局依赖关系,但也存在固有的挑战,它的二次计算复杂性限制了可扩展性,并且在稀疏数据条件下性能通常会下降,可能会导致关键信息的丢失。Han等人[26]提出的一种新颖的全局注意力机制名为代理注意力机制,可以在计算效率和表示能力之间实现最佳平衡。Luong等人[27]提出了一种局部注意力机制,它专注于输入数据的特定子集,而不是整个输入数据。在LDA领域,包含lncRNA-疾病关联的特征矩阵具有高度稀疏性,这可能会导致全局注意力机制忽略特定的局部相关模式。局部注意力机制的引入可以有效解决这个问题,减少潜在的信息丢失从而增强模型捕获全局和关系信息的能力。
基于上述,我们提出了一个全新的模型名为CAPTLDA,首先使用了lncRNA、miRNA的功能相似性还有疾病的语义相似性的信息数据,构造了一个加权的邻接矩阵,然后将邻接矩阵输入到胶囊网络中进行特征的学习与提取,最后将胶囊网络的输出送到一个集成了全局多头代理注意力机制与多头局部注意力机制并行的Transformer编码器中进行信息整合以完成最终的预测输出。在两个数据集上采用多个评价指标对CAPTLDA的预测结果进行评估,相较于其他几个先进的模型,CAPTLDA具有更好的预测性能,案例研究的分析进一步证明了模型潜在的预测价值。
2. 材料与方法
2.1. 数据集
为了严格评估所提出模型的有效性,我们在两个受广泛认可的基准数据集上进行了评估:
数据集1源自Fu的研究[17]。该数据集广泛应用于lncRNA疾病关联预测的研究中。它包括240个lncRNA、412种疾病和495个miRNA,以及从Lnc2Cancer [28]、LncRNADisease [29]和GeneRIF [30]中收集的2697个实验验证的lncRNA疾病关联。此外,它还包括来自starBasev2.0 [31]的1002个lncRNA-miRNA关联,以及来自HMDD v2.0 [32]的13,562个miRNA疾病关联。
数据集2来源于Zhou等人的研究[33]。该数据集包括665个lncRNA、316种疾病和295个miRNA。它整合了3833个实验支持的LDA,这些关联来自Lnc2Cancer v3.0 [34]和LncRNADisease v2.0 [35]的更新版本,2108个lncRNA-miRNA关联来自starBase v2.0,以及8540个miRNA-疾病关联来自HMDD v3.0 [36]。节点注释和分类分别来源于MeSH2 [37]和miRbase [38],便于一致的生物学解释。
2.2. 模型架构
如图1所示,本文构建了一个全新的模型CAPTLDA用于lncRNA-疾病对的预测,首先通过lncRNA、miRNA、疾病三者之间的关联性与相似性构建出六个子矩阵,然后将六个子矩阵融合为一个加权的邻接矩阵,将该矩阵输入到胶囊网络中进行特征学习,最后将胶囊网络的输出输入进混合注意力机制的Transformer编码器中进行全局信息整合输出分类预测结果。
Figure 1. Flowchart of CAPTLDA
图1. CAPTLDA的流程图
2.3. 疾病语义相似性
疾病语义相似性(Disease semantic similarity, DSS)因其在不同疾病之间捕获表型相关性的有效性,在LDA预测研究中得到了广泛应用。疾病语义信息来源于Disease ontology,使用有向无环图(DAG)结构对疾病之间的层次关系进行建模[39]。按照Wang等人提出的方法[40],通过Disease ontology中疾病先祖的语义贡献来量化DSS。具体来说,对于给定的疾病
,令
表示包括
本身以及DAG中所有祖先疾病的集合。然后,正式定义
中每种疾病对
的语义贡献如下:
(1)
对于任何其他疾病
,
和
之间的语义相似性定义为:
(2)
其中,
表示集合
内所有疾病对疾病
的累积语义贡献。
表示集合内所有疾病对疾病
的累积语义贡献。两种疾病之间的语义相似性是基于它们各自的先祖疾病集合之间的重叠程度来定量定义的。当共享的先祖疾病更接近目标疾病时,相似性分数增加,这反映了更精确的表型相关性。
2.4. lncRNA/miRNA功能相似性
遵循Wang等人提出的方法[38],通过整合疾病语义相似性与实验验证的LDA和miRNA-疾病关联(miRNA-disease association, MDA),lncRNA功能相似性(lncRNA functional similarity, LFS)和miRNA功能相似性(miRNA functional similarity, MFS)进行定量评估。对于两个lncRNA或miRNA,分别表示为
和
,令
和
分别表示与
和
相关的疾病数量。这些相关疾病定义为
和
。然后,
和
之间的功能相似性表述如下:
(3)
2.5. 加权邻接矩阵
考虑一个包含
个lncRNA、
个miRNA和
种疾病的数据集。这些实体之间的类间关联关系由邻接矩阵
,
和
表示。这些矩阵中的每个条目
被分配一个二进制值,其中1表示相应实体之间存在已知关联,否则为0。类内相似性矩阵
,
和
对同一类实体之间的功能或语义相似性分数进行编码,对角线上的值为自相似性值被设为0。
(4)
2.6. 胶囊网络
胶囊网络由六层神经网络组成,包括胶囊卷积层、初级胶囊层、数字胶囊层和三个全连接层。当前一胶囊层的输出向量进入更高胶囊层时,会首先与权重矩阵相乘,并映射到与更高胶囊层神经元数量相同的空间中。计算过程如下:
(5)
其中,
表示对应
的权重矩阵,
表示预测向量。
动态路由利用权重来确定较低层的向量如何进入较高层的向量,计算如下:
(6)
其中,
为耦合系数。
对于最大池化,只有一个值可以进入该层,
就是相应的唯一的热点向量。计算方式如下:
(7)
这里
是胶囊
和胶囊
的对数概率。在迭代过程中,
不断更新,其公式为:
(8)
Squash是胶囊网络引入的一个重要创新,是一种归一化操作,它针对每个向量使得变化后长度介于0到1之间,只改变大小而不影响方向,计算过程如下:
(9)
其中,
表示胶囊
的输出向量,而
则是胶囊
的总输入向量。
2.7. 混合注意力机制
2.7.1. 代理注意力机制
代理注意力具体形式化为一个四元向量
,在传统的注意力模块中引入了一组额外的代理令牌
。代理令牌首先充当查询令牌
的代理,从键
和值
中聚合信息。随后,聚合后的信息会被广播回原始的查询令牌
。由于代理令牌的数量可以设计得远小于查询令牌的数量,与广泛采用的softmax注意力相比,代理注意力展示了更高的效率,同时保持了全局上下文建模能力因此,它无缝地结合了softmax注意力的强大表示能力和线性注意力的计算效率,通过引入代理偏差,可以进一步利用位置信息来增强机制的性能,计算公式如下:
(10)
其中
和
是代理偏置,
,
,
,以及
。
2.7.2. 局部注意力机制
局部注意力机制专注于输入数据的特定区域,而不是整个输入数据。从输入特征开始,一个1 × 1的可变形卷积层生成查询
,而两个单独的可变形卷积层生成键(
)和值(
)。局部注意力模块的输出定义如下:
(11)
可变形卷积通过可训练的偏移量来适应采样网格,使网络能够访问传统局部邻域之外的信息。这些偏移量是通过额外的卷积层从输入特征中学习得到的。因此,可变形卷积增强了感受野,并为特征建模引入了更大的灵活性(见图2)。
Figure 2. Schematic diagram of the hybrid attention mechanism
图2. 混合注意力机制示意图
Transformer
Transformer编码器由N个相同的层组成,每个层包含两个子层:一个多头注意力机制和一个前馈网络。对于每个子层,都会加入残差连接,然后进行层归一化。这个过程可以描述为:
(12)
其中
表示由多头注意力机制或前馈网络实现的计算,
表示每个子层的输出。前馈网络包括两个由ReLU激活函数分隔的全连接层:
(13)
其中,
,
,
的值设置为2。
预测层对来自注意力层的向量化输出应用线性变换,然后采用sigmoid激活函数,以获得预测的LDA概率p:
(14)
(15)
其中,
,最后,二元交叉被用作优化模型的损失函数,定义为:
(16)
其中y表示真实标签,若数据集中的lncRNA-疾病对有实验验证的关联则y等于1,否则y等于0。
3. 实验结果
3.1. 交叉验证与评价指标
在这项研究中,采用五折交叉验证来评估模型的性能。对于每个数据集,已知的LDA被视为阳性样本,而未知的LDA则构成阴性样本。所有阳性样本被划分为五个子集。四个子集用于训练,结合等量的随机选择的阴性样本。其余的子集与等大小的随机选择的阴性样本集配对,用于测试。采用了两个公认的指标来评估模型,分别是AUC,定义为ROC曲线下的面积,它量化了二进制分类器在所有分类阈值上的整体性能;AUPR,该指标测量精确召回曲线下的面积,表示分类器在处理不平衡数据集时的性能。此外,还使用了四个评估指标:准确率(Accuracy),召回率(Recall),精度(Precision),特异性(Specificity),以及精确率和召回率的调和平均值F1值。这些评价指标公式如下:
(17)
(18)
(19)
(20)
(21)
其中,
是真实负样本对数,
是真实正样本的对数,
是假正样本的对数以及
是假负样本的对数。
3.2. 参数选择
这里展示了CAPTLDA的重要超参数在数据集一上的调整结果,分别是胶囊个数(num_capsules)、胶囊网络中的卷积核大小(kernel size)、代理注意力和局部注意力的头数agent_n_heads, local_n_heads)、Transformer编码器的特征维度数(d_model)、前馈网络层数(d_ff)。胶囊个数从{4, 8, 16, 24}中选择,卷积核大小从{3*3, 6*6, 9*9}中选择,代理注意力和局部注意力的头数从{1, 2, 4, 8}中选择,特征维度数从,{4, 8, 16, 24}中选择,前馈网络隐藏单元数从{0.5, 1, 1.5, 2}中选择。如表1所示,当胶囊个数为8,卷积核大小为9*9,代理注意力头数为8,局部注意力头数为4,Transformer编码器特征维度数为16,前馈网络隐藏单元数为1时,模型在数据集一的AUC和AUPR值达到最佳。此外,CAPTLDA是参数不敏感的,对于不同的超参数组合,其所达到的AUC和AUPR值波动较小,证明了模型良好的性能。
Table 1. The performance of the model when different hyperparameters are used on dataset 1 by CAPTLDA
表1. CAPTLDA在数据集1上超参数取不同值时模型的性能
参数名称 |
参数值 |
AUC |
AUPR |
num_capsules |
4 |
0.9762 |
0.9823 |
8 |
0.9898 |
0.9879 |
16 |
0.9798 |
0.9810 |
24 |
0.9725 |
0.9797 |
kernel_size |
3*3 |
0.9716 |
0.9804 |
6*6 |
0.9743 |
0.9738 |
9*9 |
0.9898 |
0.9879 |
agent_n_heads |
1 |
0.9798 |
0.9711 |
2 |
0.9834 |
0.9692 |
4 |
0.9884 |
0.9825 |
8 |
0.9898 |
0.9879 |
local_n_heads |
1 |
0.9771 |
0.9804 |
2 |
0.9789 |
0.9797 |
4 |
0.9898 |
0.9879 |
8 |
0.9793 |
0.9805 |
d_model |
4 |
0.9698 |
0.9685 |
8 |
0.9775 |
0.9764 |
16 |
0.9898 |
0.9879 |
24 |
0.9802 |
0.9777 |
d_ff |
0.5 |
0.9757 |
0.9844 |
1 |
0.9898 |
0.9879 |
1.5 |
0.9811 |
0.9817 |
2 |
0.9766 |
0.9698 |
3.3. 与其他模型比较
为了验证CAPTLDA的性能优越性,我们选择了五种先进的模型在两个数据集上与其进行对比,分别是:SIMCLDA [15],该方法采用主成分分析构建邻接矩阵,并利用归纳矩阵补全预测潜在的lncRNA-疾病关联。LDAformer [33],一种结合了拓扑特征提取路径和Transformer编码器的模型,VGAELDA [41]是一种结合了变分推断和图自动编码器的端到端模型,具有两个图编码器,分别是变分图自动编码器和标准图自动编码器。ACLNDA [42]构建了一个三层异构图,使用了Top-K层内相似性边缘构建方法,并采用了一个非对称的图对比学习框架,以最大化一跳邻域上下文和两跳相似性。SSCLMD [43]是一种多任务预测模型,该模型利用属性图和拓扑图的自监督对比学习来识别潜在的LDA。
Figure 3. Comparison of ROC and PR curves between CAPTLDA and other baseline models on dataset 1
图3. 在数据集一上CAPTLDA与其他基线模型的ROC和PR曲线对比
Figure 4. Comparison of ROC and PR curves between CAPTLDA and other baseline models on dataset 2
图4. 在数据集二上CAPTLDA与其他基线模型的ROC和PR曲线对比
如图3、图4所示,相比于其他五个模型,CAPTLDA在AUC和AUPR均达到了最优值,在数据集一中,CAPTLDA的AUC值为0.9898,比SIMCLDA、LDAformer、VGAELDA、ACLNDA、SSCLMD分别高出18.37%、0.91%、2.67%、2.85%、0.97%;AUPR值为0.9879,比SIMCLDA、LDAformer、VGAELDA、ACLNDA、SSCLMD分别高出14.98%、1.99%、14.39%、2.94%、0.47%。在数据集二中,CAPTLDA的AUC值为0.9662,比SIMCLDA、LDAformer、VGAELDA、ACLNDA、SSCLMD分别高出14.14%、3.15%、2.08%、3.31%、0.91%;AUPR的值为0.9790,比SIMCLDA、LDAformer、VGAELDA、ACLNDA、SSCLMD分别高出13.8%、4.34%、26.42%、4.72%、2.27%。此外,如图5所示,在数据集一上,CAPTLDA的Accuracy、Recall等五个评价指标的数值均高于其余五种模型,在数据集二上,CAPTLDA的五种评价指标有四项均为六种模型中的最高值,仅在Precision上略低于SSCLMD,这证明了CAPTLDA模型具有很强的预测LDAs的性能。
Figure 5. (a) Comparison of the accuracy, recall rate, precision, specificity and F1 value of the model in dataset 1; (b) Comparison of the accuracy, recall rate, precision, specificity and F1 value of the model in dataset 2
图5. (a) 数据集一上模型的准确率,召回率,精度,特异性和F1值的比较;(b) 数据集二上模型的准确率,召回率,精度,特异性和F1值的比较
3.4. 消融实验
消融实验经常被用于在LDAs预测中验证模型各部分的存在有效性。为了验证胶囊网络的有效性,以及将混合注意力机制集成到Transformer模型中的效果,我们进行了消融研究。因此,CAPTLDA与以下三个变体进行了比较,分别是去掉了胶囊网络部分的变体CAPTLDA_noCaps、只保留代理注意力机制的变体CAPTLDA_AAo以及采用原始Transformer自注意力机制的变体CAPTLDA_SF。实验结果表明,CAPTLDA在性能上优于其消融变体。如图6、图7所示,在两个数据集上,所有三个变体的AUC和AUPR值均观察到明显下降,这证实了每个模块都有效增强了模型的预测性能。此外,变体CAPTLDA_AAo在两个数据集上的AUC和AUPR值均略高于CAPTLDA_SF,这表明在本研究中,代理注意力机制优于自注意力机制。而与完整的CAPTLDA模型相比,去掉胶囊网络的CAPTLDA_noCaps变体表现出较低的AUC和AUPR值。该观察结果证明了胶囊网络捕获特征的有效性以及突出了所提出架构在捕获多尺度特征方面的有效性。
Figure 6. The comparison of ROC and PR curves between CAPTLDA and its three variants on dataset 1
图6. CAPTLDA与其三个变体在数据集一上的ROC和PR曲线对比
Figure 7. The comparison of ROC and PR curves between CAPTLDA and its three variants on dataset 2
图7. CAPTLDA与其三个变体在数据集二上的ROC和PR曲线对比
3.5. 案例分析
为了进一步验证CAPTLDA真实的预测能力,我们对数据集1和数据集2进行了案例分析研究。已知的LDA作为阳性样本,而相同数量的未知LDA被随机选择为阴性样本。测试样本根据模型生成的预测分数从高到低进行排序。对于每种疾病,记录排名前十的预测lncRNA。最后,通过PubMed文献搜索来确定验证模型预测的LDA的真实性。对于数据集1,选择了肝细胞癌(Hepatocellular carcinoma, HCC, DOID: 684),对于数据集2,选择了乳腺癌(Breast Cancer, BC, DOID: 1612)。验证结果如表2所示。
Table 2. The ranking of the top ten lncRNAs related to HCC and BC as predicted by CAPTLDA in dataset 1 and dataset 2
表2. 数据集一与数据集二中CAPTLDA预测与HCC和BC相关的前十个lncRNA排序
疾病 |
排名 |
LncRNA名称 |
PubMedID |
肝细胞癌 |
1 |
MIR155H |
38850791 |
2 |
DLX6-AS1 |
43039401 |
3 |
CCDC26 |
Unknown |
4 |
UCA1 |
37854341 |
5 |
ZEB1-AS1 |
33865414 |
6 |
FEZF1-AS1 |
34023817 |
7 |
LINC00176 |
28869604 |
8 |
BANCR |
34512168 |
9 |
XIST |
30091314 |
10 |
MALAT1 |
32965597 |
乳腺癌 乳腺癌 |
1 |
TP73-AS1 |
28857253 |
2 |
CASC11 |
36204307 |
3 |
MIR17HG |
36943627 |
4 |
DLEU1 |
31841195 |
5 |
LINC-ROR |
32335998 |
6 |
PVT1 |
36941464 |
7 |
DGCR5 |
32521856 |
8 |
LINC00261 |
33274565 |
9 |
BANCR |
29565494 |
10 |
FOXD2-AS1 |
30628646 |
肝细胞癌已成为全球范围内的重大健康负担。作为一种异质性恶性肿瘤,其在全球范围内的患病率持续上升,发病率在所有癌症中排名第六[44],是癌症相关死亡的第三大主要原因[45]。通过模型筛选出的所有十个肝细胞癌候选lncRNA,有九个都得到了文献中的实验验证。例如,肝细胞癌病理标本中lncRNA XIST的表达明显下调。它通过吸附致癌miRNA miR-155-5p来抑制HCC的进展[46]。
乳腺癌是女性中常见的恶性肿瘤,是全球女性癌症相关死亡的主要原因之一[47]。模型预测的与乳腺癌相关的前十个lncRNA均已被现有文献证实。例如PVT1通过与乳腺癌细胞中的内源性miR-145-5p竞争性结合,重新编程代谢表型,从而调节糖酵解相关基因的表达[48]。
案例研究的结果表明,CCAPTLDA能够有效地预测尚未被发掘的LDA,为实验提供方向,减少不必要的损耗。
4. 总结与讨论
长链非编码RNA已被确定为疾病发病机制背后多种生物过程的关键调节因子。准确预测LDA可成为指导后续生物学实验的重要见解,并对推进疾病诊断和治疗的创新策略具有重要意义。本研究提出了一种新的LDA预测模型CAPTLDA,整合了lncRNA、miRNA、疾病相似性和类间关联。构建了一个加权邻接矩阵。随后,采用胶囊网络来捕获矩阵内的特征。最后,具有混合注意力机制的Transformer编码器整合特征路径之间的依赖关系,以预测潜在的LDA。实验结果表明,CAPTLDA优于其他先进的基线方法,能够准确有效地识别实际应用中的潜在LDA。
研究同时具有部分局限性。所有实验都是使用平衡的正负样本进行的。丢弃一些负样本可能会遗漏潜在特征。因此,未来的工作可以探索模型在不平衡数据上的直接性能。其次,与现实相比,数据集只是所有RNA和疾病的一个子集。因此,未来的努力应该集中在提高数据集的可扩展性上。在特征构建方面,可以探索整合额外的生物关联,如RNA序列信息,以开发未来的模型,在预测准确性和计算效率之间取得最佳平衡。
NOTES
*通讯作者。