1. 介绍
转录组学是研究一个细胞内完整基因转录本的学科,可以测量不同条件下基因组的表达水平。现代转录组学通过用高通量测序技术来研究基因和其履行的生物职能,通常采用生物信息学方法,例如剪接位点识别、转录本变体识别或确定蛋白质编码转录子的替代启动子 [1]。然而这些蛋白质编码转录本仅代表转录组的一小部分,一个大基因组里有相当多的RNA转录本是不会直接编码蛋白质的,研究证实在全部mRNA序列中外显子序列仅占2.94%,其余的被称为非编码RNA (ncRNA) [2],这些RNA的功能更难以表征。非编码RNA可以根据功能和长度分为多个类别,在此,我们着重介绍其中的长链非编码RNA (lncRNA),即长度大于200个核苷酸的非编码RNA。长非编码RNA发挥其生物学功能的一个重要作用机制即是与蛋白质进行相互作用,文章中,我们探讨了近期关于长非编码RNA与蛋白质相互作用关系的预测研究现状,对现有的利用深度学习预测长链非编码RNA与蛋白质相互作用关系模型进行了技术分析,另给出了模型的通用评价指标,便于读者对模型预测性能有一个更直观的了解。
2. 通用数据集
在2011年,Amaral等人构建了第一个长非编码RNA数据库,名为lncRNAdb [3]。lncRNAdb数据库提供长非编码RNA生物学功能的全面注释。随后,中国科学院生物物理研究所陈润生院士课题组通过Pubmed数据库收集整理非编码RNA相关的文章、补充材料以及其它资料,构建了NONCODE数据库 [4]。该数据库是专门用于非编码RNA (不包括tRNA和rRNA)的综合知识数据库,它不仅记录了非编码RNA的序列信息、相关基因,还收集整理了非编码RNA在各组织器官的表达量等功能信息。由印度CSIR基因组和整合生物学研究所的研究人员开发的lncRNome是一个关于人类长非编码RNA的功能注释数据库 [5]。该数据库拥有超过17,000个人类长非编码RNA的信息并提供有关长非编码RNA类型、染色体位置、生物功能和疾病关联的信息。
目前已知的主流的长非编码RNA与蛋白质相互作用数据库包括NPInter数据库 [6] 和RPI7317数据库 [7] 等,其中NPInter2.0数据库中记录了经过实验验证的非编码RNA (不包括tRNA和rRNA)和生物分子(蛋白质、RNA和DNA)的相互作用关系信息,该数据库的信息主要来源于NONCODE、miRBase和UniProt等数据库,其中共包含10,412个经实验验证的NPI,涉及来自六种不同生物的4636个非编码RNA和449个蛋白质。RPI7317数据库是从NPInter3.0数据库中精选的,只从人类样本中选择交互。
3. 模型性能评估标准
在评估长链非编码RNA与蛋白质相互作用预测模型性能时,我们最多用到的评价标准有ROC曲线、AUC值(ROC曲线下面积),ACC (准确率)、REC (召回率)、特异性(SPEC)、PRE (精确度)和F1值等。其中ROC曲线为受试者工作特性曲线,横坐标为FPR (负正类率),纵坐标为TPR (真正类率),它们分别由TP、FP、TN、FN计算而来,TP代表实际为正类且预测为正类的样本,FP代表实际为负类而预测为正类的样本,同理TN代表实际为负类且预测也为负类的样本,FN代表实际为正类而预测为负类的样本。由公式不难得出,在实际情况中,AUC值取值在(0,1)之间,且AUC值越接近1,则模型性能表现越好,当AUC取值为0.5时,模型性能等同于随机预测。全局留一交叉验证和k折交叉验证常用来测试模型在测试集上的表现。ACC为准确率,表示预测正确的样本数在全部样本中的占比,且计算结果越高越好。REC为召回率,又被称为灵敏性,为在判断为正类的样本中真实为正类的样本比率,类似的,SPEC被称为特异性,为在判断为负类的样本中真实为负类的样本比率。PRE (PPV)为精确度,为在所有被预测为正类的样本中真实即为正类的比率。F1值为PRE和REC的调和平均值。一般情况下,由上述指标值,我们可以对预测模型的性能有一个综合的评估。上述几项指标值的计算公式如下:
4. 预测模型
在2020年,Zhang等人提出了一种基于卷积神经网络的并采用了复制填充技巧的深度学习模型,称为LPI-CNNCP [8]。其中采用的复制填充技巧能够将非定长的蛋白质或RNA序列转换为定长序列,从而构建出CNN模型,并且采用了高阶one-hot编码来从序列信息中捕获到核苷酸或氨基酸之间的依赖关系,转换为类似于图像形式的输入,最后将上面的处理过后的信息输入CNN中来预测长非编码RNA和蛋白质的相互作用数据。
卷积神经网络是一种有效的深度学习模型,能够从样本中学习到隐藏的高级抽象特征,故广泛应用于各种分类问题。除了利用卷积神经网络模型之外,模型额外添加了复制填充技巧,这主要是因为卷积神经网络的输入要求为定长的序列,但在实际中RNA和蛋白质都是由非定长的核苷酸或氨基酸小分子序列组合而成。复制填充技巧可以简单描述为:若规定的长度恰好为当前序列长度的n倍,则直接将自身序列延长n倍作为输入即可;若规定的长度为当前序列长度的n倍且不能整除还剩余长度为i的短序列,则在将当前序列延长n倍后再在后面补上从第一个小分子开始长度为i的序列。具体流程如图1所示。

Figure 1. The flow chart of LPI-CNNCP
图1. LPI-CNNCP流程图
在2021年,Shen等人提出了一种基于GNN的非编码RNA-蛋白质相互作用预测方法,称为NPI-GNN [9]。它能够根据网络信息和序列信息预测新的交互。它将GraphSAGE和top-k pooling结合到了SEAL框架中,构建了一个ncRNA和蛋白质相互作用的二部图网络,每个节点的特征表示由ncRNA和蛋白质的结构标签、node2vec特征和k-mer特征组成。上述提到的SEAL框架是由Zhang等人在2018年提出的使用GNN进行链路预测的深度学习框架 [10],该框架使用GNN从局部子图学习启发式,以两个矩阵作为输入,一个是封闭子图的邻接矩阵A,另一个是节点信息矩阵X,X代表了图中每个矩阵的特征,构建完两个矩阵之后再送入GNN中进行学习。
模型总体架构包括三个连续的特征处理模块,分别由GraphSAGE、ReLU和top-k pooling组成。它还包括三个全局池化模块,并用一个额外的加法模块来加和三个模块的结果,在这之后是三个连续的全连接层,分别包含128个、64个、2个神经元。当模型获取到输入的封闭图后,先经过第一个特征处理模块的处理,其次再依次进入到第二和第三个特征处理模块,由三个全局池化模块来读取三个特征处理模块的输出结果,并经过加法模块加和,结果送入全连接层,SoftMax函数和log函数用来处理最后一个全连接层的输出来得到最终预测结果。在五倍交叉验证下证明,该模型可以有效进行非编码RNA和蛋白质的相互作用关系预测。具体流程如图2所示。
在2021年,Li等人提出了一种新的多通道胶囊网络框架,集成用于LPI预测的多模特征,叫做Capsule-LPI [11]。它集成了四种特征,包括序列特征、主题信息、理化性质和二级结构特征,该模型由四个特征学习子网络和一个胶囊子网络构成。当模型接收到长非编码RNA和蛋白质对时,提取上述四种特征,并形成对应的四条特征向量,送进由四层全连接层构成的特征学习子网络中进行学习,每个特征学习子网络由四层全连接层组成,用该子网络不仅可以提取高层特征,而且可以统一特征向量的维数。最终形成一个三维输出向量,然后将从特征学习子网络中得到的三维输出向量作为“胶囊”处理获得
,
包含根据每个特征预测得来的多个信息,
是变换矩阵,它们能将
转换到相同的预测空间,得到的
即为利用四种特征产生的在相同预测空间下的预测,接下来,添加
作为新胶囊,使用激活函数将新胶囊的长度压缩到(0,1)的范围,以获得最终胶囊V,取V的长度作为最终预测结果,长度大于0.5为阳性预测代表两者有关联,反之则为无关联。具体流程如图3所示。

Figure 3. The flow chart of Capsule-LPI
图3. Capsule-LPI流程图
在2021年,Jin等人提出一种基于图自动编码器和协同训练的端到端深度学习模型来预测长非编码RNA和蛋白质相互作用,称为LPIGAC [12]。与以往的研究不同,该模型分别在长非编码RNA图和蛋白质图上实现了两个图自动编码器,并对这两个编码器进行了协同训练。具体实现过程为,首先整理出lncRNAs和蛋白质的相互作用矩阵
,其中m和n分别为lncRNA和蛋白质的数量,同时构建出lncRNAs和蛋白质的相似性矩阵分别为
和
。将Y,
,
作为输入送入图自动编码器中进行学习训练,最终得到打分矩阵
,其中
代表长非编码RNA i和蛋白质j的关联预测得分,分数越高表明两者关联的可能性越大。
上面提到的图自动编码器(GAE)是一个拥有两层图卷积层的自动编码器,Shi等人 [13] 证明了GAE能够模拟标签传播过程,若设
和
分别为经过两层图卷积层后的输出,则
,
。其中
和
为神经网络的权重矩阵,
和
代表lncRNA图和蛋白质图的归一化邻接矩阵,由
和
计算而来,
,
。
和
为邻接矩阵的度矩阵,对应的打分矩阵
和
可以分别经由
和
解码得来,表示如下
,
,最终的关联打分矩阵F通过
和
计算得来,
,公式中的
是为平衡从lncRNA空间和从蛋白质空间得到的信息而设置的权重参数。具体流程如图4所示。
5. 结果比较
表1为四种深度学习模型在长非编码RNA与蛋白质关系预测表现上的比较。由指标值可见,四种模型都取得了0.9以上的AUC或ACC,说明四种模型能够有效的预测出潜在的LPI,同时NPI-GNN和LPIGAC等利用了图学习理论来构建预测模型的方法性能要好于单纯使用了基础深度学习模型卷积神经网络、胶囊神经网络的LPI-CNNCP和Capsule-LPI,这表明图学习能够充分提取图结构数据中的潜在信息,很好的适用于了长链非编码RNA与蛋白质的相互作用关系预测问题。故在以后的研究中,图学习仍是一大热点。

Table 1. Comparison of experimental results of four models
表1. 四种模型实验表现结果对比
6. 结论与展望
研究证明长链非编码RNA与蛋白质之间的相互作用机制能影响各种各样的生命活动,因此使用深度学习工具来进行长非编码RNA与蛋白质相互作用关系预测是很有必要的,这样能节省大量的时间和物质成本。但目前的模型仍存在局限性,例如现有的长非编码RNA与蛋白质关联数据十分有限,这导致了我们只能使用相对小规模的数据集来训练计算模型,从而导致计算精度偏低。另外负样本的获取同样是一个不可避免的问题,由于已知的都是有相互关联的作用对,故大多数研究人员采用从排除掉正样本的所有两两组合数据中抽样作为负样本,由于我们不知道某个未知长非编码RNA和蛋白质究竟是否有关联就盲目把它当作负样本使用,故模型也会因此出现误差。为了克服这些缺点,故特为以后的实验模型提出几点建议:1、构建更大规模、更全面的长非编码RNA-蛋白质相互作用数据库,大量的相互作用数据有助于获得更可靠的预测模型;2、尽量寻找一些经过实验验证的可靠的负样本来训练模型,或者使用dropout策略,减小误差。3、找到更好的深度学习模型来从原始数据中提取更高级的特征。这些都有利于改良我们的模型,以获得更准确的预测。
在这篇综述中,我们全面回顾了近些年来使用深度学习工具来进行长非编码RNA与蛋白质相互作用关系预测的一些方法,这些方法已经成功预测了长非编码RNA-蛋白质关联,并取得了优良结果。此外,在文章最后我们也总结了上面模型中存在的缺点,并为未来从事此研究方向的学者提出了一些建议,希望这些能帮助改进现有的方法来取得更优的结果。