1. 介绍
假尿苷(Ψ)是一种必不可少且普遍存在的RNA修饰类型,被称为“第五种RNA核苷酸”,在真核生物和原核生物的多种类型的RNA中广泛发现了这种修饰,包括tRNA,mRNA和rRNA [1]。大量研究表明,假尿苷在稳定RNA结构 [2] [3],RNA-蛋白质或RNA-RNA相互作用 [4],调节进入位点结合过程 [5] 以及RNA的代谢 [6] [7] 等分子机制中起着至关重要的作用。因此假尿苷位点的识别对于揭示相关的生物学原理至关重要。
假尿苷是尿苷的同分异构体,在RNA中假尿苷的形成主要有两种机制。一种是由高度保守的蛋白质也就是假尿苷合酶催化的。这个假尿苷合酶同时起到识别和催化的两种作用。即将尿苷残基的碱基从糖中分离出来,将其沿着N3-C6轴“旋转”180度,然后将碱基的5-碳重新连接到糖的1-碳上。假尿苷修饰位点结构如图1所示。另外一种是依赖于一类snRNA与相应的蛋白质形成的复合物,RNA起到识别作用,与其结合的蛋白质发挥催化作用 [8]。

Figure 1. Pseudouridine modified site structure
图1. 假尿苷修饰位点结构
尽管RNA假尿苷修饰在几十年前就被发现了,但随着下一代测序技术的迅速发展,第一个全转录组RNA假尿苷修饰图谱直到2014年才发表。Carlile [7] 等人开发了PseudoU-seq技术,他们利用该技术在酵母和人类细胞的受调控mRNA中鉴定了200多个假尿苷化位点,同年,Schwartz [9] 等人利用类似的方法进行了全转录组作图,在非编码RNA和mRNA中发现了300多个动态调控的假尿苷位点。Li [10] 等人提出了一种化学标记方法(CeU-Seq),他们在人类mRNA中标记了超过2000个假尿苷位点。其他的研究人员也开发了其他RNA假尿苷测序的方案。虽然这些实验方法和化学方法在预测假尿苷位点的过程中发挥着重要作用,但是工作量比较大,不仅昂贵且花费的时间和精力也很多。由于后基因组时代产生的数据量不断增加,最近出现了用于RNA化学修饰预测的稳健、快速和廉价的计算方法,多数基于传统的机器学习算法,也有一些基于深度学习算法。在本文中,对近年来基于机器学习的假尿苷位点预测的模型进行介绍。
2. 通用数据集
在2016年,Chen [11] 等人基于RMBase建立了第一个基准数据集,分别命名为H_990 (人类)、S_628 (酿酒酵母)和M_944 (小家鼠)用于模型训练;以及另外两个独立的测试数据集,名为H_200 (人类)和S_200 (酿酒酵母),用于不同方法之间的性能验证和比较。在2019年,Liu [12] 等人基于RMBase v2.0更新了训练数据集,并获得三个新的训练数据集NH_990 (人类)、NM_944 (小家鼠)和NS_627 (酿酒酵母),分别比原始数据集中的人类,酿酒酵母和小家鼠多26、10和1个样本。由于这两个常用且数据集差别很小,且本文介绍的预测模型都是采用Chen等人的数据集,因此对Chen等人建立的数据集进行说明。基准数据集中人类训练数据集包含495个假尿苷位点序列和495个非假尿苷位点序列;酿酒酵母训练数据集包含314个假尿苷位点序列和314个非假尿苷位点序列;小家鼠训练数据集包含944个序列,其中一半为阳性样本。测试数据集人类和酿酒酵母均含有100个阳性样品和100个阴性样品。人类和小家鼠数据集中的RNA序列均包含21个核苷酸,酿酒酵母数据集中的RNA序列包含31个核苷酸。数据集如表1所示。
3. 模型性能评估标准
在生物信息学和最近的研究领域,四个指标被用来评价预测因子的质量。它们是特异性(SP),敏感性(SN),准确性(ACC)和马修斯相关系数(MCC)。公式如下:
其中TP (真阳性)的含义是本身是假尿苷位点,也被预测为假尿苷位点;TN (真阴性)为本身是非假尿苷位点,也被预测为非假尿苷位点;FN (假阴性)为本身为假尿苷位点,但是被预测为非假尿苷位点;FP (假阳性)为本身为非假尿苷位点,但是被预测为假尿苷位点。因此,SN是准确预测假尿苷位点的可能性。SP是获得非假尿苷位点的正确预测的可能性。ACC代表整体RNA序列位点预测的准确性。由于MCC考虑到真阳性,假阳性,真阴性和假阴性四个特征,它通常被视为衡量平衡的尺度。
4. 预测模型
在2020年,Lv [13] 等人,提出了一种名为RF-PseU的随机森林预测器用于预测假尿苷的位点。随机森林算法是一种袋式集成学习算法 [14]。通过组合多个弱分类器,最终的结果可以投票或平均,以获得一个更高的精度,更好的综合性能和抗过拟合的整体模型。这个算法已经被广泛使用在生物信息学和其他领域的应用,并在各个领域已被证实是一种有效的建模技术。
为了确定最优的特征空间,Lv等人首先使用梯度增强算法(LGBM)根据特征的重要性值将特征从最大值排序到最小值。所有重要性值大于平均值的特征都要被保留。其次,使用了增量特征选择策略(IFS),随着特征的添加,交叉验证和独立测试的精度都发生了变化,起初每个物种的准确性增加的比较迅速,后呈波形平缓。便于比较,文章使用了LOO交叉验证和10倍交叉验证两种交叉验证方法,得到两个结果来评估训练模型。RF-PseU的优势在同水平下,开发了一个具有易于使用的界面的web服务器,以便于相关用户使用和研究。
在2021年,Li [15] 等人提出了一个名叫Porpoise的堆叠集成机器学习框架,旨在改进RNA假尿苷位点的预测。Porpoise对18种特征编码方案和9种常用机器学习算法的性能进行了全面的基准测试,对于每种机器学习算法,根据每种特征类型训练18个分类器,并根据马修斯相关系数(MCC)选择性能最好的一个作为候选基分类器。使用Python中的scikit-learn包,通过10次10倍的交叉验证测试,构建和优化了所有分类器。使用这种策略,根据9种不同的机器学习算法共获得了9个候选基分类器。由于9个基分类器的预测性没有得到满意的结果,因此采用叠加策略建立了集成学习模型。叠加是一种有效的集成学习策略,它综合了各种分类器的信息,从而能够建立一个稳健的预测模型。这种策略已经成功应用于最近的一些生物信息学和计算生物学的研究。堆叠策略包含两个主要步骤,每个步骤中相应的分类器被称为基分类器和元分类器。第一步应用并建立一组基本分类器,第二步以基本分类器的输出作为输入,对元分类器进行训练。文章中首先根据9个基本分类器的分类性能对其进行了排序,设置c为候选基分类器的排序池,c = {c1, c2, c3, c4, c5, c6, c7, c8, c9},其中c1获得了最好的MCC,从c获取基本分类器生成八个基本分类器组合,其中Ensemble1包括{c1, c2},Ensemble 2包括{c1, c2, c3},以此类推,直到Ensemble 8包括{c1, c2, …, c8, c9}。使用logistic 回归作为元分类器来训练堆积模型,最终选择获得最佳性能的组合作为最终模型。
在基本分类器优化组合的基础上,Porpoise对每个基本分类器进行特征选择和超参数优化。采用了两步特征选择策略,应用了mRMR特征选择算法(最小冗余最大相关性)来对特征进行排序,并使用增量特征选择算法(IFS)来选择最佳特征。选择达到最高MCC值的特征子集为最佳特征子集。之后采用贝叶斯优化算法来优化堆叠模型的超参数。此外,文章中还确认了所选特征的重要性,并使用SHAP算法帮助解释Porpoise的堆叠模型。
在2021年,Wang [16] 等人提出了一种新的特征融合预测器,命名为PsoEL-PseU,用于预测假尿苷位点。首先,本研究系统全面地探索了不同类型的特征编码方案,确定了具有不同性质的六种特征编码方案。为了提高特征表示能力,充分利用这些特征编码方案,使用二进制粒子群优化机器学习算法来消除大量冗余和无效的特征,从而捕获六个特征编码方案的最优特征子集。其次,六个个体预测器通过使用六个最佳特征子集进行训练。最后,为了融合所有六个特征的效果,通过并行融合策略将六个个体预测器融合到集合预测器中。其中并行融合策略采取的是多数表决策略。在三个基准数据集上的十倍交叉验证表明PsoEL-PseU预测器性能得到了明显提升。PsoEL-PseU也提供了一个用户友好型网络服务器可以自由访问。
在PsoEL-PseU的粒子群优化算法中,每个粒子由两部分组成,其中第一部分代表特征选择的结果。它的长度等于原始特征的数量。粒子位置的0或1的值用来表示是否选择了相应位置的特征。第二部分是由10个二进制位组成的支持向量机(SVM)训练的超参数组合的结果,它可以表示总共1024个超参数组合。最后,为了获得更有效的特征,将已识别的伪尿苷位点的十倍交叉验证的分类精度作为适应值,以保证种群粒子向高分类精度的方向移动。详细的流程图如图2。首先初始化粒子,然后计算每个粒子的适应度值。适应度值用于迭代更新速度和位置,以找到特征描述符的最优特征子集。

Figure 2. Flow chart of the BPSO algorithm
图2. BPSO算法流程图
5. 结果比较
表2为三种机器学习模型预测假尿苷位点在训练集上的表现比较。三种模型在三个物种中ACC都达到了60%以上,能准确地预测假尿苷位点,且在酿酒酵母和小鼠中准确度更高。在准确预测位点的可能性上,Porpoise表现最好,比其他两种模型高出22.21%,3.01%,4.73%以上。Porpoise的MCC分数人类和酵母细菌中达到了最高,但是在小家鼠中,PsoEL-PseU的MCC分数最好。

Table 2. Comparison of training set performance
表2. 训练集表现比较
表3为三种机器学习模型预测假尿苷位点在独立测试基上的表现比较。在测试集上,除了Sp的值,Porpoise的得分都是最好的,在H_200上的准确性为77.35%,MCC为0.551,与训练数据集的结果非常接近。而在S_200上的准确性为83.5%,MCC为0.673,略高于训练数据集的准确率。

Table 3. Comparison of test set performance
表3. 测试集表现比较
6. 结论与展望
RNA修饰的研究引起了人们的高度关注,因为它揭示了RNA修饰在调节基因表达和疾病发病机制中的重要性。随着表观转录组测序数据的增加,更多的RNA修饰基准数据集变得可用。最近大型数据集的可用性以及通过机器学习在计算生物学方面取得的进步已经改变了该领域的研究。因此,这些技术最终提高了我们对RNA修饰生物学意义的理解。而对于RNA修饰中最常见的假尿苷修饰,其在结构功能和新陈代谢中起到了重要的作用,因此准确的识别假尿苷的位点对揭示有关生物学原理至关重要。而由于实验化学方法的费时费力,开发出基于机器学习的计算方法来预测假尿苷位点是很有必要的。
本文回顾了基于机器学习的假尿苷位点预测的最新进展,尽管预测算法一直在更新迭代,但是目前的模型仍然有一些限制和问题。为了打破局限性,获得更好的预测精度,本文给出两点改进和提高的建议:
1) 机器学习在学术研究领域和实际应用领域得到越来越多的关注,并且展示了其独特的优势。但是在生物序列如DNA序列,RNA序列等方面的应用还比较少,后续工作可以深入研究学习算法的内部构成,做到可以改进内部结构以适应生物序列方面的数据集;或者可以开发出匹配生物序列的学习算法。
2) 多种RNA都含有假尿苷修饰,包括tRNA,rRNA,mRNA。在预测假尿苷位点时根据不同类型的RNA进行位点预测,即在预测之前先判断是哪一种RNA,不同的RNA有不同的预测分类器,从而使预测的精度得到提高。