1. 引言
叶绿体是植物细胞特有的细胞器,是进行光合作用的重要场所。叶绿体是半自主的细胞器,叶绿体蛋白质约占高等植物蛋白质的10%~25%,仅有一小部分叶绿体蛋白由叶绿体基因编码,大部分是核基因编码 [1] [2] [3]。叶绿体蛋白主要分为叶绿体膜蛋白、叶绿体基质蛋白、类囊体膜蛋白和类囊体腔蛋白 [4]。蛋白质的功能与其自身的结构和亚细胞定位密切相关。只有当蛋白质运输到特定的亚细胞位置时,才能发挥其功能并参与细胞生命活动 [5] [6] [7]。因此,了解蛋白质的亚细胞定位有助于了解蛋白质的生物学功能,解释蛋白质与其他生物分子之间的相互关系 [8] [9]。叶绿体蛋白定位方法常见的有实验定位和生物信息学预测两种方法 [10] [11]。本文介绍了近几年来常用的叶绿体蛋白质定位研究的预测方法以及实验方法,为高效进行叶绿体蛋白亚细胞定位方法提供参考。
2. 生物信息学预测方法
随着后基因组时代的到来,生物信息学分析技术的不断发展,利用计算机系统理论预测蛋白质亚细胞定位的手段也越来越成熟,涌现大量的预测方法和在线预测网站。计算机预测方法低成本、高效率,为生物学工作者的实验研究提供了一种高效的辅助手段,主要涉及以下五个步骤。
2.1. 叶绿体蛋白质预测相关数据集的建立
UniProt数据库集合了SWISS-Prot、PIR-PSD和TrEMBL三大数据库的序列信息,是序列信息资源最全面、最丰富的数据库 [12]。除了这些综合性的数据库以外,目前还出现了一些针对亚细胞定位的数据库,例如,由Du和Li针对于亚叶绿体蛋白定位所建立的SubChlo原始数据库和针对亚线粒体蛋白定位的SUBMITO原始数据库 [13] [14]。
蛋白质数据集的建立方法有① 使用已有的数据集;② 在已有的数据集的基础上增加或减少数据;③ 创建新的数据集。而目前常用的预测亚叶绿体蛋白定位的几种理论数据集是由Du和Li创建的SubChlo原始数据库,再经由CD-HiT程序处理后,去除相似性大于80%、60%、40%的同源性序列,所得到的S80、S60、S40的数据集 [15]。
2.2. 特征参数的提取
蛋白质特征参数的提取是蛋白质亚细胞定位预测的基础,根据蛋白质的序列特征能够决定蛋白质在合成过程中分选到特定的位置并发挥正确的生物学功能,参数提取方法有四:
一是根据氨基酸组分进行分析,氨基酸是组成蛋白质的基本单位,多种氨基酸的排列组合构成了多种多样的蛋白质序列,根据蛋白质氨基酸的组成信息可以有效地预测蛋白质的亚细胞定位,但这种方法忽略了蛋白质氨基酸的顺序和空间结构等信息;
二是根据氨基酸序列N端的信号肽进行分析,蛋白质可根据蛋白质序列上的特殊的信号序列分选到特定的位置,并被细胞器上的特异性分选受体识别。1999年Nakai和Kanehisa [16] 首次提出依据氨基酸序列N端的分选信号预测亚细胞定位并结合机器学习的方法设计出蛋白质亚细胞定位的预测软件PSORT。之后Emanuelsson等人 [17] 根据氨基酸序列N端的信号肽并结合神经网络的方法,开发出TargetP定位预测软件。蛋白质序列N端的信号肽可以提高预测蛋白的亚细胞定位的效率,但并非所有蛋白质都含有分选信号,存在一定的局限性;
三是根据氨基酸残基性质,位于不同的亚细胞区域的蛋白质,其氨基酸序列含有不同的理化性质。2000年Chou等人 [18] 首次提出将氨基酸组分信息与物理化学属性信息相结合,将氨基酸分成亲疏水性、极性、酸碱性和R基等化学结构,以此来降低蛋白质组分的20维序列信息,增加精确度;
四是根据序列同源相似性、蛋白质功能结构域。利用BLAST同源相似性搜索工具进行序列对比,可得到保守序列的同源信息。但该法需要大量蛋白质功能结构域数据的支持,目前尚无较为完整数据库,使用受限。
2.3. 预测算法设计
分类预测算法能够正确、高效地预测不同蛋白质的亚细胞位置的,为确定蛋白质亚细胞定位提供了重要信息。目前常用的预测算法主要都是基于机器学习分类法,其中包括人工神经网络、支持向量机(SVM)、马尔可夫模型、贝叶斯网络组合耦合等。而在机器学习分类法中,支持向量机(SVM)算法是成功率最高、操作运行最为简便的算法之一 [19]。该算法采用了大间隔的线性分离,计算结果错误率极低,能够处理多种的机器学习问题上,因此被广泛地应用于各种生物信息学研究。
2.4. 预测结果评估
得到的预测结果的可信度需要用科学的方法进行检测和评估,常用的方法包括自洽检验(Self-consistency)、交叉检验(Cross validation)和留一交叉检验(Jackknife) [20]。其中留一交叉检验是交叉检验中的一种特殊状况,其原理就是训练集中的每一个蛋白质轮流作为待测蛋白,将剩余蛋白质作为训练样本进行测试,是当前比较客观的检验方法之一 [21]。由于在检测蛋白过程当中会出现较高的假阳性,因此在预测过程中要尽可能的预测出正确的界面残基,以减少假阳性和假阴性。并分别用敏感性(Sensitivity, Sn)、特异性(Specificity, Sp)、预测成功率(Accuracy, Acc)、马修相关系数(Matthews’s Correlation Coefficient, MCC)指标进行度量 [22],预测结果与真实数据的相关性。
2.5. 软件和Web网站的建立
当预测算法通过预测结果评估被证实具有较高可信度时,可借助互联网建立一个在线预测网站,以方便更多的研究人员在线获得待测蛋白的预测结果。目前已有大量的在线预测网站应用于叶绿体蛋白质亚细胞定位研究中(见表1)。
3. 实验定位的方法
在蛋白质亚细胞定位研究中生物信息学预测结果具有一定的参考价值,但并不能完全确定蛋白质的亚细胞定位,最后还需要通过实验确定蛋白质的具体定位。实验定位法包含免疫胶体金标记、免疫荧光技术和融合报告基因定位法。

Table 1. Main prediction websites for subcellular localization of chloroplast proteins
表1. 主要叶绿体蛋白质亚细胞定位预测网站
3.1. 融合报告基因定位法
对2016年以来植物叶绿体蛋白的亚细胞定位实验方法进行搜集整理发现,近年来,以绿色荧光蛋白基因作为报告基因的融合报告基因定位法被广泛使用,利用瞬时表达技术使融合基因在植物细胞中瞬时表达,利用激光共聚焦显微镜和超分辨率显微镜观察进行活体跟踪检测,确定细胞中蛋白质分子的定位以及代谢途径 [23]。
绿色荧光蛋白(GFP)可以自发荧光,易于检测、性质稳定并且对宿主细胞无毒害作用,因此可以作为报告蛋白在植物、动物、微生物中广泛使用。由于叶绿体自带红色荧光,因此常用绿色荧光蛋白基因以及其突变体黄色荧光蛋白(YFP)基因作为融合报告基因进行亚细胞定位实验,也可以使用EGFP、EYFP等增强型绿色荧光蛋白(荧光强度比GFP高6倍以上更强)的GFP的突变体,改善检测效果 [24]。
瞬时表达的宿主细胞主要有拟南芥原生质体、烟草叶片细胞以及洋葱表皮细胞。但通过瞬时表达技术进入细胞的外源DNA并不与宿主细胞染色体DNA进行整合,而是直接随载体进入细胞,迅速表达,在2~4 d内就能检测到表达产物 [25]。瞬时表达技术能够表达多种外源基因并且不会受基因位置以及基因沉默等方面的影响,具有简单、快捷、准确、效率高等优点,是一种快速研究基因表达、蛋白质亚细胞定位以及基因互作的重要手段 [26]。因此利用瞬时表达技术,使目的基因与含有绿色荧光蛋白基因的表达载体连接,成功表达出的融合产物就能散发出绿色荧光,最后利用特殊的显微镜对融合产物进行跟踪观察检测。
3.2. 利用激光共聚焦显微镜观察
蛋白质的功能虽然与蛋白质的定位相关,但蛋白质功能的发挥是一个动态的过程,涉及到蛋白质之间的互作和修饰,需要保证实验材料必须是活细胞。20世纪80年代激光共聚焦显微镜的出现,实现了细胞的活体3D成像 [27] [28]。激光共聚焦显微镜是在荧光显微镜的基础之上配置激光器和扫描装置,利用计算机技术对观察样品进行处理,以获得清晰图像。激光共聚焦显微镜结合了显微镜技术、光电技术和计算机技术,解决了传统显微镜观察方法在观察之前需要对样品进行脱水、脱蜡、染色等处理,会对细胞产生损伤的问题,激光共聚焦显微镜可以在不损伤细胞的前提下,对活体细胞进行观察和跟踪,观察过的样品还可以用于后续实验 [28]。传统的光学显微镜使用的是场光源,样品需要在场光源下一次性成像,样品成像会受到附近的物体的衍射光和散射光的影响,会形成色差 [29]。激光共聚焦显微镜的光源为激光,加上采用了共聚焦技术,减小了色差,样品在成像过程中被分解成二维甚至三维的多个点,逐点扫描成像,最终导入计算机中形成一个完整的图像,彻底消除了色差 [28],并且表现更出色的成像清晰度和精确度。
虽然激光共聚焦显微镜解决了活细胞的成像问题,但受分辨率的限制,还不能精准的定位到植物亚细胞器内的具体位置。
3.3. 利用超分辨率显微镜观察
融合报告基因定位法广泛应用促进了一系列以提高分辨率为目的的显微镜成像技术的发展 [30]。继激光共聚焦显微镜之后,超分辨率显微镜也因其强大的分辨率,精确的定位,突破了显微镜成像技术的一大难关。
超分辨率显微镜能对亚细胞器中的蛋白质进行精确定位,可在植物和动物细胞中广泛使用。2011年,Zheng等人 [31] 利用超分辨率显微镜将海马脊柱的突出细胞骨架蛋白精确定位于突触和神经元胞质中。2015年,刘玥等人 [32] 利用3D-SIM超分辨率显微镜确定植物蔗糖合成酶ZmSUS-SH1定位于烟草表皮细胞叶绿体的基粒周围。激光共聚焦显微镜能将融合蛋白精确于具体的细胞器,而超分辨率显微镜能将融合蛋白精确于细胞器中的具体位置。
超分辨率成像技术提高了显微镜的分辨率,成功克服了融合蛋白荧光不易区分以及叶绿素自发荧光等缺点,实现了叶绿体蛋白质在细胞器内的精确定位 [32]。同时利用计算机软件可以对样品进行3D重构,并对样品的3D模型进行任意角度的旋转和切割,甚至还可以导出3D模型,实现蛋白质在亚细胞器内的可视化精确定位。
4. 结论
综上,叶绿体蛋白质亚细胞定位的两种方法各有千秋,实验定位方法测量结果精准,但耗时长、成本高,仪器设备昂贵,而且实验结果需要人为的经验判断,具有一定的主观性。生物信息学预测方法具有利用大数据提供预先参考信息的优势,因而对传统的实验方法发挥良好的辅助作用,也节省了时间成本。
叶绿体蛋白质的功能与蛋白质的亚细胞定位联系紧密,具体功能的发挥需要由蛋白质之间相互作用、修饰等动态变化来体现。多种的蛋白质亚细胞定位实验方法的出现、发展以及使用,为叶绿体蛋白质数据库积累了大量的数据。计算机软件技术的崛起,生物信息学技术的发展,使互联网在线预测蛋白质亚细胞定位成为可能,也为高效率分析叶绿体蛋白亚细胞该行为提供了有益参考。
参考文献
NOTES
*通讯作者。