大规模开发及特性分析十字花科SSR分子标记及其数据库的构建

doi:10.12677/BR.2017.63013

期刊菜单

大规模开发及特性分析十字花科SSR分子标记及其数据库的构建
Large-Scale Development and Character Analysis of SSR Markers and Database Build in Brassicaceae

DOI: 10.12677/BR.2017.63013, PDF, HTML, XML, 被引量科研立项经费支持
作者: 杨帅^*：山东农业大学植物保护学院，山东泰安；济南大学生命科学院，山东济南；李慧：济南大学生命科学院，山东济南；侯欣, 张丽^*：山东农业大学植物保护学院，山东泰安
关键词: 十字花科；SSR；特异引物；通用引物；数据库；Brassicaceae； SSR； Specific Primers； Universal Primers； Database

摘要: 十字花科在植物界中是一种极具价值的科，简单重复序列(Simple Sequence Repeats, SSR)在十字花科的研究中发挥着及其重要的作用。本研究利用已知13个十字花科物种的基因组，借助生物信息学和比较基因组学的方法，获得了1,786,619个SSR位点及1,919,464对SSR引物。结果显示SSR位点广泛分布于十字花科物种的基因组中，其中1~3单元的重复在基因组和基因序列中占有率较高，二单元重复中的AT/TA重复单元的数目占总数目的大部分。利用435,414对物种特异性SSR，可以进行十字花科物种关联分析。11对通用引物的开发，说明了十字花科物种内存在一致性区段，可以进行引物跨物种扩增。本研究构建了世界首个十字花科SSR分子标记数据库平台(BSSRD, Brassicaceae Simple Sequence Repeats Database http://biodb.sdau.edu.cn/BSSRD)，该平台将会在以后十字花科植物的遗传图谱的构建，基因定位和遗传育种中发挥重要的作用。

Abstract: Brassicaceae is an important family in the plant kingdom. The Simple Sequence Repeats (SSRs) play a vital role in the study of Brassicaceae. By using 13 known sequenced Brassicaceae species with bioinformatics and comparative genomics methods, a total of 1,786,619 SSR loci and 1,919,464 pair of primers have been developed. The results show that the SSRs are widely distributed in the Brassicaceae species’ genomes, 1 - 3 bases duplication have a high ratio among these genomes and gene sequences, AT/TA repeats units have a high numbers in all of the 2 base duplication. In addition, 435,414 specific SSR primers could be used to analyze the correlation between the species of Brassicaceae. 11 pairs of universal primers’ developed shows that there exist some consistent base fragments and could be amplified across different species. In this study, we constructed the world’s first SSR molecular marker database platform (BSSRD, Brassicaceae Simple Sequence Repeats Database http://biodb.sdau.edu.cn/BSSRD) which will play an important role in the construction of genetic map, gene mapping and genetic breeding of Brassicaceae.

文章引用：杨帅, 李慧, 侯欣, 张丽. 大规模开发及特性分析十字花科SSR分子标记及其数据库的构建[J]. 植物学研究, 2017, 6(3): 86-95. https://doi.org/10.12677/BR.2017.63013

1. 引言

在植物界中，十字花科是一种非常重要的科，其拥有375个属，3200个种，广泛分布于世界各地，其中在中国就有95个属，约411余种 [1] 。十字花科植物的种类繁多，既有富含食用价值的蔬菜，如白菜、甘蓝等植物，又有极具观赏价值的紫罗兰等植物，此外还有极高经济价值的油菜，亚麻荠等油料作物，是所有开花植物中最有经济价值的科之一 [2] 。更重要的是，由于十字花科植物拟南芥的生长周期短，结实多，广泛生长等优点，成为了植物界内研究最早的模式物种之一，在遗传育种等分子生物学研究中扮演着非常重要的角色 [3] 。近年来，在基因水平上通过一些分子标记来提高十字花科对人的营养利用价值，经济价值和科研价值的研究成为了一个热点 [4] [5] 。

简单重复序列(simple sequence repeats, SSR)，又称为微卫星DNA序列，是广泛存在于整个基因组中的一类分子标记 [6] 。SSR一般定义为1~6个碱基串联重复组成几十bp的序列，其两端的序列是相对保守的单拷贝序列。SSR具有的广泛分布，共显性高，重复性好，多态性高，易于检测等生物学优点使得其成为一种常用的分子标记，并广泛应用于植物遗传多样性分析、遗传图谱构建、基因定位和分子标记辅助育种等领域 [7] [8] [9] 。但是据我们查询所知，现在对于十字花科植物SSR的研究仅局限于单个物种，并且仅利用表达序列标签(Express Sequence Tags，EST)序列检测的SSR并不完整 [10] [11] 。

随着现在第二代测序技术的发展成熟以及测序价格的降低，到目前为止，十字花科植物中阿拉伯岩芥菜 [12] ，玉山筷子芥 [13] ，拟南芥 [14] ，油菜 [15] ，甘蓝 [16] ，芜菁 [17] ，亚麻芥 [18] ，荠菜 [12] ，亚拉巴马水芹 [12] ，盐芥近缘种 [19] [20] ，水蒜芥 [12] ，小盐芥 [21] 等13个物种已经完成了全基因组测序并进行了基因的预测，这给本研究提供了丰富的数据基础。现在分子生物学技术以及生物信息学技术的发展，也给本研究提供了后续个性化分析技术和平台。本研究将基于十字花科物种的基因组信息，进行SSR标记标记的大规模开发和相关数据库的构建。

2. 材料与方法

2.1. 实验材料

从十字花科基因组数据库BRAD (http://brassicadb.org/brad/index.php) [22] 以及美国生物信息中心NCBI (https://www.ncbi.nlm.nih.gov/)等公共数据库中下载到十字花科物种的全基因组序列以及其基因序列，统计各个物种的详细信息(见表1)。

2.2. 方法技术

2.2.1. SSR位点扫描

利用Micro Satellite identification tool-MISA [23] 软件包中的Perl脚本进行批量扫描十字花科物种的SSR位点，本研究设定是否为SSR的标准为：1) 一单元至少十次重复，二单元至少六次重复，三单元至少五次重复，四单元至少五次重复，五单元至少五次重复，六单元至少五次重复。2) 两个SSR之间距离小于100 bp时组合为一个复合SSR。

2.2.2. SSR位点统计

利用Perl脚本对扫描得到的SSR做了以下分类统计：1) 各个基因组和基因序列SSR位点数目；2) 各个物种的1~6重复单元数目；3) 各个物种不同的重复单元前两位的重复片段数目。

2.2.3. 序列截取

计算每个SSR位点在基因组序列上的物理位置，利用SSR位置信息从每个十字花科物种的基因组上截取SSR起始终止位点前后各60 bp的序列，并将截取的序列中N值小于10%的序列筛选出来进行下一步引物的设计。

Table 1. The detail information of Brassicaceae species

表1. 十字花科物种详细信息表

2.2.4. 引物设计

将上述截取的序列利用Emboss (http://emboss.open-bio.org/)软件包中的e-primer3(http://emboss.bioinformatics. nl/cgi-bin/emboss/eprimer3)进行引物的设计，设置参数为：MinTM = 55，MaxTM = 80，MinGC = 40，MaxTM = 60，Product Size = 100~300，numberturn = 5。引物设计完成后将引物提取出并将重复的引物去除。

2.2.5. 引物验证

利用Electronic PCR-e-PCR (https://www.ncbi.nlm.nih.gov/tools/epcr/) [24] 将各个物种所有的引物在其各自的基因组上进行电子PCR模拟扩增，将能够在其物种上完整扩增的引物提取出来作为十字花科SSR的储备引物。

2.2.6. 特异性扩增引物

利用Shell语言提取在各个基因组中能够进行特异性扩增的引物，对所有特异性扩增引物进行数目和引物在基因组中的分布统计。

2.2.7. 通用扩增引物

将所有已验证过的SSR扩增的引物与所有的物种的基因组进行电子模拟PCR扩增，通过Perl以及Shell语言将在所有物种中均能够扩增的引物提取出来作为十字花科物种的通用SSR引物并提取出。

2.2.8. BSSRD数据库的构建

使用LAMP (Linux, Apache, MySQL, PHP/Perl)框架进行数据库的构建。首先通过Dreamweaver 2014CC软件构建用户使用的前台界面，将所有的SSR位点和引物信息导入MySQL后台数据库中，通过编写PHP和Perl脚本实现前台界面和后台数据的交互构建出十字花科SSR数据库BSSRD (http://biodb.sdau.edu.cn/BSSRD)。SSR开发以及引物设计技术路线见图1。

3. 结果与分析

3.1. SSR位点数目及特征

分别对十字花科物种进行了全基因组序列和基因序列的SSR扫描，在全基因组中共发现了1,786,619个SSR位点，在基因序列中共发现了63,915个SSR位点，占总基因组序列SSR的3.58%。在十字花科物种的全基因组序列中，平均每100,000,000个碱基中都会存在324~596.8个SSR。拥有两个较大基因组的物种B. napus和C. sativa其Genome-SSR和Gene-SSR也居于前两位。各物种Gene-SSR占Genome-SSR的比值在(B. oleracea) 1.86%~(A. lyrata) 6.14%之间趋于相对的平稳(见表2)。

不同SSR重复单元具有较大的偏向性，在全基因组序列和基因序列中的SSR重复单元也存在差异。在全基因组序列中一单元重复的SSR数目占了总数目的一半以上为68.4%，其次是二单元重复和三单元重复的23.32%和7.59% (见图2(a))，然而在基因序列中的三单元重复的SSR数目高达79.47%，其次为一单元重复和二单元重复的11.12%和8.47%(见图2(b))。

对不同十字花科物种基因组序列的不同SSR重复片段分布频率做了一个统计，将每个物种每个重复单元数目前两位的重复片段提取出来。各个物种各个重复单元类型的前两位SSR片段基本上是相同的，其中二碱基重复的AT/TA，三碱基重复的GAA及TCT和四碱基类型的AAAT/TAAA在每个物种中数目都是非常高。在三碱基重复单元中大部分物种数目前两位为GAA和TCT，然而S. parvula物种为GAA和TTC (见表3)。

3.2. SSR引物设计及验证

利用十字花科物种的全基因组序列以及基因序列扫描到的SSR进行批量的设计了引物并进行了电子

Figure 1. The route of SSR development and primer design. 1) SSR development, primer design and confirm of universal primers; 2) Put all the data to MySQL; 3) The connection by PHP and Perl scripts; 4) Foreground display by Apache

图1. SSR开发以及引物设计技术路线图。1) SSR开发，引物设计以及特意引物和通用引物的确定；2) 将所有数据导入MySQL数据库中；3) PHP和Perl语言连接前台和后台；4) Apache前台页面展示

Table 2. The statistics of Genome-SSR and Gene-SSR in Brassicaceae

表2. 十字花科物种Genome-SSR和Gene-SSR数目表

模拟PCR扩增验证，最终，在全基因组序列中共有1,919,464对引物被确定，同时在基因序列中有54,619对引物被确定。在不同的物种的全基因组序列中引物的密度从(L. alabamica) 112.94对/Mb到(T. halophila) 1177.68对/Mb不等，在基因序列中为(A. arabicum) 42.65对/Mb到(C. sativa) 139.69对/Mb不等(见表4)。

3.3. 特异性引物和通用引物

在全基因组序列和基因序列中分别找到435,414和30,141对特异性扩增引物，同时11对能在十字花科物种中扩增的SSR引物被确定(Universal-primer-01~ Universal-primer-01)，其中有三条来自于C. rubella，

(a) (b)

Figure 2. The distribution of different repeat unit in Genome-SSR and Gene-SSR

图2. Genome-SSR和Gene-SSR不同单元重复数目分布图

Table 3. The statistics of different SSR top two repeat units

表3. 不同SSR重复单元数目前两位的重复片段统计

S. irio和T. halophila分别占用两条，其余来自于B. oleracea，A. arabicum，S. parvula ，T. salsuginea分别占一条(见表5)。

3.4. BSSRD数据库的构建和应用

基于实验中的所有的数据包括物种的序列信息，SSR位点信息，e-PCR信息以及各类引物信息，构建了十字花科SSR数据库(BSSRD, Brassicaceae Simple Sequence Repeats Database http://biodb.sdau.edu.cn/BSSRD)，该数据库包括SSR，Primer，Tools三个部分，用户可以在SSR和Primer界面中利用SSR ID和Primer ID等个性化搜索有目的的进行SSR及其引物的检索，同时在Tools界面能够使用一些简单的工具，包括界面化的

Table 4. Statistics of the SSR primers in Brassicaceae

表4. 十字花科物种中SSR引物的统计

Table 5. The detail information of 11 pair of universal primers

表5. 11对通用引物信息表

SSR的检测和e-primer3的在线使用(见图3)。

4. 讨论

由SSR检测结果可以看出，SSR广泛分布于各个十字花科物种基因组序列中，相比较其他分子标记来说，SSR是一种研究基因组的理想的分子标记 [25] 。从每个物种的Gene-SSR和Genome-SSR的比值来看，我们发现十字花科的物种拥有相对比较接近的SSR比例，这也从侧面揭示了十字花科物种SSR分布的广泛性和统一性。

Figure 3. The construction and use of BSSRD

图3. BSSRD的构建以及使用

通过对SSR各个碱基重复的比例以及SSR片段统计可以看出，一单元，二单元和三单元重复占了基因组和基因序列的大部分，并且AT/TA以及GAA/TCT所占比例非常高，在以后的十字花科遗传图谱的构建过程中，我们可以利用相对保守稳定的二单元和三单元重复 [26] 。

在各个十字花科物种中特异性扩增的引物对以后十字花科植物的基因的定位，遗传育种以及遗传图谱的构建能得到广泛的参考和应用 [8] 。同时11对通用引物被发掘出来也为以后十字花科同源物种和同源基因的鉴定提供了数据基础。

最后，基于本研究的所有数据，我们构建了十字花科SSR数据库BSSRD储存我们所得到的所有SSR位点以及设计的各种引物信息来用作非商业性质的科学研究。在该数据库中在线的SSR扫描工具以及引物设计的交互式界面也给科研工作者提供了很大的便利。当有新的基因组以及基因数据产生时我们会及时的去更新该数据库。我们相信这个数据库在以后的关于十字花科的遗传图谱的构建，基因定位，基因组组装和遗传育种等研究中将发挥重要的作用。

5. 结论

利用现有的十字花科物种的全基因组序列和基因序列，批量扫描了其中的SSR位点，进行了各项统计分析，对这些位点进行了引物设计以及特异性引物和通用引物的查找，最后我们构建了BSSRD十字花科数据库来储存这些数据。

基金项目

本研究得到了山东省自然基金(ZR2015CL006)支持。

参考文献

[1]	中国科学院中国植物志委员会, 周太炎, 郭荣麟, 蓝永珍. 中国植物志: 十字花科[J]. 1987.
[2]	陈秋芳, 贾宏汝. 十字花科植物的研究价值及开发利用前景[J]. 安徽农业科学, 2007, 35(34): 11183-11185.
[3]	曹仪植. 拟南芥[M]. 北京: 高等教育出版社, 2004.
[4]	蔡光勤, 杨庆勇, 杨倩, 赵振兴, 陈浩, 吴健, 范楚川, 周永明. 拟南芥与芸薹属比较基因组学分析鉴定甘蓝型油菜千粒重QTL的候选基因[J]. 中国作物学会油料作物专业委员会第七次会员代表大会暨学术年会, 2013.
[5]	李丽, 何伟明, 马连平, 刘庞源, 徐海明, 徐家柄, 郑晓鹰. 用EST-SSR分子标记技术构建大白菜核心种质及其指纹图谱库[J]. 基因组学与应用生物学, 2009, 28(1): 76-88.
[6]	Litt, M. and Luty, J.A. (1989) A Hypervariable Microsatellite Revealed by in Vitro Amplification of a Dinucleotide Repeat within the Cardiac Muscle Actin Gene. American Journal of Human Genetics, 44, 397-401.
[7]	程小毛, 黄晓霞. SSR标记开发及其在植物中的应用[J]. 中国农学通报, 2011, 27(5): 304-307.
[8]	罗冉, 吴委林, 张旸, 李玉花. SSR分子标记在作物遗传育种中的应用[J]. 基因组学与应用生物学, 2010, 29(1): 137-143.
[9]	唐荣华, 张君诚, 吴为人. SSR分子标记的开发技术研究进展[J]. 西南农业学报, 2002, 15(4): 106-109.
[10]	李小白, 张明龙, 崔海瑞. 油菜EST-SSR标记的建立[J]. Journal of Molecular Cell Biology, 2007, 40(2): 137-144.
[11]	忻雅, 崔海瑞, 卢美贞, 姚艳玲, 金基强, 林容杓, 崔水莲. 白菜EST-SSR信息分析与标记的建立[J]. 园艺学报, 2006, 33(3): 549-554.
[12]	Haudry, A., Platts, A.E., Vello, E., Hoen, D.R., Leclercq, M., Williamson, R.J., Forczek, E., Jolylopez, Z., Steffen, J.G. and Hazzouri, K.M. (2013) An Atlas of over 90,000 Conserved Noncoding Sequences Provides Insight into Crucifer Regulatory Regions. Nature Genetics, 45, 891-898. [Google Scholar] [CrossRef] [PubMed]
[13]	Hu, T.T., Pattyn, P., Bakker, E.G., Cao, J., Cheng, J.F., Clark, R.M., Fahlgren, N., Fawcett, J.A., Grimwood, J. and Gundlach, H. (2011) The Arabidopsis lyrata Genome Sequence and the Basis of Rapid Genome Size Change. Nature Genetics, 43, 476. [Google Scholar] [CrossRef] [PubMed]
[14]	Initiative, A.G. (2000) Analysis of the Genome Sequence of the Flowering Plant Arabidopsis thaliana. Nature, 408, 796. [Google Scholar] [CrossRef] [PubMed]
[15]	Chalhoub, B., Denoeud, F., Liu, S., Parkin, I.A.P., Tang, H., Wang, X., Chiquet, J., Belcram, H., Tong, C. and Samans, B. (2014) Early Allopolyploid Evolution in the Post-Neolithic Brassica napus Oilseed Genome. Science, 345, 950-953. [Google Scholar] [CrossRef] [PubMed]
[16]	Yang, X. (2014) The Brassica oleracea Genome Reveals the Asymmetrical Evolution of Polyploid Genomes. Nature Communications, 5, 3930.
[17]	Wang, X., Wang, H., Wang, J., Sun, R., Wu, J., Liu, S., Bai, Y., Mun, J.H., Bancroft, I. and Cheng, F. (2011) The Genome of the Mesopolyploid Crop Species Brassica rapa. Nature Genetics, 43, 1035-1039. [Google Scholar] [CrossRef] [PubMed]
[18]	Kagale, S., Koh, C., Nixon, J., Bollina, V., Clarke, W.E., Tuteja, R., Spillane, C., Robinson, S.J., Links, M.G. and Clarke, C. (2014) The Emerging Biofuel Crop Camelina sativa Retains a Highly Undifferentiated Hexaploid Genome Structure. Nature Communications, 5, 3706. [Google Scholar] [CrossRef] [PubMed]
[19]	He, Q., Hao, G., Wang, X., Bi, H., Li, Y., Guo, X. and Ma, T. (2016) The Complete Chloroplast Genome of Schrenkiella parvula (Brassicaceae). Mitochondrial DNA, 27, 1-2. [Google Scholar] [CrossRef] [PubMed]
[20]	Oh, D.H., Dassanayake, M., Haas, J.S., Kropornika, A., Wright, C., D’Urzo, M.P., Hong, H., Ali, S., Hernandez, A. and Lambert, G.M. (2010) Genome Structures and Halophyte-Specific Gene Expression of the Extremophile Thellungiella parvula in Comparison with Thellungiella salsuginea (Thellungiella halophila) and Arabidopsis. Plant Physiology, 154, 1040-1052. [Google Scholar] [CrossRef] [PubMed]
[21]	Wu, H.J. and Xie, Q. (2012) Insights into Salt Tolerance from the Genome of Thellungiella salsuginea. Proceedings of the National Academy of Sciences of the United States of America, 109, 12219-12224. [Google Scholar] [CrossRef] [PubMed]
[22]	Feng, C., Liu, S., Jian, W., Lu, F., Sun, S., Bo, L., Li, P., Wei, H. and Wang, X. (2011) BRAD, the Genetics and Genomics Database for Brassica Plants. BMC Plant Biology, 11, 136. [Google Scholar] [CrossRef] [PubMed]
[23]	Martins, W., Sousa, D.D., Proite, K., Guimarães, P., Moretzsohn, M. and Bertioli D. (2006) New Softwares for Automated Microsatellite Marker Development. Nucleic Acids Research, 34, e31. [Google Scholar] [CrossRef] [PubMed]
[24]	Schuler, G.D. (1997) Sequence Mapping by Electronic PCR. Genome Research, 7, 541-550. [Google Scholar] [CrossRef] [PubMed]
[25]	刘何, 辛艳. 植物SSR分子标记技术的应用[J]. 天津农林科技, 2015(5): 34-37.
[26]	任毅. 黄瓜高密度SSR遗传图谱构建及其应用[J]. 中国农业科学院, 2009.

为你推荐

友情链接