1. 引言
水稻是人类重要的粮食作物,也是生物研究的关键模式物种之一,在比较基因组学中有重要地位[1] 。它的产量受到非生物胁迫和生物胁迫等压力胁迫的影响。
非生物胁迫,如干旱、盐、极端温度、化学有毒物质等,对农业环境产生了严重威胁[2] ,导致水稻产量减少,生长发育延迟甚至死亡[3] 。如全球范围内,超过8000万公顷的灌溉地受到盐害影响[4] ;700万公顷的水稻受到寒冷的胁迫[5] ;而干旱在水稻萌芽、营养生长、开花等不同的生长阶段影响水稻的发育和粮食产量[6] ;在水稻的生长发育季节,预计温度每升高1℃,水稻的粮食产量就会减少10% [7] 。
生物胁迫由病原体(细菌、真菌、病毒和卵菌等)、食草动物和线虫等生物体引起。白叶枯病、纹枯病和稻瘟病是水稻的三大病害,致使水稻产量锐减,植株死亡[8] 。由于稻瘟病的侵害,水稻产量每年损失10%~30%,损失的这一部分可满足6000万人一年的粮食需求。白叶枯病也称为白叶瘟,是检疫性病害的一种,可引起10%左右的水稻减产,严重时可达50%~60%。虽然水稻纹枯病的发病面积大于稻瘟病和白叶枯病,其发病频率也高于这两者,但危害程度比较轻,水稻纹枯病发生毁灭性灾害的情况较少。
水稻基因信息不断增多,其处理速度远落后于数据增长速度,两者间差距增大[9] [10] ,RiceWiki (http://ricewiki.big.ac.cn)为解决这个问题提供了平台。以中国科学院北京基因组研究所章张研究员课题组为主,联合北京理工大学、中国林业科学研究院及华中农业大学合作开发完成了RiceWiki。RiceWiki是基于维基百科开发的水稻基因信息的平台,能够编辑,内容公开,是一个公众的水稻基因注释系统。很多数据库需要专业的审编人员进行维护和更新,这不仅耗时耗力而且速度较慢,RiceWiki依靠的是群体审编而不仅是少数的专业审编[11] ,因而RiceWiki旨在综合整个水稻科研工作者的智慧,共同完善水稻基因的相关信息,从而构建一部水稻基因的百科全书。
RiceWiki是对Bio-Wikis (Biological Wikis) [12] 的应用,也是IC4R项目(Information Commons for Rice, http://www.ic4r.org/)的一部分。RiceWiki主要收集了indica 93-11和japonica Nipponbare两个水稻栽培亚种基因的数据。迄今为止,RiceWiki网站上提供了31,527篇与水稻基因相关的文献,列出了86,216个水稻基因,其中1001个基因得到了较全面的审编。
目前大部分的数据库都是通过整合资料和审编得到的,审编是英文单词“Curation”的中文译名。审编通常是指通过对生物学数据进行转化和整合,形成数据库,从而保证这个数据库既是文献的集合又是生物数据的集合。标准化、质量化的审编能够增加生物学数据的相互操作性和一致性[13] 。其过程主要包括三个步骤,首先对生物学文献和数据进行翻译,然后将生物学相关的信息进行整合,最后将整合后的信息综合成数据库中的信息。审编的主要目标有两个:一是对生物学的知识进行准确而综合的展示,二是方便科研工作者获取相关信息。审编也可以理解为一种转化,将生物学的数据转化成相应的某种格式的数据。生物审编人员处理的数据是多样化的,有核酸序列、相互作用途径和文献等[14] ,本文在审编过程中处理的数据主要以文献为主。
2. 材料和方法
2.1. 水稻抗性的选取
水稻的抗逆性主要体现在对生物胁迫和非生物胁迫的抗性,及形态表型方面的抗性。本文选取了8类对水稻产量影响最大的压力胁迫因素:在水稻面临的生物胁迫中选取三大病害中较为严重的白叶枯病和稻瘟病,在非生物胁迫中选取了盐害、低温、干旱、高温这四类,在水稻的生理形态方面选择了倒伏和植株矮小。
2.2. 水稻抗性基因的查找和审编流程
如图1,从搜集基因到审编的流程分为四部分:1) 水稻抗逆基因的查找;2) 水稻基因名称的转换;3) 相关文献的搜集;4) 对抗逆基因进行审编。

Figure 1. The flow chart of biocuration of rice gene
图1. 对水稻基因进行生物审编的流程图
抗逆基因的查找主要有两部分:一,从国家水稻数据中心、PLANTSTRESS等水稻相关网站上查找,通过这种方法得到的基因较少。二,在PubMed等网站上根据水稻抗逆性的关键词进行文献的检索。通过阅读摘要获得基因名称和其抗逆性。本研究对不同抗性的水稻基因分别从这两个方面进行收集和整理,并将其发布在RiceWiki页面上。
目前水稻的命名规则是以水稻遗传协作组织(CGSNL)的相关规则为基础制定的[15] 。随着水稻全基因组测序的发展,出现了多个水稻测序和注释的版本,目前主要有NCBI、水稻注释计划(RAP) [16] 、北京基因组研究所(BGI) [17] 、美国基因组研究所(TIGR) [18] 等版本,这些版本之间的组装和注释是相互独立的,但彼此有些许差别。因此同一个基因在不同的组装注释版本中有不同的名称[19] 。而水稻基因在文献中多以基因符号、基因名称、Genbank登录号这三种水稻名称出现。RiceWiki目前以RAP版本为主,需要将基因符号和RAP版本号相对应,将文献中的TIGR版本号或Genbank登录号转化成RAP版本。
从两方面进行文献搜集:一,RiceWiki网站上此抗逆基因的相关文献;二,分别以RAP号、TIGR号和基因符号为关键词在PubMed和Textpresso等网站上检索。
仔细阅读挑选出的高质量的文献,累计超过1000篇,筛选基因相关信息。整理文献中获得的抗逆基因的功能、突变等信息。审编后的基因信息经过Wiki语言的加工(排版、图片、链接等),发布在RiceWiki上。
2.3. 审编质量评分办法
RiceWiki中的AuthorReward会列出各版本的贡献值、编辑数量和编辑质量等[20] 。将任意一个版本与最新版本进行比较,所有编辑过这个页面的审编人员,其相应的贡献值都会被详细的列出,随着审编内容的更新,编辑人员的贡献值也会随之变化[21] ,编辑质量的取值范围区间为(−1, 1)。
AuthorReward的原理为[20] :任意页面P,假设此页面有很多编辑版本
,版本v0为空白页(n > 0)。任意一个编辑成功的版本均视为一个新版本,任意相邻版本
和v(1 ≤ i ≤ n)由不同研究人员完成。版本vi和vj间的差距用
表示(i < j),通过LD算法对编辑的相关信息进行统计。版本vi的贡献值为CS(vi)。

其中c是比例系数,
是版本
和
间的编辑差距,
是版本
和
的差距。版本
的编辑数量(Edit quantity)为
,编辑质量(Edit quality)为
。


审编人员r在网页p上的贡献值为
,在整个RiceWiki中的贡献值为
。


RiceWiki会给每个审编人员进行系统性的打分,将贡献值和审编质量等信息放在相应的网页上。
3. 结果与分析
3.1. 水稻抗逆基因的查找结果
对8类水稻抗性基因进行搜集和整理,如表1所示,共计500个。其中有一些有多重抗逆性,即有两种或
以上抗逆性。水稻抗逆性和抗性基因在RiceWiki网页上列出(http://RiceWiki.big.ac.cn/index.php/RiceWiki:Stress)。
对这500个水稻抗性基因的基因符号、RAP版本号、TIGR版本号等基因名称进行了统一。
3.2. 对水稻抗逆基因的审编
在RiceWiki上,每一个基因对应一个Wiki页面,对各水稻抗逆基因的审编结果放在对应的RiceWiki的Wiki页面上。从已经审编的基因中挑选几个典型的基因作为例子(图2~图7),对审编的内容和结果做以下说明。
以基因SNAC1(http://RiceWiki.big.ac.cn/index.php/Os03g0815100)为例,如图2,首先在页面上方用一句话概括,之后分别对注释信息、研究此基因的实验室、参考文献、结构信息四部分进行审编,关键词汇通常加粗显示。
3.2.1. 注释信息
这是审编过程中最重要的一部分。本文将其大致分为8部分,RiceWiki用户可根据各基因的研究状

Table 1. The number of rice stress-resistance genes
表1. 水稻抗性基因数量

Figure 2. The illustration of the contents in curation page (http://RiceWiki.big.ac.cn/index.php/Os03g0815100)
图2. 审编页面的内容图示(http://RiceWiki.big.ac.cn/index.php/Os03g0815100)

Figure 3. The illustration of the function and GO (http://RiceWiki.big.ac.cn/index.php/Os07g0666900)
图3. 功能和GO号的图示(http://RiceWiki.big.ac.cn/index.php/Os07g0666900)

Figure 4. The illustration of the mutation (http://RiceWiki.big.ac.cn/index.php/Os08g0139000)
图4. 突变体的图示(http://RiceWiki.big.ac.cn/index.php/Os08g0139000)

Figure 5. The illustration of the relationships between the gene with the others (http://RiceWiki.big.ac.cn/index.php/Os03g0815100)
图5. 水稻基因与其它基因间的关系的图示 (http://RiceWiki.big.ac.cn/index.php/Os03g0815100)

Figure 6. The illustration of the subcellular localization (http://RiceWiki.big.ac.cn/index.php/Os05g0195200)
图6. 亚细胞定位的图示(http://RiceWiki.big.ac.cn/index.php/Os05g0195200)
况自行添加或删减。如图2中,基因SNAC1(http://RiceWiki.big.ac.cn/index.php/Os03g0815100)注释信息的审编内容分成了6部分。由于各水稻抗逆基因的研究程度不相同,这8部分的信息并非全部都可获得,故而以不同的基因举例进行说明。
1) 从文献中获取抗逆基因的功能。如图3,经过审编从6篇文献中总结了4条与基因OsNHX1相关的功能信息(http://RiceWiki.big.ac.cn/index.php/Os07g0666900)。OsNHX1作为Na+和H+的交换器在水稻的耐盐性中扮演重要角色,与水稻根部相比,OsNHX1更倾向于在水稻芽的耐盐性中起作用;OsNHX1在

Figure 7. The illustration of the evolution (http://RiceWiki.big.ac.cn/index.php/Os07g0186200)
图7. 进化的图示(http://RiceWiki.big.ac.cn/index.php/Os07g0186200)
Na+从细胞质到液泡的划分中起到重要作用;OsNHX1在Actin1D启动子存在时,其转基因植株可增强耐盐性,在水稻的整个生命周期中,对盐胁迫产生的毒性效应具有缓冲和减轻作用;OsNHX1能够抑制Na+,Li+等。
2) GO(Gene Ontology)号[22] 。从NCBI中可以得到水稻基因对应的GO号信息(并非所有基因都有对应的GO号),在AmiGO网站[23] 上有GO号对应的详细信息。整理后将GO号和GO号在AmiGO网站上的链接放到RiceWiki网页上。如图3,以水稻基因OsNHX1(http://RiceWiki.big.ac.cn/index.php/Os07g0666900)为例,OsNHX1对应5个GO号,在AmiGO网站上可以找到GO的相关信息。这5个GO号中,有2个属于生物过程的GO号:GO:0006814和GO:0006885;有两个属于分子功能类的GO号:GO:0015299和GO:0015385;还有一个属于细胞组件的GO号:GO:0016021。这5个GO号代表的信息分别为:Na+运输、PH调节、溶质的逆向转运活性、钠的质子逆向转运活性和膜的组成部分。
3) 突变。如图4,主要列举突变体与野生型之间的区别。以基因OsDEG10 (http://RiceWiki.big.ac.cn/index.php/Os08g0139000)为例,主要搜集了其RNAi转基因植株与野生型植株之间的差别:在高光处理下,RNAi植株显示出更明显的Fv/Fm率;比野生型的叶黄素色素含量低;冷处理后,OsDEG10 RNAi的转基因植株表现出的Fv/Fm率比野生型要低,这表明OsDEG10RNAi的转基因植株对冷胁迫更敏感,OsDEG10可能在冷胁迫和氧化胁迫的应答反应中有着重要作用;在理想的生长条件下,OsDEG10RNAi的转基因植株和野生型植株没有任何形态变异。总的来说,与野生型相比,RNAi的转基因植株对强光和冷胁迫更敏感。
4) 此基因与其他基因的关系。在图5中,以基因SNAC1为例,审编后得到两类和SNAC1 [24] 相关的基因:SNAC1的靶基因和受SNAC1调控的基因(http://RiceWiki.big.ac.cn/index.php/Os03g0815100)。OsSRO1c [24] [25] 是SNAC1的靶基因,SNAC1能够连接到OsSRO1c的启动子并激活OsSRO1c的表达。OsSRO1c在干旱和氧化胁迫的抗性中扮演双重角色 ,促进气孔的关闭和H2O2的累积。受到SNAC1调控的基因又分为两类,一个是OsPP18 [26] ,OsPP18是一种新型的PP2C基因,受到SNAC1的调控,通过调节ROS的稳态能够增强抗旱性和抗氧化性;另一个是和胁迫相关的基因,SNAC1编码一个NAC转录因子,能够调控许多和压力胁迫相关的基因,如DREB1A,CBF,SCOF,Tsi,OSISAP1。
5) 表达。主要收集基因表达的部位(如根,叶等)、受到的胁迫(生物和非生物胁迫等)、过度表达产生的生理形态和功能差别等。以OsNHX1(http://RiceWiki.big.ac.cn/index.php/Os07g0666900)为例,审编之后得到了7条表达信息,如前三条:在年幼的叶片中,三个OsNHX1的过度表达系(T4, T5, T6)表现出高表达;OsNHX1在根与芽的表达是不同的,在这两个组织中都会受到盐胁迫的刺激;通过半定量RT-PCR和Western印迹分析,对Actin1D启动子下的OsNHX1的过度表达进行了研究。在160 mM的盐胁迫下,转基因的籽苗生长良好,和对照组相比,显示出最小程度的根和芽长度的减少。预测分析表明在160 mM的盐胁迫下,野生型中出现更高的萎黄病。
6) 亚细胞定位。一般情况下,经过实验验证的亚细胞定位信息是确定的。如基因OsSPX1 (http://RiceWiki.big.ac.cn/index.php/Os06g0603600),实验结果表明OsSPX1是一个核定位蛋白。但有些特殊基因,如图6,以OsTZF1为例(http://RiceWiki.big.ac.cn/index.php/Os05g0195200),其亚细胞定位信息会受到ABA和NaCl的影响,导致OsTZF1在细胞质和细胞核中可能有动态的亚细胞定位模式。
7) 进化。包括此基因所在家族、进化树、序列相似基因、同源基因等。图7中以OsSIK2 (http://RiceWiki.big.ac.cn/index.php/Os07g0186200)为例进行说明。OsSIK2的两个旁系同源,OsRLK1(Os06g0203800)和OsRLK2(Os02g0777400);OsSIK2和LP2氨基酸的同一性只有18.04%,OsSIK1、OsSIK2和LP2蛋白都属于LRR-RLK基因家族,系统进化分析表明三个蛋白都属于不同的亚组。
8) 知识的延伸。这一环节主要涉及到基因所在家族以及基因家族中其它重要基因的信息概括、和此基因拥有类似功能的基因的相关信息等。如基因OsSIK2,属于LRR-RLK基因家族,审编后用图和文字对RLK的相关信息和功能进行了说明(http://RiceWiki.big.ac.cn/index.php/Os07g0186200)。
3.2.2. 研究此基因的实验室
以基因OsNHX1为例,审编后得到14个研究此基因的实验室 (http://RiceWiki.big.ac.cn/index.php/Os07g0666900)。将研究此基因的相关实验室放到RiceWiki的网页中一方面保护了各实验室的科研著作权,另一方面可以使研究人员清楚的了解有哪些实验室参与了这个基因的研究,方便研究人员之间的交流沟通,此外可以吸引更多实验室的科研人员可以加入到RiceWiki中来,将其实验室研究基因的相关信息放到RiceWiki页面上,实现资源共享。
3.2.3. 参考文献
以OsNHX1为例,审编过程中引用了13篇文献(http://RiceWiki.big.ac.cn/index.php/Os07g0666900)。RiceWiki网页上关于基因的信息均来自于相关的文献,对审编的基因信息的各个环节都表明出处。另外,引用的文章在审编过程中出现的次数也会加以标明,如此一来,不仅保护了原文献作者的著作权,而且对今后的修改和查阅提供了方便。如果用户对某个审阅的内容感兴趣或出现疑虑,都可以通过后面标注的相关引用找到审阅内容的原出处。
3.2.4. 结构信息
以表格的形式出现,使研究人员直观了解基因结构信息。包括基因版本、结构图示、编码序列等。
3.3. 审编质量的评分
根据评分细则,贡献值CS为782.82,总编辑量为782820,平均编辑质量为1。
3.4. 水稻抗逆基因的分析
本文主要从PPI、共表达和GO分析对500个水稻抗逆基因进行了分析。
3.4.1. 水稻蛋白互作网络
水稻的各项生命活动不是单独靠某个蛋白完成的,而是依靠蛋白互作完成的。基于对水稻抗逆基因之间是否会通过蛋白互作完成某些生物功能的猜想,对水稻抗逆基因对应的PPI进行了分析。利用PRIN(Predicted Rice Interactome Network)的方法[27] ,首先对500个抗逆基因对应的蛋白互作进行统计,如图8(a),得到2334个蛋白之间的4068个蛋白互作的网络图,即500个抗逆基因对应4068个蛋白互作,这些水稻抗逆基因对水稻各项生命活动至关重要。之后分析了500个水稻抗逆基因之间的蛋白互作,得到了135个蛋白间的213个蛋白互作网络。在这213个蛋白互作中,有135个是自身的蛋白互作。去除这些自身互作(可能形成了二聚体),如图8(b),得到了61个蛋白质间的78个蛋白互作的网络图。
3.4.2. 共表达分析
共表达水平由皮尔森系数(PCC)决定[28] ,由下面方程式计算PCC [28] 。若r大于零,值越高,表达正相关性越大;若r小于零,值越低,表达负相关性越大。

鉴定Ho等人的数据[28] ,整理165个不同处理下的芯片数据,利用R软件包AFFY计算,得到各基因表达,随后计算PCC。
对图8(b)中的78个蛋白互作进行了PCC的计算,将其r值从(−1, 1)这个区间每0.1为一个间隔做r值的百分比统计。结果显示在(−1.0, −0.6)区间的百分比统计为0。如图9所示,发现有9.46%的蛋白对会互相抑制(PCC值小于−0.3),协同作用的可能性(PCC值大于零)比抑制作用的可能性(PCC值小于零)要大,共表达趋势明显的占21.61% (PCC值大于0.3)。从侧面说明这些抗逆基因编码的蛋白能够互作。
3.4.3. GO分析
GO用三种语义(分子功能、细胞组件、生物过程)描述基因及其产物。本文应用argiGO [29] 的SEA工具和Fisher统计法。将显著性水平高的GO语义和对应各GO语义的基因数占总数的百分比进行统计。如图10,蓝色代表水稻抗逆基因,绿色代表背景基因(Oryza sativa MSU7.0)。基因百分比比较高的有:细胞过程、代谢过程、结合和对刺激的应答等。其中,对刺激的应答(生物过程类)基因百分比为50.1%,而

(a) (b)
Figure 8. PPI network of rice stress-resistance genes (a) is PPI network of proteins which 500 rice stress-resistance genes participate in; (b) is PPI network between 500 rice stress-resistance genes
图8. 水稻抗逆基因的蛋白互作网络 (a) 为500个水稻抗逆基因的蛋白参与的蛋白互作网络;(b) 为 500个水稻抗逆基因之间的蛋白互作网络

Figure 9. The PCC score of PPI between the rice stress-resistance genes
图9. 水稻抗逆基因之间的PPI中的PCC值

Figure 10. The percent of genes in GO annotation
图10. GO注释中的基因百分比

Figure 11. The significance levels of the GO terms related to stress
图11. 和胁迫相关的GO语义的显著性水平
在背景组中为20.2%。
在生物过程类的GO语义中,和压力胁迫相关的基因节点颜色深,表明其显著性高。选其作为结点,边表示关系。每个GO语义框中通常会有以下信息:GO语义及其描述、对应此GO语义的抗逆基因的数目和对应到GO语义的背景(Oryza sativa MSU7.0)的基因的数目。如图11,463个抗逆基因有GO语义;
背景(Oryza sativa MSU7.0)有34296个基因有GO语义。以“对刺激的应答”语义框为例,有232个抗逆基因有此GO语义,表明和生物胁迫相关的语义的显著性水平非常高。
在生物过程类的GO语义中,GO的显著性水平比较高的有:对刺激的应答、生物调节、细胞过程、代谢过程等。图11中,我们选取了5个和胁迫相关的深颜色的结点:1) GO:0050896 (对刺激的应答);2) GO:0009719 (对生物体内部刺激的应答);3) GO:0009628 (对非生物刺激的应答);4) GO:0009607 (对生物刺激的应答);5) GO:0006950 (对压力的应答)。在463个有GO语义的水稻抗逆基因中,分别对应上述5个GO语义的基因数目为:232、87、131、53、170个。根据箭头的颜色和形状可以得出这5个GO语义的关系:对刺激的应答是对生物体内部刺激的应答、是对非生物刺激的应答、是对生物刺激的应答、是对压力的应答。
4. 结论
本文总结了盐害、干旱等8类对水稻产量影响较大的胁迫压力,并对这8类水稻抗性基因进行了搜集,获得了500个抗逆基因。通过生物审编,对水稻抗逆基因的信息进行了整理汇总,审编后的结果发布到RiceWiki网页上。虽然在审编的过程中,将基因的注释信息分为了功能、表达等独立的8部分,但每部分之间是相互关联的。如基因的GO号能体现生物学功能,从突变体与野生型的差别及表达等信息中可推测其功能等。
搜集水稻的抗逆基因以及审编基因信息对水稻的抗逆研究有重要意义。PPI和共表达等分析,有助于系统地了解这些基因之间的联系和共同点。RiceWiki是以群体审编为基础的开放性平台,随着审编的普及和发展,会有更多审编人员的加入,相信RiceWiki会成为一部名副其实的“水稻百科全书”。
此外,在审编过程中发现,很多水稻的抗性基因,如基因OsbZIP71、OsHsfB2b、OsCPK21、OsCPK13等,和激素之间有重要的关系,这些激素在水稻的抗逆性中有可能起到重要作用。水稻植株体内的某些物质,如糖等,有可能影响生物的抗逆性。日后对水稻抗逆机制的研究和推断可以借鉴从RiceWiki中获得的相关信息。