1. 引言
随着测序技术的不断进步,越来越多物种的全基因组序列被获得。面对这些海量的基因数据,基因定点编辑技术将是能够高效寻找目标基因,迅速获得基因功能和应用信息,使这些生物基因信息充分得到利用的重要研究手段。基因定点修饰是指外源DNA片段与受体同源片段发生重组,使外源DNA片段整合到染色体的目标位点,与通常的T-DNA标签、转座子标签及逆转座子标签等基因敲除技术相比,基因定点修饰技术不仅能实现基因准确的定点整合,而且可对靶基因进行精细改造如缺失或插入[1] 。
目前常用的基因组定点编辑技术包括:锌指核酸酶(Zinc-finger nucleases, ZFNs),转录激活因子效应物核酸酶(Trans-cription activator like effector nucleases, TALENs),以及近年来兴起的一项新技术——成簇的规律间隔短回文重复序列(Clustered regularly interspaced short palindromic repeats, CRISPR)/Cas9系统三种编辑技术[2] [3] 。同ZFNs和TALEs技术相比,CRISPR/Cas9优势在于:该技术以短RNA作为DNA序列的识别序列;识别位点的要求比较多样化;不需形成二聚,仅Cas9蛋白即可完成与FokI酶的功能相似的作用;可一次断裂多个位点;成功率高;对细胞毒性小;应用成本便宜等明显的优势[4] [5] 。
2. CRISPR/Cas技术
2.1. CRISPR技术研究历史
1987年,日本学者研究E. coli K12的碱性磷酸酶基因时,在其编码区的附近首次发现了成簇的规律间隔的短序列,这些序列由14个长度为29 bp的重复片段和32~33 bp的非重复片段间隔连接[6] 。然而这一发现,在当时并未得到足够的重视。随着测序技术的不断成熟,研究人员发现这种间隔重复序列广泛存在于各种细菌和古细菌中。到了2002年,这一独特的序列才被科学家Jansen等[7] 将其正式命名为:成簇的、规律间隔的短回文重复序列(Clustered regularly interspaced short palindromic repeats, CRISPR),CRISPR与其关联蛋白(CRISPR-associated proteins, CAS)共同组成了CRISPR/CAS系统。研究发现已经测序过的细菌基因组中约有40%都存在CRISPR位点[8] 。
在自然界中,噬菌体与细菌之间是一种捕食与被捕食关系。其中烈性噬菌体是细菌的天然“杀手”,具有杀死和清除细菌的能力。为了躲避噬菌体的攻击,细菌不断的进化出一些防御机制,根据噬菌体侵入宿主的不同阶段,可以将噬菌体抵抗机制分为4个主要类别:吸附抑制,流产感染,限制–修饰系统和穿入阻滞。另外,还有利用噬菌体编码的抗性作用,以及通过人工插入突变的方法获得广泛的噬菌体抵抗菌株[9] 。近年来,新兴起的CRISPR系统也是细菌抵御质粒或噬菌体等外源物质侵入的一种适应性免疫防御机制。
在2005年,3个独立的研究小组几乎同时发表文章[10] -[12] 称,经过对CRISPR重复序列进行分析比较后得出,CRISPR系统可能是细菌抵御质粒或噬菌体等外源物质侵入的一种适应性免疫防御机制。直到2012年,由RNA导向的基因组编辑技术CRISPR/Cas9(CRISPR/CRISPR-associate9)技术才发展起来[13] 。
2.2. CRISPR技术的基因结构
CRISPR是一个由高度保守的、短的DNA正向重复序列(Repeats)组成特殊的重复序列家族,广泛分布在各种细菌和古细菌基因组中[14] ,这些重复序列的长度通常在21~48 bp之间,因具有回文序列,可以形成发卡结构,这些序列的重复次数最高可达250次[15] 。每个重复序列之间均被与之相似的26~72 bp左右、长度不等或长度相似的非重复序列间隔开,称作间隔序列(Spacer),这些间隔序列长度与细菌种类和CRISPR位点有关[16] 。CRISPR通过这些间隔序列对靶基因进行识别。
在CRISPR第一个重复序列上游有类似于启动子功能的CRISPR前导序列(Leader sequence),主要用于启动CRISPR序列的转录[17] ,转录产生的非编码RNA被命名为crRNAs(CRISPR RNAs) [18] [19] 。而后,这些crRNA前体和CRISPR序列附近的Cas蛋白共同参与CRISPR免疫防御过程。此外,在CRISPR位点附近存在着一组由4~10个保守的CRISPR相关基因(CRISPR-associated genes, Cas genes)组成的序列,称为CASs(CRISPR-associated sequences, CASs) [15] 。
最终,由重复序列、间隔序列、前导序列和Cas蛋白基因共同构成了CRISPR/Cas系统。
2.3. CRISPR/Cas技术结构
按照已测序的大约40%的细菌和90%的古细菌中的CRISPR/Cas系统的结构特点,该系统可分为三大类型:Ⅰ型、Ⅱ型、Ⅲ型[20] [21] 。类型Ⅰ:在细菌和古菌中均存在,在Cas3核酸酶的作用下对入侵的外源DNA进行切割降解;类型Ⅱ:目前仅在细菌中被发现,由Cas9核酸酶参与,不需要复杂的蛋白复合体,参与CRISPR中RNA的加工及剪切外源基因的过程;类型Ⅲ:主要存在于古菌中,分为ⅢA和ⅢB两种亚型,主要功能是参与间隔重复序列转录过程及降解靶基因[22] -[24] 。其共同特点是RNA介导的核酸酶能够特异性地切割外源入侵的DNA,包括噬菌体和质粒DNA[25] 。
从整体来看,Ⅰ型和Ⅲ型CRISPR/Cas系统切割DNA双链时需要由多个Cas蛋白所形成的复合体进行操作,而Ⅱ型CRISPR/Cas系统仅需要由1个Cas9蛋白作为切割DNA双链的工具。因此,仅在Cas9蛋白、tracrRNA、crRNA和RNaseⅢ这四种组分的共同作用下即可完成DNA双链切割过程。因此,Ⅱ型CRISPR/CAS系统,因其工作组分比较简单,被广泛应用于基因编辑或基因沉默[26] 。
2.4. CRISPR/Cas技术进行基因编辑的基本原理
当噬菌体入侵细菌时,依赖于原间隔序列毗邻(proto-spacer adjacent motif, PAM)元件对外源DNA与自身基因组进行区别,入侵DNA被识别;Cas9是包含两个切割域(Ruv和HNH)的双链DNA酶,两个切割域分别切割靶DNA的一条链;Cas蛋白复合物靶向裂解入侵基因组中的原间隔序列(protospacer) [27] ,将该基因组上一段大小约为20 bp的片段将作为新的间隔序列插入到宿主细胞的CRISPR序列的起始序列之后,形成宿主细胞中新的第一个间隔序列,从而使细菌体能够对该序列进行储存识别。
当宿主细胞再次受到该类型噬菌体入侵时,细菌利用新形成的CRISPR序列可以迅速响应,转录生成一条长链crRNA前体(pre-crRNA),随后由Cas蛋白复合体在tracrRNA(trans-activating crRNA)的共同作用下剪切形成成熟体crRNAs,其中,每个crRNA都包含一个由单个间隔序列转录而来的区域,最后形成tracrRNA-crRNA-Cas9复合体识别并剪切与crRNA互补的位点[28] [29] 。
另外,CRISPR/Cas系统中Cas9的两个核酸酶结构域(Ruv和HLH)是该系统的基本组成成分,其中D10A和H840A位点发生突变,Cas9蛋白将会失去对DNA的切割活性,但并不影响其与DNA结合的能力。这种失去DNA切割活性的Cas9蛋白被命名为dCas9(Dead Cas9)。在靶向基因gRNA同dCas9在细胞中共表达时,则sgRNA可以介导二者的结合。若dCas9在靶基因的阅读框内结合,则可阻断RNA聚合酶(RNA polymerase, RNAP)的延伸作用;如果dCas9在靶基因的启动子区域结合,就可以阻止基因转录的起始[30] [31] 。
2.5. CRISPR/Cas技术特点
在Cas9系统发挥识别剪切过程中,tracrRNA首先与crRNA形成tracrRNA-crRNA复合体,接着,Cas9蛋白识别并与tracrRNA-crRNA复合体结合,然后在crRNA的引导下识别并切割靶位点。
为了简化操作过程,研究人员依据tracrRNA-crRNA复合体的结构特征设计了能够被Cas9蛋白识别并引导Cas9蛋白结合于靶位点的sgRNA(single guide RNA)结构,sgRNA能够代替tracrRNA-crRNA复合体行使与其相同的功能[13] 。
根据目前被广泛应用的CRISPR-Cas9系统,首先需要设计一个可使目标DNA双链发生断裂的sgRNA-Cas9体系,即构建编码的Cas9蛋白带有核定位信号(nuclear localization signal, NLS)的表达载体,以及能够同靶基因匹配的sgRNA表达载体,将二者同时导入到宿主细胞内,使其表达并组装成sgRNA-Cas9复合体,在目标基因PAM元件的上游达到DNA双链断裂的目的,而后这个损伤被细胞自身的同源重组(homologous recombination, HR)和非同源末端连接(non-homologous end joining, NHEJ)修复,最终实现对目标基因组改造的目的[32] 。
在进行载体构建中要注意以下几个方面的内容[33] :为了使Cas9蛋白在结合靶基因时更加顺利,通常在设计sgRNA时会加入二级发卡结构和3'端尾部结构;一定要严格配对靠近PAM元件的12个碱基,保证序列的唯一性;有研究表明,在体内tracrRNA的长度对于Cas9蛋白的表达和活性非常重要,因而,在设计sgRNA时片段长度不可过短,一般应大于67 bp [34] 。
在一些研究结果认为,影响脱靶效应和诱变效率的主要参数有:基因组DNA和sgRNA之间核苷酸错配的数量、位置及其分布;Cas9和sgRNA共同作用的表达水平。但大多数的细胞研究并没有独立评估Cas9和sgRNA的效应。近期,来自清华大学、哈佛医学院和斯坦福大学等机构的研究人员,通过优化sgRNA的参数提高了CRISPR/Cas9系统在果蝇中的特异性和效率,表明在Cas9表达的一定范围内sgRNA参数是影响特异性和效率的主要因素[35] 。该研究发现,当sgRNAs区域具有三个或更多个核苷酸的错配时,脱靶效应并没有出现在基因组DNA中。还证实了诱变效率与sgRNA中的六个前间区序列邻近基序近端核苷酸(proto-spacer adjacent motif proximal nucleotides, PAMPNs)的GC含量之间呈很强的正相关性。此外,研究人员将精心设计的sgRNA质粒按照他们已经确定的最佳浓度注入后发现,通过一个操作步骤可以特异的生成四个基因的突变,且均为有效基因。最终,实验人员利用这种优化过参数通过同源定向修复生成HP1a的无效等位基因,取得的显着高于前人报道的整体突变率。根据该实验可以考虑能够利用进行了全面优化的sgRNA,简化CRISPR/Cas9技术在实验中的过程。
3. CRISPR/Cas9技术的广泛应用及发展前景
虽然CRISPR/Cas9技术在最近两年才开始被应用,但其发展却十分迅猛,已经广泛应用在动物的细胞水平、植物、微生物以及人类医学等各方面。
3.1. CRISPR/Cas9技术的广泛应用
2013年,Hwang等[36] 实现了CRISPR/Cas技术的首个活体实验,该实验是在斑马鱼上实现的,研究同时对斑马鱼的两个基因位点实施定点变异,开启了使用CRISPR/Cas进行基因组编辑的先河。Hwang等将Cas9编码的mRNA和特定的向导RNA注射到单细胞斑马鱼胚胎内,在10个切割位点中有8个位点都发生了切割,获得了drd3、gsk3b基因的突变体。李明辉[37] 将CRISPR/Cas9技术应用于养殖鱼类罗非鱼基因敲除,获得ncmos2、nawwi、dmrtl和foxl2的突变,该实验结果表明CRISPR/Cas9能广泛应用于罗非鱼基因敲除,且具有普适性的特点。
Li等[38] 通过显微注射的方法将Cas9以及gRNA的mRNA共同注射进小鼠的胚胎干细胞对Uhrf2基因进行定点修饰,获得了Mc3R、Mc4cRL两只双基因敲除小鼠,并且注射针对不同基因的RNA序列能够在同一只小鼠中产生多个基因突变。此外,利用CRISPR/Cas技术构建的基因敲除大鼠模型与传统方法构建的同一基因突变大鼠具有一致的表型。Wang等[39] 通过共转染的方法在小鼠的胚胎干细胞中实现Tet1、Tet2、Tet3、Uty和Sry等基因的单基因、双基因及多基因的敲除,敲除效率达40%左右,并通过测序RFLP及DNA印迹等方法对实验结果进行了验证。同时,实验用显微共注射mRNA的方法获得的Tet1和Tet2单基因敲除小鼠以及双基因敲除小鼠的后代表现仍然为敲除阳性。另外,研究人员利用CRISPR/Cas技术诱导大鼠的Tet1、Tet2、Tet3基因敲除时,实现了效率高达100%的双等位基纯合突变的单基因敲除以及接近60%高效率的三基因同时敲除大鼠,并且同样得到证实CRISPR/Cas系统引入的基因修饰可以通过生殖细胞传递到下一代[40] 。
利用CRISPR/Cas9在猴的细胞期胚胎注射Cas9的mRNA/sgRNA系统,实现了与人类具有很高的相似性的灵长类动物的基因修饰,获得起始精准遗传修饰,同时还可实现多个基因的修饰操作,并有效避免脱靶效应。这种有力的遗传操作技术体系有望在未来研究人类疾病发病机理研究、发育过程和临床治疗疗方案等方面建立更多理想的基因修饰模型[41] 。
Cong等[42] 对人293T细胞的EMX1和PVALB以及小鼠Nero2A细胞的Th实现了多基因的同时敲除,实验的成功对于在体内进行冗余基因以及上位基因功能的研究提供了依据。梁振伟等[43] 利用构建的PX330-PM/ft4-Exon7-sgRNA质粒对PDE10A基因(PDE10A表达量异常升高与多种涉及基底神经节神经传递的神经精神系统疾病的发生有关,如精神分裂症、强迫症和亨廷顿氏舞蹈病等)进行敲除,利用SURVEYOR软件和一代测序对敲除效率进行分析检测,进一步证明构建的质粒系统对PDE10A基因的敲除是有效的。Mali等[44] 利用CRISPR-Cas技术在人的细胞中实现了基因的敲除,靶向敲除效率分别为HEK293为10%~25%,K562为8%~13%,iPS为2%~49%。
蔡刘体[45] 的文章中对细菌与噬菌体抗性之间的相互关系进行了讨论,虽然历史上利用噬菌体进行治疗的研究并不成功,但是从长远角度考虑,借助CRISPR/Cas9系统对细菌与噬菌体抗性之间的研究,有理由相信在克服了菌体治疗的难点,充分利用噬菌体治疗的优势后,噬菌体制剂治疗体系将成为更具安全性和可控性,为人类疾病治疗增添一种新的技术手段。崔玉军[46] 利用鼠疫菌的CRISPR位点进行了鼠疫菌的分型和进化研究,并成功构建了鼠疫菌的进化模型。赵飞等[47] 利用CRISPR/Cas技术成功地对肠炎沙门菌和鼠伤寒沙门菌进行了分型,验证该技术能够对同源性较高的同种血清型具有较高的分型能力和较好的区分效果,在未来可以对更多高度相似的菌类等进行区分。通过对相应菌株中CRISPR/Cas序列的分析,可以对特定菌株进行分析,为食物中可能菌株的追踪溯源提供有力的依据,为相关部门在食品安全隐患的监管提供了有效的方法证据[48] 。
在植物中的应用方面CRISPR/Cas9技术也取得了重大突破,目前已经应用于烟草、水稻、小麦、拟南芥以及本生烟基因的定点修饰研究中,但尚未有对重要农作物的农艺性状进行改良的研究。
Shan等[19] 利用CRISPR/Cas9技术定点突变了水稻的OsPDS、OsMPK2、OsBADH2和Os02g23823四个基因以及小麦的TaMLO基因,在转基因水稻中的突变效率为4.0%~9.4%;同时,该研究还在水稻PDS基因功能缺失的突变体的T0代获得了纯合突变体。该研究首次证实CRISPR-Cas系统能够用于植物的基因组编辑。Nekrasov等[49] 成功利用CRISPR/Cas9系统对烟草基因PDS基因进行定点突变,突变率为1.8%~2.4%。Li等[50] 也利用CRISPR/Cas9在拟南芥和烟草中实现了基因组的定点突变,其突变率为1.1%~38.5%,且发现突变效率与gRNA的表达量有关;还同时证明了CRISPR/Cas9系统可在植物中同时对多基因或单基因的多个位点进行定点编辑。Feng Z Y等[51] 也通过对拟南芥和水稻的多个基因进行定点突变,获得了26%~80%的高突变效率,且在F1代获得一部分的纯合突变体,且纯合突变体与嵌合突变体呈现出预期的突变表型。
以上实验均是通过仿照动物、微生物中抵御源侵染的防护机制开发出的,能对植物基因组进行精确定点修饰的CRISPR/Cas9技术,利用该项技术可以对基因组中任意目标的位置进行编辑,从而使高效植物分子改良性状成为可能。
3.2. CRISPR/Cas9的生物信息检索
由于CRISPR重复序列具有典型的特征,因此可以通过搜索其重复序列就可以在目标基因组中找该重复序列。但是由于CRISPR重复序列在不同物种中或同一物种不同品系等具有多样性,且在整个系统中组成十分复杂。
为了能够更加准确地快速的鉴定出CRISPR/Cas系统,近年来陆续开发出了一些专门针对CRISPR/ Cas系统设计的计算机应用软件,用于搜索CRISPR序列及其Cas基因,如CRISPRfinder [52] ,sgRNACas9 [53] 等。基于CRISPRfinder等计算机软件的搜索比较,构建了两个独立的数据库(http://crispr.u-psud.fr/crispr; http://crispi.genouest.org)。sgRNACas9是一款本地化CRISPR sgRNA设计工具,不限物种,可设计并评估off-target,最大仅有5个碱基的错配,是新开发的程序包,其中包含批量构建sgRNA过表达载体和提取基因组侧翼序列的小程序。
3.3. CRISPR/Cas9的发展前景
CRISPR/Cas技术是一项正在发展中的新兴技术,仍然存在一些缺陷,如脱靶效应,系统效率和特异性受不同物种或同一物种的不同基因影响等因素,因而,研究探索都是需要不断的进行,使CRISPR/Cas系统具有更广泛的适用性及高效性。
最近在Cell杂志上接连发表了两篇研究论文[54] [55] ,文中提到新发展的一项技术SunTag,并将其结合了CRISPR激活技术,使得在单次实验中系统地探究基因组中所有基因的生物学作用成为可能。在Vale研究小组公布的论文中讲述了最新发明SunTag技术。这是一套分子挂钩,其能够将多个拷贝的生物活性分子挂到可用来靶向一些基因或其他的分子的蛋白质支架上;相比于没有这些挂钩的组装分子,整合了SunTag的分子生物活性显著放大。同时Weissman研究小组的实验证实,整合了SunTag的CRISPR分子可用于精确地控制基因组内大量基因的表达。利用这一策略鉴别出了阻止癌细胞生长以及调控组织发育的一些基因,并获得了细菌毒素损伤细胞机制的一些新认识。根据这些研究现象表明,可以利用CRISPR技术来了解生物细胞机理,致病原因等一些特异基因的作用机制。
根据CRISPR/Cas系统能够实现基因定点编辑的特点,可实现对同一基因的多个位点进行同时编辑;对多个不同基因同时编辑。这些特点有助于研究同一基因家族的不同基因的功能以及研究基因间的相互作用机制。多个利用Cas9技术进行基因敲除的模型显示出,CRISPR/Cas技术能够很好的应用于基因治疗以及动物育种,也使动物、人类、植物中进行多基因敲除成为可能,对于推动生物基因功能研究和在生物医学研究中的应用具有重要作用。在CRISPR-Cas系统的研究中,已证实的特征有:对目标基因进行定点修饰;引入的修饰基因可以通过生殖细胞传递到下一代[39] [40] ;在植物突变体的后代可以获得纯合体[19] [51] 。这些特征对于进行植物转基因育种提供了一种新方法,能迅速获得单拷贝的插入基因、有效缩短转植物获得纯合体的时间。因此可以看出,CRISPR/Cas技术还有待进一步发展,或与其他实验技术手段相结合,开发出更多更有利有科研发展的新方法。
4. 结语
综上所述,CRISPR/Cas技术是近年来发展起来的基因组定点编辑技术,该项技术具有以下这些突出特点:直接阻滞DNA转录,阻滞级别更高、更准确;可对多个靶点同时编辑;能够实现可逆性基因沉默;沉默效率较高,载体构建简单,只需设计目的基因的sgRNA。这些明显的优势使该技术为人类医学、动物研究以及植物的改良育种等各方面的发展带来了一项强有力的工具,是基因功能研究的利器。作为一项新技术,纵然还有许多问题有待解决与发展,因此也给研究人员以更广阔空间去进行探索和研究,不断发现、发展该项技术的更多更大的优势。未来,CRISPR/Cas技术会在实验室中得到广泛的推广,并成为科研人员了解生物、在改造基因,解决更多的问题的一项常规的应用手段。

NOTES
*通讯作者。