1. 引言
下一代测序(next-generation sequencing)称为大规模并行测序,又称为高通量测序,具有低成本、高准确率的特点,一次可对几百、几千个样本的几十万至几百万条DNA分子同时进行快速测序分析 [1],是近年来迅速发展与行走在前沿的一种临床实验室相关性检查手段,深受广大科研人员的青睐,并对其进行了深入研究。新兴出现的下一代测序,改变了人们的旧式思维,使临床诊断和实验室研究的科学研究提高了一个台阶,迈进了新的一大步。下一代测序应用内容主要有外显子测序、全基因组测序、RNA测序、疾病基因组 [1]。
2. 下一代测序与传统Sanger测序的比较
2.1. NGS的捕获能力更强
NGS 捕获的突变范围更广 [2],人类基因组中的DNA变异范围包括小的碱基变化(替换)、DNA的插入和缺失、外显子或整个基因的大基因组缺失以及倒位和易位等重排。传统的Sanger测序仅限于发现替换和小插入和缺失。其余突变,既往常常需要专门的检测,例如用于常规核型分析的荧光原位杂交(FISH),或用于检测亚显微染色体拷贝数变化(如微缺失)的比较基因组杂交(CGH)微阵列。目前,这些数据测序可以直接来自NGS测序数据,无需进行单项检测,可以同时在单个实验中收集全谱基因组变异。
2.2. NGS检测无偏见
毛细管测序取决于对所研究基因或位点的预先了解,NGS可以无偏见地询问基因组。NGS是完全非选择性的,用于查询全基因组或外显子组以发现全新的突变和致病基因。在儿科中,这可以用来解释未明确的综合征的遗传基础 [2]。
2.3. NGS灵敏度更高
NGS 增加的灵敏度允许检测镶嵌突变,镶嵌突变是受精后获得的,因此它们以可变频率出现在个体的细胞和组织中。毛细管测序可能会漏掉这些变异,因为它们经常表现出低于技术灵敏度的微妙之处。NGS 测序提供了更灵敏的读数,因此可用于识别仅存在于百分之几细胞中的变异,包括镶嵌变异。此外,只需增加测序深度,即可进一步提高NGS测序的灵敏度。目前NGS被用于非常精敏的研究,例如从母体血液中询问胎儿DNA,追踪癌症患者循环中肿瘤细胞的水平等 [2]。
3. 下一代测序应用于DNA系统原理分析
下一代测序平台的基本工作流程包括文库的制备和扩增(从DNA/RNA样本制备)、克隆扩增、测序和分析 [3]。二代测序平台最著名的两家测序公司是Illumina和Ion Torrent [1]。目前研究出了更多的新兴技术原理,来自其他制造商的其他平台近几年内应用广泛,分析当前的NGS系统原理讨论如下。
3.1. 罗氏454仪器
罗氏454仪器(目前已停产)应用焦磷酸测序技术,其原理是基于“边合成边测序”,不依赖双脱氧核苷酸终止链,而是依赖于检测核苷酸掺入时的焦磷酸释放。使用化学发光方法,检测在聚合酶介导的脱氧核苷三磷酸(dNTP)掺入过程中释放的焦磷酸盐,利用这种焦磷酸盐的释放检测在焦磷酸测序中实时DNA测序 [4],DNA合成在一个复杂的反应中进行,包括ATP硫酸化酶、萤光素酶、腺苷5'磷酸硫酸盐和萤光素底物。通过检测磷酸分子在核苷酸结合过程中发射的光进行实时DNA测序 [5]。
3.2. Illumina测序
Illumina测序过程基于边合成边测序概念,在固体表面上捕获单个分子,然后进行桥式PCR,使其扩增成相同分子的小簇。在这种方法中,模板DNA片段被杂交到光学透明的固体表面(即流细胞)上的反应室。可逆终止器由四个标记核苷酸组成,每个核苷酸在3'-羟基终点处标有不同的可移动荧光染料,用于DNA合成。互补标记的核苷酸将结合,但阻断剂可防止每轮添加超过1个核苷酸(可逆终止子化学)。剩余的未结合核苷酸被洗掉。激光激发导致记录的荧光发射(同时针对每个DNA片段簇)。荧光标签和阻断剂被切割,然后下一轮开始。在每一轮中,从每个DNA簇读取1个碱基对。这个过程可以在DNA片段的另一端重复,这被称为配对末端读数 [1]。
尽管Illumina系统的吞吐量超高,成本效益高,但它的效用仅限于短读排序。读取长度的限制主要是由于脱相效果 [6]。核苷酸结合的降低或提高,以及在任何给定周期中去除或添加终止分子的失败,都可能导致沿模板生长链不完全延伸或过度延伸,导致滞后链或前链脱相。此外,信号脱相可能是由荧光信号衰减、在没有荧光标签(暗核苷酸)的情况下加入核苷酸或荧光标签的完全去除导致基数调用错误。因此,基本替换错误率随读取长度的增加而增加。此外,在AT和GC富地区,读数覆盖率参差不齐,对后者有偏见 [7]。
3.3. 离子洪流Ion Torrent测序技术
离子洪流Ion Torrent测序技术将核苷酸序列直接转换为半导体芯片上的数字信息。Ion Torrent 测序反应发生在数百万个孔中,这些孔覆盖了一个包含数百万个像素的半导体芯片,这些像素将化学信息转换为测序信息 [7]。当正确的核苷酸从其互补碱基插入到正在生长的DNA链中时,就会释放出一个氢离子。这会改变溶液的pH值,离子传感器可以将其记录为电压变化,类似pH计。如果没有掺入核苷酸,则不会出现电压尖峰。通过使用一次只包含4种核苷酸中的一种的测序试剂依次注入和冲洗“测序室”,当掺入适当的核苷酸时会发生电压变化 [1]。当两个相邻的核苷酸掺入相同的核苷酸时,会释放两个氢,电压加倍。因此也可以确定单个核苷酸的“运行”。如果没有加入碱基,则不会产生电压。掺入超过1相同的碱基导致成比例更高的电压信号上,以约6至8个碱基。如果掺入的碱基超过6到8个,则信号不再成比例,将无法确定确切的数量,相同核苷酸的大同聚物串有时难以辨别。该系统的一个主要优点是不需要相机、光源或扫描仪;核苷酸掺入直接转换为电压,直接记录,大大加快了过程 [3]。
3.4. SMRT (单分子实时荧光测序)
第三代测序方法旨在对长DNA和RNA分子测序。目前该领域商业化技术的领先是 Pacific Biosciences (PacBio) PacBio测序,也称为SMRT (单分子实时荧光测序) [8],SMRT可以对很长的片段进行测序,最长可达30~50 kb或更长。SMRT方法包括将工程DNA聚合酶与要测序的结合DNA结合到孔底部(SMRT流通池中的零模式波导(ZMW))。ZMW是一个小室,可将光能引导到尺寸相对于照明光波长较小的区域。由于ZMW设计和使用的光波长,成像仅发生在ZMW底部,在那里DNA聚合酶与DNA结合,将每个碱基合并到一条不断增长的链中。四种核苷酸用不同的磷酸连接荧光团标记以进行差异检测。当核苷酸被纳入增长链时,成像发生在毫秒时间尺度上,因为正确的荧光标记核苷酸被结合。掺入后,磷酸盐连接的荧光部分被释放,它从ZMW的底部“漂浮”而无法再被检测到。然后可以掺入下一个核苷酸。成像与核苷酸掺入的速率同步,以便在每个碱基掺入到不断增长的DNA链中时对其进行识别。这同时发生在多达100万zeptoliter ZMW中,存在于SMRT单元内的单个芯片上 [8]。
3.5. 纳米孔系统
纳米孔系统:“小直径的孔洞”,纳米孔测序的核心概念涉及将单链DNA的线程跨α-haemolysin (α HL)孔 [7]。以通过长的DNA分子和每个核苷酸经过链接的检测器测量不同的电流 [9]。长dsDNA分子首先与持续性酶结合,例如phi29聚合酶。当复合物遇到纳米孔时,一条DNA链进入纳米孔,通过孔的易位速率受DNA聚合酶合成和易位的调节。持续性酶使DNA能够连续不断地“进入”它。当核苷酸通过孔时,它会破坏施加到纳米孔的电流。每个核苷酸提供一个特征电子信号,记录为电流中断事件 [9]。记录是实时的,虽然现在10 kb读取是合理的输出,但理论上数百kb的DNA可以通过每个纳米孔并被检测到。一旦DNA离开纳米孔,该孔就可供不同的DNA分子使用。理论上,一百多kb的DNA可以穿过纳米孔,并且有许多通道,可以以相对较低的成本获得数十到数百Gb的序列 [10]。
3.6. 电子显微镜DNA测序
目前的最新研究进展是电子显微镜DNA测序 [9]。电子显微镜DNA测序是另一种单分子测序技术,最早出现在19世纪60年代和70年代。为了可视化,DNA必须用重原子标记,因为电子显微镜无法显示包含DNA中标准碳、氢、氮、氧和磷同位素的单个核苷酸。要使这些方法起作用,必须在电子显微镜网格上对DNA进行变性、标记和拉伸,使用“次相”方法来保持DNA变性和线性。理论上,透射电镜DNA测序可以提供极长的读长,但电子束损伤问题尚未解决,该技术尚未商业化开发。该领域的一家主要公司是ZS Genetics (马萨诸塞州韦克菲尔德),其技术涉及用三个重原子标签标记的DNA核苷酸:溴、碘或三氯甲烷。这些在显微照片上表现为不同的暗点和亮点,第四个DNA碱基未标记。目前电子显微镜测序尚未商业化 [10]。
4. 下一代测序应用于RNA系统原理分析
RNA-Seq应用NGS技术定性和定量地分析全套转录本(即转录组),包括mRNA、小RNA和其他非编码RNA [6]。RNA测序常用于病毒等其他病原体的检测。病毒的检测和表征需要不同的检测方法。与细胞生命形式不同,没有一个基因或基因组区域在所有病毒基因组中是同源的。对于病毒检测,已经开发了跨越NGS和基于PCR的方法之间的“中间地带”的微阵列。这些微阵列旨在检测已知病毒(包括噬菌体),有时结合同时检测原核生物和微生物真核生物 [5]。这些方法的主要优点是能够在一次测定中同时测试数百种病毒的存在,从而消除对可疑病毒存在的先验知识的需要。目前在RNA病毒准种研究中应用了三种主要的相关方法:基于标签的测序、环状测序(CirSeq)和分子内连接纳米孔共识测序(INC-Seq)。
4.1. 分子标识符测序
基于标签的测序,这是短读长NGS平台中最常用的错误校正方法,其中DNA文库通常在测序前通过聚合酶链反应(PCR)进行扩增。应用了随机生成的独特分子标识符(UID,unique molecular identififiers,也称为Safe-SeqS、“分子条形码”、“引物ID”或“标签”) [11]。UID与逆转录的引物相连,以便在PCR扩增之前标记从特定RNA分子的每个单链病毒cDNA。每个UID都传递给其所有衍生PCR副本,从而允许对源自相同病毒RNA分子模板的所有序列读数进行分组。然后将具有相同UID的序列折叠为共识序列。因此,这些折叠序列中的每一个都对应于一条原始病毒RNA链。具有相同UID的序列家族内的序列之间的差异是由于PCR或测序过程中的技术替换错误造成的,容易纠正。应用UID进行纠错可以将测序错误频率降低到1.4 × 10−5。
4.2. 双链测序
基于标签的误差校正方法,称为双链测序(DupSeq),已被应用于研究HCV的遗传变异。DupSeq利用特殊标签来标记来自相同病毒RNA的每个双链cDNA分子,在逆转录和互补DNA合成后,两条链的衍生PCR拷贝可以在信息上相互关联但保持不同 [11]。首先为每个具有相同标签的单链组产生共识,然后与互补链的进行比较。测序或PCR错误极不可能偶然发生在两条DNA链的相同位置。因此,DupSeq所示的双重检测原理可以将测序错误频率显着降低至5 × 10−8。
然而,与UID方法相比,DupSeq不能直接应用于RNA模板。在插入标签之前,它需要额外的逆转录酶PCR和第二股PCR,这可能影响样品中的低频RNA模板。因此,DupSeq可能特别受到RNA病毒变异频率保存损失的影响。对于UID/Safe-SeqS和DupSeq纠错方法,逆转录、第二链合成和PCR重组过程中发生的错误将无法纠正。此外,当条形码的多样性太小而无法标记每个独立的分子时,存在标签冲突的风险。另一方面,随机核苷酸带有过多的标签也可能直接导致PCR偏差。
4.3. 环序列测序
环序列(CirSeq)是用于短读NGS的另一种共识测序方法。在这种情况下,RNA病毒被分割成非常短的片段,并自连接成许多环状RNA,这些RNA用作互补DNA (cDNA)的合成模板。CirSeq结合了环化病毒RNA的滚环逆转录以生成串联重复cDNA以富集目标序列 [11]。因此,与基于标签的测序方法不同,CirSeq使用外源条形码来标记每个病毒RNA或cDNA副本,CirSeq利用序列的物理连接拷贝达成共识。通过构建基于单个分子的链接拷贝的共有序列,可以将真正的突变与扩增或测序错误区分开来。然而,CirSeq有G-to-A和C-to-T的错误倾向,这是由于胞嘧啶脱氨基引起的碱基损伤;因此,在滚环扩增过程中需要加入尿嘧啶-DNA糖基化酶和甲酰胺嘧啶-DNA糖基化酶,以消除此类DNA损伤引起的错误。CirSeq的测序错误频率约为7.6 × 10−6。由于CirSeq建立在单端Illumina测序平台上的测序串联重复序列上,这种方法中只能对短序列片段(<150碱基对(bp))进行基因分型。由于这种内置要求,CirSeq特别受到对短长片段的限制,并且无法执行相对于其他主要方法的双端测序。此外,CirSeq需要输入大量病毒RNA (>1 μg)来进行文库制备。
4.4. INC序列
INC序列INC-Seq是一种基于长读纳米孔测序的直接共识测序方法,是由牛津纳米孔技术公司开发的平台 [11]。类似于CirSeq技术,INC-Seq从RNA分子的分子内循环开始以形成闭环。每个RNA循环分子进行滚环逆转录(RT)-PCR扩增以形成长cDNA产物,包含来自起始RNA分子的串联重复序列。测序后,所得读数由一长串串联拷贝组成,类似于CirSeq技术的结果,但包含更多更长片段的拷贝。真正的突变被确定为同一单个分子上大多数串联重复序列中存在的变异,而在大多数重复序列中不应发生来自RT-PCR或测序的技术替换错误。然而,这种方法具有5%~20%的高原始读取错误率。因此,需要提高覆盖率来减少测序错误的影响。
5. NGS在儿科学中的应用
在儿科学的临床实践中,NGS的应用越来越广泛。下一代测序在患有遗传疾病的儿童的诊断中,通过靶向面板测试、外显子组测序和全基因组测序,提高了对罕见单基因综合征的认识 [12]。新生儿筛查是用于筛查新生儿的各种代谢疾病的公共卫生计划,下一代测序中的全基因组和全外显子组测序通过测量循环血液代谢物的水平来筛查新生儿的各种可治疗代谢疾病,以此来提前干预治疗新生儿的代谢性疾病 [13]。儿科恶性肿瘤在儿童的诊治中一直是艰难重重,据文献报道OncoKids Panel,一种基于扩增的下一代测序分析,可用于检测各种儿科恶性肿瘤(包括白血病、肉瘤、脑肿瘤和胚胎肿瘤)的诊断、预后和治疗标志物 [14]。下一代测序,在患儿中枢神经系统感染中的诊断价值日渐重要,下一代测序可以加强对新型或低频病原体的检测 [15],通过对脑脊液中细菌、病毒、寄生虫和真菌的无偏倚检测,有可能彻底改变小儿脑膜炎和脑炎的诊断方法 [16]。同样,也有学者将下一代测序应用于共患病的基因检测,例如:下一代测序在 134 名患有自闭症和发育退化的儿童样本中的应用突出了MECP2、CDKL5、GRIN2A、SCN1A、PCDH19、UBE3A和SLC9A6中单基因变异的作用 [17]。这使我们医务人员对疾病的认识更加深刻,对待疾病的治疗有了更加开阔的思维。
6. 未来展望
随着测序技术的进步,我们在追求以更低的成本输入更少的DNA和RNA,获得更快、更准确的测序(更低的错误率、更少的伪影)。更便携、更低功率(电池供电)、更少试剂(zeptoliters甚至可能只是几个输入试剂分子)和维护(可能是一次性的)的测序平台将用于医疗、农业、生态和其他环境高阶多路复用(条形码),使更多样本能够在更短的时间内以更低的成本处理 [9]。未来,机器人技术、液体处理、样品处理(核酸制备)的研究将有助于NGS的进步。我们需要在清晰而强大的界面中提取临床重要信息,更迅速、更准确的生物信息学数据分析,并需要数据传输和存储方面的进步来与NGS测序技术相匹配 [18]。我们也需要更多的掌握专业知识的工作人员来管理数据库、分析数据、解释数据 [19]。下一代测序正在临床实验室中实施,随着技术、生物信息学和资源的发展,其应用将会更加广泛,以解决局限性、提高结果质量并增加临床应用量。目前临床实验室面临的挑战是确保测试具有临床相关性、成本效益,并且可以整合到临床诊疗中。
基金项目
《二代测序在儿童化脓性脑炎诊治中的作用研究》,2020年获得内蒙古自治区科技厅的批准,项目编号:2020GG0139。
参考文献