1. 引言
在现代生物学研究中,DNA序列正在以大数据流的形式对广泛的物种(从单细胞到人类)进行测序。而从整个基因序列中对不同种类的DNA序列进行分类和鉴定是一项困难的工作。目前基因组研究的方法是通过对DNA序列进行多角度、多层次的处理和分析,获取更多的生物信息。近年来,生物基因数据的处理和利用以多种处理方式进行 [1] [2] [3] [4] ,如基因特征提取、基因序列定位等。
变值图是一种新型处理方式,以四种符号为元结构来处理密码序列、DNA序列到心电信号的随机序列的技术。该类方法基于概率值,适用于将随机序列的统计分析方法应用到基因序列,利用类推法从所选序列中生成多个统计概率分布,形成二维–三维的可视化图,可视化效果良好,映射结果可用于探索全基因组的非线性复杂行为 [5] [6] [7] [8] [9] 。
烟草是最早应用于基因工程研究的植物之一 [10] ,但在早期,其育种的速度慢于其他植物,遗传图谱的构建也远落后于其他植物,原因之一是其基因序列具有高度的复杂性和特殊性,导致基于基因数据的研究困难重重。
在本文中,将使用变值图把从烟草基因序列中得到的一系列基因序列数据 [11] [12] 经过处理、投射成映射结果,以可视化的结果展示烟草基因组的复杂行为。
2. 系统架构
2.1. 架构
过程模块的架构示意如图1所示。处理模型由五部分构成:输入,处理,测量,投影和输出,其中包含三个模块:处理,测量和投影。
输入:烟草DNA序列。
输出:二维图像。
模块:在处理模块中,我们将从Ensembl Plants基因库下载的烟草DNA序列 [11] [12] 以固定长度m连续划分为多个DNA段。在测量模块中,计算每个段{A, C, G, T}四种符号的数量,并将测量段转为四个测量序列。在投影模块中,X:{AT}和Y:{AG}的特定结合决定了在投影位置的四种测量序列,整个测量序列最终投影为二维图像。
2.2. 处理模块
输入的DNA序列中,多个段能够以固定长度m划分来生成一个段的序列。
输入:一条DNA序列。
输出:一条段序列。
2.3. 投影模块
投影模块图示如图2所示,其包含了位置与投影两个部分。对于每一种测量,X{AT}与Y{AG}独自决定了两条轴心线。当所有测量完成后,二维图像的统计分布建立了二维柱形图。
输入:四个测量序列。
输出:二维图像。
2.4. 测量模块
测量模块图示如图3所示。单独地测量每段DNA四种符号{A, G, C, T}的比例情况。最终每种符号的数量是0到m之间的整数,将一个段序列转换为四个测量序列。
输入:一条段序列。
输出:四个测量序列。
3. 可视化结果及分析
3.1. 参数解释
m:每组处理DNA序列的长度(这里我们分别选取了m = 80,100,120,140,160,180,200,220,240,260段长度做可视化处理);
V为AT,AG两个碱基组中的一个,V∈{AT, AG};
PV为碱基组的比例;
Result1、Result2:分别保存DNA序列中AT数量、AG数量的数组;
Result1 = NUM(A) + NUM(T);
Result2 = NUM(A) + NUM(G);
Result1(x):表示第x组中A的个数与T的个数之和;
Result2(y):表示第y组中A的个数与G的个数之和;
(PAT, PAG) = (Result1(x), Result2(y))映射生成图像上的点。
3.2. 不同分段的投影图像
图中分别显示了当m = {80, 100, 120, 140, 160, 180, 200, 220, 240, 260}不同分组长度时的图像,在图像中颜色的相似的位置表示重叠相差不多的投影数量,重叠投影数量由彩色图中心处向四周递减。如图4不同分组长度的彩色图(m = 20~260)所示。
3.3. 简要分析
生成图像的质量取决于图像中投影的数量,因此质量较好的图像需要包含大量的投影点。相同投影形成叠加,在生成的彩色图像中,相同地方叠加的投影点越多则该地方的颜色就越鲜艳。包含大量投影点,则会生成颜色分明的彩色图。这里我们使用的是烟草的1号颜色体中的DNA序列,1号染色体有大量的DNA序列,从而得到了大量的投影点和漂亮的投影结果。当m的值为120到160,所形成的图像右边凸出明显,并且图像效果最佳。如图5不同分组长度的彩色图(m = 124~160)所示,我们对m = {124, 128, 132, 136, 140, 144, 148, 152, 156, 160}进行精细的划分来观看图像的变化,发现图像之间仅存在一些细微的差距,但所有的图像都保留了右边凸出的特点,烟草的DNA序列的一部分特性在投影图上得到体现。
4. 总结
本文通过对烟草DNA序列分组分段处理,利用相关的映射方案,将烟草的1号染色体中的完整的DNA序列转换为具有显著视觉特征的彩色图。除了投影方法和DNA序列处理方法之外,还包括通过调整段长度m来进行投影,从而形成不同的投影分布。通过制作的彩色图以及结果,可以发现一些有意义的信息。比如AG以AT在烟草DNA序列中的分布。通过彩色图表示方法描述基因序列的分布具有直观
性和计算简单等优点,相较于传统的研究方法,缩短研究的进程,可以为生物信息、生命科学等方面提供一定的研究基础。
致谢
感谢郑智捷教授对这篇文章的细心指导,感谢云南大学软件学院、云南省软件工程重点实验室的支持。