奥密克戎全基因序列分段测量可视化分析
Visual Analysis of Whole Gene Sequence Segmentation Measurement in Omicron
DOI: 10.12677/HJCB.2022.123007, PDF, HTML, XML, 下载: 309  浏览: 1,300 
作者: 杨喜燕, 段碧青, 赵小青, 郑智捷:云南大学软件学院,云南 昆明
关键词: 奥密克戎分段测量可视化Omicron Segmented Measurement Visualization
摘要: 新型冠状病毒在全球范围内爆发以来,先后发生了多次变异。病毒的变异在一定程度上逃避了免疫反应。于2021年南非首次检测到的奥密克戎(Omicron, B.1.1.529)变异株传染率极高,因此也对新型冠状病毒肺炎(COVID-19)的预防和控制带来了更为严峻的挑战。本文将针对奥密克戎全基因序列进行变值测量可视化处理和分析,运用MATLAB软件对其基因序列进行分段测量的可视化展示及分析。可视化展示和分析的结果能够为奥密克戎变异株的进一步研究提供一定的参考。
Abstract: Since the outbreak of novel coronavirus in the world, there have been many variations. The infection rate of Omicron (B.1.1.529), which was first detected in South Africa in 2021, is extremely high, so it also poses a more severe challenge to the prevention and control of novel coronavirus (COVID-19). In this paper, the whole gene sequence of Omicron will be displayed and analyzed by a visual two-dimensional projection of segmented measurement using MATLAB software. The visualization results show unique graphic features and symmetry, which can provide some reference for further study of Omicron mutant.
文章引用:杨喜燕, 段碧青, 赵小青, 郑智捷. 奥密克戎全基因序列分段测量可视化分析[J]. 计算生物学, 2022, 12(3): 49-57. https://doi.org/10.12677/HJCB.2022.123007

1. 引言

2021年11月9日,南非豪登省在采集的标本中检测出第一个奥密克戎变异毒株(Omicron, B.1.1.529) [1],奥密克戎变异株的传染率是Delta变异株的3至6倍。奥密克戎变异株中的基因序列积累了大量的突变 [2],使得奥密克戎对宿主ACE受体有很高的亲和性,能够更紧密的黏附在人体细胞上,并对人体内的抗体有更高的抵抗力,与疫苗接种者或感染者产生的大多数中和抗体不匹配 [3],变异株有更强的感染性,感染的症状也出现改变,在治疗过程中使用的药物以及接种的疫苗都受到很大的影响。

通过对变异株的基因序列进行监测分析和追踪,将基因序列分段处理和对比分析,构建图形来解析复杂的基因序列,提取更多有用的基因信息,检测出各个基因段的特征,以及确定基因段的排序和位置,有助于更全面的了解基因的特性和功能,利于治疗药物的研制和疫苗的研发。

基因序列分段测量可视化是将基因序列转化为字符来进行处理,利用测量模型,将处理的样本转化为可以进行观察的图示 [4],形成二维、三维或者多维基因序列可视化图,得到的可视化结果可以用于映射样本基因组的非线性逻辑关系,显示研究样本的特征分布。

本文使用新型冠状病毒变异株奥密克戎全基因序列作为样本,将样本进行处理,建立一套展示奥密克戎基因序列分段测量特征分布的可视化模型 [5] [6] [7],并对可视化图示进行分析。

2. 研究设计

2.1. 数据概述

本次研究中使用的序列为新型冠状病毒变异株奥密克戎(omicron, B.1.1.529)全序列,序列长度为29,740,数据来源为NCBI (美国国家生物技术信息中心)官网(https://www.ncbi.nlm.nih.gov/) [8],数据可靠度较高。

2.2. 架构

基因序列分段测量可视化系统整体架构如图1所示,包括输入、计数、三维直方图、投影、输出五个部分。

2.3. 计数模块

计数模块(如图2所示)是针对输入的奥密克戎全基因序列进行处理,将导入的基因序列以我们设定的某个碱基数量自动分段,将序列N分割成几个长度为m的子序列,这样就有M = N/m个子序列,本次研究m值为30,共992个子序列。然后计算出每段中相应的四种碱基(A, C, G, T)数量并进行输出。

2.4. 三维直方图模块

三维直方图模块(如图3所示)是将奥密克戎全基因序列分组后,基因序列中A,C,G,T碱基及空

Figure 1. Architecture

图1. 架构

Figure 2. Counting module

图2. 计数模块

集形成16种不同组合并转置为矩阵,将其中任意两个作为X、Y轴,提取各频数生成256幅三维直方图,利用三维频数直方图,通过不同颜色的变化来直观呈现不同组合碱基频数分布。

Figure 3. Three-dimensional histogram module

图3. 三维直方图模块

2.5. 投影模块

投影模块(如图4所示)是将奥密克戎全基因序列分段后,基因序列中A,C,G,T碱基及空集形成16种不同组合并转置为矩阵,将其中任意两个作为X、Y轴,提取各频数生成256幅投影图像,并使用不同的颜色进行区分,通过不同颜色的变化在投影图上来直观呈现不同组合碱基频数分布。

Figure 4. Projection module

图4. 投影模块

3. 结果分析

3.1. 分段测量图

本文主要对奥密克戎全基因序列进行分段测量可视化及分析,从而对有关奥密克戎变异株的生物科学研究提供一定的基础。本次我们选择了一组奥密克戎(B.1.1.529)全基因序列,此组序列共29740个碱基,我们将其分为30个一组,共992组。分别计算每一组四种碱基(A, C, G, T)不同组合(Φ, A, C, G, T, AC, AG, AT, CG, CT, GT, ACG, ACT, AGT, CGT, ACGT)共16种组合的碱基总和数,并且又将16种组合两两组合统计碱基数量的频数(即组数)。图5为奥密克戎基因序列256种组合投影的分段测量图,可以看到投影图趋近对称图形,具有规律性。

Figure 5. Variable value measurement map of 256 combinations projection of Omicron

图5. 奥密克戎基因序列256种组合投影的变值测量图

3.2. 可视化分析

图5所示,整个图主要被分为四个部分,这两条“分界线”即是碱基中互补组合和相等组合的图像,互补组合包括A-CGT、C-AGT、G-ACT、T-ACG、AC-GT、AG-CT、AT-CG、CG-AT、CT-AG、GT-AC、ACG-T、ACT-G、AGT-C、CGT-A共14种组合,相等组合即A-A、C-C、G-G、T-T、AC-AC、AG-AG、AT-AT、CG-CG、CT-CT、GT-GT、ACG-ACG、ACT-ACT、AGT-AGT、CGT-CGT共14种组合。

我们将各自从这两种组合中选取一张图像进行分析,如图6所示为A-A三维分布及其投影图,如图7所示为CGT-A三维分布及其投影图,图像左图为组合的三维分布图,右图为左图的投影图像。

图6所示,由于是相同碱基的两两组合,所以组数主要分布在投影图的对角线,即x = y这条线上。如图7所示,由于每段分组共30个,故组数主要分布在投影图的对角线,即x + y = 30这条线上。此时我们观察各投影点颜色情况,根据色卡可知颜色越接近黄色频数越大,两张图像颜色都由两端向中心逐渐变黄(其中白色部分为频数为0),最大值(z轴)大概在160左右。

Figure 6. A-A three-dimensional distribution and its projection diagram

图6. A-A三维分布及其投影图

Figure7. CGT-A three-dimensional distribution and its projection diagram

图7. CGT-A三维分布及其投影图

投影图的四个定点分别为Φ-Φ、Φ-ACGT、ACGT-Φ、ACGT-ACGT四种组合的图像。Φ-Φ数据集中在点(0,0),Φ-ACGT数据集中在点(0,30),ACGT-Φ数据集中在点(30,0),ACGT-ACGT数据集中在点(30,30)。四个点色块颜色都为黄色,为全部组数的数量992组。如图8所示为Φ-Φ三维分布及其投影图。

投影图的四周由“横线”和“竖线”的图像组合而成。这些图共有四类组合,第一类为y = 0的组合,共有14种组合,分别为A-Φ、C-Φ、G-Φ、T-Φ、AC-Φ、AG-Φ、AT-Φ、CG-Φ、CT-Φ、GT-Φ、ACG-Φ、ACT-Φ、AGT-Φ、CGT-Φ,如图9左上为A-Φ三维分布及其投影图。第二类为y = 30的组合,共14种组合,分别为A-ACGT、C-ACGT、G-ACGT、T-ACGT、AC-ACGT、AG-ACGT、AT-ACGT、CG-ACGT、CT-ACGT、

Figure 8. Φ-Φ three-dimensional distribution and its projection diagram

图8. Φ-Φ三维分布及其投影图

GT-ACGT、ACG-ACGT、AGT-ACGT、ACT-ACGT、CGT-ACGT,如图9右上为A-ACGT三维分布及其投影图。第三类为x = 0的图像,共14种组合,分别为Φ-A、Φ-C、Φ-G、Φ-T、Φ-AC、Φ-AG、Φ-AT、Φ-CG、Φ-CT、Φ-GT、Φ-ACG、Φ-ACT、Φ-ACT、Φ-CGT,如图9左下为Φ-A三维分布及其投影图。第四类为x = 30的图像,分别为ACGT-A、ACGT-C、ACGT-G、ACGT-T、ACGT-AC、ACGT-AG、ACGT-AT、ACGT-CG、ACGT-CT、ACGT-GT、ACGT-ACG、ACGT-ACT、ACGT-AGT、ACGT-CGT,如图9右下为ACGT-A三维分布及其投影图。图9的四个图色块都从两端由深蓝逐渐变黄,最大值在160左右。

Figure 9. Four-dimensional distribution and its projection diagram

图9. 四类三维分布及其投影图

在投影图的主要图像部分,主要有两种形态的图像。第一种是偏圆形聚集的三维图像,在投影图的内两圈部分,图像都趋近此形态分布,分别有AT-CT、CG-CT、AG-CG、AG-AT、AT-AG、CG-AG、CT-CG、CT-AT、AC-CT、AC-CG、AC-AT、AC-AG、AG-AC、AT-AC、CG-AC、CT-AC、GT-CT、GT-CG、GT-AT、GT-AG。可以发现这24中组合都是A、C、G、T两个碱基组合分别作x轴和y轴的三维图像,其中每组的x轴和y轴都有重复的一个碱基,比如AT-CT便出现了重复的碱基T。如图10所示为AT-CT三维分布及其投影图,可看到图像最大值即浅黄色部分主要集中在整个图像相对中心的位置,并且颜色从四周逐渐向中心变浅,最大值在30左右。

Figure 10. AT-CT three-dimensional distribution and its projection diagram

图10. AT-CT三维分布及其投影图

第二种是相对于第一种偏长条形的分布形态的三维图像。比较典型的分布是在投影图的从内向外的第三圈部分。即AC-ACG、AG-ACG、AT-ACG、CG-ACG、CT-ACG、GT-ACG、ACG-GT、ACG-CT、ACG-CG、ACT-AT、ACG-AG、ACG-AC、GT-T、CT-T、CG-T、AT-T、AG-T、AC-T、T-AC、T-AG、T-AT、T-CG、T-CT、T-GT共24种组合。在所有长条形分布的图像里,比较典型的是以下四种,分别

Figure 11. AT-T three-dimensional distribution and its projection diagram

图11. AC-T三维分布及其投影图像

是西南-东北走向的细条形,西北-东南走向的细条形,西南-东北走向的宽条形,西北-东南走向的宽条形。如图11所示为AC-T三维分布及其投影图像,其呈典型的西北东南走向的细条形分布,最大值点位于图像中心,最大值为35以上。

除上面所说的从内第三圈之外,呈条形状分布的图像还分布在图5四个红框区域(区域包括上述提到的从内第三圈部分),图12中以下区域图像都为上述四种类型中的一种,在此不再列举。

Figure 12. Strip image distribution area

图12. 长条形图像分布区域

4. 总结

本文实现了对奥密克戎变异株的基因序列进行分段测量的可视化展示,可对其进行放大分析。在实现过程中可以通过调整颜色卡使其可视化更加具有针对性以及更直观,也可以通过调整分段数量获取不一样的可视化结果。通过对奥密克戎基因序列分布进行可视化展示,相对于传统生物研究,更具直观性并且计算方便,能够为生物科学研究提供一定的研究基础,加快研究进程。

致谢

感谢郑智捷教授的悉心指导,感谢云南大学软件学院对本项目的支持。

参考文献

[1] 洪子强, 盛燕楠, 金大成, 白向豆, 崔百强, 苟云久. 新型冠状病毒Omicron变异株的最新研究进展[J/OL]. 中国热带医学, 1-6. http://kns.cnki.net/kcms/detail/46.1064.r.20220414.1719.002.html, 2022-08-29.
[2] 李静梅, 陈心足. 冠状病毒的基因组结构及特征[J]. 基因组学与应用生物学, 2021, 40(4): 1915-1920.
[3] 解有成, 康殷楠, 高春, 刘珊山, 郑立婷, 于晓辉, 张久聪. 新冠病毒“奥密克戎亚型变异毒株BA.2”的最新研究进展[J]. 海南医学院学报, 2022, 28(8): 561-565.
[4] 完竹, 郑智捷. DNA序列一维分段测量分布可视化[J]. 云南大学学报(自然科学版), 2013(35): 1-6.
[5] 郑智捷. 变值体系理论及其应用第1卷理论基础及其应用[M]. 北京: 科学出版社, 2021: 127-133.
[6] Zheng, J. and Zhu, M.H. (2021) Input-Output Types of Fifteen Modules on Discrete and Real Measure-ments for COVID-19. EC Neurology, SI. 02, 71-85.
https://doi.org/10.21203/rs.3.rs-65158/v2
[7] Zhu, M.H. and Zheng, J. (2021) Visual Representation of SARS-CoV-2 Genomes in Multiple Regions on Integrated Maps. EC Neu-rology, SI. 02, 117-131.
[8] https://www.ncbi.nlm.nih.gov/