1. 引言
基因就是有遗传功能的DNA片段,不同的基因有着不同的遗传功能。而原癌基因是DNA中与细胞增殖有关的基因,当其结构发生改变导致表达激活时,细胞过度增殖,将会形成肿瘤,也就是癌症 [1] [2] [3] 。
目前人们一共发现了500多个人类原癌基因,共发现了100多种癌症。而这100多种癌症都是由这500多个原癌基因的表达激活而引起。例如,当基因ARID1A发生突变时,可能会引起肾癌、卵巢癌、乳腺癌、肝癌和前列腺癌等癌症;当基因ITK发生突变时,可能会引起淋巴瘤、肺癌和胰腺癌等癌症。最近在英国科学杂志《自然》中发表的一篇文章指出,通过对30种癌症的7042例癌症患者的突变基因的研究,发现了22种基因突变将会导致癌症,而在这22种基因中,几乎都是出现两种基因突变才引发癌症,子宫癌、胃癌和肝癌这三种癌症则需要6种基因突变才会引起 [4] 。本文通过构建原癌基因网络,利用网络参数构建癌症基因最小生成树,来分析癌症之间的进化关系。
CVTree方法是近年来由郝柏林院士等人建立的同源比较方法里比较优越的方法,它通过计算两个基因组之间的组份矢量来构建进化距离,然后构建进化树(http://tlife.fudan.edu.cn/cvtree/) [5] [6] [7] 。
复杂网络理论从建立至今已经有几十年的历史,目前正渐渐成熟完整。
一个复杂网络的最小生成树也是一个复杂网络,它包含了原网络中左右的节点,但节点之间相连的情况和原网络却不一样。一个无向且边带有权重的最小生成树,是把原网络中所有连接边的权重的和最小的树模型。现在最小生成树已经得到了非常广泛的应用,其涉及的领域有电力、航空还有生物科学领域。连接边的权重在不同领域分别代表了不同的意义 [8] [9] [10] 。
构建最小生成树有两种比较常用的方法,一种是kruskal算法,另一种是prim算法。这两种算法的主要区别是,kruskal算法是顺序去边,而prim算法是顺序去端。本文采用prim算法构建最小生成树 [11] 。基于prim算法,便可找出无向且连接边带有权重的最小生成树。
2. 数据与方法
2.1. 数据来源
本文用到的原癌基因序列都是从美国国家生物技术信息中心(genbank) (http://www.ncbi.nlm.nih.gov/genbank)下载。每个基因所含序列数大多都不止一条,下载总共得到了4000多条原癌基因序列。本文选择了与15种癌症对应的原癌基因,它们分别为膀胱癌(74)、大肠癌(448)、肺癌(623)、肝癌(136)、宫颈癌(319)、黑色素瘤(74)、甲状腺瘤(323)、淋巴瘤(570)、卵巢瘤(565)、脑肿瘤(59)、前列腺癌(587)、乳腺癌(668)、肾癌(300)、胃癌(138)和胰腺癌(513),括号中的数量是癌症所对应的原癌基因序列总数。所有这15种癌症的原癌基因序列总数为2229条,因为同一个基因可能同时是属于几种癌症,所以各个癌症的序列之和并不为2229。
2.2. 方法
2.2.1. 网络的构建
在用cvtree方法构建网络时,把每一条基因序列作为网络中的一个节点。本文将15种原癌基因分别作为一个单体构建一组5个不同K值的网络,K分别取6,9,12,15,18这5个值。再将这15种癌症对应的2229条原癌基因序列作为一个总体单独构建一组5个不同K值的网络,总共构建的网络为16组。
用CVTree方法得到亲缘距离矩阵之后,我们得到了任意两条序列之间的亲缘距离D,这时只要定一个标准值Dis,并规定当任意两条序列的D值小于或等于标准值Dis时,这两条序列在网络中代表的节点相连,代表在标准值Dis下它们之间有亲缘关系;反之,两节点则不相连,代表在标准值Dis下它们之间没有亲缘关系。
2.2.2. 最小生成树的构建
本文利用prim算法构建网络最小生成树,先选定网络中任意一个节点作为子图,然后再找出这个子图到剩余子图中边长最短的边,将这条边对应的两个节点在邻接矩阵中的矩阵元置为1,并将找到的节点加入子图,之后一直重复该步骤,直到子图包含了网络中所有节点时,便得到了最小生成数的邻接矩阵。
前面已经利用CVTree方法得到了16组不同K值的距离矩阵,通过prim算法计算这些矩阵边可得到最小生成树的邻接矩阵。两条序列的距离D就是它们之间边的权重。因为构建的网络为无向图,所以在距离矩阵中,对于任意两条序列有Dij = Dji,且对角元全为0,因此距离矩阵是关于对角对称的。
在原癌基因最小生成树网络中,边的权重直观体现了序列的亲缘关系,通过对最小生成树的分析,可以研究原癌基因的进化关系,进而研究癌症之间的转移机制等。
3. 结果与分析
3.1. 最小生成树的拓扑结构
本文用基于prim算法而做出的MST最小生成树程序计算距离矩阵,得出了原癌基因序列的最小生成树邻接矩阵,并用pajek软件画出了15种原癌基因的15组最小生成树以及15组原癌基因总和的一组最小生成树。
图1给出了肺癌以及15种癌症对应的原癌基因序列在几个不同K值下的最小生成树的拓扑结构。分析图1可以发现,所有拓扑图中都有相同特点:所有节点中没有孤立点;只有极少数的节点连接边数大于2,而其它绝大部分节点的连接边都只有一条或两条,不仅如此,在其它没列出来的癌症中,其最小生成树也都具有这个特点。由这一共同点我们可以看出原癌基因的进化特征将会比较相似;另外,这样的拓扑结构说明了序列之间的进化将会优先选择最短的路径进化。
在同一种癌症不同K值的情况下进行横向比较,可以发现:随着K值的增大,将会出现一些具有较高的度的节点,且K值越大网络中最大的度也随着增大。节点的连接度越高,说明它在原癌基因序列进化中起到的作用也越高,在进化树中处于树干的作用。
3.2. 最小生成树的平均度
度是网络中三个重要的参数之一,分析原癌基因网络的度分布可以研究系统的亲缘进化关系特点。表1列出了15种癌症以及它们的总和的最小生成树在各个K值下的平均度。从表中可以看出:对于同一种癌症,K的值并不影响最小生成树的平均度,不管K取何值,网络中连接边的总数都不变,这说明

Table 1. The average degree of the minimum span ning tree, the number behind the cancer name is the total number of cancers
表1. 最小生成树的平均度,癌症名后面的数字是癌症所含的序列总数
网络平均紧密程度并没有变,而只是某些局部可能有变化,这与图1中最小生成树的情况相吻合;其次,随着序列数的增加最小生成树的平均度也跟着增大,序列条数越多,平均度就越大,但是随着序列数的增大,平均度增大的越缓慢,说明序列数越多的原癌基因,其最小生成树中节点连接得也越紧密。
再观察可以发现表1中的平均度几乎都约等于2,由无向网络的度定义可知,每增加一个节点,网络中都只是多增加了一条边,即新加入的序列,和原网络中的一条序列亲缘关系较近。以上分析在一定程度上揭示了序列的自相似性和进化性。
3.3. 最小生成树的平均聚类系数
用prim算法得出最小生成树的邻接矩阵,在计算出的结果中发现,所有最小生成树的平均聚类系数都为0。应为都是0,所以就不再列表。聚类系数都为0说明了最小生成树网络中节点连接程度相对比较稀疏,也就是说序列之间的相互进化相对较难,同时也意味着不同原癌基因之间直接通过序列进化的可能性很低 [12] 。
3.4. 最小生成树的平均最短路径
15种癌症以及它们的总和的最小生成树在各个K值下的平均最短路径在表2中给出。
最短路径是指从一个节点到另一个节点要经过的最少边数。最短路径越小,说明两条序列之间的亲缘关系就越近。综合分析表2,可以看出大多数最小生成树网络的平均最短路径都服从K值越大平均最短路径就越小的规律,说明K值越大,整个网络中亲缘关系越密切;另外,在同一K之下,网络中序列数越多,平均最短路径在总体上也越大,说明序列越多,序列的平均亲缘关系将会越远。这可能是因为由祖先序列进化出来的子序列在漫长的进化过程中,也进化出了它的子序列,导致网络的拓扑结构越来

Table 2. The average shortest path to the minimum span ning tree, the number behind the cancer name is the total number of cancers
表2. 最小生成树的平均最短路径,癌症名后面的数字是癌症所含的序列总数
越往外扩张,从而使得平均最短路径变大。细致观察可发现,序列多到一定程度时,平均最短路径的变化会趋于缓慢,说明可能在进化过程中祖先序列进化出来的子序列比其他序列更多,使得祖先序列在网络中处在中心位置,因此平均最短路径并不随序列数的增加而线性变化,而是渐渐趋于缓慢。这进一步说明了祖先序列在亲缘关系中的关键作用。另外,对于DNA序列的突变,一般认为是随机的,但是由于自然选择优胜劣汰的关系,只有一部分序列能继续生存。因此原癌基因的进化应该符合中性理论,且其进化可能是沿着最短最优的路径来进行。
4. 结论
本文收集了15种癌症的原癌基因序列,利用CVTree方法算出了15组序列和它们的总和序列共计16组距离矩阵,再通过距离矩阵,基于prim算法,分别计算出了它们的最小生成树邻接矩阵,并利用pajek软件画出最小生成树,最后计算了所有最小生成树的平均度、平均聚类系数和平均最短路径。对于同一种癌症的序列,在5个不同的K值下,最小生成树的平均度相等;所有的最小生成树的平均聚类系数在各个K值下均为0;对于平均最短路径则呈现出随序列数的增加而总体增大的规律。通过对这三个网络参数的分析,揭示了原癌基因的进化可能是沿着最短的路径进行,并且其进化表现出了一定的自相似性;原癌基因网络中聚类系数为0,说明网络连接较为稀疏,同时不同原癌基因序列之间亲缘关系并不密切。
基金项目
广西自然科学基金项目(No. 11262003)。