1. 引言
随着经济的发展,人们对生活的方方面面提出了越来越多的要求,包括生活质量、身体健康等。近年来,生物医学越来越受到人们的重视,随之而来的是相关理论研究的蓬勃发展。相关研究表明,病情恶化不一定是平稳的,而是突然的 [1]。这意味着在病情转变之前,存在一个临界状态。一般来说,从健康状态发展到疾病状态要经历以下三个阶段:正常状态、疾病前状态(或临界状态)和疾病状态。正常状态是一个稳定状态,代表一个相对健康的阶段。疾病前状态通常定义为在达到临界点之前的正常状态的极限 [1]。众所周知,用网络或边生物标志物来刻画疾病是一种比较科学而且令人信服的方法,但是要获得个体分子之间的边或相关性是很困难的。因此边生物标志物应运而生 [2]。
很多复杂疾病的治愈率低或治疗后生活质量差,一部分是由于疾病本身较难治愈,而更多的是由于发现的不及时从而错过最佳治疗时间而变得难以治愈。因此,如果能提前捕捉到疾病的信号,就可以提升病人的生活质量,甚至挽救病人的生命。复杂疾病的网络在正常状态和疾病状态下具有很大的差别,这意味着不同状态的网络所具有的特征不尽相同。这为探测疾病信号提供了可能。在本文中,我们提出一个称为相对熵得分(RES)的指标。根据样本的RES值,确定样本所处的状态,从而给出不同的建议。如果一个人处于疾病状态,手术是一个合理的建议;反之,建议服药或注射治疗。
2. 方法
2.1. 理论基础
给定多个正常样本(m个样本)和疾病样本(n个样本),带有k个基因的基因表达数据可以表示为图1(A)所示的数据矩阵表达,其中有k个基因,对照组和疾病组的样本大小分别为 和 。设
和
分别表示对照组和疾病组第i个基因的表达向量,即
为对照组第i个基因的第j个样本表达,
为疾病组第i个基因的第j个基因表达。
每个基因对的特征RES_N和RES_D如图1(B)所示进行构造。基因对u和v左侧正常状态的行向量与基因对v和u左侧正常状态的行向量之和的一半即为正常状态下的基因对u和v的相对熵得分,即RES_N;同理,基因对u和v右侧疾病状态的行向量和基因对v和u右侧疾病状态的行向量之和的一半是在疾病状态下基因对u和v的相对熵得分,即RES_D。
2.2. 算法
以下为学习网络的特征的步骤:
l 选择差异表达基因
人体内众多基因中只有一部分对本研究起着关键作用,而另一些对我们的研究影响甚微。因此,我们只需要选择差异表达基因。
Figure 1. Data matrices for node features and edge features. (A) Gene expression data of k genes, where are m samples on the normal state and n samples on the disease state. (B) The data matrix of edge features of gene-pair u and v, which aims to find the RES of gene-pair u and v. Each column is one sample. One-half of the sum of the row vector on the left of gene-pair u and v and the row vector on the left of gene-pair v and u on the normal state is the RES of gene-pair u and v on the normal state, namely, RES_N. Similarly, one-half of the sum of the row vector on the right of gene-pair u and v and the row vector on the right of gene-pair v and u on the disease state is the RES of gene-pair u and v on the disease state, namely, RES_D. (C) When a sample comes to diagnose, we can utilize his past and present RES values to judge physical condition
图1. 节点特征和边特征的数据矩阵。(A) k个基因的基因表达数据,其中m个样本为正常状态,n个样本为疾病状态。(B) 基因对u和v的边的特征数据矩阵,其目的是寻找基因对u和v的相对熵得分,每列为一个样本。正常状态下,基因对u和v左侧的行向量与基因对v和u左侧的行向量之和的一半即为正常状态下的基因对u和v的相对熵得分,即RES_N;同理,疾病状态下,基因对u和v右边的行向量和基因对v和u右边疾病状态的行向量之和的一半是基因对u和v对疾病状态的相对熵得分,即RES_D。(C) 当对一个样本进行诊断时,利用样本过去和现在的相对熵得分来判断此时的身体状态
l 选择差异相关基因对
在研究由边连接而成的网络时,通常用PCC (皮尔逊相关系数)来表征两个基因之间的相关性。差异边定义如下:
(1)
其中,i和j分别代表研究中的基因i和基因j。当
,基因i和基因j之间存在差异边,反之则不存在。
和
分别代表基因i和基因j在正常状态和疾病状态下的PCC。在本研究中,肺鳞状细胞癌(LUSC)的阈值
分别为1.97。
l 计算相对熵得分(RES)
对于被挑选出来的差异边,计算相对熵得分,为下一步的研究做准备。基因对u和v在正常状态下的相关性为
(2)
其中
(3)
因此,基因对v和u在正常状态的相关性为
(4)
显然,基因对u和v在疾病状态下的相关性为
(5)
因此,基因对v和u在正常状态的相关性为
(6)
而且
(7)
代表了边
在正常状态下的相对熵得分。
(8)
代表了边
在疾病状态下的相对熵得分。
2.3. 真实数据集的数据存取与处理
肺鳞状细胞癌(LUSC)数据集来自TCGA数据库(http://cancergenome.nih.gov)。LUSC数据集有178个疾病样本。在临床上,肺鳞状细胞癌分为7期(IA、IB、IIA、IIB、IIIA、IIIB、IV),即有6种划分方式。例如,分为对照期(包括临床IA、IB、IIA期)和疾病期(包括临床IIB、IIIA、IIIB、IV期)。我们将该算法应用于数据集。
首先,挑选具有差异表达的基因(LUSC挑选了70个基因)。这些基因之间通过边(即相关性)进行连接。
接下来,选择有显著相关性的基因对,得到差异网络,其性能在不同的状态下有显著的差异。
紧接着,通过上述算法计算出各自状态下的相对熵得分。
最后,观察网络在不同状态下呈现出的差异,研究其各自的特点。
3. 结果
肺鳞状细胞癌是一种非小细胞肺癌,起源于肺气道中的鳞状细胞,因为薄而扁平的细胞在显微镜下看起来像鱼鳞,所以被称为肺鳞状细胞癌 [3] [4]。
对于LUSC数据集,临床上分为七个阶段(IA, IB, IIA, IIB, IIIA, IIIB, IV),共178个样本。所以,对于控制组和疾病组的样本数据,一共有六种划分方式。在每种划分方式下,我们应用上述算法得到结果如图2所示。显然,对于相对熵得分的方法来说,第三种划分方式下得到的效果最好(p = 0.042),而基因表达的方法在最后一种划分方式下的效果最好,p = 0.021。
显然,基因表达的方法的结果与相对熵得分的方法的结果存在很大的差异,基因表达的存活曲线在最后一种划分方式表现良好(p = 0.021),而相对熵得分的存活曲线在第三种划分方式下表现良好(p = 0.042)。LUSC的最后一种划分方式为:IA、IB、IIA、IIB、IIIA、IIIB和IV。LUSC的第三种划分方式是:IA,IB,IIA和IIB,IIIA,IIIB,IV。通过查询大量的资料,我们发现相对熵得分的结果更加合理。理由如下:
l I期和II期癌症的生存率和治愈率都很高。
l III期癌症在某些情况下可以治愈。
l IV期复发癌几乎无法治愈。治疗的目的是延长和提高生活质量 [5]。
通过相关的文献我们发现相对熵得分的结果更符合临床实验。
之后,在第三种划分方式下,我们将这些样本的相对熵得分放入分类器中,结果如图3所示,这种划分方式下得到的平均auc为0.9768532。然而,将基因表达放入同一分类器,结果却大相径庭,通过基因表达的方法得到的平均auc仅为0.5658102。
Figure 2. Comparison of gene expression and RES on the LUSC data set, respectively. There are 7 stages and 178 samples for LUSC. There are 6 divisions. Survival analysis under different partition modes are shown respectively in Figure 2. Obviously, the third division is most accord with our expectations
图2. LUSC数据集上基因表达和相对熵得分结果的比较。178个样本,7个阶段,6种划分方式。不同划分方式下的生存分析如图2所示。显然,第三种划分方式最符合我们的期望
Figure 3. The classification of the third partition. And the mean-auc of the classification is 0.9768532, while the gene expression mean-auc is only 0.5658102
图3. 第三种划分方式下的分类结果。RES平均auc为0.9768532,基因表达得到的平均auc只有0.5658102
为了演示LUSC差异网络的演化,图4分别显示了正常状态和疾病状态的网络。显然,这两个网络之间存在着非常显著的差异。
Figure 4. The dynamical evolution of differential network of LUSC shows the difference of the network in the normal state and the disease state, respectively
图4. LUSC差异网络的动力学演化。分别显示了在正常状态和疾病状态下的网络差异
4. 讨论
相比于临床上将疾病的发展划分为多个阶段,本文提出的方法为大多数人而言提供了更多的便利。毕竟大多数人真正关心的是身体的健康与否。在这项工作中,我们提出了一个区分正常状态和疾病状态的算法。通过两个实际数据集验证了该方法的有效性。
这种方法有以下几个优点:
首先,该方法依赖于生物网络,结果是可令人信赖的。
其次,它具有较高的实用性,能很好地适应复杂的生物系统。
第三,它可以提前探测到疾病信号,从而达到疾病预警的目的。
最后,虽然该算法在某些方面取得了一定的进展,但算法的灵敏度和准确度仍有提高的空间。
致谢
本文受广东省基础与应用基础研究基金资助(No. 2019B151502062)。
基金项目
广东省基础与应用基础研究基金资助(No. 2019B151502062)。