1. 引言
随着经济社会发展,人们的生活水平逐渐提高,一些慢性病的发病率也逐渐升高。例如糖尿病,糖尿病是一种代谢紊乱性疾病 [1],也是一种多因素疾病,受到遗传、社会、生活等多方面影响。因此,掌握糖尿病患病率和并发症情况,了解其危险因素的分布具有重要意义。
许多学者对II型糖尿病及其并发症进行了研究。谢利平等对1436例II型糖尿病患者慢性并发症进行研究,发现各种糖尿病并发症合并率约为84.26%,主要危险因素包括年龄、糖尿病病程、糖化血红蛋白等 [2];邹飒枫等对糖尿病及并发症进行研究,发现高血压合并糖尿病患者多见于60岁及以上人群,并发视网膜病变、冠心病和脑卒中的危险有着随年龄增高而增加的趋势 [3];李纯净等通过变量筛选结果发现,AGE_ONSE、ACR、PLAS_CR和HB这四个因素对心血管疾病的影响尤为显著 [4]。此外,在与高血压有关的危险因素中,彭浩等 [5]、吴云涛等 [6]、张红叶等 [7] 的研究发现,血清尿酸增加是高血压前期人群进展至高血压的独立危险因素。在这些研究中,大多数学者都是采用Logistic逐步回归方法对糖尿病患者慢性并发症及危险因素进行统计分析,没有采用多种方法综合分析,因此本文考虑Logistic逐步回归、随机森林算法和相关性检验三种方法,对200例糖尿病并发视网膜病变再并发其他疾病及危险因素进行综合分析。
2. 数据来源及预处理
2.1. 数据来源
本文数据来源于“国家人口健康科学数据中心数据仓储PHDA”,由中国人民解放军总医院提供,一共收集了200例糖尿病并发视网膜病变患者数据集 [8]。其中,主要包含患病种类以及32种糖尿病并发症疾病患病数据,如高血压、高脂血、动脉粥样硬化、脑卒中、颈动脉狭窄等;同时,包含相关因素数据,如AGE (年龄),SEX (性别),BP_HIGH (收缩压),MARITAL_STATUS (婚姻状态),HB (血红蛋白)等共54个因素。
2.2. 数据预处理
2.2.1. 缺失数据处理
首先,由于部分特征缺失严重,删除缺失率大于0.2的特征,剩下36个特征;其次,按性别分组分别对身高和体重用对应的均值对缺失值进行填充,然后根据BMI公式计算对应的体重指数BMI;之后,其余特征的缺失数据,则是用对应均值进行填充。由于BMI综合反映了身高和体重的信息,危险因素分析中,只考虑BMI,不考虑身高和体重,即共有AGE (年龄),SEX (性别),BP_HIGH (收缩压),MARITAL_STATUS (婚姻状态),HB (血红蛋白)等34个特征纳入到危险因素分析中。
2.2.2. 数据标准化
为避免数据量纲或数量级差异造成的负面影响,需要对数据进行标准化处理。标准化处理范围主要是除二分类变量(如性别,婚姻状态,是否患病)外的特征,如BMI (体重指数),SCR (血肌酐),SUA (血清尿酸)等。一般的标准化方法有Min-max标准化,z-score标准化,中心化标准化。本文采用z-score标准化方法,计算公式为:
,其中x表示观测值,
表示样本均值,
表示样本标准差。
3. 并发症以及危险因素分析
3.1. 描述性分析
3.1.1. 200例II型糖尿病患者的年龄及性别构成比
本数据集包括200例糖尿病并发视网膜病变患者及其他并发症疾病相关数据,其中,患者最小年龄为20岁,最大年龄为85岁。对200例糖尿病并发视网膜病变患者年龄以及性别构成进行描述性统计分析,可以得到下表1:
Table 1. Age and sex composition of 200 cases with type II diabetes
表1. 200例II型糖尿病患者的年龄及性别构成
为了更直观地观察各年龄段中糖尿病患者男女构成情况,绘制各个年龄段患者构成情况的折线图如下:
Figure 1. Age group composition of patients
图1. 各个年龄段患者构成情况
由表1及图1可见,200例糖尿病并发视网膜病变患者中,在年龄组方面,构成占比最高的是60岁~69岁,其次50岁~59岁,之后是40岁~49岁。在性别构成方面,30岁~70岁年龄段的男性患者明显多于女性患者,而其他年龄组中女性患者多于男性患者。
总的来说患者主要集中在40岁~69岁年龄段,占总人数的85%。这提示,当年龄到达40岁之后,就要警惕糖尿病并发视网膜病变的发生。从性别比可见,在30岁~39岁年龄组中性别差异最大,男性:女性性别比达到了6:1,这也提示处于这个年龄组中的男性要警惕糖尿病并发视网膜病变的发生。
3.1.2. 200例II型糖尿病患者慢性并发症的疾病构成
首先,为直观观察已并发视网膜病变糖尿病患者慢性并发症疾病构成,绘制柱状图如下:
Figure 2. Constitution of diabetic complications
图2. 糖尿病并发症疾病构成
从图2可发现,并发高血压,肾病,动脉粥样硬化的病例数较多。通过绘制柱状图对并发症情况有了初步了解,为了进一步探究糖尿病并发症疾病构成情况,计算每种疾病的占比后得到糖尿病并发症构成表如下:
Table 2. Composition of complications
表2. 并发症疾病构成表
由表2可见,在糖尿病患者并发视网膜病变的情况下,再发生其他并发疾病的比例非常大。其中,并发高血压、肾病、动脉粥样硬化、其他内分泌疾病、脂肪肝的比例非常大,分别是69%、58%、53.5%、38.5%、31.5%。因此,对糖尿病患者并发视网膜病变时,再并发其他慢性疾病危险因素的分析是十分有必要的。接下来,将对糖尿病患者并发视网膜病变合并并发高血压的危险因素进行分析。
3.2. 并发症危险因素的Logistic回归和随机森林分析
为了探究糖尿病患者并发高血压的危险因素,本文中,响应变量为分类变量HYPERTENTION (高血压),协变量包括AGE (年龄),SEX (性别),BP_HIGH (收缩压),MARITAL_STATUS (婚姻状态),HB (血红蛋白),SCR (血肌酐),SUA (血清尿酸),BMI (体重指数),BU (血尿素),PLT (血小板)等34个相关因素。
3.2.1. Logistic回归分析
Logistic回归是一种非线性回归模型,实际上是一种分类模型,并常用于二分类问题研究中。Logistic回归可以表示为:
使用Logistic回归逐步回归可以筛选出对响应变量有显著影响的协变量,因此,多数糖尿病与并发症及其危险因素的研究基于Logistic回归进行。
按照前述响应变量和协变量的设置,采用极大似然参数估计方法,使用Logistic回归,进行逐步回归分析,得到糖尿病并发高血压危险因素如下表3所示:
Table 3. Logistic stepwise regression: risk factors
表3. Logistic逐步回归:危险因素表
由表3可见,根据Logistic逐步回归分析,有五个特征可以看做是糖尿病患者并发视网膜病变时,再合并并发高血压的危险因素,它们分别是AGE (年龄),BP_HIGH (收缩压),BMI (体重指数),SCR (血肌酐),SUA (血清尿酸)。
3.2.2. 随机森林(Random Forest)
为了对糖尿病并发高血压危险因素进行对比研究,本文在Logistic回归的基础上,引入随机森林(Random Forest)算法,对糖尿病患者并发视网膜病变合并并发高血压的危险因素进行分析。
随机森林算法中,对于每个特征会给出对应的特征重要性。与系数不同,特征重要性是根据学习过程中使用特征信息的多少来决定,取值范围0~1之间,而且它们的和为1。在本例中,按照前述响应变量和协变量设置,由特征重要性得出糖尿病患者并发视网膜病变合并并发高血压的危险因素如表4。
Table 4. Random forest: Risk factors
表4. 随机森林:危险因素表
为便于和基于Logistic回归得到危险因素进行比较,选择随机森林得到的前五个危险因素,分别是:BP_HIGH (收缩压)、BU (血尿素)、SCR (血肌酐)、BMI (体重指数)、HB (血红蛋白)。这里可见,两种方法得到的危险因素,共同的部分有:BP_HIGH、BMI、SCR;差异部分为,Logistic回归得到的危险因素包含有AGE和SUA,而随机森林得到危险因素包含有BU和HB。为进一步确定主要的危险因素,接下来考虑流行病学研究里基于渐进无条件方法的相关性检验,对上述7个危险因素进行研究,最后综合三种方法结果确定危险因素。
3.3. 相关性检验
当暴露和非暴露队列中的发病概率(
)相等时,就说暴露和疾病没有关联。为了检验暴露和疾病是否有关,设原假设为:
。根据Newman [9],可以使用皮尔逊(Pearson),Wald,Likelihood相关性检验对原假设进行检验,检验统计量分别为:
其中,
表示暴露和非暴露队列中观测患病人数,
表示在原假设下,暴露和非暴露队列中期望患病人数;
表示暴露和非暴露队列中观测未患病人数,
表示在原假设下,暴露和非暴露队列中期望未患病人数;
表示机会比的估计。在大样本时,上述统计量渐近服从于自由度为1的卡方分布。
本文在显著性水平
下,对7个危险因素进行相关性检验。首先根据暴露确定观测频数以及计算期望频数的
列联表,然后计算相应的检验统计量以及p值,对原假设进行检验。
对于AGE (年龄),将年龄大于40岁视为暴露,可以得到对应的观测频数和期望频数列联表:
Table 5. Age-hypertension observation (expectation) counts contingency table
表5. AGE-高血压观测(期望)频数列联表
根据表5的结果,可以计算得到相关性检验统计量以及p值的值如下:
类似地,对于其他相关因素分别根据暴露确定观测频数和计算期望频数列联表,再计算相应检验统计量与p值,将结果整理得到表6。
Table 6. Pearson, Wald, LR Test Statistic and p value of 7 risk factors
表6. 7个危险因素的Pearson,Wald,LR检验统计量及其p值
从表6见,在对7个相关因素进行的相关性检验中,HB这个因素的相关性检验,三种检验的p值分别为0.0421,0.0764,0.0525,认为在显著性水平
下,没有充分的证据支持拒绝原假设,即没有充分的证据支持高血压发病与HB是否暴露有关。显然,其余的6个相关因素的相关性检验中,检验的p值都远远小于显著性水平
,认为有充分的证据支持拒绝原假设,即该6个危险因素的暴露与否对高血压发病有显著性影响。
综合三种方法对糖尿病患者并发视网膜病变再并发高血压的危险因素分析,认为AGE (年龄),BP_HIGH (收缩压),SCR (血肌酐),SUA (血清尿酸),BMI (体重指数),BU (血尿素)是关键的危险因素。
4. 总结与讨论
本文采用200例II型糖尿病患者及其并发症数据,首先对数据进行描述性统计分析,发现患者主要集中在40岁~69岁年龄段,占总人数的85%;在糖尿病患者并发视网膜病变的情况下,再发生其他并发疾病的比例非常大。其中,并发高血压、肾病、动脉粥样硬化、其他内分泌疾病、脂肪肝的比例排名靠前。然后,基于Logistic逐步回归、随机森林算法、相关性检验对糖尿病患者并发视网膜病变再并发高血压的危险因素进行分析,结果表明AGE (年龄),BP_HIGH (收缩压),SCR (血肌酐),SUA (血清尿酸),BMI (体重指数),BU (血尿素)是关键的危险因素。
本文仍可改进,特征筛选方法还包括lasso回归和ridge岭回归方法,但在本文中表现不好。因此,在分析其他并发症的危险因素或者提升样本量后,可以考虑这两种方法。
NOTES
*通讯作者。