1. 引言
正常人的血压随内外环境变化在一定范围内波动。在整体人群,血压水平随年龄逐渐升高,以收缩压更为明显,但50岁后舒张压呈现下降趋势,脉压也随之加大。所谓高血压,就是以人体内血压异常增高为主要特征的一种心脑血管疾病。当一般人的舒张血压高于90 mmHg,收缩血压高于140 mmHg时即可判定出现高血压症状。高血压已经成为全球十大危险因素之一,每年可导致七百多万人死亡,约占全世界死亡人数的13% [1] 。
国内外研究表明,高血压是一种多因子疾病,致病因素多,各因素间关系复杂,是高血压研究的重要特点 [2] 。我国高血压的现状十分不容乐观,2002年全国高血压抽样调查结果显示我国18岁以上城市人群高血压的患病率为19.3%。按照人口比例可得出,我国患高血压的人数已经过亿。2002年中国居民营养与健康状况调查显示,按照经济发展水平,将城市分为大城市和中小城市。将农村分为一至四类农村,进一步分析发现大城市和中小城市高血压患病率分别为20.4%和18.8%,一至四类农村分别达到21.0%、19.0%、20.2%和12.6% [3] 。我国高血压的特点是“三高三低”,患病率高、增长趋势高、危害性高,同时知晓率低(30.2%患者知道自己患有高血压)、治疗率低(24.7%高血压患者接受治疗)、控制率低(6.1%的高血压患者血压控制达标)。
高血压病的早期,仅有全身小动脉痉挛,而血壁没有明显器质性改变,因此及时治疗,高血压病完全可以治愈或被控制。若血压持续增高多年不降,动脉壁由于长期缺氧、营养不良,动脉内膜通透性增高,内膜及中层有血浆蛋白渗出,渗入壁管的血浆蛋白逐渐凝固发生透明样变,血管壁因透明变性而发生硬化。硬化的小动脉管壁日渐增厚而失去弹性,管腔逐渐狭窄甚至闭塞,从而导致血压特别是舒张压的持续性升高。最常见的六种严重危害的后果如下:冠心病、脑血管病、高血压心脏病、高血压脑病、慢性肾功能衰竭、高血压危现。
因此,控制和防治高血压以及高血压并发症刻不容缓。在医学上,认为高血压的病因有大概以下四种,分别是:习惯因素遗传(大约半数高血压患者有家族史);环境因素;年龄(发病率有随着年龄增长而增高的趋势,40岁以上发病率高);其他(肥胖者发病率高;避孕药;睡眠呼吸暂停低通气综合症)。
目前国内外对高血压危险因素的研究已经很全面,不仅使用了传统的统计学方法,还使用了机器学习的方法,比如Logistic回归、分类树回归、BP神经网络,而且都对它们的准确性进行比较,但是结果各不相同 [4] - [6] 。
2006年傅传喜等分别利用Logistic回归和分类树分析对高血压危险因素进行分析得出高血压的主要危险因素为年龄、血脂以及肥胖,同时得到分类树分析较Logisic回归分析分类效果好 [7] 。
2010年杨洋用BP人工神经网络对辽宁省彰武县农村人群进行患病预测,并与Logistic回归模型进行比较,利用ROC曲线(receiver operator characteristic curve)评价人工神经网络模型的预测性能 [8] 。
因此本文将通过对美国全国健康和营养调查的数据进行研究,利用Logistic分类和随机森林来探讨影响不同种族患高血压病的因素。
2. 数据来源及数据描述
本数据来源http://www.umass.edu/statdata/statdata/stat-logistic.html。本数据共有17,030个观测对象,16个变量,有10,472个缺失值。表1是变量清单。
其中,在变量清单中的前四个变量(受访者号码,伪初级抽样单位,伪阶层,统计权重)在本文的研究中是没有实际作用的,因此删去这四个变量。由于原始数据中给出的变量名不方便直接使用,因此我在表1的最后一列将所要用的变量名进行了重新命名。
表1. 变量清单
由于该数据变量HAR3的缺失值占了该变量的一半多,无法通过R语言中的missForest函数进行很好的弥补,因此本文舍去这个变量。同时,这个数据的种族包括白人、黑人以及其他,本文将根据这个将数据分为三个小数据(nhanes_1表示白人,nchanes_2表示黑人,nchanes_3表示其他)。
本文选择HBP作为因变量,由于HBP是完全由平均收缩血压(PEPMNK1R)决定的,因此本文将删除PEPMNK1R这个变量。HBP是一个定性变量,分为0和1这两个水平。由于自变量中也有定性变量,本文将考虑用logistic分类和随机森林分类来对数据进行拟合,从中选择出最好的模型,并进行预测。
3. 实证研究
3.1. 模型原理及形式
1) 建立二分类Logit模型
在研究本文采用对于一个有两个结果的随机试验,实验的两个可能结果分别是有高血压和没有高血压,这也就是最简单的概率模型就是伯努利实验,该实验假定成功的概率为p失败的概率为1 − p。二项分布就是由多次伯努利实验导出的。在实际生活中,有各种不同的因素干扰随机实验结果。那么成功和失败的概率就不是固定的,而是其他变量的一个函数。
假定自变量向量为X,那么一个简单的函数为公式(1):
(P为患高血压病的概率) (1)
2) 建立随机森林模型
在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。
随机森林的原理为:从所有(n个)观测值中抽取n个观测值作为自助法样本(bootstrap sample),也就是说,等概率地放回抽取和原数据同样样本量的样本,然后根据这个新样本建造一个(分类)决策树,在建造树的过程中并不用所有的变量当候选拆分变量,而是随机地挑选部分变量来竞争拆分变量,这样,不仅仅是每棵树所用的数据是随机抽取的,而且每个节点的拆分变量的选择都是随机的;不断重复上一步骤直到建成的决策树个数等于指定的数目为止(这里用的程序包randomForest中的randomForest()函数的默认值为500棵树);如果来了新的数据,每棵树给出一个预测值,然后所有的树(默认500棵树)用简单多数投票来决定其因变量的预测值。
3.2. 模型结果分析
1) 对种族为白人的数据进行模型结果分析
① Logit参数估计结果分析
对数据nhanes_1用Logit方法进行建模分析,之前介绍过,选择HBP作为因变量,其余变量作为自变量。我们用软件R中的glm()函数进行分析,得到了表2中的结果。
表2表示各因素分类中的变量对高血压影响的参数估计结果。
从结果中可以看出,在0.05的显著性水平下,种族为白人的时候,只有性别、受访者吸烟 > 100支香烟 = 2、现在受访者抽烟状况 = 2这三种因素不显著(现在受访者抽烟状况 = 3缺失),其余的因素对高血压都是有显著影响的。由于年龄的系数为正,也就是说随着年龄的增长对高血压的影响会越来越大;性别为负数可以看出男性比女性患高血压的几率要小一点;体重的系数为正数可以看出越胖的人得高血压的可能性要稍微大一点点;身高的系数为负数表示身高越高的人得高血压的风险就越低;血清胆固醇对患高血压稍微有点影响,血清胆固醇高的话得高血压的概率要稍微大一点。

Table 2. Effect of various factors on hypertension (white)
表2. 各因素对高血压的影响(白人)
表2的参数表达式为公式(2):
(2)
用公式(2)得到的模型进行预测,我们可以得到用logit方法的误判率为0.142 (在数据nhanes_1中对
于变量HBP,将0误判给1的有504个,将1误判给0的有1024个,正确判断的有9239,
),
因此这个误判率稍微有点高。下面我们来看随机森林的结果。
② 随机森林分析结果
跟据吴喜之 [9] 的介绍,我们可以利用R软件的randomForest()函数构建一个随机森林分类模型,并且画出各因素对高血压影响的重要性示意图(如图1)。
从图1中我们可以看出在种族为白人的时候,对高血压影响最为显著的因素是年龄(HSAGEIR)和平均舒张血压(PEPMNK5R),且年龄的重要性要高于平均舒张压。而且这两个都是呈正相关影响,其余的几个因素对高血压的影响都不是特别显著。简单来说,年龄越大,越容易得高血压;平均舒张血压值越高,也越容易得高血压。抽烟对得高血压并没有显著影响,在某些情况下,抽烟甚至会对高血压有反作用。
通过所建立的随机森林模型对数据进行预测,分类结果如下表3 (行是真实值,列是预测值),并得到误判率为0.006,跟Logit方法相比减少了很多。也就是说,用随机森林得到的结果要比用Logit方法得到的结果准确率更高。
2) 对种族为黑人的数据进行模型结果分析
① Logit参数估计结果分析
仿照前面的建模方法对数据nhanes_2构建模型,并用软件R进行运算,得到了表4中的结果。
表4表示各因素分类中的变量对高血压影响的参数估计结果。
从结果中可以看出,在0.05的显著性水平下,种族为黑人的时候,只有身高和血清胆固醇这两种因素不显著(现在受访者抽烟状况 = 3缺失),其余的因素对高血压都是有显著影响的。也就是说,身高、血清胆固醇对高血压几乎没有影响。由于年龄的系数为正,也就是说随着年龄的增长对高血压的影响会

Figure 1. The importance of each factor to the influence of hypertension (white)
图1. 各因素对高血压影响的重要性(白人)

Table 3. Classification results of nhanes_1 data in random forest
表3. 随机森林对nhanes_1数据的分类结果

Table 4. Effect of various factors on hypertension (black)
表4. 各因素对高血压的影响(黑人)
越来越大;性别的系数为负数可以看出男性比女性患高血压的几率要小一点;体重的系数为正数可以看出越胖的黑人得高血压的可能性要稍微大一点点;平均舒张血压对高血压是正相关;抽烟的各种系数均为负数,也就是说不抽烟会对高血压产生负影响。
表4的参数表达式为公式(3):
(3)
同时我们可以得到用Logit方法的误判率为0.124,这个误判率稍微有点高了。下面我们来看随机森林的结果。
② 随机森林分析结果
图2是通过随机森林得到的各因素对高血压影响的重要性示意图。
从图2中我们可以看出在种族为黑人的时候,对高血压影响最为显著的因素是平均舒张血压(PEPMNK5R)和年龄(HSAGEIR),且平均舒张压的重要性要高于年龄。而且这两个都是呈正相关影响,其余的几个因素对高血压的影响都不是特别显著。简单来说,年龄越大,越容易得高血压;平均舒张血压值越高,也越容易得高血压。抽烟对得高血压并没有显著影响。
通过所建立的随机森林模型对数据进行预测,分类结果如表5 (行是真实值,列是预测值),并得到误判率为0.003,跟Logit方法相比减少了很多。
3) 对种族为其他的数据进行模型结果分析
① Logit参数估计结果分析
仿照前面的建模方法对数据nhanes_3构建模型,,我们用软件R中的glm()函数进行分析,得到了表6中的结果。
表6表示各因素分类中的变量对高血压影响的参数估计结果。
从结果中可以看出,在0.05的显著性水平下,其他种族的情况下,只有性别(男)、受访者吸烟 > 100支香烟 = 2和血清胆固醇这三种因素不显著(现在受访者抽烟状况 = 3缺失),其余的因素对高血压都是有较为显著影响的。由于年龄的系数为正,也就是说随着年龄的增长对高血压的影响会越来越大;体重的系数为正数可以看出越胖的人得高血压的可能性要稍微大一点点;身高的系数为负数表示越高的人得高血压的可能性越小;平均舒张血压对高血压是正相关;抽烟的各种系数均为负数,也就是说不抽烟会对高血压产生负影响。
表6的参数表达式为公式(3):

同时我们可以得到用Logit方法的误判率为0.088。
② 随机森林分析结果
图3是通过随机森林得到的各因素对高血压影响的重要性示意图。
从图3中我们可以看出在种族为其他的时候,对高血压影响最为显著的因素是年龄(HSAGEIR)和平均舒张血压(PEPMNK5R),且年龄的重要性要高于平均舒张压。而且这两个都是呈正相关影响,其余的几个因素对高血压的影响都不是特别显著。简单来说,年龄越大,越容易得高血压;平均舒张血压值越高,也越容易得高血压。现在不抽烟对得高血压并没有显著影响。
此时我们可以得到随机森林的误判率为0。
综上,我们可以得到随机森林分类模型都比Logit分类准确率要高。但是随机森林无法给出一个准确的公式,而Logit方法可以给出。

Figure 2. The importance of each factor to the influence of hypertension (black)
图2. 各因素对高血压影响的重要性(黑人)

Table 5. Classification results of nhanes_2 data in random forest
表5. 随机森林对nhanes_2数据的分类结果

Table 6. Effect of various factors on hypertension (other)
表6. 各因素对高血压的影响(其他)

Figure 3. The importance of each factor to the influence of hypertension (other)
图3. 各因素对高血压影响的重要性(其他)
4. 结论
在Logit分类方法下,我们可以看到不同种族的显著性因素不同,但是年龄、体重、平均舒张血压不论在什么种族下对高血压都有显著影响,且都是正相关。而对于性别 = 1 (即性别为男性)的时候,只有在种族为黑人的时候显著,而且是负相关,虽然在白人和其他的情况下,该因素并不显著,但是两个的系数一个为正一个为负。也就是说对于不同种族来说,男女得高血压的几率并不相同(白人和黑人男性更不容易得高血压,而其他的时候男性更容易得高血压)。对于身高这个因素,虽然在种族为黑人的时候不显著,但是对所有的种族而言,都是身高越高的人越不容易得高血压。而对于有关于抽烟的两个因素(受访者吸烟 > 100支香烟 = 2和现在受访者抽烟状况 = 2),虽然在各个种族下并不是都是显著的,但是它们的系数都是很小的负数,也就是说不抽烟对得高血压是负相关的。而血清胆固醇在种族为白人的时候是显著的,而在剩下两种情况是不显著的,其中在白人和黑人的时候系数为正数,在其他的时候为负数,但是这三个数的绝对值都非常小,我们甚至可以近似为0。
简而言之,就是年龄、体重、平均舒张血压对于所有的人都是影响高血压的正因素,不抽烟对高血压都是负相关。而在不同的种族下,其余不同的因素的影响都不完全相同。
在随机森林分类方法下,年龄和平均舒张血压都是影响高血压的最重要的因素。其中,在种族为白人和其他的情况下,年龄对高血压的影响比平均舒张血压的影响要更为重要一点,而在种族为黑人的情况下,平均舒张血压对高血压的影响比年龄的影响要更为重要一点。抽烟对高血压并没有显著影响。
综上所述,年龄和平均舒张血压对于每个人而言都是影响高血压的重要因素,且体重也是。但是在不同的种族下,各个因素的影响程度不同。而抽烟对高血压的影响并不显著。
基金项目
1) 国家自然科学基金项目“广义估计方程(GEE)框架下的回归诊断:基于均值和协方差结构同时拟合的研究”(11561071)。
2) 云南省哲学社会科学研究基地2015年重点项目“云南社会经济可持续发展竞争力指标体系研究”(JD2015ZD20)。
*通讯作者。