1. 引言
糖尿病是由人体缺乏或相对缺乏胰岛素所导致的一种慢性代谢疾病,也是导致高血压、血脂紊乱、心脑血管等疾病的主要原因。目前,我国糖尿病患者已有1.3亿人,慢性肾病患者中不乏同时患有糖尿病的。现代人的生活饮食习惯的改变,使得火锅、甜品、奶茶等高盐、高糖、多油的食物愈加受欢迎,糖尿病前期症状隐匿,容易被忽视。这就使得进行糖尿病高危人群的预测十分有必要。
本文是基于模型平均对21岁及21岁以上的印度皮马女性糖尿病数据集进行分析建立模型,以此预测皮马女性糖尿病高危人群;在对数据集的分析建模过程中,不论用于模型的选择或是模型参数的估计,在统计学和经济学中模型平均应用广泛。在实际应用中,往往人们并不知道真实的模型,因此模型的选择至关重要,而选择的模型不论是过于简单亦或过于复杂都可能会使得估计或预测的方差偏大,显然当选择的模型不够准确时会使得估计或预测做的不够准确。而在数据集中又难免会出现离群点、破坏分布假定的点、对估计参数影响比例失衡的点我们统称这些点为强影响点。面对这类数据,除了进行数据预处理之外,模型的选择也至关重要。
模型平均是将所有备选模型通过加权的方法,通过组合估计或组合预测来降低模型选择错误带来的估计误差,避免损失原始数据信息,以此来提高估计精度。而根据数据集的不同,Zhang X.等 [1] 提出广义线性模型的模型平均方法针对处理本文使用的二分类被解释变量的数据集做模型平均。
在皮马女性糖尿病数据集中因被解释变量仅有两类取值,0表示未患糖尿病,1表示患糖尿病,面对这样的二分类被解释变量,本文选取的模型是基于逻辑回归算法。
2. 基于逻辑回归的模型平均
2.1. 逻辑回归
逻辑回归是用以处理被解释变量为二分类数据的情况,即
。如果用线性函数
做拟合容易受强影响点的影响,逻辑回归采用了Sigmod函数,即:
减弱强影响点的影响。Sigmod函数不仅将原先值域为
映射到
区间,并且输出的结果还具有统计学意义,如果认为被解释变量取1 (即事件发生)的概率为p,则用Sigmod函数输出的即为事件发
生的概率,即
。
2.2. 广义线性模型的模型平均
模型平均是将所有的备选模型通过权重平均起来,避免将“所有的鸡蛋放在同一个篮子里”,以此来规避模型选择错误的风险 [1]。
广义线性模型的指数分布族有如下形式:
其中,
,
均为参数,
,
均为已知的函数,
具有形式
,通过取分别
的不同维的元素估计
。记
,
,
。假设我们总共有S个备选模型,在第s个模型中,通过极大似然估计获得
的估计
,
与获取的
的维度相对应,对应未获取
的维度数据的其它维值均为0。权重向量
,
。
模型平均
的估计
:
的真值
,模型平均
的估计:
目前有许多权重选择准则,例如:张新雨等 [2] 罗列出基于信息准则权重选择方法的AIC和BIC、Mallows准则,本文使用的是Mallows准则。
Mallows权重选择标准为:
其中,
,
为惩罚项,
,
为第s个模型中参数的个数,
为调整参数,常用的取值为2或者
,本文
。
权重向量的求解:
2.3. 基于逻辑回归的模型平均
伯努利分布的指数分布族:
其中
,
,
,
。
权重选择标准为:
3. 糖尿病高危人群的预测
3.1. 数据来源
本文所用的数据集是来自kaggle网站www.kaggle.com/uciml/pima-indians-diabetes-database上的有关21岁及以上的皮马印度女性的有关身体相关指标数据,根据数据预测皮马女性5年内是否会患糖尿病。该数据集指标分别为:口服葡萄糖耐量试验2小时后的血浆葡萄糖浓度x1、用餐2小时后的血清胰岛素x2 (单位:μu/ml)、糖尿病遗传函数x3、怀孕的次数x4、舒张压x5 (单位:mmHg)、三头肌皮褶厚度x6 (单位:mm)、体重指数x7 (体重(kg)/(身高(m)2)、年龄x8、类变量(0或1)。
3.2. 数据预处理
数据集中存在诸如血糖、舒张压、三头肌皮褶厚度等数据都存在数据为0的情况,但显然这些数据为异常值,本文删除了这些带有异常值的样本,实际有效样本量为392个。口服葡萄糖耐量实验主要是检测机体对血糖的调节功能,经过检测得到的血浆葡萄糖浓度检测是判定是否为糖尿病的重要指标;用餐后2小时后的血清胰岛素指标用于检测胰岛β细胞功能,胰岛β细胞用于分泌胰岛素,因此该指标是可以用来预测胰岛功能的重要指标;糖尿病不论是一型还是二型都具有一定的遗传性,糖尿病遗传函数用于判定对每个家庭而言患糖尿病的家庭遗传情况。这三个指标在糖尿病判定中有着至关重要的作用,因此在进行模型平均的备选模型选择时,本文选择了包含这三个指标的所有模型。
3.3. 基于模型平均建模
因解释变量在选择时已经确定选择了口服葡萄糖耐量试验2小时后的血浆葡萄糖浓度x1、用餐2小时后的血清胰岛素x2、糖尿病遗传函数x3这三个解释变量,剩余的5个解释变量不确定包含哪些解释变量预测效果会更好,所以这样我们共有32个组合模型。又因为被解释变量为二分类变量,根据逻辑回归的变换得到的模型形如:
,所有模型如表1所示。
Table 1. List of alternative models
表1. 备选模型列表
对于第s个模型通过极大似然估计得到
的估计值
,再通过模型平均的最小化目标函数
获取权重
的估计,结果为表2。
上表为由模型平均方法计算出对于各个模型的权重,权重依次按列排序,即对一个模型的权重即为第一列第一个值,第二个模型的权重即为第一列第二个值,依次类推。从表中可以看出相较于逻辑回归模型即备选模型的最后一个模型
,模型平均选择的模型主要集中在第4个模型、第6个模型、第19个模型以及第21个模型。
3.4. 模型平均的预测
为了比较模型平均和逻辑回归的预测效果,将392个有效样本随机分为训练集和测试集,本文分别抽了总样本的50%、55%、60%、65%、70%、75%、80%、85%、90%作为训练集,对应剩下的样本作为测试集,对于相同比例的训练集,进行重复实验1000次,比较平均误差率。实验结果详见表3。
Table 3. Comparison of error rates between model average and logistic regression average
表3. 模型平均与逻辑回归平均误差率比较
4. 结论
使用基于逻辑回归的模型平均方法对印度皮马女性糖尿病数据集进行建模,对比逻辑回归,模型平均的预测平均误差率一致比逻辑回归的预测平均误差率小,可以看出模型平均的估计效果要比逻辑回归的估计效果好,说明在预测皮马女性糖尿病时使用基于逻辑回归的模型平均方法相较于逻辑回归更为准确。