1. 引言
高维数据分析在科学、人文和工程的各个领域变得越来越重要。面对这些高维数据,需要采取合适的方法对其进行降维或变量选择。经典的变量选择准则,如Akaike提出的最小信息准则(AIC) [1] 、贝叶斯信息准则(BIC) [2] 以及交叉验证(CV)或广义交叉验证(GCV) [3] 等。近年来,变量选择的正则化方法已逐渐流行起来,这些方法包括Lasso [4] ,SCAD [5] ,MCP [6] ,Elastic net [7] 及自适应Lasso [8] 等。
稀疏正则化方法优劣的关键是选择正则化参数,CV被广泛用于正则化参数的选择,然而在高维情况下CV会导致模型不稳定,并且为Lasso估计 [9] 选择了过多变量。GCV是另一种广泛使用的方法,但众所周知,GCV与AIC相似,具有较好的渐近有效性,但不满足变量选择的一致性。Wang、Li和Tsai [10] 指出,常用的GCV不能选择令人满意的正则化参数,在SCAD估计方法中存在不可忽视的过拟合现象。AIC准则本质上是相对熵损失的最核心部分的渐近无偏估计,非常适合在预测模型中权衡所估计模型的复杂度和此模型拟合数据的优良性,但其在分析大样本时有时并不明显,并且在很复杂的模型识别中有不适用的情况。因此,Akaike [11] 进一步对准则做了修改,利用贝叶斯原理得到后验分布,再使似然函数最小的办法得出后来的BIC准则,该选择器能够一致的识别正确的模型。Wang和Leng [12] 也为自适应Lasso做过类似的工作。
上述关于正则化参数选择的研究主要针对固定维数。近年来,在高维模型中引入了各种调整参数的选择方法。Wang,Li和Leng [13] 提出了一种修正BIC (MBIC)准则,适用于协变量的维数p小于样本量n,并且维数p为发散维数的情况。在p > n的高维情形下,Chen和Chen [14] 提出了广义的BIC (EBIC)。Wang 和Zhu [15] 将EBIC的结果推广到超高维情况,提出了一个高维BIC (HBIC)准则。Fan和Tang [16] 在广义线性模型的罚似然估计中提出了广义信息准则(GIC)。
最近,Hui,Warton和Foster针对自适应Lasso提出了ERIC准则 [17] 。受Lepski非参数回归带宽选择方法的启发,一种新的方案 被提出,用于选择高维线性回归中Lasso正则化参数 [18] 。Li和Lederer [19] 将该方法用于逻辑回归中。更多正则化参数选择方法可见文献Wu和Wang [20] 。
本文在AIC准则基础上,提出MAIC准则选择Lasso正则化参数。该方法克服了AIC准则过拟合的缺陷,既适用于低维情形,也适用于高维情形。通过数据模拟表明,MAIC准则能够以更高的概率选择正确的模型。
2. 罚估计方法
正则化方法是一类特殊的收缩方法,能够同时实现变量选择和系数估计,是一种主流的变量选择方法。该方法是基于惩罚的思想,在最小二乘和最大似然估计的基础上,对目标函数施加一个惩罚项,从而使新的目标函数的最优子集相对于原目标函数的最优子集有所收缩,从而达到稀疏的目的。以线性回归模型为例,正则化方法基本形式如下:
(1)
其中
是依赖于参数
的惩罚项。
当惩罚项为对系数的L1范数,即为Lasso估计,如下所示:
(2)
Lasso估计使用了绝对值形式的惩罚项,由于其在零处的不可导性质,使其在模型的参数估计过程中较小系数会因为惩罚项的存在从而直接压缩到0,从而实现变量选择的目的。
3. Lasso正则化参数选择方法
在实际应用中,正则化模型的优劣与正则化参数取值密切相关,不同正则化参数会导致不同的惩罚力度,进而影响最终的模型。本节主要研究Lasso估计的各种正则化参数选择方法。
3.1. 交叉验证
交叉验证(CV)是常用的正则化参数选择手段。在模型选择时把已有的数据分为三个部分,第一部分用以训练,第二部分用以检验,第三部分用以测试。如果检验集的数据量不足,使用交叉验证也可以作为一种检验模型的方法。交叉验证的基本思想是把样本分割成训练集以及检验集后先采用训练集建立模型,用刚建立的模型对检验集进行预测,并求检验集的预测误差(PE),多次重复后对所产生的多个预测误差(PE)平均处理并进行记录。交叉检验的误差越小,说明模型拟合效果越好。
K折交叉验证(K-fold CV)表达式如下,
(3)
但CV方法容易产生过拟合现象,即在参数选择时,
容易过小,则非零
数量就会过多,造成模型的过拟合,从而不满足变量选择的一致性要求。
3.2. AIC准则
信息准则有一个优势是计算信息准则的计算量比交叉检验要少。在常用的信息准则中比较有名的是赤池信息准则(AIC)。通常情况下,AIC定义为:
(4)
其中
为广义自由度。
Tibshirani [4] 介绍了怎样去计算Lasso自由度(DF)的近似值。Efron [21] 阐述了Lasso的求解路径,并且用最小角回归LARS去求解Lasso。而Efron认为自由度(DF)用非零系数项的个数进行近似能得到比较好的近似值:
(5)
其中
代表非零系数项的集合,
是集合非零元素的个数。Zou [22] 证明了如果有
和
,那么对Lasso正则化问题自由度的估计为无偏和一致的。若无特殊注明,本文默认自由度使用上述公式进行计算。
3.3. BIC准则
基于BIC准则选择正则化参数已被证明在满足模型选择的一致性 [22] 。BIC准则定义为:
(6)
的定义如式(5)所示。
但上述的BIC主要针对的是固定维度。Wang et al. [13] 提出了MBIC准则,将BIC准则推广到参数发散
的情况。定义如下
(7)
其中
是一些正常数,一般设置为
。
然而当
,特别是维数p相对于样本量n呈指数快速增长时,经典的BIC准则已经不适合。Chen和Chen [14] 提出了一种广义的BIC(EBIC)准则,
(8)
其中
。现在已经被证明如果
,并且
,则EBIC满足变量选择的一致性。然而,尚不清楚在
这样的超高维情况下是否EBIC仍然满足变量选择的一致性。因此Wang和Zhu [15] 提出了高维BIC(HBIC)作为
(9)
其中
。在一定的正则化条件下,HBIC以概率趋于1选择真实模型。此外,还有Wu和Wang还提出了各种正则化参数选择方法 [20] ,这里不再赘述。
3.4. MAIC
AIC准则为选择最优模型提供了有效手段。但是AIC准则容易选择过多的变量,因此本文提出修正AIC准则,即MAIC。定义如下:
(10)
其中自由度
的定义如式(5)所示。本文将通过数据模拟和实例分析证明MAIC准则能够以更高的概率选择真实的模型,不仅适用于低维情形,也适用于高维情形。同时不需要像BIC型准则一样,在不同的情形下需要选择不同的准则类型。
4. 数据分析
4.1. 模拟研究
模拟数据由线性回归模型生成:
其中,p维向量X由多变量正态分布生成
生成的,并且预测因子之间的相关性为
,
,且
。所有模拟实验重复进行100次。
构建两个数值研究来说明MAIC方法的有效性。利用Lasso正则化方法进行变量选择,MAIC准则选择正则化参数。为了说明MAIC准则的有效性,同时采用AIC准则和BIC型准则选择正则化参数。正则化模型由ADMM算法计算 [23] 。
为了评价方法的有效性和变量选择的一致性,考虑如下7个特征:1) MSE表示100次重复实验中模型均方误差ME的中位数,即
。2) SD表示为100次重复实验中模型误差ME的标准差的中位数。3) C表示100次重复实验中非零系数被正确估计为非零个数的均值。4) IC表示100次重复实验中零系数被错误估计为非零个数的均值。5) Underfit表示欠拟合,即在100次模拟实验中将非零系数错误估计为零的比例。6) Correctfit表示正确拟合,即在100次模拟实验中将非零系数正确估计为非零且零系数正确被估计为零的比例;7) Overfit表示过拟合,即在100次模拟实验中选择了所有重要变量并且包含了零系数被估计为非零的比例。
模拟1:在这个例子中,变量个数p取8,考虑
的情况,另
,
,n = 50,100,200,模拟结果如表1所示。
从表1,可以看出,首先所有方法的C值均为3,说明所有模型都准确估计了非零系数。其次,在模型误差中,所有变量选择的方法模型误差相当,MAIC准则的误差略微偏高。再次, Lasso方法在MAIC准则具有更小的IC值,能够以更高概率选择真实模型,选择正确模型的比例明显高于AIC和BIC准则。特别是随着样本量n的增加,选择正确模型的比例趋于1。
模拟2:考虑
的高维情况,令
,
。取n = 200且p = 200、400、1000、2000的四种维数,模拟结果如表2所示。
从表2,可以得出如下结论。首先,在高维情况下AIC显然是一个失败的选择器,不能识别真正的模型。其次,MAIC、MBIC、EBIC和HBIC都能够一致的选择真实模型,但是MAIC选择正确模型的比例更高。第三,各种方法的模型误差相当,相比模拟1的低维情形,MAIC准则的误差偏高的态势并不明显。当然,这也表明维度越高MAIC表现越好,MAIC更适用于高维情况下的正则化参数的选择。
4.2. 实际数据分析
本文利用由Deeksha Russell和Duan Wang从世界卫生组织下属的全球卫生观察站(GHO)数据库及联合国网站整理而成的数据集Life Expectancy Data,该数据集包含22个变量,2938个样本,描述关于193个国家从2000年到2015预期寿命及其影响因素的全部数据或部分数据,这意味着有20个预测变量,经过预处理,即删除缺失值等后共获取1649个样本,其中包含133个国家从2000年到2015年的全部数据或部分数据。数据集各个变量描述如下:
X1:年份;X2:国家状态(发展中国家:1,发达国家:2);X3:每1000人中的成人(15至60岁)死亡数;X4:每1000人中的未成年人死亡数;X5:15岁以上人均酒精消费量(纯酒精升数);X6:卫生支出占人均国内生产总值的百分比;X7:1岁儿童乙型肝炎(HepB)免疫接种覆盖率;X8:每1000人中报告的麻疹病例数;X9:全部人口的平均体重指数;X10:每1000人中五岁以下死亡人数;X11:1岁儿童脊髓灰质炎(Pol3)免疫接种覆盖率;X12:政府卫生总支出占政府总支出的百分比;X13:1岁儿童白喉、破伤风和百日咳疫苗接种覆盖率;X14:每1000名活产婴儿中的艾滋病毒/艾滋病死亡人数(0~4岁);X15:人均国内生产总值(美元);X16:人口数;X17:10至19岁儿童和青少年的偏瘦率;X18:5至9岁儿童的偏瘦率;X19:资源收入构成方面的人类发展指数(0~1);X20:受教育年限;Y:预期寿命。
假设各国人预期寿命与这些因素呈线性关系,即有如下线性模型:
其中
表示第i个样本的预期寿命,
是它的第j个变量,
是均值为0,方差为
的i.i.d的随机误差项。
首先将数据划分为训练集(90%)及测试集(10%),在训练集上选择模型,在测试集上预测并计算预测误差(PE),PE定义如下:
基于不同准则,利用最小二乘估计(OLS)、Lasso估计分析该数据。变量选择结果如表3所示。从表3可以看出,无罚的最小二乘估计(OLS)选择了所有的变量(由于小数精度原因,其中有3个变量系数绝对值为0.0000);AIC、BIC及CV均选择了16个变量,其中AIC及BIC估计结果相同;MAIC则选择了最少的12个变量,在选择了相对稀疏的模型的同时,误差并没有明显增大,R2值接近最小二乘。不同方法选择的模型在测试集上预测误差以及R2值如表4所示,因此该用方法作变量选择效果更好。

Table 3. Parameter estimation under different methods
表3. 不同方法下的参数估计

Table 4. Prediction error of models selected under different methods on test set
表4. 不同方法下选择模型在测试集上的预测误差
5. 结论
本文提出了MAIC准则选择Lasso正则化参数,它不仅适用于低维情况,而且也适用于高维情况。模拟结果表明,MAIC方法满足变量选择的一致性。此外,与BIC型选择器相比,MAIC方法在高维情况下表现得更好。当然,本文还没有讨论MAIC方法的理论性质,如变量选择的一致性,这将是未来的研究课题。此外,本文提出的MAIC准则可以推广到非凸罚方法(如SCAD和MCP等)的正则化参数选择。
基金项目
国家级大学生创新创业训练计划项目(202211058015);宁波市自然科学基金项目(2021J143, 2021J144)。
NOTES
*通讯作者。