1. 引言
经验似然(Empirical Likelihood, EL)方法作为一种非参数或半参数的统计推断方法,自Owen [1]提出以来,受到了广泛的关注和应用。经验似然方法通过最大化经验似然函数,能够在不需要假设数据分布的情况下,灵活地处理复杂的统计问题。其核心思想是利用观测数据的经验分布来构造似然函数,从而进行参数估计和假设检验。经验似然方法的一个重要优势在于其能够自然地结合矩条件,处理带有约束条件的统计模型。
然而,经验似然方法在处理复杂模型时,可能会面临计算效率低下或模型灵活性不足的问题。为了解决这些问题,广义经验似然方法(Generalized Empirical Likelihood, GEL)应运而生。广义经验似然方法是对传统经验似然方法的扩展,它不仅保留了经验似然的灵活性,还通过引入更一般的权重函数和优化目标,进一步提高了模型的适应性和计算效率。广义经验似然方法的核心思想是通过最大化一个广义的经验似然函数,同时满足一组矩条件,从而实现对模型参数的有效估计。在1994年,Qin和Lawless [2]将经验似然方法与一般估计方程相结合,提出了广义经验似然方法。Wooldridge [3]提出:使用条件选择概率的估计量,而非真实值,有助于提高逆概率加权方法(Inverse Probability Weighting, IPW)矩估计量的渐进效率。
广义经验似然方法的一个重要应用领域是因果推断,特别是在估计平均处理效应时。基于潜在结果模型的因果推断最早由Rubin [4]在1974年提出,并将其扩展到了非实验数据和观察性研究。Zhao和Percival [5]提出,在不设定模型的情况下,熵平衡法相对于线性结果回归和逻辑回归的倾向评分具有双重稳健性,但该方法有许多限制。Zhang等[6]针对高维时间序列数据,提出了基于平滑矩函数的惩罚GEL。通过引入Lasso惩罚项,实现了变量选择与参数估计的统一。Hill [7]针对自回归模型中存在重尾误差和条件异方差的问题,提出了一种稳健的GEL估计方法。Ogata [8]针对金融数据的非正态性情况,将GEL扩展至多元稳定分布参数估计。牛翔宇等[9]在响应变量随机缺失时,提出经验似然距离、经验Cook距离等诊断统计量。通过随机模拟验证,使用GEL方法较传统正态逼近在置信区间覆盖率上提升了10%~15%。Guggenberger等[10]提出在弱工具变量场景下,GEL估计量的渐近分布与检验统计量设计。Jin等[11]将GEL扩展至高阶空间自回归模型,利用鞅结构构建估计方程。Li和Qin [12]提出动态面板数据的GEL估计方法,解决了固定效应与内生性问题。
在因果推断中,广义经验似然方法在过度识别的情况下,能够确保处理效应的估计是稳健的,并可通过过度识别检验(如LR检验)来验证模型设定的合理性。基于逆概率加权的广义经验似然方法作为融合了逆概率加权和广义经验似然理论,能够在复杂的数据结构和模型设定下,实现对参数的有效估计和精确推断,尤其在处理存在缺失数据、非正态分布数据等问题时展现出独特的优势。
本文探讨基于逆概率加权方法的广义经验似然方法在评估职业培训项目效果中的应用,本文的结构如下:第二部分介绍逆概率加权方法和广义经验似然方法的基本理论;第三部分详细描述数据集;第四部分根据第二部分理论计算分析结果;第五部分总结全文。
2. 方法介绍
2.1. 广义经验似然方法
Owen (1988) [1]提出经验似然(EL)方法以观测的经验分布为基点,对于
维的参数向量
以及独立观测样本
,经验似然函数为:
(2.1)
其中,
是样本
对应的概率,且满足约束条件
和
。传统经验似然通过最大化
得到参数的估计值
。对数经验似然比统计量
渐近服从自由度为
的卡方分布
。
广义经验似然方法(GEL)是经验似然方法的拓展,不需要经验分布的等权重假设,通过引入距离函数(如指数倾斜、对数差异)调整权重,形成更灵活的似然形式。核心思想是在满足矩的条件的前提下,寻找与经验分布“最接近”的概率分布。对于样本
,满足
维的矩条件
,且
。广义经验似然方法通过最大化广义经验似然函数求解,
(2.2)
约束条件为:
(2.3)
(2.4)
其中,
。引入函数
的目的是度量概率
与经验分布权重
之间的差异,
是散度参数。当
,即
时,公式(2.2)退化为传统的经验似然估计量。
Corcoran [13]提出,对公式(2.2)引入
维的拉格朗日乘子向量
,方程(2.3)和(2.4)的解等同于以下关于和
和
的极值问题的解为:
(2.5)
其中,
是一个关于
的函数,在其定义域内是凹函数。当
时,退化为经验似然估计量;当
,为指数倾斜估计量(Empirical Transformation, ET);当
时,为连续更新估计量(Continuously Updating Estimator, CUE)。基于满足公式(2.5)的估计量
和
,概率
的估计值为:
(2.6)
重新代入公式(2.2)~(2.4),最终通过迭代求解
。
在一定的正则条件下,广义经验似然估计量
(2.7)
渐近服从自由度为
的卡方分布,且效率达到Cramér-Rao下界。
广义经验似然方法无需假设数据分布,仅依赖矩条件的存在性,适用于异质性、非正态数据,估计的偏差更小。
2.2. 基于逆概率加权的平均处理效应的估计
在观察性研究中,处理组和对照组的个体特征可能存在差异,一般用平均处理效应(Average Treatment Effect, ATE)度量。
设
表示观测样本结果变量,其对应的处理变量为
,协变量为
。当
时,表示样本接受处理,
时,表示未接受处理。将样本分为处理组和对照组。
平均处理效应定义为:
(2.8)
在观察性研究中,处理组和对照组的个体特征
可能存在差异,这些差异会干扰对平均处理效应的准确估计,即存在混杂因素。
逆概率加权法(IPW)的本质是在观测数据中模拟随机对照试验,通过“加权”消除个体选择处理(如治疗、受教育)带来的偏差,从而达到无偏估计处理对结果的平均因果效应。常用的逆概率加权方法,是通过影响处理的混杂因素的倾向得分计算权重,调整每个样本的贡献,使得加权后的分布类似随机试验。
Rosenbaum和Rubin [14]在1983年首先提出倾向得分的概念,即
(2.9)
表示在协变量
下个体接受处理的概率。多维协变量压缩为一维,但保留所有混杂信息。
倾向得分是个体接受处理的条件概率,通过它可以平衡处理组和对照组在协变量上的分布。当处理组和对照组在协变量上分布平衡后,能减少样本选择偏差。估计倾向得分时常用的模型为logit模型,将线性回归结果转换为介于0~1之间的概率值,实现对目标变量的概率预测。logit模型为:
(2.10)
其中,
为模型
维的参数向量。在实际应用中,倾向得分往往是未知的,需要用最大似然估计法来估计模型参数
。模型(2.10)参数的得分向量为:
(2.11)
其中,
。
为了估计平均处理效应
,用倾向得分对样本进行加权调整,对处理组赋予权重
,对照组赋予权重
。
得到
(2.12)
加权后,根据公式(2.17)可得出基于逆概率加权估计的平均处理效应估计量为:
(2.13)
2.3. 基于GEL-IPW平均处理效应的估计
不失一般性,以常用线性回归模型为例,考虑模型
其中,
为
维参数向量,
为随机误差项,且满足
,
。由最小二乘法得到模型的正规方程,设定矩条件为:
(2.14)
对于有处理变量
的观测样本
,将倾向得分作为调整的权重引入公式(2.12)。则在条件独立假设的设定下,在IPW方法中满足的矩条件是:
倾向得分向量满足的矩条件是:
(2.15)
令
,将上述的条件联合,基于约束条件(2.3)和(2.4),得到GEL-IPW方法矩条件方程:
(2.16)
利用式(2.2)~(2.4),采用迭代算法来求解上述联合矩估计方程中的参数估计值
,检验统计量公式(2.7)服从卡方分布
。
3. 数据模拟
为确定GEL-IPW方法的稳健性,本文进行一项模拟研究。
3.1. 模拟参数设定
设
为协变量特征向量,
为结果变量,
为处理变量,
时表示接受处理,
时表示未接受处理。处理组和对照组的结果变量
分别由线性回归模型生成
其中,协变量
和
互独立,随机误差项
和
互相独立,并都服从标准正态分布。为模拟结果模型错误设置的情况,设置错误结果估计模型为:
模拟中设定真实的倾向得分为logit回归模型
为模拟倾向得分模型被错误设定的情况,设定倾向得分被错误指定为:
为观察处理分配对估计量的影响,选取参数
的值分别为
。在这三种情况下,正确的倾向得分均值分别为59.98%、56.16%、53.3%,错误的倾向得分均值为60.42%、56.86%、54.18%,设定样本量n为500,模拟重复次数2000次。
3.2. 模拟结果
当倾向得分模型被正确设定时,各方法的估计结果见表1。
Table 1. Estimation values when the propensity score model is set correctly
表1. 倾向得分模型设定正确情况下的估计值
|
|
|
|
均值 |
标准差 |
偏差 |
均值 |
标准差 |
偏差 |
均值 |
标准差 |
偏差 |
|
结果模型设定正确 |
|
1.8421 |
0.6299 |
0.8421 |
2.5507 |
1.6804 |
1.5507 |
3.0061 |
1.7234 |
2.0061 |
|
0.9922 |
0.4573 |
−0.0078 |
0.9965 |
0.4673 |
−0.0035 |
0.9771 |
0.4681 |
−0.0229 |
|
0.9719 |
0.2705 |
−0.0281 |
0.9872 |
0.3705 |
−0.0128 |
0.9822 |
0.5932 |
−0.0178 |
|
结果模型设定错误 |
|
2.0839 |
0.5897 |
1.0839 |
2.9711 |
1.2463 |
1.9711 |
3.5531 |
1.4894 |
2.5531 |
|
0.9818 |
0.2851 |
−0.0182 |
1.7859 |
0.3838 |
0.7859 |
0.7983 |
0.6729 |
−0.2017 |
|
0.9829 |
0.2578 |
−0.0171 |
0.9399 |
0.5842 |
−0.0600 |
0.8890 |
0.6983 |
−0.1109 |
当倾向得分模型被错误设定时,各方法的估计结果见表2。
Table 2. Estimation values when the propensity score model is set wrongly
表2. 倾向得分模型错误情况下的估计值
|
|
|
|
均值 |
标准差 |
偏差 |
均值 |
标准差 |
偏差 |
均值 |
标准差 |
偏差 |
|
结果模型设定正确 |
|
2.8421 |
0.8421 |
1.8421 |
3.5507 |
1.5507 |
2.5507 |
4.0061 |
2.0061 |
3.0061 |
|
1.0248 |
0.5391 |
0.0248 |
0.9643 |
0.5962 |
−0.0357 |
1.0885 |
0.7480 |
0.0885 |
|
1.0211 |
0.3327 |
0.0211 |
1.0267 |
0.4582 |
0.0267 |
1.0798 |
0.4893 |
0.0798 |
|
结果模型设定错误 |
|
2.0005 |
0.6328 |
1.0005 |
2.8988 |
1.3880 |
1.8988 |
3.5657 |
1.5164 |
2.5657 |
|
0.0632 |
0.4210 |
−0.9368 |
2.3207 |
1.4694 |
1.3207 |
4.5269 |
1.5334 |
3.5269 |
|
1.0942 |
0.5538 |
0.0942 |
1.1011 |
0.5932 |
0.1011 |
1.1598 |
0.7638 |
0.1598 |
从模拟中可看出,GEL-IPW方法在四种情况中都较为稳健。
4. 实例分析
4.1. 数据集描述
本节实例分析了职业培训对收入影响效应的案例。数据名称为NSW的数据集,可以从R软件包causaldata得到。数据集记录的是美国联邦政府资助的一个示范项目,时间是从20世纪70年代中期开始,旨在为那些在加入项目之前面临经济和社会问题的个人提供12至18个月的职业培训工作,评估项目参与者参加培训的效果。数据集包含722个观测值以及相关信息,其信息都是通过初始调查和社会保障局的记录获得,包括的信息有1978年的收入、是否接受职业培训、年龄、受教育年限、是否为黑人等等,具体研究指标变量见表3。
Table 3. Definition of variables and meaning
表3. 变量定义与意义
变量 |
定义 |
意义 |
re78 |
1978年的实际收入 |
结果变量(以千美元为单位) |
treat |
个体是否接受了职业培训 |
处理变量(1 = 接受培训,0 = 未接受培训) |
black |
是否为黑人 |
协变量(1 = 是,0 = 否) |
nodeg |
是否有学位 |
协变量(1 = 是,0 = 否) |
re75 |
1975年的实际收入 |
协变量(以千美元为单位) |
表4对个体相关情况进行统计性描述。
Table 4. Statistical description of variables
表4. 变量描述性统计
变量 |
最小值 |
中位数 |
最大值 |
均值 |
标准差 |
re78 |
0 |
3.9521 |
60.3070 |
6.3492 |
58.9124 |
treat |
0 |
0 |
1 |
0.4157 |
0.2432 |
black |
0 |
1 |
1 |
0.8427 |
0.1321 |
nodeg |
0 |
1 |
1 |
0.7079 |
0.2068 |
re75 |
0 |
0.9363 |
38.5700 |
1.5674 |
12.8901 |
4.2. 计算结果与分析
为了评估项目实施的效果,考虑1978年的收入(re78)与是否接受项目培训(treat)以及其他因素的影响,对于此数据集,建立如下线性回归模型:
(4.1)
回归方程的估计结果见表5。
Table 5. Parameter estimation results of the linear regression model
表5. 线性回归模型参数估计结果
变量 |
估计值 |
标准误 |
t值 |
p值 |
截距 |
6.4601 |
0.7289 |
8.863 |
0 |
treat |
0.8008 |
0.4667 |
1.716 |
0.0866 |
black |
−1.3954 |
0.5742 |
−2.430 |
0.0153 |
nodeg |
0.1753 |
0.0454 |
3.859 |
0.0001 |
re75 |
−0.9635 |
0.5562 |
−1.732 |
0.0837 |
基于表5分析表明:有学位(nodeg)和种族为黑色人种(black)在0.05的显著性水平上是显著的,接受培训(treat)和1975年收入(re75)在0.1显著性水平上显著。且有学位(nodeg)和接受培训(treat)有正向影响,种族为黑色人种(black)和1975年收入(re75)有负向影响。
由于回归方程(4.1)是显著的,所以以下矩条件成立是合理的:
(4.2)
考虑到项目开始时参与者是否选择参与培训(treat)可能也受到如当时的收入(re75)等因素的影响,接下来检验变量black、nodeg、re75对treat变量的影响,建立logit模型:
(4.3)
模型参数估计结果见表6。
Table 6. Parameter estimation results of the Logit model
表6. Logit模型参数估计结果
变量 |
估计值 |
标准误 |
z值 |
p值 |
截距 |
−0.0012 |
0.8599 |
0.505 |
0.6135 |
black |
0.0253 |
0.2635 |
−0.370 |
0.7116 |
nodeg |
−0.4815 |
0.1814 |
−2.654 |
0.0079 |
re75 |
−0.0015 |
0.0151 |
−0.101 |
0.9198 |
由表6分析表明:有学位(nodeg)在0.01水平上显著,且与接受培训(treat)负相关,说明logit回归模型成立,倾向得分是合理的,因此其对应矩条件为:
(4.4)
结合逆概率加权估计平均处理效应的定义,IPW-GEL的矩条件为:
(4.5)
将公式(4.5)中的
代入式(2.1)~(2.4)中,得到经验似然估计量,检验统计量渐近服从
分布。
最后根据公式(2.13)利用GEL-IPW方法计算平均处理效应,估计值结果见表7。根据广义经验似然方法计算的结果分别在第2行、第3行,为了和传统逆概率加权方法对比,利用传统逆概率加权方法估计的平均处理效应结果列在第1行。
Table 7. Estimated value of the average treatment effect
表7. 平均处理效应估计值
方法 |
估计值 |
标准误 |
t值 |
p值 |
|
0.7982 |
0.4803 |
1.6618 |
0.0969 |
|
0.7902 |
0.3996 |
1.9776 |
0.0734 |
|
0.7932 |
0.4088 |
1.9402 |
0.0768 |
|
0.7923 |
0.3951 |
2.0051 |
0.0709 |
表5分析表明:在接受职业培训的情况下,1978年个体的平均收入比未接受培训的个体平均高出约0.8千美元。
注意到由于上述分析1978年收入(re78)不服从正态分布,使用线性回归模型可能会产生偏差,广义经验似然方法属于非参数方法,对分布没有假设要求。
5. 结语
本文研究了基于逆概率加权的广义经验似然方法在平均处理效应估计中的应用。通过实证研究,验证了该方法在解决观察性研究中对于处理不符合正态分布数据的平均处理效应的有效性。GEL方法通过优化调整权重,避免了传统IPW方法中可能出现的数据偏态问题,将二者结合的GEL-IPW方法估计的结果较为精准稳健。
基金项目
本研究由2022年度辽宁省研究生教育教学改革研究项目(2022-180-39510165)资助。
NOTES
*通讯作者。