1. 引言
充分就业是我国宏观经济四大发展目标之一。然而,随着经济结构转型升级,就业市场供需结构发生变化,结构性失业已成为我国面临的重大挑战。失业率作为反映经济健康状况[1]和劳动力配置合理性的关键指标[2],失业率的高低直接影响着经济增长与社会稳定。政府依据失业率数据制定经济政策,而劳动力市场效率也需通过失业率来评估。因此,准确预测失业率,以便前瞻性制定政策至关重要。西南地区人口众多,约占全国总人口15%,经济规模庞大,GDP总和超过全国GDP的10%,涵盖制造业、服务业和农业三大行业。但经济结构转型带来的结构性失业问题必须予以重视。对该地区城镇登记失业率进行深入分析预测,可为政府制定精准就业政策提供数据支持,有效应对结构性失业挑战。
纵向数据是指对一系列实验个体随着时间的演变进行跟踪测量得到的数据[3]。假设现有n个个体,每个个体被观测m次,每一次观测记录一个响应变量
,那么最终可以得到
个数据,将其记作
,这就是纵向数据。
在纵向数据分析中,边际模型是一种常用的模型,它对响应变量的条件均值
建模,其中
,它表示第i个个体第j观测的设计解释向量。具体的边际模型表达式为:
(1)
其中
表示对均值
的某种变换,
是可逆函数。
是对应的系数向量,
则代表了线性预测部分。
Liang和Zeger (1986) [4]提出的广义估计方程(GEE),已成为解决边际模型(式子(1))参数估计问题的主流方法。关于GEE的大样本性质可参看文献[5]-[7]。李[8]在2022年的研究中,运用GEE构建了医药上市公司的财务预警模型,相比支持向量机和逻辑回归模型,GEE在识别财务危机公司方面表现出色。赵等人(2022) [9]则对比了一般线性模型、广义估计方程及混合效应模型在医疗器械试验纵向数据中的表现,发现GEE能更准确地估计组间真实疗效。面对多参数情况,为构建简洁、易解释且高效的模型,需通过有效变量选择方法剔除对预测贡献较小的特征。Wang等人(2012) [10]结合SCAD惩罚[11]提出了惩罚广义估计方程(PGEE),并且证明了当协变量的数量
随着个体数n数量的增加而增加,并且
达到与n相同的数量级时,PGEE即使错误指定了工作相关结构,模型选择的一致性也保持不变。曹红艳等[12]采用GEE和PGEE识别小鼠糖尿病发病相关的数量性状位点,后经过实验发现PGEE对小鼠糖尿病发病关联位点筛选效果更好。
为了解决西南五地的城镇登记失业率预测问题,本文将使用GEE与PGEE方法,对西南五个地区城镇登记失业率进行建模和预警,希望对西南地区城镇登记失业率的预测有参考价值。
2. 西南地区城镇登记失业率实证分析理论部分介绍
2.1. 广义估计方程
广义估计方程使用相关工作矩阵代替真实的相关系数矩阵,通过求解下式(2),来获得参数
的估计值:
, (2)
其中
。
。
。
是一个给定的工作相关矩阵,用来代替真实的相关系数矩阵
。工作相关矩阵
包括但不限于q步相依结构、等相关结构、一阶自回归结构、不确定性相关结构。
可以使用Fisher得分迭代算法求解公式(2)中的参数
,更新迭代公式为:
, (3)
其中,
。
2.2. 惩罚广义估计方程
SCAD (Smoothly Clipped Absolute Deviation)在LASSO惩罚的基础上进行了改进,克服了LASSO惩罚估计有偏的缺点。具体来说,SCAD惩罚函数
是由其导数
定义的:
. (4)
惩罚广义估计方程(PGEE)通过引入SCAD惩罚项的导数至广义估计方程中,实现了对纵向数据的有效变量选择。待估计的参数向量
依据以下等式进行求解:
, (5)
其中
,
是一个
维向量,
决定了惩罚的强度,
是一个
维向量,
,在这里第一个元素为0的原因是:截距项的系数不需要进行惩罚。
对于公式(5),Wang等人(2012)使用牛顿迭代算法来估计参数
,更新迭代公式为:
, (6)
,
,e是一个大于0且非常小的数(例如e可取1 × 10−6)。
2.3. 惩罚广义估计方程中的
的选择
由于本文共n个个体,为了不遗失相关性信息,本文选择使用n折交叉验证法来选择惩罚参数
。假设全部数据集为T,记交叉验证训练集和交叉验证测试集分别为
与
,这里
。在这里本文使用的损失函数为独立假设下对数似然函数的负数,即:
(7)
其中
是使用训练集
估计出的参数,
是第i个个体第j次观测的对数似然函数。最优
通过最小化公式(7)来获得,即:
. (8)
3. 西南地区城镇登记失业率实证分析
3.1. 城镇登记失业率纵向数据来源以及描述性统计分析
本文收集选取1997年至2023年我国西南地区(包括四川、重庆、贵州、云南及西藏)的面板数据,数据来源于《中国统计年鉴》。部分缺失值采用KNN插值法[13]填补,并对部分变量进行处理。表1是本文所使用的变量以及其描述性统计分析。
部分指标的解释说明如下:
1) X6:总抚养比也称总负担系数
,描述每10名劳动年龄人口大致要负担多少名非劳动年龄人口。
2) X7:15岁及以上文盲比(十分之)
,是根据抽查数据计算所得。
3) X13:普高毕业生比(千分之)
。
图1展示了各个变量之间的相关性热图,可以看到大多数解释变量之间有较强的正相关关系,这表明这些解释变量之间在一定程度上相互关联。
图2展现了Y、X1~X13在不同地区随时间的变化情况。不同地区失业率Y有所波动,图中黑色的
Table 1. Dataset variables and descriptive statistical analysis
表1. 数据集变量以及描述性统计分析
符号 |
变量名称 |
最大值 |
最小值 |
均值 |
标准差 |
Y |
城镇登记失业率(百分之) |
7.10 |
2.20 |
3.75 |
0.71 |
X1 |
省内GDP (万亿元) |
6.01 |
0.01 |
1.08 |
1.28 |
X2 |
人均GDP (万元) |
9.41 |
0.23 |
2.66 |
2.28 |
X3 |
城镇居民消费水平(万元) |
3.01 |
0.38 |
1.39 |
0.75 |
X4 |
年末常住人口(千万人) |
8.55 |
0.25 |
3.95 |
2.58 |
X5 |
人口自然增长率(千分之) |
16.00 |
−2.65 |
6.68 |
3.83 |
X6 |
总抚养比(十分之) |
5.76 |
3.66 |
4.45 |
0.42 |
X7 |
15岁及以上文盲比(十分之) |
6.62 |
0.15 |
1.76 |
1.35 |
X8 |
居民消费价格指数(上年 = 1) |
1.08 |
0.96 |
1.02 |
0.02 |
X9 |
商品零售价格指数(上年 = 1) |
1.07 |
0.95 |
1.01 |
0.02 |
X10 |
城镇居民人均可支配收入(万元) |
5.19 |
0.44 |
1.97 |
1.33 |
X11 |
农村居民人均可支配收入(万元) |
2.08 |
0.12 |
0.67 |
0.54 |
X12 |
普高毕业生人数(十万人) |
5.05 |
0.02 |
1.80 |
1.47 |
X13 |
普高毕业生比(千分之) |
8.82 |
0.61 |
4.45 |
2.16 |
Figure 1. Variable correlation heatmap
图1. 变量相关性热图
Figure 2. Regional time series of response and explanatory variables
图2. 各地区响应变量、解释变量随时间变化
虚线代表五个地区的均值。各地区省内GDP(万亿元) X1显著增长,尤其是四川,表明经济总量持续发展。各地区人均GDP (万元) X2起初较低,但至2020年,四川和重庆突破7万元大关,增速明显。城镇居民消费水平(万元) X3显示总体上升趋势,但区域差异明显,西藏增长较慢。年末常住人口(万人) X4显示总体上升趋势,但区域差异明显。人口自然增长率(千分之) X5反映了普遍下降的人口结构变化。总抚养比(十分之) X6区域波动显著,贵州值高于其他地区。15岁及以上文盲比(十分之) X7显著下降,西藏文盲率仍高于其他地区。居民消费价格指数X8和商品零售价格指数X9多数年份大于1。城镇和农村居民人均可支配收入(万元) X10和X11的增长趋势反映了西南地区经济持续向好。普通高中毕业生数(十万人) X12和普高毕业生比(千分之) X13均呈增长趋势,四川与重庆增长尤为突出,其他地区紧随其后,显示高等教育发展的显著成效。
3.2. 西南地区城镇登记失业率边际模型建立
文章使用R软件fitdistrplus包中的fitdist()函数检验响应变量Y是否服从Gamma分布,结果见图3的四幅小图。通过直方图、Q-Q图、经验累积分布函数图和P-P图的比较,结果显示响应变量Y与Gamma分布拟合良好,因此认为响应变量服从Gamma分布。
郭等人(2022) [14]使用对数连接函数作为Gamma分布的连接函数建立广义线性模型,仇等人(2012) [15]使用Gamma回归模型对商业医疗保险损失进行建模,受此启发本文建立如下Gamma回归边际模型来拟合西南地区城镇登记失业率面板数据:
. (9)
Figure 3. Gamma distribution fit plot
图3. Gamma分布检验图
3.3. 西南地区城镇登记失业率边际模型参数估计计算细节
本文的目的是建立西南五个地区的城镇登记失业率预测模型,为了能够更加准确地预测未来失业率,本文选择这五个地区2018~2023这6年的数据作为测试集。剩余1997~2022年这21年的数据作为训练集用于参数估计。为了能够估算出更精确更有预测力的参数,本文分别采用GEE-AR (1)自相关、GEE-独立相关、GEE-可交换相关,以及能够执行变量筛选的PGEE-AR (1)自相关、PGEE-独立相关、PGEE-可交换相关,这6个方法进行参数估计。本文使用测试集的MSE、MAE、MAPE来评估模型的好坏。测试集MSE、MAE、MAPE越小认为模型的预测能力越强。
3.3.1. PGEE方法惩罚参数
的选择过程
在此案例中,作者设定惩罚参数
的取值范围为(0.01, 0.3),间隔为0.01。使用5折交叉验证法选择最优的
。不同
的取值造成的损失见下图4。可以看到当
的值设定为0.13时造成的损失最小,为4.79。本文将
作为PGEE-AR (1)自相关、PGEE-独立相关、PGEE-可交换相关这三种方法惩罚参数的大小。
Figure 4. Losses incurred by different values of
图4. 不同
取值造成的损失
3.3.3. 参数
的估计结果
使用以上6种方法的参数估计结果见下表2以及对应的训练集测试集MSE见下表3。使用PGEE的三种方法,均实现了变量选择,筛选出来了9个关键变量,它们分别是X1 (省内GDP(万亿元)) X2 (人均GDP(万元))、X4 (年末常住人口(千万人))、X5 (人口自然增长率(千分之))、X8 (居民消费价格指数(上年 = 1))、X9 (商品零售价格指数(上年 = 1))、X10 (城镇居民人均可支配收入(万元))、X12 (普高毕业生人数(十万人))与X13 (普高毕业生比(千分之))。观察发现,在PGEE方法下采用三种不同的工作相关矩阵结构所得到的测试集MSE分别为0.207、0.209、0.209,这些值均小于GEE方法下的测试集MSE,说明PGEE方法在预测上更有优势,并且PGEE方法起到了减少变量数量的作用,更有利于进行模型解释。PGEE-AR (1)方法比其余两种有着更小的MAE、MAPE,分别是0.32、8.85%。
3.4. 西南地区城镇登记失业率预测模型与预测效果展示
由于PGEE-AR (1)结构得到的测试集MSE、MAE、MAPE最小,因此本文选择此模型作为预测模型:
(10)
X1 (省内GDP(万亿元))系数为正(0.028),这表明在其他因素不变的情况下,省内GDP的增加与城镇失业率的增加存在正相关关系。这看似违反直觉,可能的原因是:模型中没有考虑其他重要因素,例如产业结构升级、技术进步等。GDP增长可能伴随着产业结构调整,一些劳动密集型产业衰退,导致失业率上升。或者GDP增长主要体现在资本密集型产业,就业岗位增加有限。
X2 (人均GDP(万元))系数为负(−0.008),这表明人均GDP的增加与城镇失业率的降低存在正相关
Table 2. Comparison of parameter estimates from six methods: GEE and PGEE
表2. GEE、PGEE六种方法参数估计对比
方法 变量 |
GEE-AR (1) |
GEE-独立 |
GEE-可交换 |
PGEE-AR (1) |
PGEE-独立 |
PGEE-可交换 |
截距 |
1.303 |
1.197 |
1.288 |
0.759 |
0.751 |
0.753 |
X1 |
0.103 |
0.177 |
0.170 |
0.028 |
0.031 |
0.030 |
X2 |
0.014 |
−0.043 |
−0.204 |
−0.008 |
−0.009 |
−0.008 |
X3 |
0.108 |
0.292 |
0.475 |
0 |
0 |
0 |
X4 |
−0.039 |
−0.027 |
−0.033 |
−0.017 |
−0.017 |
−0.017 |
X5 |
0 |
−0.008 |
−0.011 |
−0.006 |
−0.006 |
−0.006 |
X6 |
−0.031 |
−0.061 |
−0.061 |
0 |
0 |
0 |
X7 |
−0.012 |
0.018 |
0.042 |
0 |
0 |
0 |
X8 |
−3.413 |
−3.932 |
−4.373 |
−3.689 |
−3.682 |
−3.681 |
X9 |
3.955 |
4.645 |
4.961 |
4.544 |
4.547 |
4.544 |
X10 |
−0.119 |
−0.217 |
−0.553 |
−0.085 |
−0.087 |
−0.087 |
X11 |
−0.433 |
−0.427 |
0.701 |
0 |
0 |
0 |
X12 |
0.096 |
0.038 |
0.026 |
0.064 |
0.063 |
0.063 |
X13 |
−0.043 |
−0.024 |
0.005 |
−0.032 |
−0.032 |
−0.031 |
Table 3. Comparison of prediction effects of six methods: GEE and PGEE
表3. GEE、PGEE六种方法预测效果对比
方法 评判规则 |
GEE-AR (1) |
GEE-独立 |
GEE-可交换 |
PGEE-AR (1) |
PGEE-独立 |
PGEE-可交换 |
MSE |
1.303 |
1.197 |
1.288 |
0.207 |
0.209 |
0.209 |
MAE |
1.057 |
0.733 |
1.302 |
0.320 |
0.324 |
0.324 |
MAPE |
31.27% |
21.39% |
38.51% |
8.85% |
8.96% |
8.96% |
关系。这符合预期,人均GDP提高通常意味着经济发展水平提升,就业机会增加,从而降低失业率。
X4 (年末常住人口(千万人))系数为负(−0.017)这表明人口规模的增加与城镇失业率的降低存在正相关关系。这可能反映了人口增加说明该地区的经济发展状况好,吸引了外地劳动力来此发展,该地区的就业机会多。
X5 (人口自然增长率(千分之))系数为负(−0.006),这表明人口自然增长率的增加与城镇失业率的降低存在正相关关系。它与X4的解释类似。
X8 (居民消费价格指数(上一年 = 1))系数为负(−3.689),这表明居民消费价格指数的增加与城镇失业率的显著降低存在正相关关系。这可能反映了通货膨胀对失业率的影响较为复杂,需要进一步分析。一个可能的解释是,通货膨胀可能导致企业增加生产,从而增加就业机会。
X9 (商品零售价格指数(上一年 = 1))系数为正(4.544),这表明商品零售价格指数的增加与城镇失业率的显著增加存在正相关关系。这与X8形成对比,可能反映了不同价格指数对经济的影响差异,或者模型中存在遗漏变量。
X10 (城镇居民人均可支配收入(万元))系数为负(−0.085),这表明城镇居民人均可支配收入的增加与城镇失业率的降低存在正相关关系。这符合预期,收入增加通常意味着消费增加,带动经济增长,从而减少失业。
X12 (普高毕业生人数(十万人))系数为正(0.064),这表明普高毕业生人数的增加与城镇失业率的增加存在正相关关系。这可能是因为新增毕业生进入劳动力市场,增加了就业竞争压力。
X13普高毕业生比(千分之)系数为负(−0.032),这表明普高毕业生比例的增加与城镇失业率的降低存在正相关关系。这可能是因为普高毕业生比例增加可能反映了经济结构的调整和产业升级。一些高附加值产业对高技能劳动力的需求增加,而普高毕业生能够更好地适应这些产业的需求,从而降低了整体失业率。
使用PGEE-AR (1)方法分别对四川、重庆、贵州、云南、西藏的测试集数据进行预测,效果图见下图5,其中黑色的折线代表预测值。
Figure 5. Prediction effect plot of the PGEE-AR (1) method
图5. PGEE-AR (1)方法预测效果图
4. 总结与反思
本文建立Gamma边际模型对西南地区城镇登记失业率进行拟合,本文使用GEE-AR (1)自相关、GEE-独立相关、GEE-可交换相关、PGEE-AR (1)自相关、PGEE-独立相关和PGEE-可交换相关这6个方法对边际模型中的参数进行估算。实验发现当惩罚参数
设定为0.13时,使用PGEE-可交换相关方法获得的回归模型预测效果好于其他5个方法,可以用于未来的城镇登记失业率预测。但是本文最终选择的边际模型存在变量系数正负情况与实际情况不相符的情况,这可能与本文所使用的数据量小有关。在未来的研究中,可以考虑增加样本量、结合经济学理论选择更具代表的解释变量、增加解释变量的个数以及探讨变量之间的交互作用和非线性关系。