岭回归分析在研究城镇失业人数影响因素中的应用
Application of Ridge Regression Analysis in the Study of Factors Affecting the Number of Unemployed in Urban Areas
摘要: 江泽民同志曾说过:“就业是民生之本”。城镇失业问题一直是党和国家高度重视的问题之一,本文以来自国家统计年鉴2013~2022近十年的城镇失业人数为研究对象,选取了2013~2022年国民生产总值、全国财政支出、城镇居民消费水平指数为影响因素,采用最小二乘估计和岭估计方法,针对影响城镇失业人数的因素进行了研究。最终根据模型得出结论,国民生产总值和城镇居民消费水平指数对城镇失业人数有影响,并且城镇居民消费水平指数与城镇失业人数呈负相关。
Abstract: Comrade Zemin Jiang once said, “Employment is the basis of people’s livelihood”. Urban unemployment has always been one of the issues to which the Party and the State attach great importance. This paper takes the number of urban unemployed from the National Statistical Yearbook 2013~2022 in the past ten years as the object of study, selects the gross national product, the national financial expenditure, and the index of the consumption level of urban residents in the period of 2013~2022 as the influencing factors, and adopts the method of least squares estimation and ridge estimation, in order to research on the factors that affect the number of urban unemployed. Finally, according to the model, it is concluded that the GNP and the index of urban residents’ consumption level have influence on the number of urban unemployed, and the index of urban residents’ consumption level is negatively correlated with the number of urban unemployed.
文章引用:宋玥璇, 牟唯嫣. 岭回归分析在研究城镇失业人数影响因素中的应用[J]. 统计学与应用, 2023, 12(5): 1256-1263. https://doi.org/10.12677/SA.2023.125128

1. 引言

经过了2020年的新冠疫情之后,全球性金融经济危机爆发,中国企业也受到了影响,而随之出现的失业问题则成为当前中国面临的重大问题 [1] 。城镇失业人数的上升使得未就业人员面临巨大的压力,在对就业市场产生影响的同时,也是对国家稳定局面的冲击。党中央坚持以人民为中心的发展思想,为开创新的就业发展局面,需要充分发挥各项积极因素的作用,因此,完善这一方面的政府治理措施便显得尤为重要,对于提高就业质量、促进社会经济发展以及国家稳定具有十分重要的意义 [2] 。

国内生产总值(GDP)是指在一段时间内,一个国家或地区的经济中所生产出来的全部最终产品和劳务的价值,失业人数的上升通常反映着GDP的下降。政府在就业方面的投资性支出有助于缓解失业压力。通常来讲,居民消费水平指数在一定程度上也与失业情况有所关联。

本文针对城镇失业问题,基于国家统计年鉴上的数据对最小二乘估计和岭估计方法进行了分析,结果表明岭估计的回归效果较好,并得出结论,城镇失业人数主要受GDP和城镇居民消费水平指数影响。

2. 指标体系与数据来源

本文数据来源于国家统计年鉴2013~2022近十年的数据,所选变量为:城镇失业人数(万人),国内生产总值(亿元),国家财政支出(亿元),城镇居民消费水平指数(以1978年为基期)。其中,被解释变量Y为城镇失业人数,解释变量X1为国内生产总值,X2为国家财政支出,X3为城镇居民消费水平指数。所选指标体系见表1,原始数据见附录表1

Table 1. System of data indicators

表1. 数据指标体系

3. 模型的建立与研究

含有p − 1个自变量的理论线性回归模型的一般形式为:

Y = β 0 X 0 + β 1 X 1 + + β p 1 X p 1 + e

如果对自变量 x 1 , , x p 1 和因变量Y进行n次观察,则可以得到n组数据,并满足等式:

y i = β 0 + β 1 x i 1 + + β p 1 x i p 1 + e i i = 1 , , n

y = ( y 1 y 2 ... y n ) , X = ( 1 x 11 ... x 1 , p 1 1 x 21 ... x 2 , p 1 ... ... ... 1 x n 1 ... x n , p 1 ) , β = ( β 0 β 1 ... β p 1 ) , e = ( e 0 e 1 ... e n )

如果满足 r ( X ) = p , e i ( i = 1 , , n ) 互不相关,均值皆为零,且有公共方差 σ 2 ,则线性回归模型可以写为:

y = X β + e , E ( e ) = 0 , C o v ( e ) = σ 2 I

本文主要应用最小二乘估计和岭估计方法,运用R语言及SPSS等软件,对数据进行统计分析。由于数据本身大小对分析结果可能造成影响,为消除变量间的量纲关系,使数据具有可比性,故对数据进行标准化处理,以便于对数据进行最小二乘估计与岭估计。标准化后的数据见附录表2

3.1. 相关性分析

Table 2. Correlation test

表2. 相关性检验

分析表2可知,Y与X1、X2、X3的相关系数均大于0.5,相关性较强,且显著性p值均小于0.05,也验证了Y与X1、X2、X3有显著相关性。尤其国内生产总值和国家财政支出对城镇失业人数的影响更大。

3.2. 最小二乘估计

在模型的参数估计中,最常见的一种拟合准则是经典的最小二乘法 [3] 。对于线性模型 y = X β + e ,其中X为设计矩阵,最小二乘法估计即是寻找β估计,使 Q ( β ^ ) = y X β ^ 2 达到最小。

3.2.1. 用最小二乘法对回归模型进行估计

图1可知,估计的多元回归模型为: y = 2.732 × 10 8 + 1.732 x 1 + 1.541 x 2 2.574 x 3

分析得,判定系数R2为0.8634,调整后的判定系数R2为0.7952,说明用LS方法估计的回归模型效果较好。整体检验的p值小于0.05,整体的显著性检验通过,即至少存在一个自变量对因变量的影响显著,而参数的t检验只有X1,X3显著,造成这种结果的原因可能是因为存在多重共线性,因此还需要进一步检验。

Figure 1. Least squares estimation results

图1. 最小二乘估计结果

使用最小二乘估计需要进行回归模型的基本条件检验。

首先检验残差的正态性。由图2可知,大部分点都落在了直线附近,故满足正态性假设。此外,通过采用Shapiro-Wilk检验和Kolmogorov-Smirnov检验,得到的p值均大于0.05,正态性检验通过。

Figure 2. Q-Q plot of the residual distribution

图2. 残差分布的Q-Q图

3.2.2. 多重共线性的检验

复共线性产生的原因是多方面的,一种是由于数据“收集”的局限性所致,原则上可以通过“收集”更多的数据来解决,但实现困难;另一种产生复共线性的原因是,自变量之间客观上就有近似的线性关系 [4] 。而最小二乘估计的性质理想与否与复共线性的存在与否息息相关,因此对数据进行复共线性的检验十分必要。本文采用的是扩大因子法(VIF),通过计算扩大因子的值来判断是否存在多重共线性,通过计算得到三个指标的方差扩大因子均大于10 (表3),故数据存在多重共线性。

Table 3. Value of variance expansion factor

表3. 方差扩大因子的值

3.3. 岭估计

岭回归法(Ridge Regression)是通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价来获得更实际和可靠性更强的回归系数。

当自变量间存在复共线性时,LS估计的性质不够理想 [4] 。此时可以考虑采用岭估计,从某种意义上讲,岭估计是LS估计的改进 [5] 。岭估计的均值不等于待估参数,属于有偏估计的一种。

3.3.1. 方法原理

对于线性回归模型: y = α 0 1 + X β + e , E ( E ) = 0 , C o v ( e ) = σ 2 I

回归系数β的岭估计定义为: β ^ ( k ) = ( X X + k I ) 1 X y

与LS估计相比,岭估计将X'X换成X'X + kI,从而“打破”复共线性的影响,具有比LS更小的均方误差。

3.3.2. 用岭迹法对回归模型进行估计

对于标准化后的变量,运用R语言绘制岭迹图(图3),并得出最优岭参数为k = 0.04。根据选择的岭

Figure 3. Mountain road map

图3. 岭迹图

回归参数进行岭回归,得到结果见图4

采用岭回归估计的多元回归模型为: y = 2.008 × 10 8 + 1.008 x 1 + 0.6934 x 2 1.012 x 3

Figure 4. Ridge regression for standardized data

图4. 标准化数据的岭回归

3.4. 最小二乘估计与岭估计的比较

比较两种方法预测的回归模型,解释变量的系数没有太大的差异,正负情况也相同。其中,自变量X1对因变量Y为正向影响,自变量X3对Y的影响为负向,而X2对Y的影响不显著,即城镇失业人数增多与国内生产总值的增加成正相关,而与城镇居民消费水平指数呈负相关。

3.4.1. 相关性比较

根据两种方法构建的回归方程分别计算预测的Y值,最小二乘法记为Y1,岭回归法记为Y2,分别与原始的Y值进行相关性比较。

Table 4. Correlation coefficient

表4. 相关系数

根据SPSS计算Y与Y1、Y2的相关系数,由表4可得,Y与Y1的相关系数为0.503,Y与Y2的相关系数为0.782,得出结论:岭回归模型预测的值与实际值更接近。同时比较标准化后数据的平均值,实际平均值为−0.9081242,最小二乘模型得出的预测平均值为−0.46338259,岭回归模型得出的预测平均值为−0.75986041,也提示岭回归模型的预测效果更好。

3.4.2. 均方误差比较

从理论上来讲,岭估计应该比LS估计有更小的均方预测误差(MSE),计算两种方法的MSE结果如图5所示。用岭迹法计算出来的均方预测误差小于LS估计计算出来的均方预测误差。

Figure 5. Comparison of mean square error between LS estimation and ridge estimation

图5. LS估计与岭估计的均方误差比较

4. 结论

通过上文对失业人数影响因素的探究可得出结论,城镇失业人数受GDP与城镇居民消费水平指数影响,且GDP与城镇失业人数呈正相关,而城镇居民消费水平指数与其呈负相关。事实上,随着GDP的增长,失业人数也一路上涨,高经济的增长并没有创造出令人期望的足够多的就业岗位。究其原因是多方面的,如:劳动力结构的变化,科技进步的影响使得越来越多的机器替代人类,以及区域性劳动力需求的影响等等。针对于城镇失业问题,本文的研究还不够全面,后续还可以选取更多的指标进行更细致的研究。

附录

Table 1. Original data

表1. 原始数据

Table 2. Standardized data

表2. 标准化后的数据

参考文献

[1] 牟雨慧. 基于logistic回归的山东省失业人员再就业影响因素研究[J]. 山东纺织经济, 2021(11): 25-29.
[2] 李祎涵. 数字经济对我国劳动力就业规模与结构的影响及对策研究[D]: [硕士学位论文]. 济南: 山东财经大学, 2023.
[3] 王福昌, 曹慧荣, 朱红霞. 经典最小二乘与全最小二乘法及其参数估计[J]. 统计与决策, 2009, 25(1): 16-17.
[4] 王松桂, 史建红, 尹素菊, 吴密霞, 编著. 线性模型引论[M]. 北京: 科学出版社, 2004.
[5] 李宏, 李建武, 莫荣, 等. 基于回归分析的失业预警建模实证研究[J]. 中国软科学, 2012(5): 138-147.