基于GEE与PGEE方法的西南地区城镇登记失业率分析

doi:10.12677/sa.2025.143074

期刊菜单

基于GEE与PGEE方法的西南地区城镇登记失业率分析
Analysis of Urban Registered Unemployment Rate in Southwest China Based on GEE and PGEE Methods

DOI: 10.12677/sa.2025.143074, PDF, HTML, XML,
作者: 陈思杨：西南大学数学与统计学院，重庆
关键词: 纵向数据；城镇登记失业率；边际模型；广义估计方程；惩罚广义估计方程；Longitudinal Data； Urban Registered Unemployment Rate； Marginal Model； Generalized Estimating Equation； Penalized Generalized Estimating Equation

摘要: 西南地区以其庞大的人口基数和经济规模著称，然而经济结构转型引发的结构性失业问题日益凸显。失业问题不仅加重了民众经济负担，还影响了社会稳定和劳动力资源的有效配置。失业率作为评估区域经济健康的关键指标，对社会稳定、民众生活质量和经济政策规划具有直接影响。为科学预测区域失业率，本文基于1997年至2023年西南地区的面板数据，构建了Gamma回归边际模型，并选用对数函数作为连接函数，使用R软件采用了AR (1)自相关、独立相关以及可交换相关工作矩阵结构下的广义估计方程(GEE)以及惩罚广义估计方程(PGEE)这6种方法进行了实证分析。结果显示，当惩罚参数

λ

设定为0.13时，采用PGEE-AR (1)自相关结构方法构建的模型预测性能最好，它的测试集MSE、MAE、MAPE分别为0.207、0.32、8.85，都小于其它5中方法。这一研究为经济转型期的失业率预测提供了科学依据。

Abstract: Southwest China, renowned for its large population and economic scale, faces increasingly prominent structural unemployment issues triggered by economic restructuring. Unemployment not only exacerbates financial burdens on residents but also threatens social stability and the efficient allocation of labor resources. As a critical indicator of regional economic health, the unemployment rate directly impacts social stability, quality of life, and economic policy planning. To scientifically predict regional unemployment trends, this study utilizes panel data from Southwest China (1997~2023) to construct a Gamma regression marginal model with a logarithmic link function. Employing R software, six methodological approaches—Generalized Estimating Equations (GEE) and Penalized Generalized Estimating Equations (PGEE) under AR (1) autocorrelation, independent, and exchangeable working correlation matrix structures—were applied for empirical analysis. Results show that the model constructed using the PGEE-AR (1) method with autocorrelation structure, with a penalty parameter

λ

set to 0.13, achieved the best prediction performance. Its test set MSE, MAE, and MAPE are 0.207, 0.32, and 8.85%, respectively, all lower than those of the other five methods. This research provides a scientific basis for unemployment rate prediction during the economic transition period.

文章引用：陈思杨. 基于GEE与PGEE方法的西南地区城镇登记失业率分析[J]. 统计学与应用, 2025, 14(3): 225-236. https://doi.org/10.12677/sa.2025.143074

1. 引言

充分就业是我国宏观经济四大发展目标之一。然而，随着经济结构转型升级，就业市场供需结构发生变化，结构性失业已成为我国面临的重大挑战。失业率作为反映经济健康状况[1]和劳动力配置合理性的关键指标[2]，失业率的高低直接影响着经济增长与社会稳定。政府依据失业率数据制定经济政策，而劳动力市场效率也需通过失业率来评估。因此，准确预测失业率，以便前瞻性制定政策至关重要。西南地区人口众多，约占全国总人口15%，经济规模庞大，GDP总和超过全国GDP的10%，涵盖制造业、服务业和农业三大行业。但经济结构转型带来的结构性失业问题必须予以重视。对该地区城镇登记失业率进行深入分析预测，可为政府制定精准就业政策提供数据支持，有效应对结构性失业挑战。

纵向数据是指对一系列实验个体随着时间的演变进行跟踪测量得到的数据[3]。假设现有n个个体，每个个体被观测m次，每一次观测记录一个响应变量 $Y_{i j}$ ，那么最终可以得到 $n \times m$ 个数据，将其记作 ${Y_{i j} : i = 1, \dots, n; j = 1, \dots, m}$ ，这就是纵向数据。

在纵向数据分析中，边际模型是一种常用的模型，它对响应变量的条件均值 $E (Y_{i j} | X_{i j}) = μ_{i j}$ 建模，其中 $X_{i j} = {(1, X_{i j 1}, X_{i j 2}, \dots, X_{i j p})}^{T}$ ，它表示第i个个体第j观测的设计解释向量。具体的边际模型表达式为：

$h (μ_{i j}) = X_{i j}^{T} β,$ (1)

其中 $h (μ_{i j})$ 表示对均值 $μ_{i j}$ 的某种变换， $h (\cdot)$ 是可逆函数。 $β = {(β_{0}, β_{1}, \dots, β_{p})}^{T}$ 是对应的系数向量， $X_{i j}^{T} β$ 则代表了线性预测部分。

Liang和Zeger (1986) [4]提出的广义估计方程(GEE)，已成为解决边际模型(式子(1))参数估计问题的主流方法。关于GEE的大样本性质可参看文献[5]-[7]。李[8]在2022年的研究中，运用GEE构建了医药上市公司的财务预警模型，相比支持向量机和逻辑回归模型，GEE在识别财务危机公司方面表现出色。赵等人(2022) [9]则对比了一般线性模型、广义估计方程及混合效应模型在医疗器械试验纵向数据中的表现，发现GEE能更准确地估计组间真实疗效。面对多参数情况，为构建简洁、易解释且高效的模型，需通过有效变量选择方法剔除对预测贡献较小的特征。Wang等人(2012) [10]结合SCAD惩罚[11]提出了惩罚广义估计方程(PGEE)，并且证明了当协变量的数量 $p_{n}$ 随着个体数n数量的增加而增加，并且 $p_{n}$ 达到与n相同的数量级时，PGEE即使错误指定了工作相关结构，模型选择的一致性也保持不变。曹红艳等[12]采用GEE和PGEE识别小鼠糖尿病发病相关的数量性状位点，后经过实验发现PGEE对小鼠糖尿病发病关联位点筛选效果更好。

为了解决西南五地的城镇登记失业率预测问题，本文将使用GEE与PGEE方法，对西南五个地区城镇登记失业率进行建模和预警，希望对西南地区城镇登记失业率的预测有参考价值。

2. 西南地区城镇登记失业率实证分析理论部分介绍

2.1. 广义估计方程

广义估计方程使用相关工作矩阵代替真实的相关系数矩阵，通过求解下式(2)，来获得参数 $β$ 的估计值：

$U_{1} (β) = \sum_{i = 1}^{n} D_{i} {(β)}^{T} A_{i}^{- \frac{1}{2}} (β) R_{i}^{- 1} (α) A_{i}^{- \frac{1}{2}} (β) (Y_{i} - μ_{i} (β)) = 0$ , (2)

其中 $D_{i} (β) = \frac{\partial μ_{i}}{\partial β} = {(\frac{\partial μ_{i j}}{\partial β_{k}})}_{j k} (j = 1, \dots, m; k = 0, 1, \dots, p)$ 。 $A_{i} (β) = diag (V (μ_{i 1}), \dots, V (μ_{i m}))$ 。 $V a r (Y_{i k}) = ϕ V (μ_{i k})$ 。 $R_{i} (α)$ 是一个给定的工作相关矩阵，用来代替真实的相关系数矩阵 $R_{i}$ 。工作相关矩阵 $R_{i} (α)$ 包括但不限于q步相依结构、等相关结构、一阶自回归结构、不确定性相关结构。

可以使用Fisher得分迭代算法求解公式(2)中的参数 $β$ ，更新迭代公式为：

${\hat{β}}^{(r + 1)} = {\hat{β}}^{(r)} + M {({\hat{β}}^{(r)})}^{- 1} G ({\hat{β}}^{(r)})$ , (3)

其中 $M ({\hat{β}}^{(r)}) = \sum_{i = 1}^{n} D_{i} {({\hat{β}}^{(r)})}^{T} {(A_{i}^{\frac{1}{2}} ({\hat{β}}^{(r)}) R_{i} (α) A_{i}^{\frac{1}{2}} ({\hat{β}}^{(r)}))}^{- 1} D_{i} ({\hat{β}}^{(r)})$ ， $G ({\hat{β}}^{(r)}) = \sum_{i = 1}^{n} D_{i} {({\hat{β}}^{(r)})}^{T} {(A_{i}^{\frac{1}{2}} ({\hat{β}}^{(r)}) R_{i} (α) A_{i}^{\frac{1}{2}} ({\hat{β}}^{(r)}))}^{- 1} (Y_{i} - μ_{i} ({\hat{β}}^{(r)}))$ 。

2.2. 惩罚广义估计方程

SCAD (Smoothly Clipped Absolute Deviation)在LASSO惩罚的基础上进行了改进，克服了LASSO惩罚估计有偏的缺点。具体来说，SCAD惩罚函数 $p_{λ} (β)$ 是由其导数 $q_{λ} (β)$ 定义的：

$q_{λ} (β) = λ I (β \leq λ) + \frac{{(3.7 λ - β)}_{+}}{2.7 λ} I (β > λ)$ . (4)

惩罚广义估计方程(PGEE)通过引入SCAD惩罚项的导数至广义估计方程中，实现了对纵向数据的有效变量选择。待估计的参数向量 $β$ 依据以下等式进行求解：

$U_{2} (β) = \sum_{i = 1}^{n} S (β) - q_{λ} (| β |) s i g n (β) = 0$ , (5)

其中 $S (β) = n^{- 1} \sum_{i = 1}^{n} D_{i} {(β)}^{T} A_{i}^{\frac{1}{2}} (β) R_{i}^{- 1} (α) A_{i}^{- \frac{1}{2}} (β) (Y_{i} - μ_{i} (β))$ ， $q_{λ} (| β |) = (q_{λ} (| β_{0} |), \dots, q_{λ} (| β_{p} |))$ 是一个 $p + 1$ 维向量， $λ$ 决定了惩罚的强度， $s i g n (β) = {(0, sign (β_{1}), \dots, sign (β_{p}))}^{T}$ 是一个 $p + 1$ 维向量， $sign (β_{k}) = I (β_{k} > 0) - I (β_{k} < 0)$ ，在这里第一个元素为0的原因是：截距项的系数不需要进行惩罚。

对于公式(5)，Wang等人(2012)使用牛顿迭代算法来估计参数 $β$ ，更新迭代公式为：

${\hat{β}}^{(r + 1)} = {\hat{β}}^{(r)} + {[H ({\hat{β}}^{(r)}) + n E ({\hat{β}}^{(r)})]}^{- 1} [S ({\hat{β}}^{(r)}) - n E ({\hat{β}}^{(r)}) {\hat{β}}^{(r)}]$ , (6)

$H ({\hat{β}}^{(r)}) = \sum_{i = 1}^{n} D_{i} {({\hat{β}}^{(r)})}^{T} A_{i}^{\frac{1}{2}} ({\hat{β}}^{(r)}) R_{i} {(α)}^{- 1} A_{i}^{\frac{1}{2}} ({\hat{β}}^{(r)}) D_{i} ({\hat{β}}^{(r)})$ ， $E ({\hat{β}}^{(r)}) = diag (\frac{q_{λ} (| {\hat{β_{1}}}^{(r)} |)}{e + \hat{β_{1}}}, \dots, \frac{q_{λ} (| {\hat{β_{p}}}^{(r)} |)}{e + \hat{β_{p}}})$ ，e是一个大于0且非常小的数(例如e可取1 × 10⁻⁶)。

2.3. 惩罚广义估计方程中的 $λ$ 的选择

由于本文共n个个体，为了不遗失相关性信息，本文选择使用n折交叉验证法来选择惩罚参数 $λ$ 。假设全部数据集为T，记交叉验证训练集和交叉验证测试集分别为 $T - T^{i}$ 与 $T^{i}$ ，这里 $i = 1, \dots, n$ 。在这里本文使用的损失函数为独立假设下对数似然函数的负数，即：

$CV (λ) = \sum_{i = 1}^{n} \sum_{j = 1}^{m} - ℓ_{i j} ({\hat{β}}^{(i)} (λ))$ (7)

其中 ${\hat{β}}^{(i)} (λ)$ 是使用训练集 $T - T^{i}$ 估计出的参数， $ℓ_{i j} ({\hat{β}}^{(i)} (λ))$ 是第i个个体第j次观测的对数似然函数。最优 $λ$ 通过最小化公式(7)来获得，即：

$λ^{best} = \arg \min_{λ} CV (λ)$ . (8)

3. 西南地区城镇登记失业率实证分析

3.1. 城镇登记失业率纵向数据来源以及描述性统计分析

本文收集选取1997年至2023年我国西南地区(包括四川、重庆、贵州、云南及西藏)的面板数据，数据来源于《中国统计年鉴》。部分缺失值采用KNN插值法[13]填补，并对部分变量进行处理。表1是本文所使用的变量以及其描述性统计分析。

部分指标的解释说明如下：

1) X₆：总抚养比也称总负担系数 $= \frac{非 � � 年 � 人口 �}{� � 年 � 人口 �} \times 10$ ，描述每10名劳动年龄人口大致要负担多少名非劳动年龄人口。

2) X₇：15岁及以上文盲比(十分之) $= \frac{15 � 及以上文盲人口 � (人口抽 � � 查) (人)}{15 � 及以上人口 � (人口抽 � � 查) (人)} \times 10$ ，是根据抽查数据计算所得。

3) X₁₃：普高毕业生比(千分之) $= \frac{普通高中 � � 生 � (万人)}{年末常住人口 (万人)} \times 1000$ 。

图1展示了各个变量之间的相关性热图，可以看到大多数解释变量之间有较强的正相关关系，这表明这些解释变量之间在一定程度上相互关联。

图2展现了Y、X₁~X₁₃在不同地区随时间的变化情况。不同地区失业率Y有所波动，图中黑色的

Table 1. Dataset variables and descriptive statistical analysis

表1. 数据集变量以及描述性统计分析

符号	变量名称	最大值	最小值	均值	标准差
Y	城镇登记失业率(百分之)	7.10	2.20	3.75	0.71
X₁	省内GDP (万亿元)	6.01	0.01	1.08	1.28
X₂	人均GDP (万元)	9.41	0.23	2.66	2.28
X₃	城镇居民消费水平(万元)	3.01	0.38	1.39	0.75
X₄	年末常住人口(千万人)	8.55	0.25	3.95	2.58
X₅	人口自然增长率(千分之)	16.00	−2.65	6.68	3.83
X₆	总抚养比(十分之)	5.76	3.66	4.45	0.42
X₇	15岁及以上文盲比(十分之)	6.62	0.15	1.76	1.35
X₈	居民消费价格指数(上年 = 1)	1.08	0.96	1.02	0.02
X₉	商品零售价格指数(上年 = 1)	1.07	0.95	1.01	0.02
X₁₀	城镇居民人均可支配收入(万元)	5.19	0.44	1.97	1.33
X₁₁	农村居民人均可支配收入(万元)	2.08	0.12	0.67	0.54
X₁₂	普高毕业生人数(十万人)	5.05	0.02	1.80	1.47
X₁₃	普高毕业生比(千分之)	8.82	0.61	4.45	2.16

Figure 1. Variable correlation heatmap

图1. 变量相关性热图

Figure 2. Regional time series of response and explanatory variables

图2. 各地区响应变量、解释变量随时间变化

虚线代表五个地区的均值。各地区省内GDP(万亿元) X₁显著增长，尤其是四川，表明经济总量持续发展。各地区人均GDP (万元) X₂起初较低，但至2020年，四川和重庆突破7万元大关，增速明显。城镇居民消费水平(万元) X₃显示总体上升趋势，但区域差异明显，西藏增长较慢。年末常住人口(万人) X₄显示总体上升趋势，但区域差异明显。人口自然增长率(千分之) X₅反映了普遍下降的人口结构变化。总抚养比(十分之) X₆区域波动显著，贵州值高于其他地区。15岁及以上文盲比(十分之) X₇显著下降，西藏文盲率仍高于其他地区。居民消费价格指数X₈和商品零售价格指数X₉多数年份大于1。城镇和农村居民人均可支配收入(万元) X₁₀和X₁₁的增长趋势反映了西南地区经济持续向好。普通高中毕业生数(十万人) X₁₂和普高毕业生比(千分之) X₁₃均呈增长趋势，四川与重庆增长尤为突出，其他地区紧随其后，显示高等教育发展的显著成效。

3.2. 西南地区城镇登记失业率边际模型建立

文章使用R软件fitdistrplus包中的fitdist()函数检验响应变量Y是否服从Gamma分布，结果见图3的四幅小图。通过直方图、Q-Q图、经验累积分布函数图和P-P图的比较，结果显示响应变量Y与Gamma分布拟合良好，因此认为响应变量服从Gamma分布。

郭等人(2022) [14]使用对数连接函数作为Gamma分布的连接函数建立广义线性模型，仇等人(2012) [15]使用Gamma回归模型对商业医疗保险损失进行建模，受此启发本文建立如下Gamma回归边际模型来拟合西南地区城镇登记失业率面板数据：

$log (μ_{i j}) = X_{i j} β$ . (9)

Figure 3. Gamma distribution fit plot

图3. Gamma分布检验图

3.3. 西南地区城镇登记失业率边际模型参数估计计算细节

本文的目的是建立西南五个地区的城镇登记失业率预测模型，为了能够更加准确地预测未来失业率，本文选择这五个地区2018~2023这6年的数据作为测试集。剩余1997~2022年这21年的数据作为训练集用于参数估计。为了能够估算出更精确更有预测力的参数，本文分别采用GEE-AR (1)自相关、GEE-独立相关、GEE-可交换相关，以及能够执行变量筛选的PGEE-AR (1)自相关、PGEE-独立相关、PGEE-可交换相关，这6个方法进行参数估计。本文使用测试集的MSE、MAE、MAPE来评估模型的好坏。测试集MSE、MAE、MAPE越小认为模型的预测能力越强。

3.3.1. PGEE方法惩罚参数 $λ$ 的选择过程

在此案例中，作者设定惩罚参数 $λ$ 的取值范围为(0.01, 0.3)，间隔为0.01。使用5折交叉验证法选择最优的 $λ$ 。不同 $λ$ 的取值造成的损失见下图4。可以看到当 $λ$ 的值设定为0.13时造成的损失最小，为4.79。本文将 $λ = 0.13$ 作为PGEE-AR (1)自相关、PGEE-独立相关、PGEE-可交换相关这三种方法惩罚参数的大小。

Figure 4. Losses incurred by different values of $λ$

图4. 不同 $λ$ 取值造成的损失 $CV (λ)$

3.3.3. 参数 $β$ 的估计结果

使用以上6种方法的参数估计结果见下表2以及对应的训练集测试集MSE见下表3。使用PGEE的三种方法，均实现了变量选择，筛选出来了9个关键变量，它们分别是X₁ (省内GDP(万亿元)) X₂ (人均GDP(万元))、X₄ (年末常住人口(千万人))、X₅ (人口自然增长率(千分之))、X₈ (居民消费价格指数(上年 = 1))、X₉ (商品零售价格指数(上年 = 1))、X₁₀ (城镇居民人均可支配收入(万元))、X₁₂ (普高毕业生人数(十万人))与X₁₃ (普高毕业生比(千分之))。观察发现，在PGEE方法下采用三种不同的工作相关矩阵结构所得到的测试集MSE分别为0.207、0.209、0.209，这些值均小于GEE方法下的测试集MSE，说明PGEE方法在预测上更有优势，并且PGEE方法起到了减少变量数量的作用，更有利于进行模型解释。PGEE-AR (1)方法比其余两种有着更小的MAE、MAPE，分别是0.32、8.85%。

3.4. 西南地区城镇登记失业率预测模型与预测效果展示

由于PGEE-AR (1)结构得到的测试集MSE、MAE、MAPE最小，因此本文选择此模型作为预测模型：

$\begin{matrix} \log (μ_{i k}) = 0.759 + 0.028 X_{i k 1} - 0.008 X_{i k 2} - 0.017 X_{i k 4} - 0.006 X_{i k 5} - 3.689 X_{i k 8} \\ + 4.544 X_{i k 9} - 0.085 X_{i k 10} + 0.064 X_{i k 12} - 0.032 X_{i k 13} \end{matrix}$ (10)

X₁ (省内GDP(万亿元))系数为正(0.028)，这表明在其他因素不变的情况下，省内GDP的增加与城镇失业率的增加存在正相关关系。这看似违反直觉，可能的原因是：模型中没有考虑其他重要因素，例如产业结构升级、技术进步等。GDP增长可能伴随着产业结构调整，一些劳动密集型产业衰退，导致失业率上升。或者GDP增长主要体现在资本密集型产业，就业岗位增加有限。

X₂ (人均GDP(万元))系数为负(−0.008)，这表明人均GDP的增加与城镇失业率的降低存在正相关

Table 2. Comparison of parameter estimates from six methods: GEE and PGEE

表2. GEE、PGEE六种方法参数估计对比

方法变量	GEE-AR (1)	GEE-独立	GEE-可交换	PGEE-AR (1)	PGEE-独立	PGEE-可交换
截距	1.303	1.197	1.288	0.759	0.751	0.753
X₁	0.103	0.177	0.170	0.028	0.031	0.030
X₂	0.014	−0.043	−0.204	−0.008	−0.009	−0.008
X₃	0.108	0.292	0.475	0	0	0
X₄	−0.039	−0.027	−0.033	−0.017	−0.017	−0.017
X₅	0	−0.008	−0.011	−0.006	−0.006	−0.006
X₆	−0.031	−0.061	−0.061	0	0	0
X₇	−0.012	0.018	0.042	0	0	0
X₈	−3.413	−3.932	−4.373	−3.689	−3.682	−3.681
X₉	3.955	4.645	4.961	4.544	4.547	4.544
X₁₀	−0.119	−0.217	−0.553	−0.085	−0.087	−0.087
X₁₁	−0.433	−0.427	0.701	0	0	0
X₁₂	0.096	0.038	0.026	0.064	0.063	0.063
X₁₃	−0.043	−0.024	0.005	−0.032	−0.032	−0.031

Table 3. Comparison of prediction effects of six methods: GEE and PGEE

表3. GEE、PGEE六种方法预测效果对比

方法评判规则	GEE-AR (1)	GEE-独立	GEE-可交换	PGEE-AR (1)	PGEE-独立	PGEE-可交换
MSE	1.303	1.197	1.288	0.207	0.209	0.209
MAE	1.057	0.733	1.302	0.320	0.324	0.324
MAPE	31.27%	21.39%	38.51%	8.85%	8.96%	8.96%

关系。这符合预期，人均GDP提高通常意味着经济发展水平提升，就业机会增加，从而降低失业率。

X₄ (年末常住人口(千万人))系数为负(−0.017)这表明人口规模的增加与城镇失业率的降低存在正相关关系。这可能反映了人口增加说明该地区的经济发展状况好，吸引了外地劳动力来此发展，该地区的就业机会多。

X₅ (人口自然增长率(千分之))系数为负(−0.006)，这表明人口自然增长率的增加与城镇失业率的降低存在正相关关系。它与X₄的解释类似。

X₈ (居民消费价格指数(上一年 = 1))系数为负(−3.689)，这表明居民消费价格指数的增加与城镇失业率的显著降低存在正相关关系。这可能反映了通货膨胀对失业率的影响较为复杂，需要进一步分析。一个可能的解释是，通货膨胀可能导致企业增加生产，从而增加就业机会。

X₉ (商品零售价格指数(上一年 = 1))系数为正(4.544)，这表明商品零售价格指数的增加与城镇失业率的显著增加存在正相关关系。这与X₈形成对比，可能反映了不同价格指数对经济的影响差异，或者模型中存在遗漏变量。

X₁₀ (城镇居民人均可支配收入(万元))系数为负(−0.085)，这表明城镇居民人均可支配收入的增加与城镇失业率的降低存在正相关关系。这符合预期，收入增加通常意味着消费增加，带动经济增长，从而减少失业。

X₁₂ (普高毕业生人数(十万人))系数为正(0.064)，这表明普高毕业生人数的增加与城镇失业率的增加存在正相关关系。这可能是因为新增毕业生进入劳动力市场，增加了就业竞争压力。

X₁₃普高毕业生比(千分之)系数为负(−0.032)，这表明普高毕业生比例的增加与城镇失业率的降低存在正相关关系。这可能是因为普高毕业生比例增加可能反映了经济结构的调整和产业升级。一些高附加值产业对高技能劳动力的需求增加，而普高毕业生能够更好地适应这些产业的需求，从而降低了整体失业率。

使用PGEE-AR (1)方法分别对四川、重庆、贵州、云南、西藏的测试集数据进行预测，效果图见下图5，其中黑色的折线代表预测值。

Figure 5. Prediction effect plot of the PGEE-AR (1) method

图5. PGEE-AR (1)方法预测效果图

4. 总结与反思

本文建立Gamma边际模型对西南地区城镇登记失业率进行拟合，本文使用GEE-AR (1)自相关、GEE-独立相关、GEE-可交换相关、PGEE-AR (1)自相关、PGEE-独立相关和PGEE-可交换相关这6个方法对边际模型中的参数进行估算。实验发现当惩罚参数 $λ$ 设定为0.13时，使用PGEE-可交换相关方法获得的回归模型预测效果好于其他5个方法，可以用于未来的城镇登记失业率预测。但是本文最终选择的边际模型存在变量系数正负情况与实际情况不相符的情况，这可能与本文所使用的数据量小有关。在未来的研究中，可以考虑增加样本量、结合经济学理论选择更具代表的解释变量、增加解释变量的个数以及探讨变量之间的交互作用和非线性关系。

参考文献

[1]	高见, 周涛. 大数据揭示经济发展状况[J]. 电子科技大学学报, 2016, 45(4): 625-633.
[2]	丁守海, 冀承, 徐政. 中国自然失业率变化趋势分析[J]. 财经论丛, 2024, 40(9): 25-34.
[3]	王友乾, 付利亚, 徐建文. 纵向数据分析[M]. 北京: 高等教育出版社, 2015.
[4]	Liang, K. and Zeger, S.L. (1986) Longitudinal Data Analysis Using Generalized Linear Models. Biometrika, 73, 13-22. [Google Scholar] [CrossRef]
[5]	Balan, R.M. and Schiopu-Kratina, I. (2005) Asymptotic Results with Generalized Estimating Equations for Longitudinal Data. The Annals of Statistics, 33, 533-541. [Google Scholar] [CrossRef]
[6]	Wang, L. (2011) GEE Analysis of Clustered Binary Data with Diverging Number of Covariates. The Annals of Statistics, 39, 389-417. [Google Scholar] [CrossRef]
[7]	Xie, M. and Yang, Y. (2003) Asymptotics for Generalized Estimating Equations with Large Cluster Sizes. The Annals of Statistics, 31, 310-347. [Google Scholar] [CrossRef]
[8]	李润. 基于广义估计方程的医药上市公司财务危机预警模型[D]: [硕士学位论文]. 重庆: 西南大学, 2022.
[9]	赵延延, 李思冬, 王杨, 等. 医疗器械临床试验定量指标纵向数据中不同模型的比较研究[J]. 中国卫生统计, 2022, 39(1): 40-51.
[10]	Wang, L., Zhou, J. and Qu, A. (2011) Penalized Generalized Estimating Equations for High‐Dimensional Longitudinal Data Analysis. Biometrics, 68, 353-360. [Google Scholar] [CrossRef] [PubMed]
[11]	Fan, J. and Li, R. (2001) Variable Selection via Nonconcave Penalized Likelihood and Its Oracle Properties. Journal of the American Statistical Association, 96, 1348-1360. [Google Scholar] [CrossRef]
[12]	曹红艳, 曾平, 李治, 等. 惩罚广义估计方程在纵向数据基因关联分析中的应用[J]. 中国卫生统计, 2017, 34(4): 534-537.
[13]	Cover, T. and Hart, P. (1967) Nearest Neighbor Pattern Classification. IEEE Transactions on Information Theory, 13, 21-27. [Google Scholar] [CrossRef]
[14]	郭艳卿, 李宇航, 王湾湾, 等. 基于联邦学习的Gamma回归算法[J]. 计算机科学, 2022, 49(12): 66-73.
[15]	仇春涓, 陈滔. 商业医疗保险损失分析: 基于广义线性模型的实证研究[J]. 应用概率统计, 2012, 28(4): 389-399.

为你推荐

友情链接