1. 引言
在大数据与人工智能的盛行的当下,统计学科也面临着新的挑战,机器学习模型与深度学习模型由于其非线性特征,在传统统计方法中无法得到有效解释,但结合数学与优化的方法可以从算数的角度探究其可解释性,从而进行空间效应的分析。
在步入新时代的中国经济版图中,京津冀地区作为国家发展战略的核心区域,肩负着推动区域经济高质量发展、引领北方乃至全国经济社会转型升级的重任。这个地区,也被誉为中国的“黄金三角”,是中国经济最活跃、城市化程度最高的地区之一。近年来,随着京津冀协同发展战略的深入实施,该地区在资源配置优化、产业结构升级、创新能力提升等方面取得了显著成就,为居民收入增长与生活水平提高奠定了坚实基础。然而,区域经济高质量发展并非均匀惠及所有个体和地区,其对人均可支配收入的影响在空间维度上表现出显著的异质性。这种异质性既体现在不同城市或县区间人均可支配收入增长速度和结构的差异,也体现在数字金融、科技创新、政策支持等因素在空间上的非均衡分布及其对收入增长的不同驱动作用。
因此,探究京津冀地区经济高质量发展对人均可支配收入影响的空间异质性,不仅对于揭示区域内部发展不平衡的深层次原因至关重要,也为制定更加精准有效的区域政策、促进经济与社会的全面协调可持续发展提供了科学依据。通过运用空间计量经济学方法,如全局莫兰指数、地理加权回归、多尺度地理加权回归等,特别是在大数据和人工智能时代背景下,我们可以更深入地理解和分析这种空间异质性。本研究将运用和构建多种统计模型,包括但不限于传统的空间计量经济学模型和现代的机器学习模型,深入剖析经济发展、创新驱动、民生福祉、生态保护等因素如何在不同空间尺度上影响居民的人均可支配收入水平,最终尝试推进京津冀协同发展战略的成果能够更加公平地惠及所有民众,加速推进共同富裕目标的实现,为理解和解决京津冀地区经济发展和收入分配问题提供新的视角和工具,对于推动京津冀地区的经济社会发展。
2. 文献综述
在区域经济高质量发展方面,黄庆华、时培豪、刘晗等人(2019) [1]表示中国经济正从追求数量的高速度增长阶段向谋求效益的高质量增长阶段转变,他们以重庆市为例,搜集了重庆市2009~2017年经济高质量发展相关的时间序列数据,通过构建经济高质量评价指标体系,分析经济高质量发展变化趋势及特征。张春红(2021) [2]则是从经济活力、创新效率、绿色发展、人民生活、社会和谐五个维度出发,构建了经济高质量发展评价体系。姚凤阁、梁珈源、汪晓梅、张德华等人(2022) [3]不止步于区域经济高质量发展水平的测度,他们搜集了2011~2018年中国284个城市的面板数据并基于这些数据,利用GPCA模型、GML模型和动态空间杜宾模型探究了数字金融对区域经济高质量发展的影响机制。
在空间异质性的统计方法方面,杨青、彭若慧、刘星星等(2023) [4]通过地理加权回归方法揭示碳排放量与区域社会经济发展的关系。申犁帆、龙雨、田莉等(2023) [5]以北京市作为实证案例,基于多源数据探究各类公共服务设施对大城市租金水平的影响机制。结合空间权重和XGBoost算法的提出了空间异质极端梯度提升模型(XGBSH)。王增铮、张福浩[6]等人,提出区域地理回归分析方法,通过构建区域空间权重计算策略有效筛选观测点,修正空间核函数,构建区域空间权重,实现空间权重的优化。结论表明在考虑区域影响因素后,模型的精度得到了提高,证明了方法的有效性。E Trojovská [7]介绍了一种名为斑马优化算法(ZOA)的新型生物启发式元启发算法;其基本灵感来自自然界中斑马的行为。ZOA模拟了斑马的觅食行为以及它们对捕食者攻击的防御策略,这种算法相较于传统的梯度下降算法能够更好地对非线性模型进行收敛,其思想与种群算法类似。
3. 研究方法与数据来源
3.1. 研究方法
3.1.1. 统计综合评价
统计综合评价是一种通过收集、整理、分析各种统计数据,并综合考量各方面因素来评价对象、群体或事物的方法。这种评价可以涉及到不同领域,如经济、社会、环境等,其目的是更全面地了解和评价所研究对象的情况和特征。
3.1.2. 空间统计分析
空间统计分析是一种涉及地理空间数据的统计分析方法。它结合了统计学和地理信息系统(GIS)的原理和技术,用于研究和理解地理现象在空间上的分布规律、相互作用和变化趋势。空间统计分析的主要目标是揭示地理现象之间的空间关联、空间异质性和空间自相关等特征。考虑到研究对象在空间上的异质性,本研究将采用空间统计分析方法,探索研究对象在空间上的独立性和空间关联性。
3.1.3. 机器学习序列分析
机器学习序列分析是指利用机器学习技术来处理和分析序列数据的过程。序列数据是按照特定顺序排列的数据集合,机器学习序列分析用于发现数据中的模式、结构和趋势,从而进行预测、分类、聚类等任务。为了深入挖掘数据中的潜在规律和趋势,本研究将采用机器学习方法分析空间异质性视角的时间序列数据,利用机器学习算法对序列数据进行建模和分析。
3.2. 数据来源
本文中所用到的数据来源于北京市政府、河北省政府和天津市政府各单位部门公开发布的数据资料。主要来源包括但不限于《北京市统计年鉴》(2018~2022)、《天津市统计年鉴》(2018~2022)和《河北省统计年鉴》(2018~2022)等。主要数据平台为河北省、北京市、天津市统计局、文旅局、发改委、气象局等各官方部门。
4. 实证分析
4.1. 区域经济高质量发展评价指标体系构建
基于王思薇[8]、刘丽波[9]对于区域经济高质量发展的研究,并结合《北京市国民经济和社会发展第十四个五年规划和二零三五年远景目标纲要》《天津市国民经济和社会发展第十四个五年规划和二零三五年远景目标纲要》与《河北省国民经济和社会发展第十四个五年规划和二零三五年远景目标纲要》等地区性“十四五”规划发展纲要要求,从经济基础、创新驱动、民生福祉和生态环境四个方向进行评价。
对此我们搜集计算以下数据作为京津冀地区区域经济高质量发展评价指标体系(见表1)。
Table 1. Evaluation index system of high-quality regional economic development in Beijing-Tianjin-Hebei region
表1. 京津冀地区区域经济高质量发展评价指标体系
准则层 |
指标层 |
经济基础 |
人均地区生产总值增速 |
第三产业增加值占比 |
万元GDP能耗下降率 |
万元GDP二氧化碳排放下降率 |
创新驱动 |
R&D经费支出占GDP比重 |
每万人发明专利拥有量 |
高新技术企业数量占比 |
数字经济核心产业增加值占比 |
民生福祉 |
居民恩格尔系数 |
城镇新增就业人数(万人) |
每万人拥有医院床位数 |
生态环境 |
空气质量优良天数比率 |
绿化覆盖率 |
4.2. 区域经济高质量发展指数测算
4.2.1. 熵权法确定权重
熵权法,按照信息论基本原理的解释,信息是系统有序程度的一个度量,熵是系统无序程度的一个度量;根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大,该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。
第一步,对标准化数据构建正向评价矩阵,由于熵权法的计算要求,最开始构建矩阵时必须保证矩阵中的每一个元素都为非负数。利用上节的极值标准化处理后的数据来构建评价矩阵。
其中,X为评价矩阵,xij为标准化后的指标值,i为具体年份,j为指标名称。
第二步,计算各指标的信息熵值
其中,
。ej越大,即第j个指标的信息熵越大,其所包含的信息越少。
第三步,利用各指标的信息熵,计算各指标的信息效用值,信息效用值越大,其包含的信息越多。
第四步,将信息效用值归一化,得到每个指标的权重
得到各指标权重设计如表2所示:
Table 2. Weights of the evaluation index system of high-quality regional economic development in Beijing-Tianjin-Hebei region
表2. 京津冀地区区域经济高质量发展评价指标体系权重
指标层 |
权重 |
人均地区生产总值增速 |
0.116550117 |
第三产业增加值占比 |
0.101398601 |
万元GDP能耗下降率 |
0.076923077 |
万元GDP二氧化碳排放下降率 |
0.113053613 |
R&D经费支出占GDP比重 |
0.024475524 |
每万人发明专利拥有量 |
0.075757576 |
高新技术企业数量占比 |
0.076923077 |
数字经济核心产业增加值占比 |
0.114219114 |
居民恩格尔系数 |
0.024475524 |
城镇新增就业人数(万人) |
0.032634033 |
每万人拥有医院床位数 |
0.075757576 |
空气质量优良天数比率 |
0.078088578 |
绿化覆盖率 |
0.08974359 |
4.2.2. 统计综合打分
利用标准化后的指标对区域经济高质量发展指数进行统计综合打分,得到京津冀地区各城市的得分与标准差如表3所示:
Table 3. Index table of high-quality regional economic development of each city in 2021
表3. 各城市2021年区域经济高质量发展指数表
城市 |
分数 |
标准差 |
北京市 |
88 |
0.434 |
天津市 |
78 |
0.336 |
石家庄市 |
68 |
0.070 |
承德市 |
60 |
0.774 |
张家口市 |
62 |
0.509 |
秦皇岛市 |
65 |
0.759 |
唐山市 |
70 |
0.259 |
廊坊市 |
63 |
0.649 |
保定市 |
64 |
0.356 |
沧州市 |
65 |
0.197 |
衡水市 |
59 |
0.928 |
邢台市 |
61 |
0.547 |
邯郸市 |
62 |
0.115 |
定州市 |
57 |
0.437 |
辛集市 |
56 |
0.677 |
4.3. 京津冀地区人均可支配收入的空间自相关检验
在进行空间自相关检验时,我们通常先进行全局莫兰指数(Global Moran’s I)的计算与分析。全局莫兰指数用于评估整个研究区域中空间自相关的总体情况,告诉我们数据是否表现出空间集聚或空间随机分布的特征。
Global Moran’s I检验
为了算全局莫兰指数,首先我们需要构建空间权重矩阵,对京津冀地区15个观测点,基于距离空间权重规则(均匀核函数、高斯核函数),创建空间权重矩阵(W):
之后,计算全局莫兰指数(Global Moran’s I),计算公式如下:

其中,n是空间单元的数量,
和
分别是第i和j个空间单元的人均可支配收入,
是人均可支配收入的平均值,
是空间权重矩阵的总和。
之后进行显著性检验,计算公式如下:
其中E[I]为数学期望,Var[I]为方差。最终全局莫兰指数的检验结果如表4所示。
表4结果显示,2018~2021年京津冀地区人均可支配收入的莫兰指数均大于0,p值均小于0.05,说明在5%的显著性水平下,京津冀地区每一年的人均可支配收入均存在较强的空间正相关和一定的空间集聚趋势。整体来看,研究期间2020年的Moran’s I为最大值0.788,此后的Moran’s I呈下降的趋势,变成了2021年的0.717,由该指数变化态势可知,2020年后京津冀地区人均可支配收入的空间集聚特征下降,空间分布差异性增强。
Table 4. Moran’s I statistics of per capita disposable income in Beijing-Tianjin-Hebei region from 2018 to 2021
表4. 2018~2021年京津冀地区人均可支配收入全局Moran’s I统计量
年份 |
Moran’s I |
z得分 |
p值 |
2018年 |
0.714 |
6.208 |
0.002 |
2019年 |
0.731 |
5.211 |
0.004 |
2020年 |
0.788 |
7.173 |
0.001 |
2021年 |
0.717 |
7.743 |
0.001 |
4.4. 异质性分析模型的建立
4.4.1. 基准回归模型
首先,基于上述空间自相关检验的结果,为检验区域经济高质量发展对人均可支配收入的影响,我们建立如下基准回归模型:
其中,y是因变量,
等为自变量,
为截距项,
为各自变量的系数,
是误差项,它是一个随机变量,表示模型未能解释的因变量的变异。
Table 5. Regression coefficient table
表5. 回归系数表
|
经济基础 |
创新驱动 |
民生福祉 |
生态环境 |
标准化系数 |
2.249 |
1.559 |
0.789 |
0.146 |
P |
0.000** |
0.003* |
0.026* |
0.306 |
控制变量 |
Yes |
|
0.768 |
调整
|
0.721 |
F |
25.485 |
基准回归模型结果如表5所示,模型的拟合优度为0.888,调整后R方为0.853,模型拟合优度较好,F较大,经济基础、创新驱动、民生福祉、生态环境的标准化回归系数分别为2.249、1.559、0.789、0.146。除开生态环境这个子维度外,各变量均通过5%的显著性检验,模型设定较为合理。此外通过基准回归模型我们可知,经济基础、创新驱动、民生福祉对人均可支配收入有显著正向影响。
4.4.2. GWR
地理加权回归(Geographically Weighted Regression,简称GWR)作为一种创新的空间分析技术,是基于经典的最小二乘回归(Ordinary Least Squares, OLS)模型拓展而来,通过将地理位置信息融入模型参数估计中,并且细致考虑了空间邻近性对模型参数的影响,实现了回归系数的空间变异性分析。本文将其应用于区域经济高质量发展对于京津冀地区人均可支配收入影响的空间异质性问题的探究,尝试揭示不同地域内经济发展水平与居民收入之间独特而复杂的关系结构。其一般形式如下:

其中,人均可支配收入为因变量y,自变量X为各种影响因素,
为地区的空间地理位置,
为固定效应截距,
为回归系数;随机误差则是
。
在正式进行地理加权会之前,我们需要先构建其对应的空间权重矩阵、核函数与带宽。
这里我们采用固定距离法(FIXED)、高斯核函数以及AIC准则来完成我们的空间权证矩阵设计,高斯核函数公式如下:
其中,b是带宽,dij是点i与点j之间的距离。b是一个固定值,但需通过AIC准则来优化选择。对于GWR模型,AIC可表示为:
其中,n是观测点数量,𝑘是模型中的参数数量。
对2018年到2021年的京津冀地区的数据进行地理加权回归分析,回归结果如表6所示:
Table 6. GWR model results
表6. GWR模型结果
|
2018 |
2019 |
2020 |
2021 |
|
0.888 |
0.863 |
0.879 |
0.843 |
调整
|
0.826 |
0.787 |
0.812 |
0.756 |
MSE |
3.43 |
4.88 |
6.78 |
3.82 |
带宽 |
3 |
3 |
4 |
3 |
AIC |
319 |
343 |
308 |
357 |
4.4.3. MGWR
MGWR (Multiscale Geographically Weighted Regression,多尺度地理加权回归)模型是在GWR基础上的扩展,它允许回归系数不仅随空间位置变化,还随空间尺度(或带宽)变化,从而提供更精细的空间异质性分析。为了进一步探究MGWR的效果是否比GWR的效果更好,我们继续用MGWR模型研究京津冀地区区域经济高质量发展指数对人均可支配收入影响的空间异质性的研究。MGWR模型的基本形式可以表示为:

其中,
表示第i个观测点的人均可支配收入,
是截距项的局部估计,
是第k个自变量(经济高质量发展指数等)的局部回归系数,它不仅依赖于位置
,还依赖于与该自变量相关的特定带宽
。
是第i个观测点的第k个自变量值,
是误差项。
与GWR类似,MGWR也需要构建自己的对应的空间权重矩阵、核函数与带宽。但不同于GWR的是这里我们选择的是自适应法(ADAPTIVE)来构建空间权重矩阵,因为MGWR模型的核心优势在于能够为每个空间位置估计一个特定的局部带宽,这更有助于我们捕捉京津冀地区内部的空间异质性和复杂性。这里同样选择呢高斯核函数作为核函数,但由于这里每个空间位置都有一个特定的局部带宽,所以,其表现形式与GWR的高斯核函数有所不同,MGWR的高斯核函数计算公式为:
其中,
是点i与点j之间的距离,
是局部带宽。不同于GWR的带宽
是一个固定值,对于MGWR,由于需要为每个位置找到最优的局部带宽。这通常通过交叉验证(CV)或使用AIC信息准则来实现,这里我们依旧选择用AIC准则来计算带宽,其对应的公式如下:
其中,
是该位置的局部AIC值,
是邻域内样本量,
是该位置的残差平方和,
是参数数量(包括截距项)。
最后,使用每个位置的最优带宽,根据高斯核函数计算所有点对之间的最终空间权重,形成自适应的空间权重矩阵进行多尺度地理加权回归分析,得到每个研究点的局部回归系数。
得到多尺度地理加权回归模型效果如表7所示:
Table 7. Results of MGWR model
表7. MGWR模型结果
模型评价指标 |
MGWR |
|
0.937 |
调整
|
0.904 |
MSE |
2.4931 |
AIC |
214 |
4.4.4. 机器学习序列回归
使用RNN和LSTM模型尝试对数据进行回归分析。两种模型为序列回归模型,基于神经网络架构,具有极强的特征提取与转化能力,两种模型的介绍如下:
(一) RNN
循环神经网络(RNN)是一种深度学习模型,用于处理顺序数据,将其转换为特定的顺序输出。这些数据可以是词语、句子或时间序列等,其顺序性受到语义和语法规则的影响。RNN由多个连接的组件构成,模仿人类处理顺序数据的方式,可以用于提取面板数据特征[10]。其结构如图1所示:
Figure 1. RNN structure diagram
图1. RNN结构图
相比于传统神经网络,RNN在传导过程中加入了前一个时序的自回归项,从而达到同时提取同时期特征与时序特征的目的。
(二) LSTM
LSTM (Long Short-Term Memory)是一种常用于处理序列数据的深度学习模型,是基于RNN模型的一个改进模型。能够更好的提取序列的长短期关系。特别适用于需要长期依赖关系的任务。LSTM可用于对时间序列数据进行预测。
该模型在RNN的基础上通过增加门控机制来控制信息的流动,从而解决了传统RNN存在的梯度消失和梯度爆炸的问题。它包含了三个门控单元和一个记忆单元:输入门(Input Gate):决定是否更新单元的记忆、遗忘门(Forget Gate):决定是否丢弃过去的记忆、输出门(Output Gate):决定输出什么信息给下一个单元。除了这些门控单元,LSTM还有一个记忆单元(Cell State),用于存储长期记忆。
(三) 优化思路
由于原始LSTM与RNN无法衡量空间异质性对模型的影响,使用MSE作为原始损失函数进行优化的情况下,其损失函数为:

我们在其中引入上文中提到的空间权重矩阵W,将其对角线元素加入到目标优化中,使其成为一种加权损失函数。

其中MSE为均方误差损失函数,
为样本离差平方,
为空间权重矩阵上的元素,n为训练样本数。
通过该方法引入地区自身空间权重,能够有效地在回归过程中对空间异质性因素的影响进行评估。
4.4.5. 模型评价
我们通过五个指标比较各模型的解释能力。如表8所示:
Table 8. Model performance comparison
表8. 模型性能对比
模型 |
|
|
MSE |
RMSE |
AIC |
基准回归 |
0.768 |
0.721 |
9.036 |
3.006 |
607.340 |
GWR |
0.843 |
0.756 |
3.821 |
1.954 |
357.143 |
MGWR |
0.937 |
0.904 |
2.493 |
1.579 |
214.342 |
RNN |
0.950 |
0.927 |
1.148 |
1.071 |
153.530 |
LSTM |
0.895 |
0.831 |
2.781 |
1.668 |
346.636 |
通过对比五个指标发现,MGWR和RNN的
与
均在0.9以上,其中,又以RNN的拟合性能与解释能力最好,其
与
值均在0.92以上,表现出原始变量对于人均可支配收入具有的较强解释性。从收敛性上看,其MSE和RMSE也是最小的,其收敛效果最佳。
4.5. 模型优化
原始的GWR模型由于使用线性最小二乘法对参数进行收敛,最终会造成参数产生多重共线性和异方差性等问题,而使用梯度下降算法进行收敛。而RNN模型由于其非线性与非单调性特质,使用基于梯度的方法进行参数优化往往会陷入局部最优。因此本文创新性引入两种元启式优化算法从而提高参数估计的准确性与效率。
4.5.1. 斑马优化算法(ZOA)
斑马优化算法(Zebra Optimization Algorithm, ZOA)是由Eva Trojovská等人于2022年提出[5],其模拟斑马的觅食和对捕食者攻击的防御行为对模型进行优化。斑马优化算法包含两个主要阶段。
第一阶段借鉴了斑马觅食时的做法。斑马是草食动物,主要以草本植物和芦苇为食,但在食物匮乏时也会食用嫩芽、果实、树皮、根茎和树叶等。斑马每天大约有60%~80%的时间用于进食。在这一阶段,算法将种群中表现最优秀的个体视为领头斑马,其他个体则跟随它们,朝着它们所在的搜索空间区域移动,从而更新自身的位置。
其中,
为第i只斑马基于第一阶段的新状态,
为其第j维值,
为其目标函数值,
为最优成员的先锋斑马的第j维,
为区间
内的随机数,
,其中
为区间[0, 1]内的随机数。因此
,如果参数
,则种群运动的变化步长更大。
第二阶段则模拟了斑马为自保而对捕食者发起的防御行为。斑马的主要天敌有狮子、猎豹、豹子、野狗、狷狡狗和斑鬣狗,临水时还需防范鳄鱼的袭击。面对不同的敌手,斑马会采取不同的策略。遇狮子袭击时,斑马会以之字形迅速奔逃并频繁改变方向;而遇到狗、狗群等小型捕食者时,斑马会集体反击,以威吓敌人。
其中,
为第i条斑马基于第二阶段的新状态,
为其第j维值,
为其目标函数值,t为迭代轮廓,T为最大迭代次数,R为等于0.01的常数数,
是在
区间内随机生成的两种策略中选择一种策略的概率,
是被攻击斑马的状态,
是它的第j维值。
该算法假设两种情况随机出现:一是遭受狮子袭击,斑马选择逃跑;二是遭受其他捕食者攻击,斑马采取进攻应对。在第一种情况下,斑马会从原位置迅速逃离;在第二种情况下,斑马会聚集到被攻击同伴身边,共同对抗敌人。如果斑马的新位置能使目标函数值更优,则接受该位移;否则保持原位置不变。
4.5.2. 算法比较
为比较不同算法在RNN回归上的表现,我们对比了几种常见算法与ZOA的优化效率与优化结果。我们控制了RNN的初始参数设置,设置pytorch的随机化参数id为48,将下列代码运用MATLAB与python的API进行结合调试。我们从三个方面对优化算法性能进行评估,分别是收敛速度、收敛精度和交叉验证稳定性。
我们忽略网络带宽造成的影响,使用python内置的time函数计算收敛视时长作为收敛速度指标。我们认为快速梯度下降法得到的解为真实解,使用最终收敛参数与快速梯度下降法得到的参数收敛值进行对比,将其欧式距离差距作为最终收敛精度的衡量指标,计算方法如下:
其中
为第i个算法的收敛精度,
为算法收敛的第j个参数,
为快速梯度下降法收敛的第j个参数,n为参数总数。
对于交叉验证的稳定性,我们认为通过判断交叉验证的稳定性可以有效判断模型的鲁棒性。交叉验证稳定性计算方法如下:
其中,
为算法交叉验证稳定性,
为标准差函数,MSE为均方误差,
为均方误差的均值,该稳定性指标为MSE的标准差系数。
测算结果表现如表9所示。
Table 9. Comparison of each optimization algorithm
表9. 各优化算法的比较
优化算法 |
收敛速度 |
最终收敛精度 |
交叉验证稳定性 |
模拟退火算法 |
4.35 s |
52.31 |
0.1251 |
牛顿法 |
12.65 s |
185.32 |
0.3268 |
随机梯度下降 |
6.22 s |
0 |
0.0801 |
Adam |
3.14 s |
0 |
0.0955 |
ZOA |
3.56 s |
0 |
0.0399 |
可见,除收敛速度外,ZOA在RNN回归的测试中,且在硬件设备与网络带宽等非算法因素不变的情况下优于其他优化算法。算法收敛图图2所示:
(a) (b) (c)
(d) (e)
Figure 2. (a~e) Convergence curves of simulated annealing algorithm, Newton method, random gradient descent, Adam and ZOA on RNN
图2. (a~e) 模拟退火算法、牛顿法、随机梯度下降、Adam与ZOA在RNN上的收敛曲线
4.6. 空间异质性视角下的影响因素分析
4.6.1. 影响因素定量
分析发现RNN有更高的拟合优度与性能,因此认为该模型对于影响因素具有更好的解释能力,各影响因素的重要性使用累计全局梯度进行衡量,累计全局梯度的计算公式如下:

其中,N为节点个数,每个节点的梯度为
,其中
。
基于链式法则的累积全局梯度公式可以用来在分布式环境中进行反向传播。假设每个节点i都计算了本地损失函数
对于本地参数
的梯度
,而全局模型参数为
。链式法则告诉我们,全局损失函数
对于全局参数
的梯度可以表示为每个节点梯度的加权和。
假设
表示全局损失函数,
表示本地损失函数,其中
。则全局梯度
可以通过如下方式计算:

这里
表示本地参数和全局参数之间的关系,通常取决于具体的分布式模型结构。
4.6.2. 影响因素定量分析
按照模型稳健性检验思路,计算各变量在定义域内的变化梯度值,并以1%定义域为步长计算其全局梯度,得到结果如图3所示:
Figure 3. Change of global gradient in the defined domain after standardization of the original index
图3. 原始指标标准化后定义域内全局梯度变动图
将各变量全局梯度均值作为衡量变量对于人均可支配收入的影响进行分析可以得到以下变量重要性排序图(如图4)。
Figure 4. Importance of variables from the perspective of spatial heterogeneity
图4. 空间异质性视角下的变量重要性图
4.7. 空间异质性分析
为了明确京津冀地区区域经济高质量发展对人均可支配收入影响的空间异质性,我们决定采用利用多尺度地理加权模型(MGWR)进行空间异质性分析。将区域经济高质量发展评价体系及其子维度带宽展示如表10所示:
Table 10. MGWR standardized regression coefficient and bandwidth for high-quality economic development
表10. 经济高质量发展的MGWR标准化回归系数及带宽
变量 |
带宽 |
占比 |
均值 |
标准差 |
最小值 |
中值 |
最大值 |
区域经济高质量发展指数 |
13 |
86.67% |
0.782 |
0.073 |
0.890 |
1.796 |
1.118 |
经济基础 |
14 |
93.33% |
0.353 |
0.767 |
0.968 |
0.804 |
0.887 |
创新驱动 |
9 |
60.00% |
0.817 |
0.891 |
0.988 |
1.978 |
0.843 |
民生福祉 |
11 |
73.33% |
0.669 |
0.137 |
0.800 |
0.424 |
0.627 |
生态环境 |
4 |
26.67% |
0.544 |
0.09 |
0.313 |
0.977 |
0.486 |
带宽如上表所示,他反映了区域经济高质量发展影响居民可支配收入的空间尺度,带宽数值越大,考虑的空间邻域大小越大,这会导致更大的空间邻域内数据点的权重更加接近,从而使得局部模型更加平滑,从而表示在更大的空间范围上,区域经济高质量发展会影响到居民人均可支配收入。
从表中数据来看,区域经济高质量发展指数的带宽为13,占总样本量的86.67%,这表示区域经济高质量发展几乎在整个京津冀地区内影响居民的人均可支配收入。从各个子维度的视角来看,经济基础、创新驱动、民生福祉三个子维度的带宽分别为14、9、11,则是分别占据了总样本的93.33%、60.00%、73.33%这表明,经济基础和区域经济高质量发展指数类似,几乎在整个京津冀地区内影响居民的人均可支配收入。而创新驱动、民生福祉两个子维度则是在较大范围内影响京津冀地区居民的人均可支配收入。而生态环境两个子维度的带宽为4,则是占据了总样本的26.67%,这表示生态环境子维度可能只是在局部范围内影响京津冀地区居民的人均可支配收入。
区域经济高质量发展指数综合反映了一个地区在经济增长、产业升级、和社会福祉提升等方面的综合表现。高质量的经济发展可以带来更高的生产效率、更好的就业机会、更强的创新能力,以及更高的生活质量。
4.7.1. 经济基础
如上表所示,经济基础子维度的回归系数较高的区域集中在北京市、天津市、石家庄与承德市、等地。这些地区的经济发展质量较高,表现出强大的经济活力和发展潜力。相比之下,河北省的其他部分地区,其经济高质量发展相对较低。这可能是由于这些地区的产业结构较为单一,值得注意的是,作为省会城市的石家庄市在经济方面的表现相对较好,可能是得益于其较高的行政地位和相对丰富的资源。
综上所述,北京市和天津市在区域经济高质量发展方面表现优秀,而石家庄市作为省会城市,其表现也相对较好。对于其他地区,尤其是回归系数较低的地区,需要进一步优化产业结构,提高经济发展的质量和效率,强化经济基础。
4.7.2. 创新驱动
创新驱动是衡量一个地区经济活力的重要指标之一,它反映了该地区对新技术、新思想接纳的程度和创新能力。从表中不难看出,回归系数分布较高的地区集中在北京市、天津市和河北省的石家庄市和廊坊市等地。这与区域经济高质量发展指数的趋势基本相符。
创新活动对提高生产效率、优化产业结构、提升产品和服务质量具有重要作用。同时,创新驱动也可以带动就业、增加收入、提高生活质量,从而提高人均收入水平。北京市作为国家的政治、文化和科技中心,其创新驱动的回归系数带来的影响遥遥领先,显示出其在创新驱动发展方面的优势。天津市与其亦有差距,但表现出来的影响效果也不低。河北省的石家庄市和廊坊市在创新驱动方面的表现也相对较好,但与北京和天津相比,其影响程度较小。相比之下,河北省的其他地区,回归系数普遍偏低,影响较弱。
4.7.3. 民生福祉
民生福祉,是反映一个地区居民生活质量和社会福利水平的重要指标。该子维度的回归系数分布整体起伏没有前几个指标大。这与前几个子维度回归系数分布形成鲜明对比。河北省相对于北京市和天津市来说,更多依赖于传统的工业生产和农业。然而,民生福祉的提升可以带动社会稳定和经济发展,从而提高城镇居民的收入水平。北京市和天津市的人口规模相对较小,社会福利水平相对更为成熟,且民生福祉水平已经较高。因此,对其人均可支配收入的提升空间相对较小。
在这个维度上,虽然依旧呈现出了地理差异,但相比前几个维度,差别并不那么明显。北京市、天津市以及河北省部分区域的回归系数相差不大,甚至河北省有不少地区该子维度的回归系数更高。只有极少部分地区的回归系数影响较低,这可能意味着这些地区在提升民生福祉方面还有待加强。
4.7.4. 生态环境
生态环境,包括空气质量、城市绿化风貌等,是反映一个地区可持续发展和生活质量的重要方面。生态环境对于区域经济的高质量发展毫无疑问是具有重要意义的。良好的生态环境可以提供必要的自然资源,支持经济活动的进行;同时,它也是居民生活质量的重要组成部分,对提升社会福祉、促进社会和谐有着重要作用。然而,从各个地区的回归系数来看,回归系数分布整体偏小,不论是北京市、天津市又或者是河北省的其他地区。可能在这些地区,生态环境对人均可支配收入的影响相对较小。考虑到一方面这可能是因为生态环境的改善和保护需要长期的努力,其效益可能不会立即反映在经济指标上。另一方面这也可能反映出在当前的经济发展模式下,生态环境的价值没有得到充分地体现。
5. 研究结论
1) 构建了经济高质量发展评价指标体系
本研究首先构建了包含经济发展质量、创新驱动、民生福祉改善、生态环境保护等四个维度在内的区域经济高质量发展评价指标体系。利用熵权法对指标进行赋权处理,确保了评价体系的科学性和准确性。
2) 利用全局莫兰指数进行空间自相关检验得到了显著结果
通过全局莫兰指数(Global Moran’s I)的空间自相关检验,我们发现京津冀地区的人均可支配收入在空间分布上存在显著的正相关性和集聚特征。这证实了人均可支配收入的空间分布并非随机,而是受特定地域因素影响,形成了明显的空间格局。
3) 空间异质性分析,
我们构建了多种模型,包括基准回归模型、GWR、MGWR、RNN和LSTM,最终利用MGWR模型进行空间异质性分析得出结论,我们发现经济高质量发展相关子维度对人均可支配收入的影响在不同区域间存在显著差异,且这种影响与当地的具体经济结构、政策环境、创新能力和生态状况紧密相关。
4) 变量重要性
我们构建优化算法,研究变量重要性,采用斑马优化算法对模型求解,深入探讨了各变量对人均可支配收入影响的重要性。研究发现,数字经济核心产业占比、万元GDP二氧化碳排放下降率和人均地区生产总值增速等变量对收入影响尤为显著。
综上所述,本研究通过构建经济高质量发展评价指标体系并进行指数计算,全局莫兰指数检验确认了人均可支配收入的空间集聚特征,揭示了京津冀地区经济高质量发展与人均可支配收入间的空间异质性关系。随后的空间异质性分析通过构建多模型,特别是MGWR模型的应用,深入解析了空间维度上的差异性。最后,斑马优化算法的使用帮助识别了影响收入的关键因素及其空间重要性,强调了数字经济和环境可持续性在促进区域发展中的作用。
6. 研究创新点与展望
6.1. 研究创新点
本文从空间异质性的视角研究了区域经济高质量发展对人均可支配收入的影响,揭示了不同地区经济发展水平与居民收入增长之间存在显著的空间异质性特征,为理解京津冀地区内部发展差异提供了新的解释视角。
创新性地将机器学习模型(如RNN、LSTM)与传统的空间计量经济学模型(如GWR、MGWR)相结合,提出了优化损失函数的新方法,能够更好地捕捉和量化空间异质性效应,提高了模型的解释力和预测精度。
引入了一种新的生物启发式优化算法——斑马优化算法(ZOA),用于优化RNN和LSTM模型的参数求解,提高了模型的收敛精度和稳健性,为非线性、非凸优化问题提供了一种新的解决方案。
6.2. 研究展望
虽然本文已经定量分析了各影响因素的重要性及其空间异质性特征,但对于这些因素通过何种路径影响居民收入仍有进一步探讨的空间,可以结合理论与实证相结合加以阐释。
本研究仅以京津冀地区为样本,将来可以将研究范围扩大到其他经济区域,探讨不同区域之间影响因素和空间异质性模式的差异,从而为区域协调发展提供更多启示。
虽然本文采用了一些先进的模型和算法,但随着大数据、人工智能技术的不断发展,新的模型框架和求解方法还将不断涌现,将它们引入空间异质性研究有望获得更精准的分析结果。