1. 引言
21世纪以来,随着经济的发展,我国国际地位的提升,中华文化的国际影响力也会水涨船高。国民经济发展迅速,人们的生活水平不断提升,随之而来的人均可支配收入也逐渐增多。如在安徽省下辖的市中,人均可支配收入均逐年增加。2020年安徽省人均可支配收入达到20,183元,较2010年增加了27.8% [1]。影响人均可支配收入的因素众多,因此人们对人均可支配收入的研究角度也各不相同。如Yiman Dong,Tao Zhao [2] (2017)基于计量经济学技术和面板数据集,对家庭人均收入、人均支出和人均CO的因果关系进行了研究,实证结果在不同地区表现出不同的因果关系,为节能减排提供了新思路。滕秀花,戴林送 [3] (2020)结合灰色预测模型和Markov预测模型相的优点,建立灰色Markov预测模型,对安徽省城镇居民人均可支配收入进行预测,结果显示预测效果较好。黄志煌 [4] (2020)建立包含中国内地1992~2018年人均GDP、常住人口城镇化率、政府财政的支出和城镇居民人均可支配收入四个时间序列变量的VAR模型进行实证检验,结果显示中国城镇化水平与城镇居民人均可支配收入之间具有显著的正向相关关系。吴旭 [5] (2021)以我国31个省、自治区、直辖市为例,对相关数据建立计量模型,结果得到人均可支配收入对居民消费支出的影响最大,人均GDP对居民消费支出的影响次之,我国31个省市区的居民消费水平差距较大。肖枝洪,马泽巍等 [6] (2021)针对1999~2018年中国31个省级行政区的城镇居民人均可支配收入,提出一种函数型数据聚类方法,聚类结果表明:中国城镇居民人均可支配收入呈不断增长的趋势。左思静,杨宜平 [7] (2021)通过对重庆市1995~2018年城乡居民人均可支配收入与消费水平数据分析,发现尽管均值回归拟合该数据效果较好。吕学静,杨雪 [8] (2022)利用最低生活保障标准测算方法验证贫困家庭的基本生活需求消费与人均可支配收入没有呈现稳定关系,最低生活保障标准与人均可支配收入之间存在长期均衡关系。Fang-Li Ruan,Liang Yan [9] (2022)分析了我国电力消耗、废水排放对人均可支配收入和经济增长的影响。结果显示城市的用电效率下降,将降低平均可支配收入,增加废水排放强度。
本文通过多元线性回归模型,对人均可支配收入进行建模,相比简单的线性回归模型,多元线性回归分析可以综合得到多种因素对因变量的影响。数据来源为安徽省统计年鉴。收集了2020年安徽省下辖的16个市的人均可支配收入等数据。建立了人均可支配收入与社会消费品零售总额、全社会用电量等之间的多元线性回归模型。通过逐步回归方法得到的预测结果与真实数据吻合较好。
2. 数据分析
2.1. 数据来源及标准化
使用Python爬虫收集了2020年安徽省下辖的16个市的各项数据。其中包括人均可支配/元、GDP/亿、就业人数/万人、每十万人拥有的大专以上人数、社会消费品零售总额/亿元、失业率、全社会用电量/亿千瓦时、进出口总额/亿美元、全社会供水用水量总量/万立方米,分别对应表1中的Y和X1至X8。
首先将数据标准化。即每项数据减去其均值,然后除于标准差。得到数据如表1所示。这里只显示前五行标准化后的数据。

Table 1. Normalized portions of the data
表1. 标准化后的部分数据
得到标准化数据后,下面将对数据进行探索性分析。
2.2. 探索性分析及正态性检验
首先通过数据之间的相关性系数进行分析。使用以下对数据的处理均使用Python编程实现。计算各项数据间的相关系数,得到相关系数矩阵,通过热力图进行可视化。结果显示在图1中。

Figure 1. Data correlation coefficient heat plot
图1. 数据相关性系数热力图
通过图1可知,所选变量间的相关性较强。X2与因变量Y之间的相关性较小,即所选的因素对人均可支配收入均具有一定影响。这也为以下建立模型提供了支撑。
针对数据的分布进行了正态性检验。以标准正态分布的分位数为横坐标,样本值为纵坐标制成散点图,称为Q-Q图。数据直方图和Q-Q图显示在图2中。

Figure 2. Data distribution histogram and Q-Q plot
图2. 数据分布直方图和Q-Q图
通过图2可知,因变量Y的数据不具有正态分布特征,并且具有异常值。针对此情况,对数据进行正态性转换,结果在图3中显示。

Figure 3. Distribution histogram and Q-Q plot after data transformation
图3. 数据转化后的分布直方图和Q-Q图
通过图3可知,转换后的数据为正态分布,且除了两个异常点外,数据为标准正态分布。
在对数据进行探索探索性分析后。下面将使用转化后的数据建立多元线性回归模型。
3. 多元线性回归模型
3.1. 模型简介
一般多元线性回归模型可表示为:
(1)
其中,因变量Y为随机变量,
为回归系数,
为自变量,
为随机误差项。
记
,
,
,
。则(1)式可用矩阵表示为:
假设误差服从正态分布
,使用最小二乘估计得到的参数估计值为:
设
为残差,
,则
的最小二乘估计为:
3.2. 模型应用
假设人均可支配收入Y与
之间服从多元线性回归模型,即Y与
之间满足下式:
(2)
使用最小二乘估计进行多元线性回归。结果显示在表2中。

Table 2. Multiple linear regression results
表2. 多元线性回归结果
通过表2可知,回归结果较显著,P值较大的变量有3个。计算决定系数
矫正决定系数
。
。
对模型进行优化,得到预测结果,在图4中显示。
通过图4可知,预测结果的均方误差MSE较大,可能是受到异常值的影响。我们将剔除异常值后再次进行预测的结果显示在图5中。

Figure 4. Optimized multiple regression prediction results
图4. 优化后的多元回归预测结果

Figure 5. Multiple regression prediction results after outliers are excluded
图5. 剔除异常值后多元回归预测结果
通过图5可知,在剔除异常值后,预测的结果更靠近于真实数据曲线。并且预测结果的MSE减小较多,说明异常值的影响得到较好消除。
3.3. 逐步回归
通过逐步回归对变量进行筛选,结果显示在表3中,这里只展示前10行是结果。
通过表3可知,在4个变量的情况下,已经得到较高的R_squared。于是只使用4个变量进行多元线性回归,选取的4个变量为(X1, X2, X4, X6),此时的
。回归结果显示在表4中。

Table 3. The result of gradual regression
表3. 逐步回归的结果

Table 4. Select the regression results for 4 variables
表4. 选取4个变量的回归结果
通过表4可知,筛选的4个变量进行回归后,P值均小于0.05,说明拟合结果较好。使用逐步回归筛选后的变量进行预测,结果显示在图6中。
通过图6可知,在仅选择4个变量进行回归后,得到的MSE仍较小。筛选后的变量对因变量Y有线性回归关系。

Figure 6. Stepwise regression of the predicted result after filtering variables
图6. 逐步回归筛选变量后的预测结果
4. 结论
本文通过多元线性回归模型,对人均可支配收入进行建模。对收集的数据首先进行标准化,然后做相关性分析,探索变量间的相关性。通过正态性检验和正态性变换将数据转化为标准正态分布。建立了因变量的多元线性回归。通过逐步回归筛选出重要影响变量。并得到预测值。结果显示,地区生产总值GDP、就业人数、社会消费品零售总额和全社会用电总量与人均可支配收入之间呈显著线性回归关系。通过筛选后的变量进行预测得到的结果具有较好的精度。这也验证了模型的有效性。
基金项目
国家自然科学基金/National Natural Science Foundation of China (NO.12171462)。
NOTES
*通讯作者。