我国GDP与第一、二、三产业的相关关系分析
An Analysis of the Correlation between GDP and the Primary Industry, Secondary Industry and Tertiary Industry in China
DOI: 10.12677/SA.2020.92018, PDF, HTML, XML,  被引量 下载: 644  浏览: 10,481 
作者: 刘仲阳:山东省曲阜师范大学,山东 曲阜
关键词: 一元线性回归多元线性回归差分法逐步回归法Simple Linear Regression Multiple Linear Regression Autocorrelation Stepwise Regression Method
摘要: 文章通过大数据平台搜集到的1990~2012年GDP与第一、二、三产业的增加值,充分利用统计软件R与SPSS,建立了GDP与第一产业增加值的一元线性回归模型 。之后通过相关系数检验得出模型存在异方差性与自相关性,通过一元加权最小二乘估计消除了异方差性,同时通过差分法消除了误差项自相关性,从而对模型进行了改进。又通过GDP与第一、二、三产业建立了多元线性回归模型。由于模型的显著性水平不理想,文章利用逐步回归法对自变量进行了筛选,最终建立了GDP与第二、三产业的线性回归模型 。最终通过所建立的模型,可以通过未来第一二三产业的变化来对GDP增速进行合理的预测。
Abstract: According to the data about primary, secondary and tertiary industry in 1990-2012 from big data platform, this paper sets up a simple linear regression model ( ) between GDP and the adding value of the primary industry by using the statistical software R and SPSS. Then the test of Correlation Coefficient shows that the model has heteroscedasticity and autocorrelation which were eliminated by “one variable weighted least square estimation” and FDM. So the model is improved. Then this paper uses the GDP and the first, the second, the third industry to establish the multiple linear regression model. Due to the significance of the model is not ideal, this paper uses the stepwise regression method to screen the independent variables and finally establishes the multiple linear regression model ( ) between GDP and the secondary industry and tertiary industry. Finally, based on the established model, we can use the future changes in the primary, secondary and tertiary industries to reasonably forecast the GDP growth rate.
文章引用:刘仲阳. 我国GDP与第一、二、三产业的相关关系分析[J]. 统计学与应用, 2020, 9(2): 163-171. https://doi.org/10.12677/SA.2020.92018

1. 引言

众所周知,国内生产总值(GDP)是指按市场价格计算的一个国家(或地区)所有常住单位在一定时期内生产活动的最终成果,常被公认为衡量国家经济状况的最佳指标。国内生产总值GDP是核算体系中一个重要的综合性统计指标,也是我国新国民经济核算体系中的核心指标,它反映了一国(或地区)的经济实力和市场规模。

而第一产业是指通过人类劳动直接从自然界取得产品的部门。我国规定专指农、林、牧、渔业。第二产业是指对第一产业和本产业提供的产品(原料)进行加工的部门,我国规定专指采矿业,制造业,电力、燃气及水的生产和供应业,建筑业。第三产业是指对消费者提供最终服务和对生产者(包括三个产业的生产者)提供中间服务的部门。指除第一、二产业以外的其他行业。这三种产业深深影响着GDP的增速,因此弄清楚四者之间的关系,对于我国今后的经济增长起着有力的推动作用。

2. 一元回归模型的建立

2.1. 普通最小二乘估计

2.1.1. 普通最小二乘回归方程求解

根据相关文献 [1] 及生活经验,我们容易得出,第一产业增加值对GDP y有着较为显著的影响,我们通过大数据平台 [2] 获得了1990~2012年国内GDP、第一产业增加值的数据。

由普通最小二乘法

β ^ 0 = y ¯ β ^ 1 x ¯ (3-1)

β ^ 1 = i = 1 n ( x i x ¯ ) ( y i y ¯ ) i = 1 n ( x i x ¯ ) 2 (3-2)

(公式里 x i 对应第一产业 x 1 的相应值, y i 对应GDP的相应值)。

利用SPSS软件 [3],输出结果见表1

Table 1. The output of ordinary least squares regression to primary sector of the economy and GDP

表1. 普通最小二乘回归对第一产业增加值和GDP的输出结果

a. 因变量:GDP。

其中回归系数显著性检验 P = 8.5634 E 23 ,远小于显著性水平 α = 0.05 ,因此y与 x 1 的线性回归高度显著。

由系数一栏的输出结果可以得出, β ^ 0 = 59594.980 β ^ 1 = 11.083 ,且二者P值均小于显著性水平 α = 0.05 ,因此二者均高度显著。所以GDP y与第一产业 x 1 所建立的普通最小二乘回归方程为

y ^ = 59594.98 + 11.083 x 1 (3-3)

这表明第一产业 x 1 每增加一个单位,相应的GDP平均增加11.083个单位。

2.1.2. 残差分析

由上述建立的一元线性回归方程,利用SPSS软件,计算出每一项所对应的残差 e i = y i y ^ i 的值。

以残差为纵坐标,第一产业增加值为横坐标,利用R软件,画出图像见图1

Figure 1. Residuals for different primary sector of the economy

图1. 不同第一产业增加值的残差图

由以上残差图可以看出,残差之均匀的散落在直线 y = 0 两侧,但存在一定的异方差性,说明以上的普通最小二乘法存在一定的局限性。

2.2. 一元加权最小二乘估计

2.2.1. 异方差性的检验

利用等级相关系数,通过SPSS软件,所得输出结果见表2

Table 2. Rank correlation coefficient output

表2. 等级相关系数输出结果

**.在0.01级别(双尾),相关性显著。

由输出结果可以看出,相关系数 r s = 0.59 5 ,P值=0,认为绝对残差值 | e i | 与自变量 x i 显著相关,故误差项存在异方差性。

2.2.2. 一元加权最小二乘模型的建立

针对上述存在的异方差性问题,我们采用加权的一元最小二乘估计来改善模型。下面我们对公式(3-1)、(3-2)进行一定的变换

β ^ 0 w = y ¯ w β ^ 1 w x ¯ w (3-4)

β ^ 1 w = i = 1 n w i ( x i x ¯ w ) ( y i y ¯ w ) i = 1 n w i ( x i x ¯ w ) 2 (3-5)

其中 x ¯ w = w i x i w i ,为自变量的加权平均, y ¯ w = w i y i w i 为因变量的加权平均,权函数 w i = 1 x i m ,m是待定的未知参数。

下面利用SPSS软件进行方程拟合:

① 确定幂指数m的最优值,输出结果如表3

Table 3. Weight function output

表3. 权函数输出结果

a. 选择了相应的幂进行进一步分析,这是因为,它使对数似然函数最大化;b. 因变量:GDP,源变量:第一产业。

根据以上的输出结果,幂指数最优的取值为

m = 1.5 (3-6)

② 建立模型

根据以上选出的最优幂指数,利用Excel软件,首先计算出不同时间段的权重大小。

之后由公式(3-4)、(3-5),利用SPSS软件计算出加权最小二乘估计的方程系数,输出结果见表4

Table 4. UNARY weighted least square estimation output

表4. 一元加权最小二乘估计输出结果

a. 因变量:GDP;b. 加权最小平方回归–按权重加权。

根据输出结果可以看出,回归方程显著,回归系数 β ¯ 0 w = 39785.149 , β ¯ 1 w = 10.002 ,且二者均显著,因此加权之后的回归方程为

y ^ = 39785.149 + 10.002 x 1 (3-7)

改进后的回归方程表明,自变量 x 1 每增加一个单位,相应的GDP平均增加10.002个单位。

为了更直观地对比加权前与加权后的残差变化,我们以第一产业增加值 x 1 为横轴,以权变换残差 w i e i w 为纵轴画残差图见图2

Figure 2. Weighted least square estimation residual diagram

图2. 加权最小二乘估计残差示意图

由图像我们能够看出明显的自相关现象,因此接下来考虑利用迭代的方法消除自相关性,来建立新的一元回归模型。

2.3. 迭代法建立模型

2.3.1. 样本相关系数的计算

利用SPSS软件,计算第一产业增加值与GDP之间的相关性,输出结果见表5

Table 5. Output table of the correlation coefficient between primary sector of the economy and GDP

表5. 第一产业增加值与GDP的相关系数输出表

**.在0.01级别(双尾),相关性显著。

由输出结果能够看出二者之间存在显著的相关性,相关系数 ρ = 0.999012 ,非常接近1,因此采用一种特殊的迭代法——差分法,消除残差自相关性。

2.3.2. 利用差分法消除自相关性

首先计算差分 Δ y t = y t y t 1 Δ x t = x t x t 1

然后利用SPSS做 Δ y Δ x 过原点的最小二乘回归,输出结果见表6

Table 6. The output of the regression model established by the difference method

表6. 差分法回归模型建立的输出结果

a. 因变量:差分后的GDP;b. 过原点线性回归。

由输出结果可以看出,模型显著, β ^ 1 = 0.181 ,因此差分法建立的模型如下

Δ y = 0.181 Δ x (3-8)

y ^ t y ^ t 1 = 0.181 ( x t x t 1 ) (3-9)

3. 多元回归模型的建立

3.1. 多元回归模型的普通最小二乘估计

3.1.1. 回归模型的建立

由相关文献 [4] 我们知道,GDP y的变化不仅由第一产业 x 1 影响着,同时还受第二产业 x 2 、第三产业 x 3 的影响,因此通过查阅相关资料,我们能够获得1990-2012年间GDP以及第一、二、三产业增加值的相关数据。

解释变量有三个,被解释变量有一个,根据多元线性回归的回归系数公式

β ^ = ( x T x ) 1 x T y (4-1)

利用SPSS软件去计算,输出结果见表7

Table 7. The output of the coefficient calculation of multivariate regression equation

表7. 多元回归方程系数计算输出结果

a. 因变量:GDP。

由输出结果可以看出,常数变量的显著性 P = 0.833 远远大于显著性水平 α = 0.05 ,因此回归方程的拟合效果并不理想。

下面考虑自变量之间的相关性(表8)。

Table 8. Independent variable correlation test output

表8. 自变量相关性检验输出结果

**.在0.01级别(双尾),相关性显著。

由输出结果能够看出,第一产业与第二产业,第二产业与第三产业有着高度的自相关性,因此需要做一定的自变量处理。

3.1.3. 逐步回归法 [5] 选择自变量

α entry = 0.1 α removal = 0.15 ,利用SPSS软件进行运算,输出结果见表9

Table 9. The result of the stepwise regression

表9. 逐步回归法输出结果

a. 因变量:GDP。

由输出结果可以得出,逐步回归的最优子集模型为y与 x 2 x 3 的模型,即排除掉了第一产业,仅建立GDP与第二产业、第三产业的回归模型,相应的方程为

y ^ = 5377.346 + 1.216 x 2 + 0.976 x 3 (4-2)

以上方程表明当固定第三产业 x 3 不变,第二产业 x 2 每增加一个单位,相应的GDP平均增加1.216个单位。同时若固定第二产业 x 2 不变,第三产业 x 3 每增加一个单位,相应的GDP平均增加0.976个单位。

3.2. 残差分析

3.2.1. 残差计算与绘图

首先通过Excel软件计算出各时间段的残差值。

利用R软件画出残差值与时间的关系图见图3

Figure 3. Residuals graph of multiple linear regression

图3. 多元线性回归残差图

由图像能够看出,除了2011、2012年的残差较大之外,其余时间段残差值较平稳,不存在异方差、自相关现象,因此模型较为合理。

4. 评价与总结

本文通过一元最小二乘估计、多元最小二乘估计,分别建立了GDP与第一产业增加值和GDP与第二、三产业增加值之间的回归模型,结果如公式(3-8)、(4-2)。表面上看是两个不同的回归模型,但由于第一产业与第二、三产业之间存在较强的相关关系,即第一产业的变化一定会有相应的第二、三产业的变化,因此实质上本文是通过两种不同的途径来建立了两个相似的回归方程。这便于我们通过今后的产业量来估计我国GDP的增速,从而做出一些相关的政策调整。

参考文献

参考文献

[1] 张怡, 熊常伟. 基于南充市生产总值(GDP)的灰色预测与因素分析[EB/OL].
http://kns.cnki.net/KXReader/Detail?TIMESTAMP=637183386499466250&DBCODE=CJFQ&TABLEName=CJFD2014&FileName=IGNE201403008&RESULT=1&SIGN=venkkEOhs%2bHgiQwGe53xKddtbr0%3d, 2019-12-12. %%%
[2] 中华人民共和国国家统计局. 中国统计年鉴: 2013[M]. 北京: 中国统计出版社, 2013.
[3] 何晓群, 刘文卿. 应用回归分析(第5版)[M]. 北京: 中国人民大学出版社, 年份.
[4] 孙玲, 张静. 基于多元线性回归的粤西地区经济发展影响因素分析[EB/OL].
http://kns.cnki.net/KXReader/Detail?TIMESTAMP=637185147123372500&DBCODE=CJFQ&TABLEName=CJFDLAST2019&FileName=DAJJ201910016&RESULT=1&SIGN=UGCJi1txT2nNKA45Ms5XROo3p1I%3d.
[5] 蔡思美. 逐步回归法的财政收入影响因素分析[EB/OL].
http://kns.cnki.net/KXReader/Detail?TIMESTAMP=637185150096966250&DBCODE=CJFD&TABLEName=CJFDLAST2019&FileName=KJSZ201914011&RESULT=1&SIGN=XdvbkRAj2erlXnUJ3PQ6hs8jxFk%3d.