基于聚类和多元回归分析的云南省固定资产投资对GDP的影响研究
Research on the Impact of Fixed Assets Investment on GDP in Yunnan Province Based on Clustering and Multiple Regression Analysis
摘要: 为了解云南省固定资产投资情况对GDP的影响程度,文章以云南省2008~2022年共15年的固定资产投资和GDP数据为基础,建立三次产业固定资产投资与国内生产总值(GDP)的多元线性回归模型,分产业分析固定资产投资在经济发展中的拉动作用;之后,根据云南省2018~2022年的各州(市)的GDP总额,采用系统聚类和K-均值聚类方法进行分析,最终将云南省划分为三个类别,得到相关结论;最后,根据分析结果为促进云南省经济可持续发展提出可行性建议。
Abstract: In order to understand the impact of fixed assets investment on GDP in Yunnan Province, based on fixed assets investment and GDP data of Yunnan Province for 15 years from 2008 to 2022, this paper establishes a multiple linear regression model between fixed assets investment in three industries and Gross Domestic Product (GDP), and analyzes the pulling role of fixed assets investment in economic development by industry; afterwards, based on the total GDP of various states (cities) in Yunnan Province from 2018 to 2022, systematic clustering and K-means clustering methods were used for analysis, and Yunnan Province was finally divided into three categories to obtain relevant conclusions; finally, based on the analysis results, feasible suggestions are proposed to promote sustainable economic development in Yunnan Province.
文章引用:郑伟, 张航, 韦文秋, 李昕, 褚梦圆, 蓝贵彩. 基于聚类和多元回归分析的云南省固定资产投资对GDP的影响研究[J]. 统计学与应用, 2025, 14(2): 139-149. https://doi.org/10.12677/sa.2025.142043

1. 引言

GDP (国内生产总值)是指一个国家或地区在一定时期内运用生产要素所生产的全部最终产品(物品和劳务)的市场价值[1]。固定资产投资是以货币形式表现的在一定时期内全社会建造和购置固定资产的工作量及与此有关费用的总称,其规模和结构反映了一个国家的经济发展水平和潜力,也影响了经济结构和效率[2]。自改革开放以来,固定资产投资一直在我国经济增长中扮演着关键的引擎和源泉的角色。固定资产投资被视为实现经济结构转型升级的重要手段,直接推动相关产业的需求和发展,对于提升国家整体竞争力和经济实力至关重要。

云南省,作为中国西南地区的重要省份,依赖其独特的地理、自然和文化资源,为经济的蓬勃发展注入了丰富的内生动力。近年来,随着中国经济的不断崛起,云南省在国家发展战略中的地位逐渐凸显。然而,与其他发达省份相比,云南省在固定资产投资和GDP增长方面仍然面临独特的挑战。如何更好地充分利用本省资源,推动产业升级,提高经济效益,成为当前云南省经济研究的焦点问题。

为了解云南省固定资产投资情况对GDP的影响程度,文章选用了2008~2021年的云南省三次产业固定资产投资和国内生产总值(GDP)的数据和云南省2018~2022年的各个地区的GDP总额数据。结合统计学相关知识,并借助SPSS软件,进行多元线性回归实证分析和聚类分析,并对最终结果进行了检验。通过分析三次产业固定资产投资对GDP的影响程度,旨在为相关经济发展提供一些建议,以促进经济的持续健康增长。

2. 变量选取

Table 1. Symbol explanation

1. 符号说明

指标

符号

单位

生产总值

y

亿元

第一产业固定资产投资

x 1

亿元

第二产业固定资产投资

x 2

亿元

第三产业固定资产投资

x 3

亿元

在进行国内生产总值(GDP)受固定资产投资影响的研究时,通过相关文献调查和分析,将固定资产投资分为三个指标,即第一产业固定资产投资、第二产业固定资产投资、第三产业固定资产投资,并对各产业进行独立分析。选取这三次产业的固定资产投资作为自变量,以GDP为因变量,通过建立线性回归模型来说明各变量之间的关系。其中, x 1 是指第一产业固定资产投资、 x 2 是指第二产业固定资产投资、 x 3 是指第三产业固定资产投资,构建如表1所示的指标体系。

3. 多元线性回归模型的建立

3.1. 数据预处理

相关分析是指对不同变量进行定量分析,由此来判断他们之间是否存在较为密切的关系,以及关系的密切程度[3]。首先,通过绘制散点图,以观察变量之间是否存在相关性。

首先,通过SPSS软件可得到散点图,如图1所示。从图1可以观察到,数据呈现出较为明显的线性变动趋势,而且变动方向一致。因此,可以推断各产业固定资产投资与国内生产总值之间存在显著的正相关关系。

Figure 1. Scatter plot of matrix

1. 矩阵散点图

Table 2. Correlation coefficient table

2. 相关系数表

y

x 1

x 2

x 3

y

1

0.948**

0.921**

0.960**

x 1

0.948**

1

0.884**

0.865**

x 2

0.921**

0.884**

1

0.839**

x 3

0.960**

0.865**

0.839**

1

注:**代表显著性水平,*p < 0.05,**p < 0.01。

其次,通过SPSS软件,计算出各变量间的相关系数,如表2所示。

表2可知, y x 1 x 2 x 3 的相关系数均大于0.9,说明这三个变量与 y 高度线性相关,其中 x 3 y 的相关系数高达0.96。

3.2. 回归方程的初步建立

多元线性回归是研究一个因变量与多个自变量间的线性关系的方法。对于具有i个解释变量的多元线性回归模型,其一般形式表示如下:

y i =α+ β 1 x 1i + β 2 x 2i ++ β k x ki + e i (1)

式中, y i 为因变量; α 为截距; β k 为偏回归系数,表示其他变量不变的情况下,第i个变量变化一个单位所引起的因变量变化值; e i 为残差[4]

选取云南省2008~2022年GDP总额和三大产业投资额的相关数据建立多元线性回归模型,以2008~2022年云南省GDP总额(亿元)作为因变量y,以第一产业投资(亿元)、第二产业投资(亿元)、第三产业投资(亿元)作为自变量,分别为 x 1 x 2 x 3 ,据此建立模型,分析云南省GDP总额的影响因素。

3.3. 模型的建立

将相关数据导入SPSS软件,可得出表3

Table 3. Regression equation

3. 回归方程

模型

未标准化系数

标准化系数

t

显著性

B

标准错误

Beta

1

(常量)

2405.589

1190.611

2.020

0.068

第一产业投资(亿元)

2.456

0.664

0.334

3.699

0.004

第二产业投资(亿元)

1.485

0.586

0.211

2.536

0.028

第三产业投资(亿元)

0.586

0.092

0.493

6.351

0.000

表3可得出多元线性回归方程为:

y=2405.589+2.456 x 1 +1.485 x 2 +0.586 x 3 (2)

3.4. 模型的检验

3.4.1. 拟合优度检验

回归模型的拟合优度检验在多元线性回归方程初步建立完成以后起到了至关重要的作用[5],接下来将采用回归模型的拟合优度检验的方法对云南省GDP总额及三大产业投资所建立的回归方程进行检验。

Table 4. Goodness-of-fit test

4. 拟合优度检验

模型

R

R方

调整后R方

标准估算的错误

1

0.992a

0.985

0.981

1053.34868

注:a是adjust的简称,表示经自由度调整后的R方,比原R方更可信。

表4可以看出,R方的值为0.992,接近于1,表示因变量能够解释自变量变化的99.2%,由此可以看出,我们将云南省GDP总额作为因变量,将第一产业投资、第二产业投资、第三产业投资作为自变量来构建的回归方程模型拟合效果良好。

3.4.2. 多元线性回归的显著性检验

多元线性回归方程的显著性检验包括回归方程的显著性检验和回归系数的显著性检验,对回归方程的显著性检验我们常用F作为检验的统计量,而对回归系数的检验常用t来作为检验的统计量,多项式回归方程的显著性检验,即通过误差分析,说明该方程的观测数据的拟合是最优的、可信的;多项式回归系数的显著性检验,即某次项对总体分布的影响是显著的以及各次项之间的相关性检验[6]

将相关数据导入SPSS中,可得到如表5所示的显著性检验表格。

Table 5. Significance test of regression equation

5. 回归方程的显著性检验

模型

平方和

自由度

均方

F

显著性

1

回归

800887886.750

3

266962628.917

240.606

0.000b

残差

12204977.828

11

1109543.439

总计

813092864.577

14

注:b表示非标准化回归系数。

表5可以看出,F的值为240.606,P值约为0,说明所建立的回归方程显著。

Table 6. Significance test of regression coefficients

6. 回归系数的显著性检验

模型

未标准化系数

标准化系数

t

显著性

B

标准错误

Beta

1

(常量)

2405.589

1190.611

2.020

0.068

第一产业投资(亿元)

2.456

0.664

0.334

3.699

0.004

第二产业投资(亿元)

1.485

0.586

0.211

2.536

0.028

第三产业投资(亿元)

0.586

0.092

0.493

6.351

0.000

表6可以看出,在0.05的显著性水平下,常量的P值为0.068,不显著,第一产业投资 x 2 的P值为0.004显著,而第二产业投资和第三产业投资在该显著性水平下也显著。

3.5. 模型的诊断

3.5.1. 多重共线性诊断

自变量之间是否存在多重共线性可以由方差膨胀因子VIF的大小反映,可由它来度量多重共线性的严重程度,通常当VIF ≥ 10时,说明自变量与其余自变量之间有严重的多重共线性[7]

表7方差膨胀因子表可知,第一产业固定资产投资、第二产业固定资产投资、第三产业固定资产投资的VIF值都远小于10,故可认为自变量之间不存在多重共线性。

Table 7. Variance inflation factor table

7. 方差膨胀因子表

模型

容差

VIF

(常量)

第一产业固定资产投资

0.167

5.980

第二产业固定资产投资

0.196

5.089

第三产业固定资产投资

0.226

4.424

3.5.2. 异方差检验

对于异方差性的检验,统计学上常采用残差图分析法。一般情况下,残差图上的n个点的散布是随机的,无任何规律,认为回归模型不存在异方差,如果残差图上的点的散布呈现出一定趋势,具有明显规律,则认为模型的随机误差项的方差是非齐次性的,存在异方差[8]

Figure 2. Residual plot

2. 残差图

通过观察残差图可以发现(图2),经过标准化后的数据,其数据点在0的上下波动,且分布无明显的规律,也没有呈现出一定的趋势,故可以合理推断模型不存在异方差。

3.5.3. 序列自相关检验

对于小样本的自相关性检验,DW检验是最常用的方法之一。通常情况下,DW检验的判断准则如下:当0 ≤ DW ≤ DL时,认为随机误差项之间存在正的自相关,当DU ≤ DW ≤ 4 − DU时,认为不存在自相关,当4 − DL ≤ DW ≤ 4时,则认为随机误差项之间存在负的自相关。

通过SPSS计算得到DW值,查询DW分布表可得DL = 0.82、DU = 1.75,如表8所示。从表中可知,1.75 ≤ 1.821 ≤ 4 − 1.75,即DU ≤ DW ≤ 4 − DU。故判断不存在自相关。

Table 8. DW inspection table

8. DW检验表

DW

DL

DU

1.821

0.82

1.75

3.6. 建模结果

根据对云南省固定资产投资和GDP的数据,构建多元线性回归模型,揭示了固定资产投资在影响GDP增长中的显著地位。经过上述检验,可得出多元线性回归方程为:

y=2405.589+2.456 x 1 +1.485 x 2 +0.586 x 3 (3)

4. 聚类分析

4.1. 研究方法

聚类分析主要用于将相似的对象归为同一组或类别。核心思想是通过计算不同数据点之间的距离,将其按照相似度进行分类[9]。不同的聚类方法存在着各自的特点和应用场景。在下文当中,将采用系统聚类和K-均值聚类对数据进行分析。

4.1.1. 系统聚类

系统聚类又被称为分层聚类,其基本思想是:距离较近的样本先聚成类,距离较远的后聚成类,这个过程一直进行下去,最终每个样本总能聚到合适的类中。样本的系统聚类过程可以分为以下几个步骤:

1) 假设总共有n个样本,将每个样本各自定义为一类。

2) 选定计算样本之间距离的方法,根据所确定的样本距离公式,把距离较近的两个样本聚合为一类,其它的样本仍各自聚为一类。

3) 选定计算类之间距离的方法,将距离最近的两个类进一步聚成一类。

4) 将所有的样本全聚为一类[10]

4.1.2. K-均值聚类

K-均值聚类是一种非监督学习的聚类方法,具有运算速度快、计算量小的特点,广泛应用于分类问题中。假设分类问题中有N个样本,每个样本有p个特征参数,设定聚类个数是K [11]。计算过程如下所示:

1) 根据聚类个数随机选取相应数量的初始凝聚点。

2) 计算该某一样本距离个种子节点的距离,将样本划分到其距离最小的那一类(1),当该样本的类别发生改变时,需要对凝聚点重新计算,采用以下三个公式:

d( x i , x j )= [ r=1 p | x ir x jr | 2 ] 1 2 (4)

C( 1 )= argmin 1lk d( x i , v i ),i=1,2,N (5)

v 1 = argmin v i c 1 d( x i ,v ),i=1,2,N (6)

其中, ( x i , x j ) 为该样本在距离聚凝点的欧氏距离; x i 为样本; x ir 为样本的第r个特征参数; C( 1 ) 为1类包含的样本集合, v 1 为1类的重心。

3) 重复上述步骤进行迭代,达到迭代终止条件时终止聚类过程[8]

4.2. 数据来源及聚类分析结果

从云南省的统计公报当中获得2018~2022年的各个地区的GDP总额,对其进行整理,得到符合要求便于进行分析的数据。

4.2.1. 系统聚类分析

在SPSS软件当中对数据进行系统聚类之后,可得到如下结果。

Table 9. Cluster members based on systematic clustering statistics

9. 基于系统聚类统计的聚类成员

个案

6个聚类

5个聚类

4个聚类

3个聚类

1:昆明市

1

1

1

1

2:昭通市

2

2

2

2

3:曲靖市

3

3

3

3

4:玉溪市

4

4

3

3

5:保山市

5

2

2

2

6:楚雄州

2

2

2

2

7:红河州

4

4

3

3

8:文山州

2

2

2

2

9:普洱市

5

2

2

2

10:西双版纳州

6

5

4

2

11:大理州

2

2

2

2

12:德宏州

6

5

4

2

13:丽江市

6

5

4

2

14:怒江州

6

5

4

2

15:迪庆州

6

5

4

2

16:临沧市

5

2

2

2

表9可以看出,如果将结果聚为3类时,昆明市的GDP为一类,曲靖市、玉溪市、红河州的GDP为一类,剩下的地区聚为一类;如果将结果聚为4类时,昆明市的GDP为一类,曲靖市、玉溪市、红河州的GDP为一类,昭通市、保山市、楚雄州、文山州、普洱市、大理州、临沧市为一类,剩下的地区作为一类。从表9当中我们可以将样本划分为多个类,当在看哪几个为一类时不太容易迅速地看出,此时,如果在谱系图上,就可以较为简单直观地分辨出他们分别属于哪个类别。

Figure 3. Genealogy diagram

3. 谱系图

图3中可以看出,聚成2类时,昆明市的GDP为一类,其余的各个地区为一类;聚成3类时,昆明市的为一类,玉溪市、红河州、曲靖市的为一类;其余的各个地区为一类。在谱系图当中,对样本的分类结果可以较为直观地看出。综合表9和谱系图,认为将云南省各地区的GDP划分为三个类别最为合适。据此,可将下文K-均值聚类的聚类个数设置为3。

4.2.2. K-均值聚类分析

对数据进行K-均值聚类,结果如下表10所示。

Table 10. Cluster members based on K-means clustering

10. 基于K-均值聚类的聚类成员

聚类成员

个案号

地区

聚类

距离

1

昆明市

1

0.000

2

昭通市

2

974.653

3

曲靖市

3

1154.945

4

玉溪市

3

916.777

5

保山市

2

428.900

6

楚雄州

2

1272.995

7

红河州

3

255.220

8

文山州

2

717.993

9

普洱市

2

157.429

10

西双版纳州

2

567.255

11

大理州

2

1380.983

12

德宏州

2

748.007

13

丽江市

2

775.030

14

怒江州

2

1448.940

15

迪庆州

2

1324.225

16

临沧市

2

70.172

表10可以看出,K-均值聚类的聚类个数设置为3时,昆明市的GDP单独聚为一类,曲靖市、玉溪市、红河州的GDP聚为一类,剩下的各个地区的GDP聚为一类,由K-均值聚类得到的结果与系统聚类聚成三类时得到的结果一致。

Table 11. Final cluster centers

11. 最终聚类中心

1

2

3

2018

5206.90

621.225

1700.06

2019

6475.88

791.32

2266.43

2020

6733.79

859.96

2478.32

2021

7222.50

952.94

2829.44

2022

7541.37

1018.92

3061.95

表11可以看出,在第一类当中的数值最大,第三类中的数值次之,而在第二类中的数值最小,由此可以推断出,昆明市属于第一类,昆明市的GDP最高,而属于第三类当中的曲靖市、玉溪市、红河州的GDP仅次于昆明市,其余的各个地区属于第二类,在云南省的GDP当中排在最后。

5. 结论与对策建议

5.1. 结论

1) 根据云南省固定资产投资和GDP的数据,构建多元线性回归模型,揭示了固定资产投资在影响GDP增长中的显著地位。经过上述检验,可得出多元线性回归方程为:

y=2405.589+2.456 x 1 +1.485 x 2 +0.586 x 3

根据回归方程可以看出,在云南省GDP总额数据当中,第一产业投资的影响最大,第一产业投资主要是对农业、林业,畜牧业、渔业等领域的投资,农林业、畜牧业和渔业是国家经济发展的基础,也是人民基本生活的重要保障,由此可以看出,对第一产业的投资对于一个地区的国内生产总值的影响是十分重要的。其次,从回归方程可以看出,第三产业投资也在云南省的国内生产总值当中占有举足轻重的地位,第三产业投资包括服务业、旅游业、金融业、教育业等,在云南省,由于得天独厚的地理条件和位置优势,给云南省的旅游业带来了较大的经济发展。而第二产业主要是对工业领域的投资,在工业方面的投资具有较大的风险,在进一步进行的模型检验中,我们发现该模型具有良好的拟合效果,说明模型能够较好地解释实际观测数据的变异。此外,通过模型诊断,可知不存在多重共线性,也没有序列自相关性,模型具有较强的可信度,该模型是合理且可靠的。

2) 由系统聚类和K-均值聚类得到的结果基本相同,根据云南省五年的各地区的GDP总额将云南省划分为三个类别,昆明市作为云南省的省会城市,在旅游业方面,拥有丰富多彩的植物资源和动物资源,吸引来自全国各地乃至世界各地的人来此旅游,获得了较大的经济效益;在教育方面,昆明市以内聚集了云南大学、云南师范大学、昆明医科大学、昆明理工大学、云南民族大学等多所高校,拥有较好的教育资源条件;在医疗方面,昆明医科大学第一附属医院、云南省第一人民医院、昆明市延安医院等众多医院聚集于此,医疗条件较好,由此看来,将昆明市的GDP单独划分为第一大类是可以预见的。而曲靖市、玉溪市、红河州等地教育医疗资源也较为丰富,经济发展迅速,划分为一类是较为合适的,剩下的地区当中,德宏州、怒江州、迪庆州等地位于云南省的边境地区,教育医疗资源相对欠缺,经济发展缓慢,在云南省的GDP排名当中处于劣势地位。总的来说,由聚类分析得到的结果与云南省各地区的发展现状基本符合。

总体而言,分析表明,固定资产投资在云南省的经济中发挥着重要的作用,对GDP增长具有显著的正向影响。这一研究不仅为理解地方经济发展提供了有力的数据支持,也为未来制定经济政策和投资战略提供了实质性的指导。

5.2. 对策建议

根据对云南省固定资产投资和GDP关系的模型分析,并结合相应理论研究,为发挥投资作用、提高投资效率、促进经济可持续发展,提出以下一系列可行性建议:

1) 一次产业(农业领域):加强现代农业基础建设,提供科技创新支持。观察三次产业的固定资产投资规模,发现第一产业增长势头迅猛。加强农业基础建设对云南省的投资结构和经济发展至关重要,云南省应持续致力于发展现代农业产业,着重加速高标准农田和特色农产品产业园区建设,促使第一产业固定资产投资规模持续扩大。

2) 二次产业(工业领域):吸引外资,优化工业结构。工业一直是国家发展的支柱,云南省委、省政府应高度重视产业发展,强调大力推进产业、主攻工业,不断掀起全省实干热潮。此外,云南省委、省政府应不断出台各种优惠政策,例如:免税减税、提供土地、投资贷款免息减息、给予一定投资补贴等可行性措施,大力吸引企业到云南投资,并持续优化工业投资结构,从而持续推动云南省的GDP增长。

3) 三次产业(服务业领域):大力发展数字经济,增大旅游业投资。在数字化经济背景下,服务业得以发展壮大。云南省拥有得天独厚的生态优势,旅游资源丰富、风景宜人,吸引大量游客访问,为服务业的发展提供强有力的支持。因此,充分利用云南省自身区域、地方优势,增大旅游业投资,开发更多具有地方特色的旅游资源、文化资源成为提高云南省经济的重要举措。

基金项目

云南省教育厅科学研究基金项目资助(项目编号:2023J1077);全国大学生创新创业训练计划项目资助(项目编号:202311391031);云南省大学生创新创业训练计划项目资助。

参考文献

[1] 牛嘉玮. 我国固定资产投资演变特征、基本经验和发展建议[J]. 西南金融, 2024(1): 3-17.
[2] 胡朋朋. 贵州固定资产投资对GDP的影响分析[J]. 西南金融, 2005(12): 15.
[3] 韩锵. 山西省三大产业固定资产投资与经济增长关系研究[J]. 西部皮革, 2016, 38(4): 116.
[4] 林文龙. 基于VAR模型的中国人均GDP与固定资产投资关系的研究[J]. 中国管理信息化, 2021, 24(19): 141-142.
[5] 杨一茗, 董雯琳, 马霁. 河南省固定资产投资与经济增长的回归分析[J]. 上海商业, 2023(4): 230-232.
[6] 敖希琴, 费久龙, 陈家丽, 等. 基于多元统计的PM2.5分析与预测——以合肥地区为例[J]. 佳木斯大学学报(自然科学版), 2018, 36(1): 96-99.
[7] 白瑞强, 徐湘田, 华树广, 等. 基于多元线性回归模型的冻土强度影响因素显著性分析[J]. 冰川冻土, 2019, 41(2): 416-423.
[8] 蔡少霖, 吴丽文, 郑东荣. 基于K-means聚类分析的农产品消费群体画像构建及精准营销策略研究[J]. 农村经济与科技, 2022(22): 251-254, 262.
[9] 胡纯严, 胡良平. 如何正确应用X2检验——拟合优度检验与SAS实现[J]. 四川精神卫生, 2021, 34(5): 417-423.
[10] 王晨阳, 王成. 线性回归方程显著性的事先检验问题[J]. 延安大学学报(自然科学版), 2005(2): 32-34.
[11] 何晓群, 刘文卿. 应用回归分析[M]. 第5版. 北京: 中国人民大学出版社, 2019: 88-157.