云南省各市经济发展的聚类分析
Cluster Analysis of Economic Development in Yunnan Province
摘要: 云南省地处我国西南边陲,其优越的地理位置、气候与资源条件为其经济发展带来了动力和机遇。本文通过采用类平均法、离差平方和法、k均值法对云南省的8个市和8个少数民族自治州的经济发展水平进行聚类分析。将云南省的16个地区按照经济综合实力分别划分为经济发展好、经济发展较好,经济发展一般,经济发展较差四个不同的类别。可为后续研究指导云南省各地区间的经济发展提供相应的理论依据。
Abstract: Yunnan province is located in the southwest border area of China. Its superior geographical location, climate and resource conditions have brought impetus and opportunity to its economic development. In this paper, the clustering analysis of the economic development level of 8 cities and 8 autonomous prefectures of ethnic minorities in Yunnan province is carried out by using the method of class average, sum of squares deviation and K-mean method. According to the comprehensive economic strength, the 16 regions in Yunnan province are divided into four different categories: good economic development, good economic development, general economic development and poor economic development. It can provide the corresponding theoretical basis for the follow-up study to guide the economic development of various regions in Yunnan Province.
文章引用:刘一帆. 云南省各市经济发展的聚类分析[J]. 统计学与应用, 2021, 10(1): 92-105. https://doi.org/10.12677/SA.2021.101010

1. 引言

素有“彩云之南”之称的云南省,近些年来,经济发展迅速,尤其在旅游经济的发展上一直保持着突飞猛进的势头。云南省整体的经济发展虽是一直处于良好稳定的状态,但是各个地区间的经济水平依旧有着不小的差距。比如,2016年云南省生产总值为14,720亿元,昆明市的生产总值为4300.08亿元,但是怒江的生产总值只有126.46亿元。因此,云南省的经济发展是不平衡的:表现在有些地区经济发展较为迅速,而有些地区经济发展则较为滞后。因此,我们有必要对云南省各地区的经济差异作进一步的探讨和研究。

2. 云南省各地区经济发展概况分析

2.1. 地区生产总值概况

通过分析图1:2016年云南省各地区的生产总值雷达图,我们可以发现:云南省各地区间的经济发展存在很大的差异。昆明市2016年生产总值高达4300.08亿元。仅次于昆明的是曲靖的生产总值为1768.41亿元,两市生产总值相差2531.67亿元。2016年云南省生产总值比较低的两个地区分别是迪庆和怒江:迪庆2016年生产总值为176.88亿元,而怒江2016年生产总值只有126.46亿元—与这一年生产总值最高的昆明市相差了4173.62亿元,相差将近33倍,差距非常悬殊。

Figure 1. The total GDP profile of Yunnan province in 2016 (unit: 100 million yuan)

图1. 2016年云南省各地区生产总值概况(单位:亿元)

2.2. 地区居民消费概况

通过分析图2:2016年云南省各地区居民消费簇状柱形图,我们可以发现:2016年云南省各个地区居民消费水平与各地区的生产总值整体上变化一致。昆明市居民消费水平依旧居于榜首,高达1738.8亿元,其次是曲靖市的居民消费为706.82亿元。由图可以看出,居民消费水平明显比较低的依旧是怒江和迪庆,迪庆2016年居民消费仅有42.65亿元,而怒江在这一年居民消费水平最低,只有39.32亿元,昆明市2016年的居民消费比怒江整整高出了1699.48亿元。

Figure 2. Overview of residents' Consumption in Yunnan Province in 2016 (unit: 100 million YUAN)

图2. 2016年云南省各地区居民消费概况(单位:亿元)

根据对云南省2016年各地区的生产总值和居民消费情况进行分析,我们大致可以看出,在2016年这一年,昆明市经济发展遥遥领先,曲靖市紧随其后。而怒江和迪庆的经济发展则一直处于较弱的水平。其余12个地区经济发展一般,在平均水平上下浮动。

3. 聚类分析

3.1. 指标选择与数据来源

在选择指标时,应充分考虑到所需数据的真实性及可获得性,同时应考虑各地区经济发展指标的相关性及全面性 [1]。本文通过结合云南省的实际情况,综合考虑云南省16个地区的经济发展现状及影响因素,最终选定了15个反映云南省各地区经济发展综合情况的指标,作为本文选定的变量,为之后聚类分析提供可靠的数据支撑。具体变量如表1所示:

Table 1. Indicator system table

表1. 指标体系表

本文使用的所有数据均来源于《2017年云南省统计年鉴》 [2],原始数据见附录。

3.2. 采用类平均法进行聚类分析

类平均法有两种定义,一种定义方法是把类与类之间的距离定义为所有样品对之间的平均距离;另一种定义方法是类与类之间的平方距离为样品对之间平方距离的平均值;本文采用第二种定义方法,即

D K L 2 = 1 n K n L i G K , j G L d i j 2 (1)

类平均法可以较好地利用所有样品之间的信息 [3]。

利用SAS程序进行类平方法聚类,因为样本数据单位不同,在聚类之前需要对各个变量数据作标准化变化。

SAS程序如下:

PROC IMPORT OUT= WORK.test

DATAFILE= C:\Users\DELL\Desktop\2016年云南各地区经济指标.xls

DBMS=EXCEL REPLACE;

RANGE=Sheet1$

GETNAMES=YES;

MIXED=NO;

SCANTEXT=YES;

USEDATE=YES;

SCANTIME=YES;

RUN;

proc cluster data=Work.Test method=ave std;

id region;

proc tree horizontal;

id region;

run;

聚类结果如下:

Figure 3. Correlation eigenvalue matrix of average method

图3. 类平均法相关特征值矩阵

图3表示类平均法相关特征值矩阵,第一列代表协方差矩阵的特征值,第二列代表从上到下相邻两个特征值之差,第三列代表方差比,第四列代表方差累积比。

由于事先对样本数据进行了标准化处理,因此全部样本标准差的平方根为1。观察值之间的均方根距离为5.477226,代表变量之间也是较远距离的。

图4代表类平均法的聚类过程,从NCL可以看出16个变量一共聚类了15次。按照距离的远近,第一次聚类是普洱和文山聚为一类,因为两者之间标准化均方根距离最小,只有0.11。以此类推,最后一次聚类是昆明和CL2聚成一个大类。

Figure 4. Clustering process of class average method

图4. 类平均法聚类过程

类平均法最终得到图5:类平均法树形图。若在坐标区间(0.70, 0.75)内切一刀,则将云南省16个地区分成四类。

Figure 5. Class mean normal tree diagram

图5. 类平均法树形图

第一类:昆明。

第二类:曲靖、红河、玉溪。

第三类:保山、临沧、普洱、文山、楚雄、昭通、大理、丽江、西双版纳、德宏、怒江。

第四类:迪庆。

3.3. 采用离差平方和法进行聚类分析

类中各样品到类重心的平方欧式距离之和称为(类内)离差平方和,设 G K G L 合并成新类 G M ,则 G K G L G M 的离差平方和分别是:

W K = i G K ( x i x ¯ K ) ( x i x ¯ K ) (2)

W L = i G L ( x i x ¯ L ) ( x i x ¯ L ) (3)

W M = i G M ( x i x ¯ M ) ( x i x ¯ M ) (4)

对固定的类内样品数,它们反映了各自类内样品的分散程度;

G K G L 之间的平方距离为:

D K L 2 = W M W K W L (5)

这种系统聚类法称为离差平方和法或Ward方法(Ward’s method) [3]。

利用SAS程序进行离差平方和法聚类,因为样本数据单位不同,在聚类之前需要对各个变量数据作标准化变化。

SAS程序如下:

PROC IMPORT OUT= WORK.test

DATAFILE= C:\Users\DELL\Desktop\2016年云南各地区经济指标.xls

DBMS=EXCEL REPLACE;

RANGE=Sheet1$

GETNAMES=YES;

MIXED=NO;

SCANTEXT=YES;

USEDATE=YES;

SCANTIME=YES;

RUN;

proc cluster data=Work.Test method=war std nosquare;

id region;

proc tree horizontal;

id region;

run;

聚类结果如下:

图6代表离差平方和法的相关特征值矩阵,我们可以发现与离差平方和法的相关特征值矩阵结果一致,由此可以验证程序算法正确。

图7代表离差平方和法的聚类过程,从NCL可以看出16个变量一共聚类了15次。其聚类过程与类平均法聚类过程一致。

Figure 6. Eigenvalue matrix associated with the sum of deviation squares method

图6. 离差平方和法相关特征值矩阵

Figure 7. Clustering process of the sum of deviation squares method

图7. 离差平方和法聚类过程

在分成4类之前的并类过程中,RSQ的减少使逐渐进行的,改变不大。RSQ分成4类时,RSQ = 0.820,而下一次合并后分成3类时,RSQ下降较多,此时,RSQ = 0.739。通过分析RSQ统计量可知此时可以分成4类。同理,当RSQ分成3类时,RSQ = 0.739,而下一次合并后分成2类时,RSQ下降较多,此时,RSQ = 0.624。通过分析RSQ统计量可知此时也可以分成3类。

下面根据离差平方和法树形图,分别对这两种分类方式进行讨论。

最终得到图8离差平方和法树形图。

若在坐标区间(3.5, 4)内切一刀,则分成三类,它们分别是:

第一类:昆明。

第二类:曲靖、红河、大理、玉溪。

第三类:保山、临沧、昭通、普洱、文山、楚雄、丽江、西双版纳、德宏、怒江、迪庆。

离差平方和法这种聚类方法与类平均法的聚类结果大体上相一致。区别是,类平均法将玉溪与保山、临沧、昭通、普洱、文山、楚雄、丽江、西双版纳、德宏、怒江划分为了一类。将迪庆归为第四类。相比而言,类平均法的聚类方法要更加精准一些。

若在坐标区间(2.5, 3)内切一刀,则分为四类,它们分别是:

第一类:昆明。

第二类:曲靖、红河、大理、玉溪。

第三类:保山、临沧、昭通、普洱、文山、楚雄、丽江、西双版纳、德宏。

第四类:怒江、迪庆。

理想的聚类结果应该是类与类之间的特征明显不同而类内的特征彼此接近。根据我们之前对云南省各地区生产总值和居民消费的相关分析,与前两种聚类方式相比,这种聚类方式明显更贴近实际情况,更加吻合现实的经济意义。

Figure 8. Normal tree of the sum of deviation squares

图8. 离差平方和法树形图

3.4. 采用K均值法进行聚类分析

K均值法的基本步骤为:

1) 选择K个样本作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。

2) 对所有的样品逐个归类,将每个样品归入凝聚点离它最近的那个类,该类的凝聚点更新为这一类目前的均值,直至所有样品归类。

3) 重复步骤(2),直至所有的样品都不能再分配为止 [3]。

接下来对这组数据采用K均值法聚类,根据之前的类平均法和离差平方和法的聚类结果,指定K均值法所允许的最大分类个数为4类,即“maxc = 4”。在聚类前同样对数据进行标准化变换。

SAS程序如下:

PROC IMPORT OUT= WORK.test

DATAFILE= C:\Users\DELL\Desktop\2016年云南各地区经济指标.xls

DBMS=EXCEL REPLACE;

RANGE=Sheet1$

GETNAMES=YES;

MIXED=NO;

SCANTEXT=YES;

USEDATE=YES;

SCANTIME=YES;

RUN;

proc standard data=Work.Test mean=0 std=1 out=stan;

proc fastclus data=stan maxc=5 drift list;

var x1-x15;

id region;

run;

聚类结果如下:

图9代表k均值法的初始凝聚点,最大聚类为4类,最大迭代为1次。将15个指标分为4个初始类,然后将这4个类的均值作为其初始凝聚点。输出结果如图9所示。

Figure 9. Normal tree of the sum of deviation squares

图9. 离差平方和法树形图

图10聚类汇总信息图中,可以看到每一类的具体信息。例如,聚类2中共有10个观测值,RMS (Root Mean Square,简称均值平方根)的标准差为0.4868,从该聚类种子到其余观测的最大距离为2.8919。距离聚类2最近的类是聚类4,二者之间的距离为聚类质心间的距离,即为2.5832。

Figure 10. Cluster summary

图10. 聚类汇总

图11变量的统计量信息图则给出了变量相关的统计量。观察可以发现,由于事先对变量进行了标准化处理,所以所有指标变量的Total STD (总标准差)均为1。对于变量x1来说,其Within STD (类内合并标准差)为0.35147,R-Square (相关系数)为0.901177,拟合效果较好,RSQ/(1-RSQ) (类间方差同类内方差比)为9.119058。

根据图表可以看出,大部分变量的拟合效果良好,但也有少部分变量拟合效果较差,如x10、x2。

最终其F统计量值为15.89。

Figure 11. Statistics for variables

图11. 变量的统计量

图12给出了各变量在每一类的均值,例如,对于变量x1来说,其在聚类1中的均值为3.347167385,在聚类2中的均值为0.004784370,在聚类3中的均值为−0.762285617,在聚类4中的均值为−0.170254784。

Figure 12. Intra-class means of each variable

图12. 各变量类内均值

图13给出了各变量在每一类中的标准差,例如,对于变量x1来说,其在聚类2中的标准差为0.401227668,在聚类4中的标准差为0.105670245。因为聚类1只有昆明市一个变量,聚类3中只有迪庆一个变量。所以在聚类2、3中并未输出其标准差。

Figure 13. Intra-class standard deviations of each variable

图13. 各变量的类内标准差

图14聚类列表我们可以看到每一个地区所属的具体类别,以及其与种子的距离。例如,对于昆明市来说,在k均值法聚类中划分为第一类,其与种子的距离为0。

Figure 14. Cluster list

图14. 聚类列表

最终由k均值法得到的聚类结果和之前的类平均法、离差平方和法的结果相比有很大区别。K均值法聚类结果如下:

第一类:昆明。

第二类:曲靖、玉溪、保山、昭通、普洱、临沧、楚雄、红河、文山、大理。

第三类:迪庆。

第四类:丽江、西双版纳、德宏、怒江。

此程序中初始凝聚点的选择对于异常点很敏感,聚类后异常点很有可能单个地自成一类,例如昆明和迪庆,可能由于这两个地区城镇居民的消费结构与其他地区相比有一定的特殊性。

4. 结果分析

通过对比分析类平均法、离差平方和法、k均值法的聚类结果,可以发现离差平方和法划分成4类的结果具有比较强的现实意义。

离差平方和法若在坐标区间(2.5, 3)内切一刀,划分为4类的结果是:

第一类:昆明。

无论以哪种聚类方式,昆明都可以单独的划分为“经济水平好”这一类,与之前的分析相一致:昆明经济发展相对于云南省其他地区来说遥遥领先。昆明市作为云南省省会,占据着优越的地理位置,加之其得天独厚的气候条件,使其具有云南省其他地区无法比拟的有利条件,这些方面都使昆明拥有一定的经济基础和发展优势。

第二类:曲靖、红河、大理、玉溪。

这四个地区经济发展都比较好。曲靖、红河以及玉溪都毗邻省会昆明,占据一定的地理优势,它们的经济结构和发展特点都比较类似。在2016年这一年,曲靖的生产总值高达1768.41亿元,红河的生产总值为1333.79亿元,玉溪的生产总值为1311.88亿元,大理的生产总值为972.2亿元。这四个地区的生产总值在这一年仅居于昆明之后,排在第2~5的位置。排名比较集中,因此,再综合其他经济发展指标,将这四个地区划分为“经济水平较好”一类。

第三类:保山、临沧、昭通、普洱、文山、楚雄、丽江、西双版纳、德宏。

这九个地区经济发展相较于云南省其他地区来说,经济总量处于一般的水平。这些地区不具备较强的经济实力,贸易也处于中等水平,工业基础相对薄弱,人均收入也不算太高,但具有丰富的自然资源。因此在聚类时,将这九个地区归为“经济发展一般”这一类。

第四类:怒江、迪庆。在之前的分析中,2016年无论是其地区生产总值,还是居民消费水平,怒江和迪庆都处于较差的水平。怒江和迪庆都处于云南省的偏远地区,交通闭塞,经济贸易仅局限于当地的买卖活动,这两个地区同样没有可以带动其经济发展的特色产业。在这两个地区中,部分的村落生活条件依旧比较原始。因此经济发展较差,结合2016年的经济数据,将怒江和迪庆归为了“经济水平较差”这一类。

5. 结论

本文通过研究2016年云南省各地区的经济数据,重点探究了其地区生产总值概况及居民消费概况,大致了解了2016年云南省各地区的经济发展情况。再充分考虑到各地区经济发展指标的相关性及全面性,建立了反映云南省各地区经济发展综合情况的指标体系。再通过SAS软件,运用三种聚类方式:分别是类平均法、离差平方和法以及K均值法,进行聚类分析。最终结合对云南省各地区2016年经济发展情况的分析,以及对这三种方式的聚类结果进行比较,发现采用离差平方和法进行聚类在本数据的应用上更贴近于现实实际情况。

本文最终依照离差平方和法的聚类结果,结合2016年云南省各地区的经济发展情况,将16个地区按照经济综合实力分别划分为:

经济发展好:昆明。

经济发展较好:曲靖、红河、大理、玉溪。

经济发展一般:保山、临沧、昭通、普洱、文山、楚雄、丽江、西双版纳、德宏。

经济发展较差:怒江、迪庆。

这四个不同的类别。

对于云南省来说,要想实现一个省份的经济大发展,并不仅仅靠一个地区的一枝独秀,要努力协调好该省市各个地区经济的联合发展,努力缩小各个地区之间的经济发展差异。希望本次研究的聚类结果能够为后续研究指导云南省各地区之间的经济发展提供一定的理论支撑。

附录

Table 1. Economic indicators of various regions in Yunnan Province

表1. 云南省各地区经济指标

参考文献

[1] 曾五一, 肖红叶. 统计学导论[M]. 北京: 科学出版社, 2006.
[2] 贾俊平. 统计学[M]. 北京: 中国人民大学出版社, 2018.
[3] 王学民. 应用多元统计分析[M]. 上海: 上海财经大学出版社, 2017.