1. 引言
随着我国经济的飞速发展,国家对于城市建设工作积极推进,当前,我国的城镇化水平已稳步提升,城市发展也从过去的增量扩张主导的发展阶段逐步转向品质内涵为导向的发展阶段。城市的综合发展包含经济、社会、政治、文化等各方面,其中,经济作为城市发展能力的重要组成,对于一个城市的综合发展起着不可忽视的作用。各城市的经济发展水平与国家与人民是息息相关的,从国家层面上来看,经济发展水平较高的城市,为国家税收建设等各方面贡献相对较多,有助于国家经济发展的提升;从人民层面上来说,城市的经济发展水平越高,越能有助于改善人民的生活条件,提升人们的生活水平,幸福指数也能够得以促进。
在我国的各大省级行政区域中,四川省作为其中一个人口大省,其经济总量位居全国第八,西部第一,人均生产总值超过4000美元,其综合实力高居西部地区首位 [1]。相对于全国来说,西部地区的工业水平仍然是比较落后的,并且由于地形环境与自然资源的差异,四川省各市州的发展水平不均衡。基于这种现实情况,本文根据实际统计数据,选取可以反映经济发展水平的10个相关原始指标,通过因子分析和聚类分析等统计方法对四川省各市州的经济发展水平进行研究,试图在研究中以经济发展水平为依据对各市州进行分类。
2. 分析方法
关于四川省各市州的经济发展水平分析研究中,我们主要采用因子分析、聚类分析等统计分析方法。本章主要列出了这些统计分析方法的相关理论知识。
2.1. 因子分析
一、基本思想与目的
因子分析作为主成分分析的延伸,其基本思想为:根据各个指标变量的相关大小来对这些指标变量进行分组,这就会使得同一变量组内的指标变量之间相关性较高,而不同变量组内的指标变量间的相关性较低。每组变量就可以代表一个基本结构,由一个称为公共因子的不可测复合变量来表示。为了找到易于解释的公共因子,通常需要进行因子旋转,包括正交旋转,最大方差旋转等旋转方法。
通过其基本思想,我们可以知道因子分析就是把很多个有紧密关系的变量进行集合,全部归纳到同一类变量中,然后再把这一类变量看作一个整体因子 [2],以此来达到降维的目的,对于分析和解释复杂的经济问题很有帮助。
二、数学模型
假设
是一个p维的可观测的随机向量,其均值为
,协方差矩阵表示为
。同时,假设
,
是一个不可观测的变量,其均值为
,协方差矩阵为
。
则因子分析的一般数学模型是:
, (2-1)
因子分析模型(2-1)的矩阵形式可以写成:
, (2-2)
其中,
,
此时,模型(2-1)中的
,
,…,
被称为公共因子,它们之间是彼此无关的,并且具有单位方差;
,
,…,被
称为特殊因子,它们也是彼此无关的,并且它们与公共因子也无关;矩阵A中的所有元素
称为因子载荷,进行因子分析就可以求得每个因子载荷的值。
2.2. 聚类分析
一、基本思想和目的
聚类分析的基本思想是将所有个体或者对象进行分类,使得同一类别中的对象之间的相似性比与其他类中的对象之间的相似性更大,其目的就是在于把相似的研究对象归结成类 [3]。聚类分析包含很多种分类方法,其中,系统聚类法作为一种常见方法,其主要做法为:首先把每个样品都看成一类,然后将性质最相近的两个类合并为一个新的类,再从合并后的类别中找到最接近的两个类进行合并,不断重复步骤进行下去,直到最终所有的样品都被合并到一个类中。把以上重复合并过程画成聚类图,便可以决定分多少个类,以及每类中具体包含有哪些样品。
二、具体方法定义
系统聚类法作为一种最为常见的统计聚类方法,在对于样品的分类中较为有效。系统聚类法中又包含了具有不同定义的计算处理方法(例如:最短距离法、最长距离法、类平均法、重心法、离差平方和法等常用方法),这些方法主要是在于对不同类之间的距离的定义不同 [4]。最短距离法把两类中最近样品间的距离于定义为不同类间的距离;反之,最长距离法把两类中最远样品间的距离于定义为不同类间的距离;类平均法则把类间距离定义为两类种所有成对样品间的平均距离;重心法是计算两类的样品均值之间的欧式距离;离差平方法则反映各类中样品的分散程度,计算各样品到此类重心的平方欧式距离之和。这里我们以类平均法为例,给出其具体数学定义,便于对对类与类之间距离的计算方法有清晰认识。
假设我们有两个类GA和GB,各含有样本总数为nA和nB,dij表示GA中的i样品和GB中的j样品之间的距离,则两个类之间的距离定义为:
(2-3)
此外,两个类之间的平方距离定义为各样品之间的平方距离的平均值:
(2-4)
3. 四川省各市州经济发展水平分析
要对四川省各市州的经济发展水平进行统计分析,我们首先需要选取反映地区经济发展的10个原始指标,对各市州的这10个原始指标进行因子分析,计算公共因子得分以及城市发展的综合因子得分,可以按照因子得分对各市州进行排名。然后再采用聚类分析方法,由系统聚类法把21个城市进行合理的分类聚集。
3.1. 因子分析
一、原始数据及指标解释
选取可以反映各市州经济发展水平的10个原始指标,其中包括了7个有关社会经济的指标,分别是:x1——地区生产总值(亿元);x2——全社会固定投资(亿元);x3——社会消费品零售总额(万元);x4——出口总额(万美元);x5——地方财政公共收入(万元);x6——地方财政公共支出(万元);x7——城乡居民储蓄存款年末总额(亿元)。
3个有关居民收入的指标,分别为:x8——城镇居民人均可支配收入(元);x9——农村居民人均可支配收入(元);x10-城镇居民人均消费性支出(元)。
指标的选取参考了四川省的统计年鉴中的指标设定。数据来源于《四川统计年鉴(2017)》 [5]。原始的指标数据表见附录1。
二、数据标准化与变量检验
(一) 数据标准化
统计学中提供了很多方便的数据标准化方法,本文这里采用了Z标准化法,即用每一个变量值减去总体平均值之后除以该变量的标准差。在这样的无量纲化处理后,每个变量的平均值都为0,标准差都为1。这种标准化方法是目前多变量综合分析中最常用的方法之一。
对序列
进行标准化变换,变换公式如下:
, (3-1)
其中
,
,
产生的新序列
的均值为0,方差为1,是无量纲的序列。
标准化后的数据见附录2。
(二) 变量相关性检验
为了判断选择变量是否适合于进行因子分析,我们先对变量进行相关性分析。输出10个变量间的相关系数矩阵如下表1。由变量间的相关矩阵,我们可以发现各变量都存在一定的相关性,并且x1,x2,x3,x4,x5,x6,x7之间的相关性较大,因为它们都是反映社会经济的指标,x8,x9,x10之间的相关性较大,因为它们是反映居民收入的指标。这与我们的指标分类选择是相一致的。

Table 1. Correlation coefficient matrix
表1. 相关系数矩阵
接下来,对变量之间的相关性进行检验,我们主要采用两个检验统计量来衡量变量之间的相关性,以便判断变量的选取是否适合进行因子分析。第一个检验统计量是KMO (Kaiser-Meyer-Olkin)检验统计量,是一个主要用来比较变量之间简单相关系数和偏相关系数的指标,它的取值在0~1之间。KMO统计量值越大,表示变量之间具有越强的相关性,变量的选择也就越适合用来进行因子分析。常用的KMO值度量标准如下:取值大于0.9表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;小于0.5表示极不合适 [6]。
第二个检验统计量是来自于相关系数矩阵的行列式的Bartlett球度检验统计量,主要用来检验相关矩阵中变量之间的相关性,即检验每个变量之间是否为相互独立的 [6]。如果该统计量值比较大,并且相应的伴随概率小于一般显著性水平,那么就拒绝原假设。也就是说,相关系数矩阵不是单位矩阵,并且原始变量之间的相关性被认为适合用于做因子分析。
下表2显示了KMO和Bartlett统计量的检验结果:KMO值为0.786,大于0.7;Bartlett的球形度检验统计量值较大,伴随概率小于一般显著性水平Sig. < 0.05。说明每个变量之间存在着相关性,可以有效地进行因子分析。

Table 2. KMO and Bartlett tests
表2. KMO和Bartlett的检验
三、因子分析过程及结果
在检验得到变量间的相关性适用于因子分析之后,我们利用主成分分析方法对公共因子进行提取,从解释的总方差达到在特征值大于1的原则下,我们提取出2个公共因子,具体提取结果如表3和图1所示。表3是提取成分解释的总方差,可以发现提取前2个主成分的累积方差贡献率达到96.682%。图1是各成分与特征值的碎石图,可以看到从第3个主成分开始,特征值明显变小,线段变得平坦,倾向于提取前2个主成分。

Table 3. Total variance of interpretation
表3. 解释的总方差
由于对于公共因子的解释带有一定的主观性,为了更清楚地说明公共因子的实际重要性,我们需要进行因子旋转,选用方差最大化正交旋转方法,得到如表4中所示的旋转过后的因子载荷矩阵,并且因子旋转后的两个公共因子的解释总方差见表5。

Table 4. Rotation factor load matrix
表4. 旋转因子载荷矩阵

Table 5. Total variance of interpretation after rotation
表5. 旋转后的解释总方差
由表4可以看到,x1,x2,x3,x4,x5,x6,x7在公共因子F1上的载荷值比较大,都接近0.9,说明F1主要反映城市社会经济发展的状况,而F2主要集中反映人民的收入消费状况。
结合因子分析的一般数学模型,运用统计软件进行回归分析可以得到2个公共因子的得分结果F1、F2,再用每个因子的方差贡献率占两个因子总的方差贡献率的比例作为权重进行加权汇总,计算21个市州的综合得分F,得到如下表6所示的输出结果。
通过表6,可以看出:综合因子得分排名前5的城市分别为成都市、绵阳市、德阳市、泸州市,其他城市的综合因子得分为负值,是说明其经济综合发展水平低于各市州的平均值。其中,巴中市、阿坝藏族羌族自治州、广元市、雅安市、甘孜藏族自治州的综合因子得分排名居于倒数5位。攀枝花市、成都市、德阳市在第二公共因子F2上的得分较高,排名前三,说明其人们生活的收入消费状况较佳。成都市的综合因子得分最高,经济发展状况最佳,且明显高于其他市州;甘孜藏族自治州的综合得分是最小的,并且得分远远低于成都市。这表明四川省不同城市地区的经济发展不平衡,存在明显差异。

Table 6. Common factor score and comprehensive factor score table
表6. 公共因子得分与综合因子得分表
3.2. 聚类分析
一、聚类分析方法选择
系统聚类法中的每个类与类之间距离的定义不同,也就对应着不同的系统聚类的方法。其中,类平均法比较适中,也是聚类效果比较好、应用比较广泛的一种聚类方法。此处采用系统聚类法之中的类平均法,以及组内联结法的形式,意思是在计算距离时取两个类中所有样品两两之间的距离平方和的均值。由统计软件显示的结果,四川省21个市州的经济发展状况可分为6大类,谱系聚类图如图2所示。
二、聚类分析结果说明
第一类地区:成都市。作为四川省的省会,成都市的整体经济发展水平较高并且发展速度快,其经济方面的建设在四川省处于领先地位,也是西部地区重要的中心城市。
第二类地区:包括自贡市、遂宁市、内江市、眉山市、广安市、凉山彝族自治州。这几个城市在四川省东南部地区,农业发展情况还不错,但是它们的工业发展条件并不好,因此,城市的经济发展速度也较慢,经济发展的水平不高。
第三类地区:攀枝花市、广元市、雅安市、巴中市、资阳市。此类地区旅游资源都较丰富,各市的经济发展,需要加强城市基础设施建设以及道路网的建设,发挥特色经济是重点。
第四类地区:泸州市、德阳市、乐山市、南充市、宜宾市、达州市。这几个城市在交通方面较为便利,位于四川东部地区,是比较重要的经济增长点。
第五类地区:绵阳市。绵阳市交通便利,在成都市中心城市的影响下,工农业并行,经济发展良好。绵阳市积极融入成都市的发展,城市化水平不断提高,经济发展的综合因子得分也位于前列。
第六类地区:阿坝藏族羌族自治州、甘孜藏族自治州。此类地区是四川省两大自治州,自治州由于其地理位置的特殊,一般有着极好的自然资源,具备自身发展特色,但交通方面的不占优势,限制了产业发展,是四川省较为贫困地区。
4. 总结与讨论
本文运用了多元统计分析,主要是指因子分析和聚类分析,根据计算所得的因子得分,结合由聚类分析输出的结果,对四川省的各个城市的经济发展水平做了分析分类。由因子分析得到成都市的综合因子得分最高,经济发展水平最佳,且明显高于其他20个市州;而甘孜藏族自治州的综合得分远远低于成都市。说明了四川省不同市州地区间经济发展的不平衡,存在着较为明显的差异。聚类分析结果与因子分析得出的主要结论一致,并且把21个市州最终细分为了六大类。
通过本文的讨论分析,我们发现了各地区的经济发展水平差异,并进行了合适的区域分类。由于每个地区的经济发展的内在动因与方向侧重是不同的,例如,省会城市由于交通便利,经济发展会更为迅速,而偏远地区由于自然风光较好,旅游业是促进当地经济增长的主要产业。进一步研究交通流量、各行业产值等因素和经济发展水平间的关系具有一定的价值与现实意义。
附录
1) 原始数据指标
2) 标准化后的数据指标