1. 引言
1.1. 研究背景与意义
近几年,随着经济全球化和贸易自由化,我国的经济实力正在飞速的发展,中国的国际地位也在不断提高,城市综合竞争力在中国社会经济中的地位正变得越来越重要,各个城市也开始关注起自身城市综合竞争力的发展 [1] 。根据城市的经济、文化、社会、科技指标,全面评估自身城市的发展水平,这一过程可以通过每年各城市各指标的汇总数据进行收集,再通过较为合理的方式建立指标体系,通过指标体系来给各个城市打分与排名。按照国家城市综合竞争力的得分和排名划分一线城市、新一线城市、二线、三线等级,有利于各城市政府更加深刻的了解自身城市发展的情况,通过与其他城市的比对,再结合自身城市实际情况来改善城市的资源分配;有利于各城市通过评价体系的得分,量化自身下一阶段应当提升的因素,使得城市能够良性发展;有利于我国经济的高质量发展,社会更加安定和谐,人民的幸福感不断提升。
因此,研究影响城市综合竞争力的因素以及指定合理的评价体系是国内外的一个重要课题。
1.2. 相关研究综述
近几年随着中国经济实力的飞速发展,城市综合竞争力在在中国社会经济中的地位越发重要,同时城市综合竞争力对经济现代化也有着很重要的意义。而城市综合竞争力是综合评价一个城市经济、社会、科技、环境的重要指标,对了解和改善城市资源合理分配和城市间良性竞争有着深远的意义。由于我国具体国情的原因,城市综合竞争力不仅对资源分配有重要影响,而且与城市等级分类也有着密切的联系,因此将对城市综合竞争力影响因素的研究,转化为对影响城市等级分类原因的研究。近年来,城市综合实力等级分类问题引起了学者们越来越多的关注。
1.2.1. 国内研究情况
我国对于各城市综合实力进行分析的研究成果比较丰富,并且近年来我国政府也开始越来越重视城市排名,国内的很多学者利用各类不同的方法建立评价指标如:潘春彩,吴国玺(2012) [2] 等人以河南省38个城市为研究对象,从经济发展与收益、社会与科教发展情况等四个方面运用主成分分析的方法,构建城市竞争力评价指标体系,评价河南省城市综合城市竞争力,并对其各个城市进行比较分析;曹清峰,倪鹏飞(2018)等人 [3] ,基于引力模型对566个城市的全球联系度进行测算,并且在此基础上建立了城市竞争力的评价体系;孙霞(2013) [4] 则是基于自身提出的指标体系,运用因子分析评价和实证探索浙江省11个城市的城市竞争力,同时又利用聚类分析将11个城市分别分为3类和7类,研究并比较分类效果。
1.2.2. 国外研究情况
国外在城市综合竞争力等方面的研究的学者也比较多,其主要的成果有:Chun Feng Liu、Bao Min Hu、Zi Biao Li等人(2010) [5] 通过对《中国城市竞争力报告》中近300个地级市的综合竞争力比较,运用计量经济学模型对50多个主要城市的12个竞争力进行了评价,形成了2009年中国最具竞争力的10个城市,并提出了一种应用模糊层次分析法对城市综合竞争力进行评价的Mathematica程序;Chun Dong、Chunhua Wu、Xiaoli Sun等人(2008) [6] 通过对物体运动原理的分析,建立了一个包含4个子系统、12个要素和58个指标的更加科学的评价指标体系,运用TOPSIS方法,对2009年中国28个城市群的141个城市进行了城市竞争力测算。
1.3. 本文主要研究内容
尽管学者们在城市的理论、实证研究以及城市分类上取得了很大的进展,但这些研究一般集中于利用单一分析或者主观分析来构建评价指标体系。例如,以上所提到的研究主要利用模糊层次分析法、因子分析、引力模型、基于自身提出的指标体系等。这些方法存在一定的问题,各有优缺点。而本课题主要通过因子分析建立综合竞争力指标体系,然后采用不同的分类算法进行比较,从五类分类算法中选择一种更为科学、合理的分类方法,并找出影响城市竞争力排名的主要因素。
本课题的主要研究内容如下:
1) 利用各城市统计年鉴搜集49个城市的相关指标的实际数据,利用因子分析选取出主要的因子,并建立城市竞争力的评价体系,对各城市竞争力等相关研究给与补充和支持;
2) 利用因子得分数据来研究其他分类方法(K-中心聚类、决策树、BP神经网络、KNN算法以及加权KNN算法)对城市等级分类的准确性,丰富城市等级分类的方法,并通过准确率的高低来选择最优分类方法。以此作为下一年城市竞争力排名的依据之一;
3) 根据分类结果,并结合近些年我国的国家政策以及国际大环境对国内各个城市的发展,给出合理的建议与意见。
1.4. 论文组织结构
本文通过各省市的统计年鉴查找59个城市的相应数据,并对其进行了探索性分析。利用因子分析建立城市竞争力评价体系,在此基础上,通过各种分类模型对59个城市进行分类,并对模型进行比较与评估。
2. 变量指标选择
2.1. 数据选择
本文主要研究的是选择影响城市分类的影响因素,以及选择最优分类方法。根据2016年城市竞争力官方排名,以及前期结合前辈研究,总结整理出我们所需要的各因素指标,并通过统计年鉴搜集了相应数据 [7] ,各因素指标类别如表1所示。
Table 1. Each factor indicator category
表1. 各个因素指标类别表
*所有数据来自各省统计信息网——统计年鉴。
2.2. 数据预处理和探索性分析
由于三线城市中内蒙古,齐齐哈尔等城市相关数据缺失,我们将三线城市进行剔除,主要以一线、新一线以及二线城市为研究对象。
下面,我们利用R语言中函数summary( )计算出了各个指标的最小值、最大值、平均值和标准差,见表2。
Table 2. Descriptive statistics of each indicator
表2. 各个指标的描述性统计量
从表2我们可知人均GDP (X1)、城乡居民人均储蓄年末余额(X6)、实际使用外资金额(X16)、人均公园绿地面积(X17)标准差很大,而第三产业与第二产业产值比(X5)标准差、均值特别的小。我们有理由得知我国一线、新一线、二线城市的发展存在较大的差距,特别是经济、环境方面,这也是国内贫富差距的不断增大的一个缩影。
Table 3. Pearson correlation coefficient matrix table
表3. Pearson相关系数矩阵表
除此之外,我们分析下各个影响因素指标之间的相关性,下面我们使用变量Pearson相关系数矩阵来描述各个变量之间的关系(阴影数据表明两变量之间的相关系数大于0.7),由表3可以看出各个因素之间多重共线性较为严重,其主要是存在正相关关系,只有少部分几个变量之间存在负相关性,但负相关系数都不是很大在−0.13之内。值得注意的是,X10与X3、X4、X7、X11、X16、X17、X18有密切强正相关性;X18与X3、X4、X7、X10、X11有密切强正相关性。而X1、X8、X9、X12与其他变量之间没有强相关性。
3. 模型建立
为了消除原始数据数量级和量纲的差异,以及部分算法的条件所限,我们先前先对数据进行了标准化处理,利用R语言中的scale()函数进行标准化。
3.1. 因子分析
因子分析(Factor Analysis)是对相关系数矩阵内部结构的依赖性的研究,它将多个变量浓缩为几个不互相干扰的主要因素,从而来表现出原始数据与因子之间的相关关系。
模型的形式为:
其中,是第i个可观测变量(
),是公共因子(
),并且当
时。是变量独自拥有的部分(无法被公共因子解释)。可以被看作是每个因子对复合可观测变量的贡献。
以下我们使用R语言对预处理数据执行因子分析,利用psych包对18个自变量进行因子分析,观察各因子的累计贡献率,提取出适当的因子数,再通过正交旋转变换得到相应的旋转成份矩阵并结合各因子所含主要自变量进行命名,最后就是建议相应的评价体系,并给49个城市打分、给出排名,根据结果给出相应的评价与建议。
3.1.1. 判断需提取的公共因子数
首先利用psych包中的fa.parallel()来判断需提取的公共因子数,从表4所示,从中可知前3个因子已经提取出了原始数据的76.48%的信息,并且特征值差异大,解释能力强。综合以上提取前三个因子作为主要因素,然后进行因子旋转。
Table 4. The cumulative contribution rate of each factor
表4. 各因子的累积贡献率
3.1.2. 因子旋转
三个主要因子与原始数据之间的相关性由因子载荷矩阵反映,由于旋转前各因子的信息结构不太明确,各个因子的解释能力不够强。于是我们进行了方差极大的正交旋转变换,利用R语言中的fa( )函数,并利用正交旋转来旋转三个因子,以获得该相应的旋转成份矩阵,具体见表5。
从表5中可以得知,含阴影的数据是各个因子中影响因素较大的指标系数。我们可以看出:第一个公因子对所有初始变量累积方差的贡献率达到38.472%,其中X3 (财政预算内收入)、X4 (社会消费品零售总额)、X7 (金融机构年末存款余额)、X10 (电话普及率)、X11 (互联网用户数)和X18 (人均财政教育费用支出)这6个指标上具有很大的负荷值,所以我们也可以得知这6个指标对因子一有很大的影响,结合实际情况以及变量的观察,我们发现这6个指标主要与社会经济、信息化普及程度有关,于是我们将因子一定义为:综合经济和信息化程度因子。
Table 5. The cumulative contribution rate of each factor
表5. 各因子的累积贡献率
第二个公共因子对所有初始变量的累计方差贡献率达到了25.892%,其中在X6 (城乡居民人均储蓄年末余额)、X8 (居民人均生活用水量)、X12 (人均城市道路面积)和X14 (万人拥有医生数)四个指标中具有较大的负荷值,这4个指标主要与城市环境、基础设施以及医疗服务有相应的关系,于是我们将因子二定义为:城市环境与医疗服务水平因子。
第三个公共因子对所有初始变量的累计方差贡献率达到了12.115%,其中在X2 (GDP增长率)与X5 (第二、第三产业占GDP比重)两个指标中具有较大的负荷值,这2个指标主要与城市经济有相应的关系,于是我们将因子三定义为:经济增长效益因子。
3.1.3. 因子综合得分以及评价
利用fa.diagram ( )获取正交图并通过fa.varimax$weights得到相应的因子得分,我们可以得到每个因子的表达式:
在此基础上,我们使用每个因子的方差贡献率与三个主要因子的总方差贡献率的比例作为每个因子的系数,并进行加权求和,我们可以可知因子综合得分的计算公式为:
各城市的主因子得分以及因子综合得分计算结果如表6所示。
Table 6. Factor score and comprehensive ranking of comprehensive competitiveness of each city
表6. 各城市综合竞争力的因子得分及综合排名
由表6可知,上海综合排名是49个城市中的第一名,其次是深圳市、广州市与北京市。广州是的3个因子得分较为均匀,比较适合任命生活与发展,而深圳市则是在经济方面得分较高,是我国经济不断增长的驱动力与助推器。相比而言,成都的综合经济和信息化程度因子得分较大,而其余两因子得分不高,而杭州市则是在因子三(经济增长效益因子)得分出众,作为浙江省的省会,确实是有自身城市的优越性和实力。其他城市在此就不做逐一分析,总之,通过因子分析我们可以建立相关的城市评价体系。接下来,在此基础上,我们利用各主因子得分作为变量数据,通过四种分类算法对此城市评价指标进行评估,来寻找最优分类方法以及对城市竞争力影响较大的因素。
3.2. 分类方法
通过因子分析,我们已经得出了相应的评价体系,并且得出了各城市的总得分与总排名,也对部分城市进行了分析。在此基础上,利用因子得分数据为我国的49个城市进行分类。
在进行每种分类算法的研究之前,我们首先将数据划分为训练集与测试集。其中,训练集占比3/4,测试集占比1/4。主要目的是为了防止模型出现过拟合情况,使得模型泛化性更强,利用训练集进行模型训练,利用测试集进行验证。
3.2.1. K-中心聚类
1) 基本原理
聚类分析:根据事物的某个特征把数据对象划分成多个子集的过程,每个子集都是一个簇,并且使簇的对象彼此相近,但与其他簇中的对象不相近 [8] 。
相比K-均值算法,K-中心点算法对异常值不敏感,它并不采用若干类中对象的平均值作为簇中心,而选用实际对象来代表所在的簇,以此为簇中心。
我们利用个城市进行聚类,通过训练集中36个城市进行聚类,并用测试集中的13个城市进行验证,与2016年官方排名进行比较,计算其准确率。
2) 实际应用
用R软件对各城市二级指标数据进行K-中心聚类。我们得到以下结果表7和表8。
Table 8. Performance results of K-center clustering model
表8. K-中心聚类模型性能结果
由上两个表我们可以看出,用K-中心聚类分出来的城市类别,导致了部分城市与已有的城市分类数据相差较大,准确率不是很高,有16个城市分类错误,其中分类后属于一线城市的数量竟然多达14个,有10个城市分错了类。其中,在测试集中的13个城市内,有4个城市分类错误,该算法准确率仅有69.23%。
3.2.2. 决策树分类
1) 基本原理
决策树(Decision Tree)是一种预测模型,它可以用来做回归也可以做分类,它是一种类似于流程图的树结构,我们可以将它分为三个部分:决策节点,分支和叶节点。决策节点表示对属性上的测试,属性上的不同测试结果代表为分支;分支表示为某个决策节点的不同取值,每个叶节点代表一种可能的分类结果 [9] 。
本文主要利用利用C4.5算法(从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的属性),对训练集中36个城市进行训练,并画出其决策树,然后再用测试集进行验证。
2) 实际应用
利用R软件中RWeka包的J48( )函数,建立决策树模型。再通过加载partykit、grid包,我们得到以下的决策树模型,见图1。
由图1可以看出,此时的分类规则是:如果Fa1 (综合经济和信息化程度)小于等于−0.02时,则属于二线城市,其中有24个城市属于此范畴;当Fa1大于−0.02且Fa1小于等于0.94时,属于新一线城市,有8个城市在此范畴内;当Fa1大于0.94时,此范畴属于一线城市,并有4个城市落入其中。
Figure 1. Training decision tree based on C4.5 algorithm
图1. 基于C4.5算法的训练决策树
Table 9. Decision tree model performance results
表9. 决策树模型性能结果
我们可以从表9看出Fa1对城市等级分类有重大影响,即影响城市等级分类的影响因素是综合经济和信息化程度,而Fa2、Fa3与城市等级分类并没有太大的影响。利用测试集数据,发现13个城市中方只有2个城市分类错误,我们可以得知分类准确率为84.62%。可知:该模型的一线城市、二线城市以及三线城市的分类准确率较高,并且影响城市等级分类的主要因素为Fa1中系数较大的指标。说明用决策树对城市进行分类是可行的,并且分类错误率较低。
3.2.3. BP神经网络
1) 基本原理
BP神经网络是一种根据误差的反向传播,对多层前馈网络进行训练,该算法称为BP算法,主要思想是梯度下降法,利用梯度搜寻技术,为了最小化网络的实际输出量和预期输出之间的误差均方误差 [10] 。
本文主要利用BP神经网络进行分类处理,并对测试集中的13个城市进行分类,计算准确率。
计算过程为:① 网络状态初始化;② 前向计算过程。
2) 实际应用
用R软件对数据建立一个包括4个隐藏层节点的神经网络模型,本次共进行了4634次迭代,迭代结束时损失函数为0.513,权值的最大调整量为0.009,再对神经网络进行可视化,可接着得到图2。
接着对模型进行性能预测评估,通过R软件,发现只有两个城市分类错误,见表10,得到混淆矩阵精度为84.62%,Kappa为0.726,总的看来该模型性能还是比较高的;再从城市分类的灵敏度看,除了一线城市和新一线城市的灵敏度较低外,二线城市的灵敏度还是比较高的,而一线城市和新一线城市的灵敏度较低,可能与原始数据中,这两类的城市数据较少有关,基于此认为总体模型性能还是挺好的。
Table 10. Performance results of BP neural network model
表10. BP神经网络模型性能结果
3.2.4. KNN算法
1) 基本原理
K最近邻(KNN)分类算法,是最简单的机器学习算法之一,虽然它的想法很简单,但是该方法功能及其强大。K最近邻方法主要思想是:将未分类的数据归入到与他们最相似的一类之中,其中主要利用相应的距离公式计算出该对象与各类的距离 [11] 。
2) 实际应用
我们利用R语言class包中的knn( )函数,通过训练集进行训练,测试集进行验证的方式,得到混淆矩阵如表11所示。
计算得表11,13个测试城市中有3个城市分类错误,该算法的准确率为76.92%,准确率较高,说明该算法用于城市等级分类还是可行。从图中发现,测试集中的13个城市中,有一个一线城市错分为了新一线城市,两个二线城市错分为了新一线城市,其他城市分类正确,总体来看该模型性能还是较好的。
3.2.5. 加权KNN算法
1) 基本原理
核函数加权最近邻(KKNN)分类算法,是KNN算法的一种扩展,主要思想是:通过给每个点的距离加入一个权重,是的距离较近的点可以得到更大的权重,而距离较远的点则得到较小的权重。
2) 实际应用
我们利用R语言kknn包中的kknn( )函数,通过训练集进行训练,测试集进行验证的方式,得到混淆矩阵如表12所示。
计算得知,该算法的准确率达为76.92%,与KNN算法准确率相同,从理论来看,该算法会比KNN更精确,但是由于数据量较少等原因,在此数据中并未能体现出其优越性。
Table 12. KKNN model performance results
表12. KKNN模型性能结果
4. 结论与建议
由表13我们可以得知:决策树分类与神经网络效果较好,准确率高达84.62%。综上所述:主要影响指标为Fa1,而Fa1 (综合经济和信息化程度)的主要影响因素是X3 (财政预算内收入)、X4社会消费品零售总额(亿元)、X10电话普及率(部/100人)、X11互联网用户数(万户)、X7 (金融机构年末存款余额)、X19 (人均公园绿地面积),说明综合经济实力对城市综合竞争力有着极大影响。
从以上结论可以发现,由于我们通过因子分析,得到三个关键因子分别为:Fa1:综合经济和信息化程度、Fa2:城市环境与医疗服务水平因子、Fa3:经济增长效益。其中,Fa1的解释能力最强,所以对数据的影响程度也就越大,再通过因子得分作为数据进行分类分析后,Fa1中的X3、X4、X7、X10、X11占比较大,对数据的影响较大。而在四种分类算法中,Fa1都起到主要的作用,对城市综合竞争力,有着至关重要的影响。这不仅说明我国国民经济对城市发展的基础性作用,更说明还有政府对市场配置的宏观调控能够显著影响城市进程的发展和进步,来提升城市的综合竞争力。因此中国应着眼于提高经济的核心竞争力,以提升城市的综合竞争力。
Table 13. Comparison of classification methods
表13. 各分类方法比较
此外,在党的十九大报告中提出了“建设科技强国”。如何以习近平新时代中国特色社会主义思想作为指导,这是广大爱国人民正在思考的问题,也是各政府工作人员必须面对的问题。从分类结果中也可以得知:科技发展对于各个城市的综合竞争力起到重要的作用,在发展城市经济与科技的同时,保持环境质量也是提高城市竞争力不可或缺的因素。总而言之,需要针对每个城市不同的发展状况,具体问题具体分析,以现实情况为基础,坚持经济综合实力的提升为核心,发展各城市的潜藏能力,全面提升城市综合竞争力。
致谢
在本次论文设计过程中,黄辉林老师对该论文从选题,构思到最后定稿的各个环节给予细心指引与教导,使我们得以最终完成论文设计。并且感谢众多老师的关心支持和帮助。在此,谨向老师们致以衷心的感谢和崇高的敬意!
基金项目
温州大学大学生创新创业项目(No.JWD2017078)。