1. 引言
区域经济发展不平衡是国际性的普遍现象,世界各国都不同程度地面临经济发展不平衡问题的困扰。众所周知,经济社会发展的平衡是相对的,其不平衡是绝对的。暂时的经济不平衡有利于保持竞争的压力与活力,进而促进生产要素的合理化。但长期的经济发展不平衡,会影响社会的公平,会阻碍国民经济的平稳发展 [1]。
中国是一个地域辽阔、人口众多的发展中国家,也是世界上自然地理、经济社会、人口资源差异最大的国家之一。我国区域经济发展的差异性是由自然、历史、政治、地理、社会、空间差异等诸多因素长期作用而成 [2] [3]。改革开放以来,我国东部地区经济实力明显比西部地区的经济实力强,这与我国当时“两个大局”的战略思想有关。当时,邓小平提出在生产力布局上向东部倾斜的政策,形成东–中–西梯度发展的经济发展模式。随着国家经济的不断发展,当初的发展模式已不能适应我国现在的国情。我国东西部经济发展的差异化不利于社会的稳定和全国统一市场的形成,从而影响了经济的可持续发展 [4] [5] [6]。
因此,加快西部地区经济发展成为我国解决社会、经济矛盾从而实现共同富裕的重大问题。如何加快西部的发展,缩小区域经济差异,是一个值得深人研究的重大战略问题,也成为区城经济学研究的热点内容之一。重庆是中国大规模开发西部战略的重点和前沿阵地,也是西部地区新的经济增长点 [7]。
重庆的腾飞,是西部大开发的一个重要组成部分。重庆从1997年直辖以来,推行了一系列的对外开放和经济发展措施,实现了国民经济的快速发展。与此同时,重庆市内部各区域间的经济差异也日趋明显。重庆主城区经济相对较为发达,处于特大城市经济生活水平。但是其中某些区(县)经济发展相对较慢,生活条件也没有得到很好的改善,这不利于重庆市整体经济的发展,也不利于提高人民的生活水平和社会的安定团结。
因此研究重庆市的区域经济差异,不但可以提高重庆市的整体经济水平、缩小城乡差距,加快重庆市的城市化进程,维护社会安定团结,还可以作为区域经济差异研究的典范,具有较好的理论研究意义和现实意义 [8]。而研究区域经济的差异性,需要有一套科学有效的区域经济发展评价指标。这些指标的评价结果是政府部门判断该区域现有的经济水平和制定该区城经济发展策略的重要依据。对于各级政府部门而言,想制定推动当地经济发展的相关策略,提高居民生活水平和生活幸福指数,就必须了解当地城区经济的发展状况,因此很有必要提出一些合理的统计方法来对城区经济发展指标进行研究。
目前区域经济分析常用的数学方法有线性规划、决策论和多元统计分析等。其中多元统计主要的分析方法有聚类分析、主成分分析、因子分析和回归分析等 [9] [10]。本文利用Lasso变量选择方法 [11] [12]、主成分分析 [13] 和聚类分析,从现实的角度分析重庆区域经济差异的现状及成因,进而对缩小区城经济差异、加快西部地区经济发展提出有针对性的政策措施。
2. 相关理论介绍
2.1. Lasso变量选择
在大数据时代,数据来源呈现多源、海量和高维的特征,Lasso (Least absolute shrinkage and selection operator)方法因能从高维变量中高效提取出关键变量,并能有效解决变量间的多重共线性问题、提高模型的解释精度而获得高度评价和广泛应用 [11] [12]。
给定观测数据(
),
,一个多元线性回归模型可设为
(1)
其中误差项
满足Gauss-Markov条件,令
(2)
则公式(1)可表示为如下的矩阵形式:
(3)
Lasso方法的基本思想是在普通最小二乘估计的基础上引入惩罚因子对回归系数
添加
范数作为约束,公式如下:
(4)
等价地,可表示为
(5)
其中
是一个调节参数,控制压缩的强度,且由于
范数约束的自然属性,使得回归模型的系数可能为0,回归系数等于0所对应的自变量与因变量相关性很弱,将被剔除,从而实现变量选择。
2.2. 主成分分析
主成分分析(principal component analysis)是将多指标化为少数几个综合指标的一种统计分析方法,是由Pearson (1901)针对非随机变量提出,后来Hotelling (1933)将此方法推广到随机向量的情形。主成分分析将多个变量化成少数几个主成分实现数据降维,这些主成分能够发映原始变量的绝大部分信息,通常表示为原始变量的线性组合 [10]。
设
是
维随机变量,并假设
,
。考虑如下线性变换
(6)
易见
(7)
(8)
若希望
的方差达到最大,那么
是约束优化问题
(9)
的解。因此,
是
最大特征值(不妨设为
)的特征向量。此时,称
为第一主成分。类似地,希望
的方差达到最大,且要求
。由于
是
的特征向量,故选择的
应与
正交。类似于前面的推导,
是
第二大特征值(不妨设为
)的特征向量,称
为第二主成分。
一般情况下,对于协方差阵
,存在正交阵
,将它化为对角阵,即
(10)
且
。则矩阵
的第
列就对应于
,相应的
为第
主成分。
2.3. 聚类分析
聚类分析(cluster analysis)是一类将数据所研究对象进行分类的统计方法。这一类方法的共同特点是:事先不知道类别的个数与结构;据以进行分析的数据是对象之间的相似性(similarity)或相异性(dissimilarity)的数据。将这些相似(相异)性数据看成是对象之间的“距离”远近的一种度量,将距离近的对象归入一类,不同类别之间的对象距离较远。几乎所有的聚类算法均遵循以下5个步骤:对初始数据集进行预处理;分析数据提取有效特征,使得数据能够保留更多信息;根据提取出的特征以及数据结构选择或设计合适的聚类算法进行聚类;对聚类结果使用相关的评价指标进行有效性验证;分析聚类得出的结果,得到一定的结论。目前相似性度量主要有三种,分别是距离测度、相似度测度及匹配测度。
聚类分析根据分类对象不同分为Q型聚类分析和R型聚类分析。Q型聚类分析是指对样本进行聚类,R型聚类分析是指对变量进行聚类分析。其中,系统聚类法(hierarchical clustering method)属于Q型聚类分析方法,它是聚类分析诸方法中最常用的一种方法,其基本思想是:开始将n个样本各自作为一类,并规定样本之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行最近两类的合并,每次减少一类,直至所有的样本合并为一类 [11] [12]。
3. 数据的探索性分析
3.1. 区域经济发展评价指标的选取
通过相关文献研究发现 [1] [2] [7],影响区域经济发展的因素主要包括两个方面:一是利于经济增长的因素,它主要包括经济效益产业结构、劳动力资源、自然资源状况、基础设施状况等;二是居民收人水平、消费水平等。因此,在遵循区域经济指标体系建立原则的基础上,结合相关的研究成果,本文以2018年重庆市各城区的经济发展为研究对象,数据来源于2018年《重庆统计年鉴》的统计数据。经过多年的行政区划变动,现在重庆市下辖19个区、15个县和4个自治县,总计38个区县。该数据包含38个样本以及11个特征,这11个特征是反映该城区经济发展综合实力的11个指标,如表1所示。
3.2. 研究区域概况
重庆市,简称“渝”,地处105˚11'~110˚11'E和28˚10'~32˚13'N之间,位于中国大陆西南部,介于青藏高原和长江中下游平原的过渡地带,处于长江上游地区,渝东北连接陕西省,渝南接贵州,东北部和西部与四川接壤,渝东南抵湖北省。该市辖区面积为8.24万平方千米,主要包括渝中区、万州区、开县和武隆县等38个县(区),见图1。重庆市人力资源丰富,农业基础较好,工业以重工业为主,金融业和商业较发达。从经济区位来看,重庆是川渝经济圈的重要组成部分,东部与中部五省经济区相邻,联合四川实现区域经济共同发展,充分利用本市的水路和陆路交通优势,在国家西部大开发战略背景下,实现其区域经济的快速发展,同时,具有巨大的经济吸引力和发展潜力 [8]。
3.3. 数据的初步探索
3.3.1. 描述性统计分析
本文首先考虑对11个经济指标进行初步探索,计算得到各个变量的主要描述统计量如表2所示。
由表2可知,重庆市平均地区生产总值是5,318,419万元;城口县的地区生产总值是最低的,为557,772万元;渝北区的地区生产总值是最高的,为15,430,945万元。重庆各区域的平均常住人口约为74万人,其中渝北区的常住人口最多,约为166万人,城口县的常住人口最少,约为18万人。通过重庆统计年鉴多年来的数据可以发现,渝中区的农业一直是无数值的,查阅资料可知,在所有的区县中,仅渝中区没有农业生产。于是把空值改成了0;江津区的农业总产值居全市第一,近年来,江津区致力于建设国家现代农业示范区,充分发挥富硒资源,突出发展富硒产业,着力构建现代农业发展格局,加快转变农业发展方式,有效开辟了一条“富硒为民、富硒富民”的现代特色效益农业发展之路,实现了传统农业向现代农业的转变。社会发展到今天,工业仍然是经济社会发展的重要支柱。2019年,重庆工业增加值达到6656.72亿元,仅次于上海、深圳、苏州,排全国第四位。支撑起重庆这个工业大市的,是多个工业强区强县,排名第一的是渝北区,工业总产值为27,974,422万元。

Table 2. The main descriptive statistics of each variable
表2. 各变量的主要描述统计量
接下来通过半幅星图更直观地刻画数据的特征,如图2所示。

Figure 2. Half star diagram of economic indicators of 38 districts (counties)
图2. 38个区(县)经济指标的半幅星图
可以很明显地看出,渝北区除了农业发展水平方面稍微低一些,其他的都具有明显优势;重庆主城区,即重庆市城乡总体规划中所称的都市区,范围包括渝中区、大渡口区、江北区、南岸区、沙坪坝区、九龙坡区、北碚区、渝北区和巴南区行政区域,这些区域的社会消费品零售总额、全体居民人均可支配收入和全体居民人均生活消费支出都是比较高的。因为都市区是国家中心城市的核心载体,是全市的政治、经济、文化、交通、金融中心,并且渝中区是整个重庆主城区的核心,尤其是解放碑和朝天门商圈。虽然这些年来,重庆东部欠发达地区(简称渝东欠发达地区)经济社会达到了历史新水平。然而,从图2中可看出,同全市经济发达地区相比,渝东欠发达地区目前的发展仍存在相当大的差距。从下面的轮廓图也可以得到相似的结论,如图3所示。
从图3可知,重庆东部地区的轮廓线都偏低,即各个经济指标偏低;相反,位于市中心附近的区域轮廓线大多数情况下都偏高,即各经济指标较高。
3.3.2. 变量间的相关关系探索
本文要利用Lasso变量选择、主成分分析和聚类分析,来分析重庆区域经济差异的现状和成因,这些方法在数据的变量之间有较大相关关系时是有效的。于是,我们要先检测变量间的相关性,利用R软件对数据进行计算,得到相关系数热力图和散点图如图4、图5所示。

Figure 4. Correlation coefficient thermal diagram
图4. 相关系数热力图
由图4和图5可知,大部分变量间的相关系数都在0.3以上,表明各变量间具有较高的相关性,适合本文要使用的方法。
4. 实证分析
影响区域经济发展的因素有很多,结合相关文献研究成果,本文选择了反映重庆市各城区经济发展综合实力的11个指标。在进行主成分分析和聚类分析之前,本文通过进行变量选择的Lasso、逐步回归和自适应Lasso与不进行变量选择的线性模型作比较,得到Lasso变量选择法选取的指标在重庆区域经济发展研究中更具代表性,预测精度也更高。
4.1. 基于Lasso方法的变量选择
以2018年重庆各区县地区生产总值作为被解释变量,记为Y,运用Lasso方法建立模型:
(11)
其中
为常数项,
为各变量系数,
为随机干扰项。
图6是利用R软件运行得到的变量选择路径图。左图显示了系数随参数变化的结果,横轴已由最小
二乘解给出的
的最大可能值(即s)进行了缩放。右图显示了使用交叉验证(cross validation, CV)法来
选择s,可看到s取值建议在0.8左右,查看左图,在s为0.8左右产生了一个包含7个自变量的模型。也就是基于Lasso方法最终选取出X1、X2、X4、X5、X6、X7、X9这7个主要变量,如表3所示。
由表3可知,基于Lasso变量选择法,影响重庆区域经济发展的主要因素即为常住人口、人均地区生产总值、工业总产值、建筑业总产值、全社会固定资产投资和全体居民人均可支配收入。

Table 3. Parameter estimation results of Lasso method
表3. Lasso方法的参数估计结果

Figure 6. Variable selection path diagram for Lasso method
图6. Lasso方法的变量选择路径图
4.2. Lasso方法与其他变量选择方法的比较
本文通过将Lasso方法、逐步回归法和自适应Lasso进行对比 [14],发现Lasso变量选择法既达到简化模型的目的,又提高了预测精度。为了说明变量选择起到简化模型的作用,首先用原始自变量做一个线性回归模型,再利用三种变量选择方法简化模型。按8:2的比例将数据分为训练集和测试集,选择平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)作为预测评价指标,整理如表4所示。
从表4可知,Lasso方法的MAPE是最低的,为10.136%,因此选择剔除X3、X8、X10是较合适的。
4.3. 主成分分析
4.3.1
. 相关性检验
经过变量选择,从原始11个变量中剔除了3个变量。在进行主成分分析之前,先检测变量间的相关性,以剔除变量后的数据为依据,利用R软件对这些数据进行计算,得到相关系数热力图如图7所示。
由图可以发现,各变量间具有较高的相关性,说明可以使用主成分分析方法对重庆市的区域经济差异进行分析。
4.3.2
. 提取主成分
提取特征值大于1的主成分,结果如表5所示。本文将8个指标转化为2个主成分,其中第1个主成分的方差贡献率为71.05%,第2个主成分的方差贡献率为14.22%,合计85.27%,说明两个主成分包含85.27%的原始信息。由于前两个主成分的累计方差贡献率达到85.27%大于80%,因此,可选取前两个主成分作为重庆市城区经济发展的综合指标。

Table 5. Eigenvalues and variance contribution rates of principal components
表5. 主成分的特征值和方差贡献率
得到的碎石图如图8所示。
由图8可以看出,从第三个主成分开始,方差下降速度变缓,因此保留两个主成分是合理的。
因子载荷矩阵如表6所示。
由表6则可以得到主成分的表达式:
由此可以计算主成分得分并进行排序。在主成分分析中,主成分得分是根据主成分表达式将标准化后的数据代入而得到的。先求出前2个主成分的得分
、
,以各主成分的方差贡献率
作为权数,构造综合评价函数
,就可以得到主成分的综合得分f并对各城区经济发展进行排序,主成分得分及排名如表7。

Table 7. Principal component score ranking
表7. 主成分得分排名
从表7中综合得分排名可以看出,渝北区、渝中区、九龙坡区的经济发展排名前三,而巫山县、酉阳县、巫溪县、城口县经济发展排名靠后。从表中还可以发现,行政级别为区的城市比行政级别为县的城市经济发展情况好。
4.4. 聚类分析
将表7的两个公共因子采用系统聚类法进行聚类分析,得到聚类树状图如图9所示。
以4类划分为例,其聚类情况如表8所示。
从表中可以看出,渝中区、江北区、九龙坡区、南岸区综合经济实力最强、经济发展最好。这四大区位于重庆城市圈的中心,它们的地理位置优越,交通便利,经济基础坚实,综合实力强大。渝北区、沙坪坝区、涪陵区、江津区、永川区、巴南区、万州区和合川区在经济发展方面属于第二梯队。这几个区距离重庆市中心距离较近,地理优势相较于其他城区明显,而且各城区的特色经济发展良好。北碚区、长寿区、璧山区、大足区、荣昌区、铜梁区、綦江区、潼南区、开州区、奉节县和云阳县属于第三梯队,大渡口区、垫江县、梁平区、南川区、忠县、丰都县、黔江区、秀山县、武隆区、石柱县、彭水县、巫山县、酉阳县、巫溪县和城口县属于第四梯队。从以上分析可以看出,这4类城区的经济发展差异是非常明显的。计算4个类别中各城区各主成分得分和综合得分的均值,结果如表9所示。

Table 9. Regional economic differences in Chongqing
表9. 重庆市区域经济差异
可以看出,第3类地区的第2主成分得分和综合得分最高,分别为2.203和2.755,综合经济发展水平最好;第1类地区的第1主成分得分最高,为2.947,经济发展水平较高,综合得分为2.320;第2类地区的第1主成分得分和综合得分均为负数,综合得分为−1.849,综合经济发展水平最差。综合经济发展水平较好的第1类和第3类,说明重庆市区域经济发展水平存在很大差异。
5. 结论和建议
重庆市东西部经济发展呈现两极分化,这主要与区域的自然地理条件、经济基础和交通区位因素有关。以涪陵为界限以西的地区较为发达,中部以万州区隔开分成两个大型的农业区域,这种“三分天下”的大势明显使重庆市的经济发展极不均衡,这种不均衡对重庆未来整体发展是非常不利的。因此,改善东南和东北两个方向的农业区是极为关键的。众所周知。重庆素有“山城”之称,在重庆修建公路和铁路本要比平原地区困难许多,再加之重庆东北部巫溪、巫山等地区多暗河,完善的铁路和公路的耗资非常大,直接阻碍了该地区对外联系和经济流通。因此,对于重庆巿区域经济的发展,要根据重庆各城区的实际情况,采取相应的措施发挥各城区的优势,重点扶持经济相对落后的城区,使各城区经济协调发展。具体来说,可分为以下三个方面。
加强政府宏观调控和布局,促进经济社会的发展。加强和改善宏观调控,保持经济平稳较快发展。深化金融改革,改善金融服务,优化信贷结构,大力扶持高新技术产业。加大对贫困地区的农业、教育、社会保障等投入。加强交通网络的建设,加快机场、水运、铁路、公路的建设。
加快经济结构调整,大力发展高新技术产业。从经济结构看,目前重庆各产业结构比例相差很大,需要加快产业结构的调整,以“稳定巩固第一产业、优化提高第二产业、加快发展第三产业”的方针,来壮大支柱产业,加快发展高新技术产业。
加快经济落后地区的经济发展。根据各区县的资源状况和条件,发挥优势,突出特色。对各区县进行分类指导,打造各自的主导产业,防止产业趋同,培育区县经济新的增长点。