1. 引言
党的二十大对新发展阶段区域发展和空间治理作出了重大部署,着力构建优势互补、高质量发展的区域经济布局和国土空间体系,以城市群、都市圈为依托构建大中小城市协调发展的格局,这对解决发展不平衡不充分的问题,加快构建新发展格局,推动高质量发展具有重大而深远的意义。因此,探究城市群之间经济产出和生态效益的差异对于针对性促进城市群乃至区域整体协调发展有着重大意义 [1] [2] 。
基尼系数是最被广泛运用的社会经济指标之一,它是基于洛伦兹曲线定量确定平衡的指标工具。基尼系数常常用来度量收入、消费和财富的不平等,但其实基尼系数可以用来度量任何事物的分布不均情况。传统的基尼系数方法现如今已被广泛的运用到区域的生态和经济发展平衡评价之中 [3] 。这些研究中的基尼系数计算方法多种多样,但其中大部分方法与收入分配的计算方法相同。然而,居民收入分配数据与区域经济产出、污染排放数据在分布类型上存在较大差异,收入分布数据与区域发展数据的样本单位也处于不同的数量水平,这些差异对于基尼系数的计算以及分解将产生重大影响。中国的经济生态发展带有浓厚的区域特征 [4] [5] [6] ,呈现出经济高度空间聚集,以及东西部地区每单位GDP上的污染排放高度分布不平等,导致不同地区的工业产出数据和污染排放数据在一定程度上延伸出不同的重尾特征 [7] 。
在非参数方法中,人们一般直接从总体实际数据出发,不做任何分布假定,直接构造基尼系数或者相关表达式。但Bahadur和Savage [8] 指出当数据呈现出厚尾特征时使用非参数方法估计基尼系数可能不可靠;Andrea et al. [9] 也指出当对厚尾数据进行分析时,基尼系数的估计会存在向下的估计,这种情况下,基尼系数不能可靠地使用传统的非参数方法;但根据现有的文献的研究发现,在对区域平衡发展研究时,使用的基尼系数算法大多是非参数方法 [10] - [15] ,比如Druckman [16] 构建了AR-Gini,估计了社区之间关于特定消费品之间的不平等;Jiandong Chen et al. [17] 等人构建了关于CEC的基尼系数研究了中国煤炭二氧化碳排放区域间差异的演变过程,以及排放差异偏离经济增长差异的原因。
另一种基尼系数计算方法是基于洛伦兹曲线的参数方程和连续分布函数的参数化方法。Kendall [18] 在1977年提出了一种基于连续分布函数的基尼系数计算方法,程永宏 [19] [20] 利用收入分配函数和洛伦兹曲线定义了一种新的参数化基尼系数计算方法,并且在某种程度上证明的Kendall的表达式,同时将基尼系数从一元总体推向了多元群组,使基尼系数有了更加广泛的运用。在使用参数法计算基尼系数时,需要对总体的分布类型进行假定。陈希孺 [21] 认为,当对总体的分布形式有较大把握时,有利于提高估计效率。然而,这种参数化方法在区域平衡发展评价 [22] 中很少用到,并且收入分配数据与区域经济产出和生态效益数据有一定差异,基于该类分布数据的基尼系数计算还未得到更深的研究。
在使用参数化方法评价区域平衡发展时,需要从总体基尼系数出发,考虑到区域经济和生态条件的差异。总体基尼系数在福利领域得到广泛的研究 [23] [24] [25] [26] ,比如艾小青和祁磊 [23] 实现了在收入或财富信息不完全的情况下的总体基尼系数的估算;黄和平 [27] 提出,不同的基尼系数计算方法有着各自的优点和适应范围,从不同角度计算的环境基尼系数也不尽相同
对总体基尼系数的另一个深入研究领域是对其分解结果的探讨,对总体基尼系数进行分解,可以有效的揭示不平等的来源。当数据被分成大小相同的组时,基尼系数将会严格降低 [28] 。杨桐彬 [29] 、Cowell [30] 等人都从不同角度对总体基尼系数进行了分解,但这些分解方法大多基于非参数总体基尼系数 [31] [32] [33] [34] [35] ,并且几乎都来自经济研究领域。大多数学者将基尼系数引入区域经济和生态效益评价中 [36] [37] 时,往往都直接采用收入基尼系数的分解方法,这些应用研究几乎都没有区别样本数据的分布类型,而且区域发展数据中往往以地区样本单位,样本量有限。艾小青 [38] 指出样本数据对于分布函数的拟合程度不是关键,真正的关键是对于总体分布的假定是否准确。因此,进行区域平衡评价时,主要集中在基尼系数的适用性上,需要考虑数据类型、数据的统计特征以及基尼系数的计算方法等多方面的因素。
鉴于此,在已有研究基础上,本文将基于京津冀、珠三角、长江上游、成渝、长三角五大城市群2005~2020年城市面板数据,对区域经济和生态数据的厚尾性进行验证,并针对其厚尾特征,基于参数化基尼框架,构建了有限样本下的多群组混合环境基尼系数及其分解形式,用于度量我国区域经济和生态发展的不平衡及其组成成分。
2. 空间异质性条件下多群组环境基尼系数的构建
在针对区域性的平衡发展研究时,基尼系数主要是用来度量各发展中区域的工业产出、资源消耗以及污染物排放情况之间的社会分配平等性。利用Kendal在1977年给出的计算方法,得到总体的基尼系数为 [18] :
(1)
一个包含多个空间单元的区域的污染物排放量可以看作一个连续的随机变量S,
,其中a和b表示在该区域中排放的上界和上界,F为关于S的分布函数;所研究的区域的空间单元总数记为N;且该区域的污染物排放均值记为u,
,同时均值 [4] 也可以表示为
。
2.1. 具有空间异质性的统计分布函数
随着时间的推移,区域间的发展关系也会同步的发生变化。将调查时间设定为t,
。调查区域内将划分为M个不同的分组,代表了不同的经济水平和生态承载力的区域的各空间单元。第m组空间单元数记为
,第t年第m组空间单元的污染排放总量用随机变量
表示,
,则对应
的排放分布函数记为
,
,
。区域的空间单元总数为
,第t年区域污染排放总量记为
,其分布函数为
,随机变量的值在区间
内,其中
,
。
为获得多群组混合的分布函数,进而推广到多群组混合基尼系数的计算及其分解,在此做出一个重要的前提假设,各群组的分布函数之间是相互独立的。
,它的概率论意义表示为该区域第t年污染物排放不超过s的空间单元数占空间单元总数的比例,用
表示第m组空间单元数占该区域空间单元总数的比重,
。
基于空间单元N比重的概率意义,根据全概率公式,可以清晰的证明:
(2)
但当考虑一个特定地区的经济产出、资源消耗、或污染物排放时,样本个体一般选取为城镇,样本量N往往是有限的,设定以下前提条件:
所有空间单元的污染物排放量都位于区间
内。如果各空间单位的污染物排放可以相同,则处于最高污染物排放量b或最低污染物排放量a位置的空间单元数不唯一,用
表示。污染排放分布函数
也在
和
处存在不连续。
(3)
(4)
在收入分配的计算中,由于样本量人口足够大,
,所以分布函数在上下界的不连续点处的左右界限处十分接近,近似看作连续。但区域空间单元数是有限的,区域经济产出和生态效益分布函数在上下界跳跃点处的左右界限是不相等的。除了经济和生态方面数据本身的分布特征外,区域空间单元数也会对基尼系数的计算产生影响。
2.2. 具有空间异质性的多群组环境基尼系数的推导
在区域污染排放数据中,总体基尼系数测算了存在模式差异时的空间不平衡。基于总体基尼系数,可以进一步分析总体基尼系数测算的不平衡的组成成分。
设第t年总体的污染排放均值为
,各群组的污染排放均值为
,
。设第t年各群组的污染排放占区域总排放的比重为
,则
(5)
根据排放分布函数下基尼系数的计算公式,总体以及各个群组的基尼系数为:
(6)
(7)
在样本足够大的情况下,污染排放分布函数在上下界处依然存在跳跃间断点,但可将其忽略近似看作连续。
根据艾小青 [11] 与程永宏 [5] 对于基尼系数分解的研究,可以得到:
(8)
当考虑一个特定地区的经济产出、资源消耗、或污染物排放时,样本个体一般选取为城镇,样本量N往往是有限的。区域经济产出和生态效益的分布以及空间单位的数量对于基尼系数中的计算有着重大的关系,不得不考虑区域空间的有限性,不能忽略数据上下界出数据分布的不连续性。
有限样本下的多群组总体基尼系数推导中的几个重要元素需要特殊处理,即对区域的空间单元根据具体情景分别分组,然后根据各组的排放数据拟合相应的分布函数,找到相应的逆函数,进而得到各子群组的上下界的估计值,即
和
。
在样本量有限的情况下,总体的基尼系数为:
(9)
令
,
则各子群组内
,
各子群组的均值为
。
在将式(9)进行多群组分解时,使用有限样本下的各子群组均值
来表示总体的均值
(
是各元素在有限样本下的表达形式),近似代替
,且根据式(8)可将上式变化为,
(10)
因此该区域的污染排放总量为:
(11)
根据定积分的积分性质,关于分布函数F的积分可变形为,
(11)
同理得,
(12)
(13)
于是,将总体基尼系数的区间由
化作
后,得到的表达式缀余项为:
(14)
根据式(14)可以看出,在计算基尼系数时,对于某些特定表达式的积分,区间的变化,并不会改变积分的值。根据式(9)以及式(8)的推算过程可得:
(15)
这里
,令
即将
定义为两个子群组之间污染排放分布差异的相对指标。
表示在样本有限的情况下,由于总体上下界处的跳跃点的不连续带来的误差。那么,总体基尼系数在假设四下的最终分解形式为:
(16)
可以看出,总体的基尼系数分解成了三个部分,组内差异、组间差异以及样本误差项。有限样本混合环境基尼系数相对于大样本收入基尼系数的主要区别在于考虑了跳跃点处界限的影响,多了一个样本误差项
,误差项是对基尼系数的修正,并无实际的解释意义。并且该公式与区域各群组排放数据的上下界
,
相关联,对各群组内的排放情况的表示更加清晰。在混合基尼系数的表达形式上看,混合基尼系数是组内基尼系数、组间基尼系数和样本误差项的线性组合。
3. 环境基尼系数在区域平衡发展评价中的应用
本节采用上述方法对我国的工业经济和生态空间平衡进行了评价和分析。从城市以及城市群的角度出发,按照我国的城市群的地理位置,选取了5个核心城市群共计92个城市作为研究对象,分别是京津冀、珠三角、长三角、长江中游和成渝城市群。本节整理了2005~2020年各城市的GDP (亿元)、社会用电量(亿千瓦时)、工业废水排放量(万吨)和工业SO2排放量(吨)的数据,样本数据来自《中国统计年鉴》、《中国城市统计年鉴》以及各省份统计年鉴。区域GDP被选为工业产出指标,并且以2005为基期,对各城市群2006~2020年的GDP进行平减处理;以市社会用电量作为能源消耗的指标;以SO2排放代表大气污染,以工业废水排放代表水资源污染。
从图1可以看出,长江上游和长三角城市群占GDP、能源消耗和环境污染排放的主要比例。工业能源消耗、污染排放和区域工业产出的空间特征表现出一定程度的复杂性,各城市群之间存在较大差异,各城市群内部城市之间亦存在较大差异。

Figure 1. Spatial distribution of industrial output, energy consumption and pollution emissions in China’s five major urban agglomerations
图1. 中国五大城市群工业产出、能源消耗、污染排放空间分布图
3.1. 用非分组数据和分组数据拟合工业产出、能源消耗和污染排放的分布
大部分样本数据对于厚尾分布比如对数正态、对数逻辑、Gamma以及Weibull分布的拟合效果更好,而对于正态分布、指数分布或极值分布等的拟合优度P值往往小于0.05,因此在样本量有限时,厚尾分布对于样本数据有着更强的适应性。
3.1.1. 非分组总体数据的分布拟合
将2005~2020年的各指标数据按国民经济的5年规划期为一个时间段进行分组,以各分组均值为基础进行分布函数拟合。而在厚尾分布中,对数逻辑和对数正态对于总体非分组数据的拟合效果更佳。
样本数据的主要特征主要体现在“厚尾”上,对数正态分布和对数逻辑分布均表现出明显的“峰值”和“厚尾”特征,且这两种分布类型有着相近的分布特点,而且在三参数形式下的各分布均有着相近的分布特点。在十一五到十三五期间,GDP数据和能源消耗数据的峰值特征在逐渐下降,但厚尾特征依然存在;而污染排放数据的峰值特征在逐渐上升,且厚尾特征依然存在(图2)。
由于我国疆域辽阔且分布复杂,地区发展机会不均等,区域发展分化严重,差距明显,一线核心城市发展程度远高于其他城市。随着区域协调发展战略以及可持续发展战略的贯彻实施,各地区发展逐渐提升且差距缩小,与一线城市间差距依旧显著,数据厚尾特征减小但依旧存在。

Figure 2. Fitting plot of GDP and SO2 distribution during the 13th Five-Year Plan period
图2. 十三五时期GDP和SO2分布拟合图
3.1.2. 以城市群为分组的分布拟合
分组数据每组采用四类经济和生态效益指标,分布拟合方法和统计检验方法与非分组数据相同。与非分组数据相比,各城市群的样本数据对于四种厚尾分布的拟合和效果均表现较为良好(表1),因此这里各统计指标均采用标准形式的厚尾分布。各城市群数据对于不同类型分布的拟合检验中,基本上最佳分布都为对数正态分布或对数逻辑分布。对每种指标选取一种分布进行可视化后如图3所示,可以看出区域数据表现出明显的厚尾特征。
与非分组数据相比,各城市群显示出显著的区域和时间差异,经济和生态效益指标间也表现出一定的差异。在2005~2020期间,GDP和能源排放指标的峰值特征有下降趋势,而污染排放指标的峰值特征则有上升趋势;所有区域的GDP的厚尾特征依然存在且没有太大的变化,但SO2排放的厚尾特征逐渐下降;长三角和京津冀城市群的时间差异较为突出,其能源消耗和工业废水排放的厚尾特征随时间推移而逐渐下降,而其他城市群则对此不敏感(图4)。

Table 1. The fitting results of different distribution function types were performed on the data of each urban agglomeration
表1. 对各城市群数据进行不同分布函数类型的拟合结果
注:括号内为拟合优度检验的P值,括号上面是A-D检验值。

Figure 3. Histogram of grouped data by indicator in 2020
图3. 2020年各指标分组数据直方图

Figure 4. Histogram of grouped data for each metric under a specific distribution
图4. 特定分布下的各指标分组数据直方图
3.2. 城市群间经济生态区域平衡发展的混合环境基尼系数评价
本节将使用多种方法计算四种指标的基尼系数,包括非参数方法、参数化方法、以及多群组基尼分解方法。首先,在非分组数据下,根据样本数据的特点,分析基尼系数计算方法对基尼系数结果的影响;其次,根据多群组混合基尼系数的分解公式,分析了空间异质性对于区域平衡发展的影响以及其动态发展趋势,参照收入基尼系数的标准对环境基尼系数进行解读,以0.4为界,小于0.4认为可以接受的区间。
如图5结果表明,非参数方法与参数方法计算得到的基尼系数结果趋势大致吻合。对于拟合精度较低的分布,非参数基尼系数1与连续状态下参数基尼系数结果相近,且基尼系数结果偏高,基本都在0.4以上,能源排放甚至超过了0.6,放大了现实中的区域间发展不平衡。不连续下的基尼系数结果相比原来降低了0.04左右,说明对于以空间单元为样本单位的数据,不连续下的基尼系数有着更好的解释效果。为探索区域发展不平衡的组成成分,将总体划分若干群组,构建多群组下的混合基尼系数进行区域平衡发展评价更具有现实性意义。
多群组混合基尼系数相比于非分组参数基尼系数结果要略低,并且根据式(16)可知,多群组混合基尼系数将发展失衡细分为组间差异和组内差异,并且组间差异是区域发展不平衡的主要来源,其贡献率在约在0.7左右(表2),因此其较之总体基尼系数更有解释性,更加贴近真实的发展状态。除工业废水排放数据的不连续混合基尼系数结果相比连续混合基尼略有降低,其余指标的不连续混合基尼系数则比连续混合基尼系数要高,但其结果的动态趋势大致相同,说明基于有限样本前提的混合基尼系数推导是合理的,并且解释性更佳。

Table 2. Contribution rate of between-group and within-group differences in multi-group mixed Gini coefficients
表2. 多群组混合基尼系数的组间和组内差异的贡献率

Figure 5. Gini coefficients for GDP, Energy, industrial wastewater and SO2 under different calculation methods
图5. 不同计算方法下的GDP、Energy、工业废水和SO2的基尼系数
根据图6中的计算结果来看,在08~20年期间GDP基尼系数仍大于0.4,且无下降趋势,表明我国区域经济效益的发展不平衡并未得到很好的改善。在考察期内,虽然区域污染排放基尼系数呈现出波动状态,但总体上较为平衡,基尼系数基本小于0.4;而能源消耗失衡显著,但其不平衡状态大体上呈现出下降趋势。我们以能源消耗基尼系数为横轴,以经济产出和污染排放系数为纵轴,显示了“清洁生产效率”的演化趋势,结果如图6所示。各区域的清洁生产效率的差异是分阶段性的。
在十一五规划期间,能源消耗不平衡性显著,其基尼系数在0.45左右,而区域污染排放平衡状态(工业废水和SO2)均呈现上升趋势,区域清节生产效率存在较大的不平衡;在十二五规划期间,区域经济

Figure 6. Time series of multi-group mixed environmental Gini coefficients for GDP, Energy, industrial wastewater and SO2 and their relationships
图6. GDP、Energy、工业废水和SO2的多群组混合环境基尼系数的时间序列及其之间的关系
产出不平衡仍然较高,能源消耗发展失衡状态逐渐降低,污染排放则呈现出波动状态。十三五规划期间,区域能源消耗趋于平衡,基尼系数为保持在0.35左右,而工业废水污染排放的平衡呈现下降趋势,其清洁生产效率的平衡无法维持前一阶段的趋势,呈下降趋势。这表明中国区间发展平衡主要依靠“投入端”和“产出端”之间的协调发展。
4. 结论
本文基于参数化基尼的框架将传统的收入分配基尼系数拓展到区域环境基尼系数,并在此基础上,构造出一种有限样本下的多群组总体基尼系数,并参照传统的基尼系数分解方法推导出总体基尼系数的分解形式,然后用于度量中国五大城市群经济和生态发展的区域差异及差异组成。通过对2005~2020年五大城市群的面板数据的分布拟合可知,我国的区域经济和生态数据呈现出明显的厚尾特征,基于厚尾分布的基尼系数可以很好地适应区域经济和生态效益指标数据。当使用多群组混合环境基尼系数来评价区域发展是否平衡时,可以充分考虑区域发展条件的差异,对区域发展趋势表达也更为精确,更符合区域平衡发展的内涵。通过对总体基尼系数的分解以及区域经济和生态指标的综合评价,从生产力水平和区域空间异质性两个方面,可以揭示我国区域发展不平衡的根源。基尼系数的计算结果显示有限样本下的多群组基尼系数相比于传统多群组基尼系数结果略高,这同时论证了我国区域数据的厚尾性,即厚尾性的存在使得真实结果要高于传统基尼方法的结果。实证研究结果表明,我国区域发展不平衡仍较为明显,城市群内部经济和生态方面的发展也并不相适应。我国区域发展不平等的主要来源在于组间差异即空间异质性,其贡献率约为70%。区域能源消耗和经济产出的不平衡以及污染排放的平衡表明,中国各地区之间存在着“清洁生产效率”的差异。到了十三五期间,能源消耗的发展逐渐趋于平衡且清洁生产效率也呈现出下降趋势。一个区域的高质量发展应该是区域经济、生态等各个方面的协调发展,整体推进;牺牲一方面而致力于另一方面的单极化发展并不符合新发展格局的要求。因此我们在追求投入端——经济的提升的同时,也要着力于产出端——污染排放的减少,达到经济–生态双向整体平衡发展。
基金项目
本文获国家自然科学基金项目(项目编号:71701105)、教育部人文社会科学研究规划项目(项目编号:22YJA630098)、江苏省社会科学项目(项目编号:22GLB022)、国家社会科学基金重大项目(项目编号:17ZDA092)等项目的资助。
NOTES
*通讯作者。
1非参数基尼系数的计算公式为:
。