基于Lasso回归的空气污染治理影响因素分析及治理绩效评价方法
Lasso Regression Based Analysis on Influence Factors of Air Pollution Control and Governance Performance Evaluation Method
DOI: 10.12677/AAM.2021.1011419, PDF, HTML, XML, 下载: 260  浏览: 476  国家社会科学基金支持
作者: 唐新蓉:重庆工商大学资产管理处,重庆;赵培信*:重庆工商大学数学与统计学院,重庆
关键词: Lasso回归治理绩效空气污染治理权加指数Lasso Regression Governance Performance Air Pollution Control Weighted Index
摘要: 利用Lasso回归方法,从投入产出的视角分析识别出对我国空气污染治理的主要影响因素,并测度空气污染治理主要输入指标对各空气质量指标的影响,进而提出了一种基于回归加权的空气污染治理绩效评价方法,改进了已有的空气污染指数(API)评价方法。与已有的综合评价方法相比,本文的方法通过回归分析设定权重,既保证了空气污染治理中各种投入指标在评价中的地位和作用,又保证了权重的客观性。最后以重庆市为例,演示了本文方法在实际分析中的应用过程,并对我国主要城市2017年的空气污染治理绩效进行了研究。
Abstract: Based on the lasso regression method, we identify the main influencing factors on China’s air pollution control from the perspective of input-output, and measure the impact of the main input indexes of air pollution control on each air quality index. Then, we proposed an air pollution control performance evaluation method based on regression weighting, which modifies the existing air pollution index (API) evaluation method. Compared with the existing comprehensive evaluation methods, the method proposed in this paper sets the weight through regression analysis, which not only ensures the status and role of various input indicators in the evaluation of air pollution control, but also ensures the objectivity of the weight. Finally, taking Chongqing as an example, the paper demonstrates the application process of the proposed method in the practical analysis, and studies the air pollution control performance of the major cities in China in 2017.
文章引用:唐新蓉, 赵培信. 基于Lasso回归的空气污染治理影响因素分析及治理绩效评价方法[J]. 应用数学进展, 2021, 10(11): 3942-3945. https://doi.org/10.12677/AAM.2021.1011419

1. 引言

随着我国经济的快速发展和城市化程度的不断提高,粗放式发展带来的城市环境污染问题也日渐显现。特别是空气污染问题将直接对人民的生活和身心健康造成极大的危害,所以空气污染治理问题是我们当前面对的所有污染难题中最亟待解决的难题之一。党的十九大报告明确指出建设生态文明是中华民族永续发展的大计,要像对待生命一样对待生态环境,要实行最严格的生态环境保护制度。因此,随着可持续发展理念和文明战略深入人心,保护环境、防止污染的任务越来越受到重视,并且越来越多的学者对环境污染,特别是空气污染的影响因素、治理方法以及治理效果等方面进行了相关研究。在绩效评价过程中,一个行之有效的综合评价方法首先要有一个完善的指标体系,另外还要对不同的指标设定科学合理的权重。如果指标选取或权重的设定不合理,则往往会夸大或低估某些污染物在空气污染治理绩效评价中的作用。因此,对不同的污染物合理地设定权重则可以科学地反映不同污染物在空气污染治理绩效评价中的地位和作用,从而保证空气污染治理绩效评价结果的科学性和有效性。

2. 文献综述

近年来,关于我国空气污染治理影响因素的研究已有大量文献进行了讨论。比如,曹凌燕 [1] 在演化博弈的视角下研究了城市空气污染治理的主要影响因素。占华 [2] 在投入产出的视角下研究了要素市场扭曲与中国环境污染之间的相关关系。张曙红和武鹏程 [3] 基于遗传神经网络模型以及灰色关联方法对武汉市的空气质量影响因素进行了实证分析。王彦林等 [4] 采用灰色关联分析模型研究了天津市和邢台市工业、人口、农业等因素对当地空气污染的影响。关于我国空气污染影响因素的更多研究可参见文 [5] [6] [7] [8] [9]。但是,关于空气污染治理绩效评价方法的研究目前没有太多的文献进行讨论。陈新等 [10] 提出用空气污染指数(API)法对空气污染治理绩效进行了研究,但该评价过程仅以首要污染物指数来反映空气质量状况。梁鑫等 [11] 在空气污染治理绩效评价过程中引入了次要污染物指数,提出了一种改进的空气污染指数法。罗静和田茂再 [12] 则基于负二项回归模型对空气质量指数进行了统计评价。另外,利用模糊综合评价方法,陆婷等 [13] 对京津冀地区的大气污染治理绩效进行了综合评价,汪斌和董秀竹 [14] 对安徽省的空气污染状况进行了综合评价,李婷 [15] 对兰州市空气质量进行了综合评价。

总体来看,在空气污染治理绩效评价方法方面,目前学者主要是采用模糊综合评价法以及数据包络分析法(DEA)等。但是,模糊综合评价法主要是基于空气污染的输出指标进行综合评价,并没有考虑空气污染治理投入指标在治理绩效评价中的地位和作用,因此基于模糊综合评价法对空气污染治理绩效的评价往往无法反映空气污染治理的各种人力、财力的投入在空气污染治理中的地位和作用。另外,数据包络分析法虽然同时考虑的空气污染治理的投入指标和输出指标,但是其主要思想是基于线性分段函数和径向理论,由于未将投入产出的松弛性问题纳入考虑范畴,往往会导致绩效评价结果相对不够准确。

为此,本文首先利用Lasso回归分析法 [16] 识别出对空气污染治理有显著影响的输入指标,建立一个客观、科学的指标体系。然后测度空气污染治理输入指标对各空气质量输出指标的影响,并给出了各个空气质量输出指标对应的权重,进而提出了一种基于回归加权的空气污染治理绩效评价方法。本文提出的绩效评价方法通过Lasso回归分析识别重要指标,建立指标体系,并利用回归分析法进行设定权重,既保证了指标体系的客观性和科学性,又保证了权重设定的合理性。因此,与已有的绩效评价方法相比,本文提出的评价方法更具有合理性和科学性。最后,在实际案例分析方面,本文首先以重庆市为例,演示了本文所提出的方法在重庆市空气污染治理绩效评价中的应用过程,并分析了重庆近年来空气污染治理绩效的变化趋势。然后,本文还利用所提出的评价方法对全国主要城市2017年的空气污染治理绩效进行了研究。

3. 指标选取与数据来源

在参考大量相关文献以及综合考虑指标数据在选取上的科学性、综合性、易获得性等原则,本文从空气污染治理投入的人力、财力两大方面选取空气污染治理输入指标。在空气治理效果输出指标方面,类似文献 [11],本文选取二氧化硫(SO2)、二氧化氮(NO2)以及可吸入颗粒物(PM10)作为反映空气污染的基础污染物,并计算出这三种污染物对应的指数得分作为空气治理效果的输出指标,具体指标体系见表1。数据来源主要来自《中国环境统计年鉴》和《中国统计年鉴》。

Table 1. Index system of air pollution control performance evaluation

表1. 空气污染治理绩效评价指标体系

4. 计算各空气污染物的指数得分

类似文献 [11],首先利用分段线性得分方程方法,对空气中的二氧化硫(SO2)、二氧化氮(NO2)以及可吸入颗粒物(PM10)在某时间段内的平均实测浓度,分别计算其实测浓度值对应的指数得分,其中污染物浓度限值及其对应指数得分如表2所示。

Table 2. Air pollutant concentration threshold values and corresponding index scores

表2. 空气污染物浓度限值及对应指数得分表

如果第m种污染物浓度 C m [ C m j , C m j + 1 ] ,那么其指数得分为

Y m = C m C m j C m j + 1 C m j ( δ m j + 1 δ m j ) + δ m j (1)

其中 δ m j 表示第m种污染物在j转折点的污染指数得分, C m j 表示第m种污染物在j转折点的浓度限值,计算时相应参数值可能过表2查到。

如果第m种污染物浓度小于浓度限值的最小值,即当 C m < C m 1 时,则选择原点 ( 0 , 0 ) ( C m 1 , δ m 1 ) 进行线性插值,即污染物指数得分定义为

Y m = C m 0 C m 1 0 ( δ m 1 0 ) + 0 = δ m 1 C m 1 C m (2)

如果第m种污染物浓度大于浓度限值的最大值,即当 C m > C m K 时,则选择原点 ( C m K 1 , δ m K 1 ) ( X m K , δ m K ) 进行线性插值外推,即污染物指数得分定义为

Y m = C m C m K C m K C m K 1 ( δ m K δ m K 1 ) + δ m K (3)

5. 空气污染治理重要输入指标的识别

不同的空气污染治理投入指标在空气污染治理中的地位是不同的,并且空气污染治理投入指标之间往往具有较强的相关性。因此,在空气污染治理绩效评价中,如果对权重的设定不合理,则往往会夸大或低估某些治理投入指标在空气污染治理绩效评价中的作用。为此,对不同的空气治理效果输出指标合理地设定权重则可以科学地反映不同污染治理投入指标在空气污染治理绩效评价中的地位和作用,从而保证空气污染治理绩效评价结果的科学性和有效性。

回归分析不但可以确定空气污染治理效果输出指标与治理投入指标之间的相关关系,还可以确定二者之间数量关系的具体形式,进而可以用于设定指标的权重。接下来,我们利用Lasso回归分析方法测度空气污染治理投入指标对空气污染治理效果输出指标的影响,并识别出重要的空气污染治理投入指标,进而给出了各个空气污染治理输出指标对应的权重。Lasso回归能够在对回归系数估计的同时把不重要解释变量对应的系数自动压缩为0,从而把不重要解释变量从模型中剔除,进而达到识别出重要解释变量的目的。具体地,基于表1建立的指标体系,记 X 1 , X 2 , , X 5 为5个反映空气污染治理投入的输入指标, Y 1 , Y 2 , Y 3 为3个反映空气污染治理效果的输出指标,那么为了反映空气污染治理投入对各空气污染治理效果的影响,建立如下双对数线性回归模型

ln Y m = a m + s = 1 5 b s m ln X s + ε , m = 1 , 2 , 3 (4)

其中回归系数 b s m 表示因变量 Y m 对解释变量 X s 的弹性系数,反映了空气污染治理投入的第s种输入指标对反映空气污染治理效果第m种输出指标变化的影响效应。因此, | b s m | 的大小可以衡量第s种空气污染治理投入指标对第m种空气污染治理效果指标的贡献程度,进而可以作为确定相应指标权重的依据。另外,由于所选择的空气污染投入指标间往往存在较强的共线性,并且指标选择存在一定的人为主观因素,因此无法保证每个投入指标对输出指标都有较强的影响效应。接下来我们基于Lasso回归分析法,用带Lasso惩罚的最小二乘方法给出回归系数 b s m 的估计。具体地,记 ( Y m i , X s i ) i = 1 , , n s = 1 , , 5 m = 1 , 2 , 3 为来自模型(4)的一组样本,那么带Lasso惩罚的最小二乘目标函数定义如下:

i = 1 n ( ln Y m i a m s = 1 5 b s m ln X s i ) 2 + n s = 1 5 λ m | b s m | , m = 1 , 2 , 3 (5)

其中 λ m m = 1 , 2 , 3 为惩罚参数。关于处罚参数取值的确定以及最小化目标函数(5)的算法均可以直接调用R软件的程序包“ncvreg”进行计算。

6. 定义空气污染治理绩效指数

b ^ s m 为最小化(5)式所得回归系数的估计,接下来我们建立基于回归加权的空气污染治理绩效指数。考虑到在计算空气污染治理绩效指数中所涉及的权重应取非负值,因此定义

B m = s = 1 5 | b s m | , m = 1 , 2 , 3

B m 表示所有五种空气污染治理投入指标对第m种空气污染治理输出指标 Y m 的总影响。进一步定义

W m = | B m | | B m | , m = 1 , 2 , 3

W m 表示对 B m 的归一化处理。注意到 W m 取值于区间 [ 0 , 1 ] ,满足 W m = 1 ,并且 W m 取值越大则表明五种空气污染治理投入指标对第m种空气污染治理效果输出指标的贡献程度越大。因此,以 W m 作为

权重的空气污染治理绩效指数(AGPI)可定义为

A G P I = m = 1 3 W m Y ˜ m (6)

其中 Y ˜ m 为第m种空气污染治理效果输出指标 Y m 的标准化指标。在实际应用中对指标进行标准化的方法很多,本文采用极差标准化方法。具体地,如果 Y m 为正向指标,则 Y m 的标准化公式定义如下

Y ˜ m i j = Y m i j min i j { Y m i j } max i j { Y m i j } min i j { Y m i j } (7)

其中 Y m i j 表示第m种空气污染治理效果输出指标 Y m 在i个城市第j年度的取值。如果 Y m 为逆向指标,则 Y m 的标准化公式定义如下

Y ˜ m i j = max i j { Y m i j } Y m i j max i j { Y m i j } min i j { Y m i j } (8)

从空气污染治理绩效指数AGPI的定义可知,空气污染治理绩效指数的取值范围是区间 [ 0 , 1 ] ,AGPI的取值越接近0,则空气污染治理效果越差,AGPI的取值越接近1,则空气污染治理效果越好。

7. 实际案例分析

接下来,我们首先以重庆市为例,演示所提出的空气污染治理绩效评价方法在重庆市空气污染治理绩效评价中的应用,并进一步分析重庆近几年来空气污染治理绩效的变化趋势。然后,还利用所提出的治理绩效评价方法对我国一些主要城市2017年的空气污染治理绩效进行了研究。基于重庆市2008~2017年相关数据,如下表3给出了重庆市的三种空气基础污染物浓度以及基于公式(1)~(3)计算出的对应指数得分 Y 1 , Y 1 , Y 3

Table 3. Annual average concentration of basic air pollutants and corresponding index scores in 2008~2017 of Chongqing

表3. 重庆市2008~2017年度空气基础污染物年平均浓度及对应的指数得分

进一步,如下表4给出了重庆市空气污染治理投入指标 X 1 , , X 5 与输出指标 Y 1 , Y 1 , Y 3 间的相关系数以及相关系数检验对应的P值。从表4可以看出五种空气污染治理投入指标与三个输出指标均存在较强的线性相关关系。另外注意到三个输出指标均为逆向指标,所以与五个输入指标均为显著的负相关关系。这就表明随着空气污染治理投入的不断增加,反映空气污染的各个指标也随之显著地下降。空气质量显著地提升。因此可以基于所选择的指标对空气污染治理绩效进行综合评价。接下来,我们基于所选择指标,通过Lasso回归分析法来刻画投入指标与输出指标之间的具体数量关系,进而建立空气治理绩效综合评价所需的权重。

Table 4. Correlation coefficient between input and output index of air pollution control in Chongqing

表4. 重庆市空气污染治理投入指标与输出指标间相关系数

基于(4)式所定义的双对数线性回归模型,空气污染治理投入指标 X 1 , , X 5 分别与输出指标 Y 1 , Y 2 , Y 3 分别建立双对数回归模型,并通过最小化带Lasso惩罚的最小二乘目标函数(5)式来计算回归系数 β s m s = 1 , , 5 m = 1 , 2 , 3 ,基于相关数据计算出回归系数见表5。从表5可以看出水利、环境和公共设施管理业从业人数( X 1 )和造林总面积( X 5 )对应于三种空气污染输出指标的回归系数均为0,这表明 X 1 X 5 这两个输入指标对空气污染治理效果没有显著影响,或者由于这两个输入指标与 X 2 , , X 4 存在较强的共线性, X 1 X 5 的影响效应已包含在输入指标 X 2 , , X 4 中。

Table 5. Regression coefficient between input and output index of air pollution control in Chongqing

表5. 重庆市空气污染治理投入指标与输出指标间回归系数

接下来只需基于 X 2 , , X 4 对应的回归系数建立空气污染治理绩效指数所需要的权重。具体地,基于表5中的数据,计算出 B 1 , , B 3 如下

B 1 = | 0.303 | + | 1.002 | + | 0.308 | = 1.613

B 2 = | 0.281 | + | 0.627 | = 0.908

B 3 = | 0.220 | + | 1.474 | + | 0.174 | = 1.868

进而利用公式(2)可得空气污染治理绩效指数的权重为

W 1 = B 1 B 1 + B 2 + B 3 = 0 .3675 , W 2 = B 2 B 1 + B 2 + B 3 = 0 .2069 , W 3 = B 3 B 1 + B 2 + B 3 = 0 .4256

Y ˜ m t m = 1 , 2 , 3 表示重庆市第t年按公式(7)和(8)标准化后的空气污染输出指标,那么重庆市第t年的空气污染治理绩效指数可表示为

A G P I t = 0.3675 Y ˜ 1 t + 0.2069 Y ˜ 2 t + 0.4256 Y ˜ 3 t (9)

基于公式(9)则可以计算出重庆市2008~2017年空气污染治理绩效指数,具体计算结果见表6。另外如下图1为重庆市2008~2017年空气污染治理绩效指数的变化趋势折线图。

Table 6. Air pollution control performance index of Chongqing 2008~2017

表6. 重庆市2008~2017年度空气污染治理绩效指数

Figure 1. Trend chart of air pollution control performance index of Chongqing 2008~2017

图1. 重庆市2008~2017度空气污染治理绩效指数趋势图

表6图1可以看出,在2008年初期,环境污染问题刚刚被重视,关于空气污染治理的投入才刚刚开始,所以治理效果以一个相对缓慢的速度增长。随着对环境污染问题的重视以及对污染治理的人力、财力和物力的不断累积投入,在2011年左右空气污染治理绩效有一个快速增长时期,但到2013年以后对空气治理已进入一个常态化治理时期,治理绩效指数也以一个相对稳定的增长速度快速增长。该结果也表明,在空气污染治理过程中,治理效果具有一定的积累效应和规模效应。当空气污染治理的各种累积投入达到一定规模时,空气污染治理的效果才会逐渐显现出来。

接下来,我们利用对重庆市空气污染治理绩效评价完全相同的计算过程,对我国主要城市2017年的空气污染治理绩效进行评价。由于西藏的相关数据缺失较多,我们只对全国除西藏以外其他30个城市的主要城市空气污染治理绩效进行评价,绩效评价结果见表7。从表7可以得出以下几条结论:

1) 随着我国对环境保护的重视以及空气治理投资资金的累积增加,我国大部分城市的空气污染治理绩效指数均在0.5以上。这表明我国对环境保护的重视并经过这几年的空气污染治理,我国大部分城市的空气污染治理效果已初步显现。

2) 海口、福州以及南宁等沿海城市空气污染治理绩效处在一个相对较高的水平。这种现象出现的原因除了当地投入人力、财力和物力进行空气污染治理外,当地的地理环境也是促进空气质量较好的一个重要因素。

3) 石家庄、太原以及西安等重污染或重工业的北方城市,尽管这些城市投入了一定人力和财力进行空气污染治理,但由于历史原因以及常年少雨等环境因素,这些城市的空气污染治理绩效仍处于一个相对较低的水平。

总之,根据对我国主要城市2017年的空气污染治理评价绩效来看,随着我国对环境保护的重视以及治理投入的累积增加,我国大部分城市的空气污染治理效果已初步显现。但由于历史原因以及当地环境等自然条件因素,北方部分重工业城市的空气污染治理效果仍处在一个较低的水平。对我国北方城市空气污染治理仍是今后一个相当长时期我国环境治理的工作重点和难点。

Table 7. Air pollution control performance index in 2017 of major cities in China

表7. 我国主要城市2017年度空气污染治理绩效指数

8. 结论

本文利用带Lasso惩罚的正则回归分析法首先识别出了一组对空气污染治理有显著影响的输入指标,建立一个客观、科学的指标体系。然后从投入产出视角,利用回归分析法测度了空气污染治理投入指标对空气治理效果输出指标的影响,并给出了各个空气治理输出指标对应的权重,进而提出了一种基于回归加权的空气污染治理绩效评价方法。该治理绩效评价方法通过回归分析进行设定权重,既保证了空气治理中各种投入指标在评价中的地位和作用,又保证了权重的客观性。在实际案例分析方面,首先以重庆市为例,演示了该绩效评价方法在重庆市空气污染治理绩效评价中的应用过程,并分析了重庆近年来空气污染治理绩效的变化趋势。然后还利用所提出的评价方法对全国主要城市2017年的空气污染治理绩效进行了研究,结果显示随着我国对环境保护的重视以及治理投入的累积增加,我国大部分城市的空气污染治理效果已初步显现。但由于历史原因以及当地环境等自然条件因素,北方部分重工业城市的空气污染治理效果仍处在一个较低的水平。

基金项目

本文研究成果得到国家社会科学基金项目《高维内生协变量的半参数建模及其在环境治理绩效测度中的应用》(编号:18BTJ035)资助。

NOTES

*通讯作者。

参考文献

[1] 曹凌燕. 演化博弈视角下的城市空气污染地方治理研究[J]. 统计与信息论坛, 2021, 36(4): 72-83.
[2] 占华. 要素市场扭曲与中国环境污染[J]. 统计与信息论坛, 2020, 35(2): 67-76.
[3] 张曙红, 武鹏程. 武汉市大气环境质量的综合评价[J]. 环境科学与技术, 2008, 31(3): 110-113.
[4] 王彦林, 赵洪英, 吴利丰. 邢台和天津大气污染物影响因素的灰色关联分析[J]. 河北工程大学学报(社会科学版), 2020, 37(1): 1-17.
[5] 袁晓玲, 李浩, 杨万平. 机动车限行政策能否有效改善西安市的空气质量[J]. 统计与信息论坛, 2018, 33(6): 107-114.
[6] 徐衡. 宝鸡市区环境空气质量现状及影响因素[D]: [硕士学位论文]. 西安: 西北大学, 2015.
[7] 李静萍, 周景博. 工业化与城市化对中国城市空气质量影响路径差异的研究[J]. 统计研究, 2017, 34(4): 50-58.
[8] 晏彩霞, 周旋, 张华敏, 等. 南昌市环境空气污染时空变化特征及影响因素研究[J]. 长江流域资源与环境, 2019, 28(6): 1446-1458.
[9] 张晓平, 林美含. 中国城市空气污染区域差异及社会经济影响因素分析——基于两种空气质量指数的比较研究[J]. 中国科学院大学学报, 2020, 37(1): 39-50.
[10] 陈新, 刘晓冬, 宋旭. API法及其在城市大气环境质量评价中的应用[J]. 黑龙江八一农垦大学学报, 2006, 18(1): 89-92.
[11] 梁鑫, 谢佳利, 邵延会. 国内主要城市空气质量统计分析[J]. 数理统计与管理, 2009, 28(3): 550-554.
[12] 罗静, 田茂再. 基于负二项回归模型的空气质量指数分析[J]. 统计与信息论坛, 2017, 32(7): 88-94.
[13] 陆婷, 朱家明, 陈涛, 王宝, 车兴芳. 基于模糊综合评价对京津冀大气污染的分析[J]. 哈尔滨商业大学学报(自然科学版), 2019, 35(4): 503-507.
[14] 汪斌, 董秀竹. 安徽省大气污染治理定量分析研究及预测[J]. 智库时代, 2019(4): 136-137.
[15] 李婷. 兰州市空气质量评价及主要大气污染物变化特征分析[D]: [硕士学位论文]. 兰州: 兰州财经大学, 2019.
[16] Tribshirani, R. (1996) Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society. Series B, 58, 267-288.
https://doi.org/10.1111/j.2517-6161.1996.tb02080.x