1. 引言
随着中国工业化加速,重工业带来的空气污染使人类生存面临严重威胁。其中,PM2.5污染及其对人体的危害受到广泛关注。流行病学的研究表明,空气中细粒子越多,我们接触致癌物——多环芳烃的机会就越多[1],因其可携带致病细菌和多环芳烃等有害物质进入人体,增加癌症风险。为了减少空气污染的影响并实现中国城市的可持续发展,对PM2.5开展相关研究迫在眉睫。目前在中国尺度PM2.5空间分布的调查中主要使用普通插值和空间研究的方式,研究重点集中于重点地区和城市。国内外对PM2.5监测的手段是以传统地面监测站点为主,但是存在建设成本过高、覆盖区域较少等问题。国内外学者开始利用有限的监测站数据并通过神经网络、大气数值模拟、土地利用回归模型(LUR)等方法进行研究区内PM2.5浓度的空间分布模拟。
LUR模型是模拟城市尺度大气污染物浓度时空分异最主要、最体系化的方式之一[2]。然而,传统的LUR模型难以识别PM2.5浓度和影响因素的复杂非线性关系,导致预测结果精度较低。机器学习模型具有捕捉预测变量与空气污染浓度之间的非线性关系的能力,比传统的回归方法更能提高模型的预测性能,其中Adaboost在处理非线性数据方面表现出色,它能够通过不断改变特征权重,自适应地选择和组合特征,从而提高模型的可解释性。刘炳杰[3]等人基于2015年中国PM2.5数据和多种地理及人口因素建立地理加权LUR模型,分析了年均和月均PM2.5分布,发现明显的空间变化特征。江曲图[4]等通过结合LURc和BME方法,获得沿海区域内高精度PM2.5分布。于梦婷[5]结合三种机器学习算法(RF、GBDT、XGBoost)改进LUR模型,并比较不同改进算法下的模型精确度,基于最佳模型揭示了辽宁省2015~2019年PM2.5的年度、季度等时空分布变化特征与空间聚集规律。申婷[6]构建GWR模型实现了晋陕蒙地区季均及年均PM2.5浓度模拟与PM2.5时空分布特征分析,发现季节性差异和南高北低的分布特征。吴迪[7]等提出的GTWR-XGBoost组合模型运用于全数据集对PM2.5浓度的小时估算性能最优,充分表明GTWR-XGBoost模型对四川省小时PM2.5浓度估算效果最好,精度最高。肖诗霖[8]等研究融合多源数据与随机森林方法,评估蚌埠城区近地面PM2.5水平,展示了模型和方法在PM2.5分析中的应用和效果。Wong [9]等研究比较了传统LUR、混合–克里金LUR和结合深度神经网络、随机森林、XGBoost算法的LUR模型在台湾PM2.5浓度估计的准确性。结果显示,混合克里金-LUR和XGBoost算法的结合模型能更准确预测PM2.5浓度。Soledad [10]等开发了基于随机森林的西班牙瓦伦西亚社区PM2.5日浓度预测模型,展现出良好性能,能预测[10]约90%的PM2.5时空变异性。这些研究为未来PM2.5模拟提供了新的方法,同时指出基于土地利用回归模型的LUR研究PM2.5空间分布,仍有研究空间。
本研究基于2015年全国PM2.5监测站点数据、土地利用、气象、道路交通、社会经济、污染源、气溶胶光学厚度(AOD)和夜间灯光指数等数据,构建土地利用回归LUR模型,使用机器学习方法Adaboost优化LUR,借助R2、RMSE和MAE评价模型拟合精度,预测PM2.5空间分布,探索PM2.5污染高分辨率制图,对于人群健康暴露风险和空气流行病学研究具有重要意义。
2. 数据与方法
2.1. 研究区概况
中国位于欧洲东部与太平洋西岸,地形西高东低,复杂多变[11]。本文研究区域涵盖中国31个省份(因监测标准和方法的不同,不包括澳门,香港,台湾等地区),既有空气污染较为严重的京津冀、长三角地区,又有污染相对较轻的珠三角地区。
2.2. 数据来源
PM2.5浓度数据来自全国1267个监测站点;土地利用数据由NASA (http://ladsweb.nascom.nasa.gov)得来;气象数据由ECMWF欧洲气象资料网提供,主要气象参数为水温、表压、总降水量、相对湿度、边界高度和风速;归一化植被指数(NDVI)数据来源于中科院的资源环境数据中心;道路密度数据来自于Open Street Map;地形地貌使用AM3D (ALOS World 3D)数据;气溶胶厚度(AOD)数据由美国国家航空航天局的EARTH DATA网站提供。本研究的POI兴趣点数据来自于高德开发平台;植被覆盖数据、GDP、人口密度数据,出自中科院的资源环境数据中心。
3. 研究方法
Figure 1. Technological route
图1. 技术路线
本研究首先建立不同半径大小的缓冲区,得到不同范围内影响因子数值,采用SPSS双变量相关分析方法提取与PM2.5浓度显著相关的目标因子,并对PM2.5浓度及相应的目标因子建立土地利用回归模型,采用Adaboost算法进行优化,评价模型拟合效果,采用ArcGIS反距离权重插值功能,得到PM2.5模型预测图。技术路线如图1。
3.1. LUR土地利用回归模型
污染物的空间分布格局具有显著的统计学规律,监测位置周围的地形、地类、污染源等会对污染物的分布格局产生明显的影响。在不断的研究发展过程中,交通、工业排放、气候、地形、人口分布等要素都作为模型变量参与了模型的构建,研究者称此类模型为土地利用回归(land use recognition, LUR)模型。该模型根据研究范围内监控站点的污染物浓度数值,和在监控站点位置处不同区域缓冲区域的地理要素构建多元回归模式,采用回归制图的技术模拟了地区污染物浓度分布格局[12]。本文以2015年全国国控监测站点PM2.5浓度为因变量,提取相应的预测因子为自变量,构建多元线性回归模型,模型的表达形式为[13]:
(1)
式中,yi为因变量,表示第i站点的PM2.5浓度,β0为截距项,βk为变量系数,Xik为自变量,εi为误差项。
本研究采用的变量数据、数据处理方式与数据说明如下表1。
Table 1. Variable data sheet
表1. 变量数据表
预测变量 |
缓冲区大小(单位:米) |
数据处理方式 |
数据说明 |
气象数据 |
NA |
值提取至点 |
Temp:温度 Wind:风速 Tp:总降水量 Shum:比湿度 Blh:边界层高度 |
土地利用数据 |
100、300、500、1000、2000、3000、4000、5000 |
缓冲区分区统计 |
AGL:草地面积 AUL:未利用地面积 AFL:林地面积 AAL:耕地面积 ACL:建设用地面积 AWB:水域面积 |
POI数据 |
100、300、500、1000、2000、3000、4000、5000 |
缓冲区分区统计 |
BS:公交站数量 AR:汽修厂数量 GS:加油站数量 PL:停车场数量 RES:餐厅数量 PES:污染源数量 |
GDP、NL、POP、Road数据 |
100、300、500、1000、2000、3000、4000、5000 |
缓冲区分区统计 |
NL:夜间灯光 GDP:生产总值 POP:人口密度 Road:道路长度 |
NDVI数据 |
100、300、500、1000、2000、3000、4000、5000 |
缓冲区分区统计 |
NDVI:归一化植被指数 |
DEM数据 |
NA |
值提取至点 |
DEM:高程 Slope:坡度 |
AOD数据 |
100、300、500、1000、2000、3000、4000、5000 |
缓冲区分区统计 |
AOD:气溶胶光学厚度 |
经纬度 |
|
|
Longitude:经度 Latitude:纬度 |
3.1.1. 相关性分析
相关性研究指的是对2个或2个以上具有关联性的变量进行研究,以判断2个变量的相互关系程度。相关元素间必须具有某种联系和概率,才可以进行相关性分析[14]。本研究利用SPSS软件对不同缓冲区域的影响因子进行双变量相关性研究,筛选出相关性较大的因子。
3.1.2. 缓冲区分析
缓冲区分析指的是以点、线和面实体为基础,形成其周围一定区域内的多边形图层,接着完成该图层和目标图层的重叠,然后再进行大数据分析从而得出我们所要求的结论,并且,这是一种用于处理邻近度问题的空间研究方法。邻近度是描述地理空间中,两个地面物体间距相似程度的指数[15]。
3.1.3. 回归分析
回归分析(Regression Analysis)是一组用于估计变量之间关系的统计过程。在验证影响因子之间不存在相关性和筛选出相关性较大的影响因子之后,采用多元线性逐步回归方程建立LUR回归模型来表示PM2.5浓度与影响因子之间的关系。
3.2. Adaboost算法
Adaptive Boosting自适应提升的一个集成学习算法,用于处理分类的回归问题。它可以通过组合几个弱分类器来建立一个更强类型器。Adaboost算法的基本思路是在每一个迭代中,基于上一次的分析结果,可以调整样本权重,因此在下一次迭代中,分类器更重视之前被错误划分的样本,以便提升整体划分的准确度。
3.3. 模型评价
为评估模型以及评价结果的合理性和准确性,本文选用指标为均方根误差(root mean square error,RMSE)、平均绝对误差(mean absolute error, MAE)和决定系数(coefficient of determination R2) [16]。具体公式如下:
(2)
(3)
(4)
式中:
为实际观测值;
为模型的预测值;
为观测的平均值;n为预测样本数。
3.4. 空间自相关分析
空间自相关是指一种现象在空间分布上的相关性。空间自相关分析可以检测多种现象的变化是否存在相关性,是一种较为常见的认识空间分布特征的方法。空间自相关的相关性分为正相关和负相关两类,许多地理现象的空间过程在地域分布上具有连续性,表现为在空间上的自相关。比较常用的度量空间自相关性的指标是Moran’s I。
使用Moran’s I分析空间关联度以及差异计算公式如下[17]:
(5)
式子中xi、xj分别是第i和第j城市的PM2.5浓度,wij使要素i和j之间的空间权重。
4. 结果
4.1. 相关性分析
本研究分析了PM2.5浓度与129个因素的相关性,筛选出28个重要变量。从图2可以看出,PM2.5与Longitude、Latitude、Sp、AOD5000、NL5000、AAL5000、ACL2000、AWB300、RES5000、PL5000、GS5000、BS5000、AR5000、PES5000、Road5000和GDP1000呈正相关,与Shum、Wind、Blh、DEM、Slope、NDVI3000、AFL5000、AGL4000和AUL3000具有负相关性。气象条件如湿度和风速是影响PM2.5分布的关键因素,因为湿度能增加PM2.5重量导致沉降,而风速会加快其扩散。植被通过捕捉PM2.5也能降低浓度。此外,通过将这些变量结合进LUR回归方程,能显著提高模型精度。
Figure 2. Correlation results chart
图2. 相关性结果图
4.2. LUR建模与变量选取
本研究以经过相关性分析后筛选得到的变量为自变量,以PM2.5浓度为因变量,采用了多元线性回归的方法实现LUR模型的建立。研究区PM2.5的LUR模型结果如表2所示。
Table 2. PM2.5 stepwise multiple linear regression results
表2. PM2.5逐步多元线性回归结果
可变因素 |
B |
Beta |
t |
显著性 |
容差 |
VIF |
R = 0.491 R2 = 0.241 调整后R2 = 0.241 |
(常量) |
464.255 |
|
86.415 |
0 |
|
|
AOD5000 |
32.075 |
0.191 |
67.857 |
0 |
0.793 |
1.261 |
Latitude |
2.213 |
0.341 |
84.367 |
0 |
0.386 |
2.588 |
Temp |
−0.853 |
−0.176 |
−58.136 |
0 |
0.692 |
1.445 |
BS5000 |
0.052 |
0.168 |
31.217 |
0 |
0.217 |
4.61 |
Longitude |
−2.112 |
−0.286 |
−63.556 |
0 |
0.312 |
3.207 |
DEM |
−0.023 |
−0.222 |
−57.814 |
0 |
0.43 |
2.326 |
NDVI3000 |
−16.661 |
−0.062 |
−20.663 |
0 |
0.712 |
1.404 |
AR5000 |
−0.031 |
−0.093 |
−24.194 |
0 |
0.426 |
2.347 |
AGL4000 |
−0.002 |
−0.052 |
−14.905 |
0 |
0.51 |
1.959 |
Wind |
−1.459 |
−0.042 |
−16.353 |
0 |
0.978 |
1.022 |
GS5000 |
0.329 |
0.071 |
17.679 |
0 |
0.387 |
2.582 |
PL5000 |
−0.002 |
−0.047 |
−8.868 |
0 |
0.224 |
4.467 |
NL5000 |
0.216 |
0.05 |
13.102 |
0 |
0.44 |
2.272 |
Tp |
−288.527 |
−0.025 |
−9.747 |
0 |
0.947 |
1.056 |
RES5000 |
−0.001 |
−0.048 |
−9.23 |
0 |
0.235 |
4.248 |
Shum |
−220.541 |
−0.028 |
−9.23 |
0 |
0.683 |
1.463 |
Blh |
−0.004 |
−0.022 |
−8.8 |
0 |
0.987 |
1.014 |
AUL3000 |
1.10E−02 |
0.019 |
6.875 |
0 |
0.843 |
1.186 |
Road5000 |
−6.94E−06 |
−0.03 |
−6.167 |
0 |
0.274 |
3.646 |
PES5000 |
−0.528 |
−0.014 |
−4.885 |
0 |
0.818 |
1.223 |
AFL5000 |
0.001 |
0.015 |
5.395 |
0 |
0.777 |
1.286 |
AAL5000 |
0.001 |
0.015 |
4.972 |
0 |
0.705 |
1.419 |
ACL2000 |
0.002 |
0.018 |
4.874 |
0 |
0.483 |
2.07 |
AWB300 |
1.99E−01 |
0.011 |
4.236 |
0 |
0.977 |
1.024 |
POP2000 |
−4.37E−06 |
−0.006 |
−2.299 |
0.022 |
0.99 |
1.01 |
我们可以看到除POP之外,t检验的结果Sig值均低于显著性的0.01。方差膨胀因子(VIF)越大共线性就越强烈。能够看到表2中的VIF大都小于4,可以消除多重共线性对模型的影响。
4.3. Adaboost算法优化LUR模型拟合效果评价
图3是四季及全年时间序列拟合效果图。由图可以看出,R2在春夏秋冬以及年数据均达到了0.6以上,拟合的决定系数较高。其中年度数据的R2为0.65,春季R2为0.62,夏季R2为0.69,秋季R2为0.60,冬季R2为0.67。冬季RMSE最高,达32.32 μg·m−3,夏季和秋季相对较低。MAE春季最高,为32.97 μg·m−3,夏季最低为11.65 μg·m−3。大部分季节的RMSE和MAE的值低于40 μg·m−3和20 μg·m−3,显示出模型拟合效果整体较好。
Figure 3. Evaluation of PM2.5 pollution time series fitting effect based on machine learning method Adaboost (a spring; b summer; c fall; d winter; e year)
图3. 基于机器学习方法Adaboost的PM2.5污染时间序列拟合效果评价(a春季;b夏季;c秋季;d冬季;e年)
4.4. PM2.5时空预测
本研究用Adaboost优化LUR模型得到的PM2.5预测浓度绘成空间分布图,如图4所示。揭示了中国PM2.5浓度的季节性差异,冬季浓度高于其他季节,尤其在中部、京津冀和部分西南地区。夏季浓度最低,春秋季节浓度适中。年度空间分布图显示,中部和京津冀地区PM2.5浓度有时超过120 μg·m−3,华东沿海和部分东北地区在60~120 μg·m−3之间,其他区域低于60 μg·m−3。中部地区PM2.5高浓度与经济发展、人口密集和人类活动密切相关。
Figure 4. Temporal and spatial distribution of predicted concentrations of PM2.5 (a spring; b summer; c fall; d winter; e year)
图4. PM2.5预测浓度时空分布图(a春季;b夏季;c秋季;d冬季;e年)
4.5. PM2.5空间自相关分析
由表3得出春季、夏季、秋季、冬季以及全年Moran’s I分别为0.612、0.687、0.700、0.592、0.734。Moran’s I检验统计量Z值分别为26.42、29.22、30.32、26.51、32.30。根据Moran’s I值可知,中国春季、夏季、秋季、冬季和全年PM2.5浓度在空间分布上具有显著的正自相关性。且自相关性年 > 秋 > 夏 > 春 > 冬。
Table 3. Moran’s I index table
表3. Moran’s I指数表
季节 |
Moran’s I指数 |
Zi |
p |
春季 |
0.612 |
26.42 |
0.0010 |
夏季 |
0.687 |
29.22 |
0.0010 |
秋季 |
0.700 |
30.32 |
0.0010 |
冬季 |
0.592 |
26.51 |
0.0010 |
全年 |
0.734 |
32.30 |
0.0010 |
由图5可看出四季以及全年的监测点中绝大部分都为高–高集聚以及低–低集聚,反映了PM2.5具有明显的聚集效应,高污染聚集区主要分布在中部、京津冀和长三角,低–低聚类地区主要分布在西部、东北和西南地区,而少部分表现为高–低集聚和低–高集聚。
Figure 5. Localized spatial autocorrelation maps of PM2.5 concentrations (a spring; b summer; c fall; d winter; e year)
图5. PM2.5浓度局部空间自相关图(a春季;b夏季;c秋季;d冬季;e年)
5. 结论
本文使用机器学习Adaboost算法对LUR模型进行了优化,克服了传统LUR在非线性拟合方面的不足。建立了一个精度更高、误差更小的非线性回归模型,并对PM2.5浓度进行了预测。结论如下:
1) LUR模型的R2为0.241,而Adaboost优化后的模型R2提高至0.65,春夏秋冬以及年Adaboost模型拟合精度R2均大于0.6,其中夏(0.69) > 冬(0.67) > 年(0.65) > 春(0.62) > 秋(0.60),显示出季节性变化,模型表现良好,解释力强。PM2.5与5000米缓冲区的气溶胶、纬度、5000米缓冲区内的汽车站呈正相关;与温度、4000米缓冲区内的草地、3000米缓冲区内的植被覆盖度呈负相关,显示出环境因素对PM2.5浓度的影响。
2) PM2.5浓度表现出明显的季节性变化和地域性分布特征,冬季最高,夏季最低,春秋相近。这与季节变化、工业排放和气象条件有关。根据Moran’s I值可知,全年及各季节PM2.5浓度均呈正相关,且自相关性年 > 秋 > 夏 > 春 > 冬。局部自相关分析表明PM2.5浓度分布主要为“高–高”聚类和“低–低”聚类。
3) 虽然LUR仍然被认为是经典的空间预测模型,但机器学习的引入可以推动这一研究领域的发展。新建立的模型充分预测了PM2.5浓度的空间分布,为PM2.5浓度预测提供了更科学的探索,同时也为高分辨率PM2.5制图提供了更加有效的途径,对于人群健康暴露风险和空气流行病学研究也具有重要意义。
基金项目
陕西省大学生创新创业训练计划项目(编号:S202310709068)。