使用机器学习改进土地利用回归模型预测中国PM2.5污染时空格局
Using Machine Learning to Improve the Land Use Regression Model to Predict the Spatial and Temporal Pattern of PM2.5 Pollution in China
DOI: 10.12677/aep.2024.145141, PDF, HTML, XML,    科研立项经费支持
作者: 张慧婧, 王 勇, 李明垚, 张凤倩, 张 平:西安工程大学环境与化学工程学院,陕西 西安
关键词: PM2.5土地利用回归(LUR)模型Adaboost空气污染PM2.5 Land Use Regression (LUR) Model Adaboost Air Pollution
摘要: 随着工业化加速和经济快速发展,PM2.5引起的空气污染日益严重,对环境和人类健康造成严重影响。本研究采用Adaboost机器学习方法优化土地利用回归模型(LUR),利用2015年中国PM2.5监测数据及多源遥感数据,模拟中国PM2.5的空间分布,并评价模型拟合效果。结果显示,Adaboost优化后的LUR模型拟合精度显著提高,R2从0.241提高至0.62 (春)、0.69 (夏)、0.60 (秋)、0.67 (冬)和0.65 (年),并通过SPSS软件识别出28个与PM2.5浓度相关的变量。研究发现,PM2.5浓度具有季节性变化,冬季最高,夏季最低,且存在明显的空间自相关性,表现为高–高集聚以及低–低集聚。本研究为PM2.5浓度精确预测提供了新方法,对公共健康保护和空气质量管理具有重要意义。
Abstract: With the acceleration of industrialization and rapid economic development, the air pollution caused by PM2.5 is becoming more and more serious, causing serious impacts on the environment and human health. In this study, the Adaboost machine learning method was used to optimize the land use regression (LUR) model to simulate the spatial distribution of PM2.5 in China by using the 2015 Chinese PM2.5 monitoring data and multi-source remote sensing data, and to evaluate the model fitting effect. The results showed that the fitting accuracy of LUR model optimized by Adaboost was significantly improved, R2 increased from 0.241 to 0.62 (spring), 0.69 (summer), 0.60 (autumn), 0.67 (winter) and 0.65 (year). 28 variables related to PM2.5 concentration were identified by SPSS software. It was found that PM2.5 concentration has seasonal variations, with the highest in winter and the lowest in summer, and there is an obvious spatial autocorrelation, which is manifested as high-high concentration as well as low-low concentration. This study provides a new method for accurate prediction of PM2.5 concentration, which is important for public health protection and air quality management.
文章引用:张慧婧, 王勇, 李明垚, 张凤倩, 张平. 使用机器学习改进土地利用回归模型预测中国PM2.5污染时空格局[J]. 环境保护前沿, 2024, 14(5): 1096-1110. https://doi.org/10.12677/aep.2024.145141

1. 引言

随着中国工业化加速,重工业带来的空气污染使人类生存面临严重威胁。其中,PM2.5污染及其对人体的危害受到广泛关注。流行病学的研究表明,空气中细粒子越多,我们接触致癌物——多环芳烃的机会就越多[1],因其可携带致病细菌和多环芳烃等有害物质进入人体,增加癌症风险。为了减少空气污染的影响并实现中国城市的可持续发展,对PM2.5开展相关研究迫在眉睫。目前在中国尺度PM2.5空间分布的调查中主要使用普通插值和空间研究的方式,研究重点集中于重点地区和城市。国内外对PM2.5监测的手段是以传统地面监测站点为主,但是存在建设成本过高、覆盖区域较少等问题。国内外学者开始利用有限的监测站数据并通过神经网络、大气数值模拟、土地利用回归模型(LUR)等方法进行研究区内PM2.5浓度的空间分布模拟。

LUR模型是模拟城市尺度大气污染物浓度时空分异最主要、最体系化的方式之一[2]。然而,传统的LUR模型难以识别PM2.5浓度和影响因素的复杂非线性关系,导致预测结果精度较低。机器学习模型具有捕捉预测变量与空气污染浓度之间的非线性关系的能力,比传统的回归方法更能提高模型的预测性能,其中Adaboost在处理非线性数据方面表现出色,它能够通过不断改变特征权重,自适应地选择和组合特征,从而提高模型的可解释性。刘炳杰[3]等人基于2015年中国PM2.5数据和多种地理及人口因素建立地理加权LUR模型,分析了年均和月均PM2.5分布,发现明显的空间变化特征。江曲图[4]等通过结合LURc和BME方法,获得沿海区域内高精度PM2.5分布。于梦婷[5]结合三种机器学习算法(RF、GBDT、XGBoost)改进LUR模型,并比较不同改进算法下的模型精确度,基于最佳模型揭示了辽宁省2015~2019年PM2.5的年度、季度等时空分布变化特征与空间聚集规律。申婷[6]构建GWR模型实现了晋陕蒙地区季均及年均PM2.5浓度模拟与PM2.5时空分布特征分析,发现季节性差异和南高北低的分布特征。吴迪[7]等提出的GTWR-XGBoost组合模型运用于全数据集对PM2.5浓度的小时估算性能最优,充分表明GTWR-XGBoost模型对四川省小时PM2.5浓度估算效果最好,精度最高。肖诗霖[8]等研究融合多源数据与随机森林方法,评估蚌埠城区近地面PM2.5水平,展示了模型和方法在PM2.5分析中的应用和效果。Wong [9]等研究比较了传统LUR、混合–克里金LUR和结合深度神经网络、随机森林、XGBoost算法的LUR模型在台湾PM2.5浓度估计的准确性。结果显示,混合克里金-LUR和XGBoost算法的结合模型能更准确预测PM2.5浓度。Soledad [10]等开发了基于随机森林的西班牙瓦伦西亚社区PM2.5日浓度预测模型,展现出良好性能,能预测[10]约90%的PM2.5时空变异性。这些研究为未来PM2.5模拟提供了新的方法,同时指出基于土地利用回归模型的LUR研究PM2.5空间分布,仍有研究空间。

本研究基于2015年全国PM2.5监测站点数据、土地利用、气象、道路交通、社会经济、污染源、气溶胶光学厚度(AOD)和夜间灯光指数等数据,构建土地利用回归LUR模型,使用机器学习方法Adaboost优化LUR,借助R2、RMSE和MAE评价模型拟合精度,预测PM2.5空间分布,探索PM2.5污染高分辨率制图,对于人群健康暴露风险和空气流行病学研究具有重要意义。

2. 数据与方法

2.1. 研究区概况

中国位于欧洲东部与太平洋西岸,地形西高东低,复杂多变[11]。本文研究区域涵盖中国31个省份(因监测标准和方法的不同,不包括澳门,香港,台湾等地区),既有空气污染较为严重的京津冀、长三角地区,又有污染相对较轻的珠三角地区。

2.2. 数据来源

PM2.5浓度数据来自全国1267个监测站点;土地利用数据由NASA (http://ladsweb.nascom.nasa.gov)得来;气象数据由ECMWF欧洲气象资料网提供,主要气象参数为水温、表压、总降水量、相对湿度、边界高度和风速;归一化植被指数(NDVI)数据来源于中科院的资源环境数据中心;道路密度数据来自于Open Street Map;地形地貌使用AM3D (ALOS World 3D)数据;气溶胶厚度(AOD)数据由美国国家航空航天局的EARTH DATA网站提供。本研究的POI兴趣点数据来自于高德开发平台;植被覆盖数据、GDP、人口密度数据,出自中科院的资源环境数据中心。

3. 研究方法

Figure 1. Technological route

1. 技术路线

本研究首先建立不同半径大小的缓冲区,得到不同范围内影响因子数值,采用SPSS双变量相关分析方法提取与PM2.5浓度显著相关的目标因子,并对PM2.5浓度及相应的目标因子建立土地利用回归模型,采用Adaboost算法进行优化,评价模型拟合效果,采用ArcGIS反距离权重插值功能,得到PM2.5模型预测图。技术路线如图1

3.1. LUR土地利用回归模型

污染物的空间分布格局具有显著的统计学规律,监测位置周围的地形、地类、污染源等会对污染物的分布格局产生明显的影响。在不断的研究发展过程中,交通、工业排放、气候、地形、人口分布等要素都作为模型变量参与了模型的构建,研究者称此类模型为土地利用回归(land use recognition, LUR)模型。该模型根据研究范围内监控站点的污染物浓度数值,和在监控站点位置处不同区域缓冲区域的地理要素构建多元回归模式,采用回归制图的技术模拟了地区污染物浓度分布格局[12]。本文以2015年全国国控监测站点PM2.5浓度为因变量,提取相应的预测因子为自变量,构建多元线性回归模型,模型的表达形式为[13]

y i = β 0 + k=1 p β k X i k + ε i (1)

式中,yi为因变量,表示第i站点的PM2.5浓度,β0为截距项,βk为变量系数,Xik为自变量,εi为误差项。

本研究采用的变量数据、数据处理方式与数据说明如下表1

Table 1. Variable data sheet

1. 变量数据表

预测变量

缓冲区大小(单位:米)

数据处理方式

数据说明

气象数据

NA

值提取至点

Temp:温度

Wind:风速

Tp:总降水量

Shum:比湿度

Blh:边界层高度

土地利用数据

100、300、500、1000、2000、3000、4000、5000

缓冲区分区统计

AGL:草地面积

AUL:未利用地面积

AFL:林地面积

AAL:耕地面积

ACL:建设用地面积

AWB:水域面积

POI数据

100、300、500、1000、2000、3000、4000、5000

缓冲区分区统计

BS:公交站数量

AR:汽修厂数量

GS:加油站数量

PL:停车场数量

RES:餐厅数量

PES:污染源数量

GDP、NL、POP、Road数据

100、300、500、1000、2000、3000、4000、5000

缓冲区分区统计

NL:夜间灯光

GDP:生产总值

POP:人口密度

Road:道路长度

NDVI数据

100、300、500、1000、2000、3000、4000、5000

缓冲区分区统计

NDVI:归一化植被指数

DEM数据

NA

值提取至点

DEM:高程

Slope:坡度

AOD数据

100、300、500、1000、2000、3000、4000、5000

缓冲区分区统计

AOD:气溶胶光学厚度

经纬度

Longitude:经度

Latitude:纬度

3.1.1. 相关性分析

相关性研究指的是对2个或2个以上具有关联性的变量进行研究,以判断2个变量的相互关系程度。相关元素间必须具有某种联系和概率,才可以进行相关性分析[14]。本研究利用SPSS软件对不同缓冲区域的影响因子进行双变量相关性研究,筛选出相关性较大的因子。

3.1.2. 缓冲区分析

缓冲区分析指的是以点、线和面实体为基础,形成其周围一定区域内的多边形图层,接着完成该图层和目标图层的重叠,然后再进行大数据分析从而得出我们所要求的结论,并且,这是一种用于处理邻近度问题的空间研究方法。邻近度是描述地理空间中,两个地面物体间距相似程度的指数[15]

3.1.3. 回归分析

回归分析(Regression Analysis)是一组用于估计变量之间关系的统计过程。在验证影响因子之间不存在相关性和筛选出相关性较大的影响因子之后,采用多元线性逐步回归方程建立LUR回归模型来表示PM2.5浓度与影响因子之间的关系。

3.2. Adaboost算法

Adaptive Boosting自适应提升的一个集成学习算法,用于处理分类的回归问题。它可以通过组合几个弱分类器来建立一个更强类型器。Adaboost算法的基本思路是在每一个迭代中,基于上一次的分析结果,可以调整样本权重,因此在下一次迭代中,分类器更重视之前被错误划分的样本,以便提升整体划分的准确度。

3.3. 模型评价

为评估模型以及评价结果的合理性和准确性,本文选用指标为均方根误差(root mean square error,RMSE)、平均绝对误差(mean absolute error, MAE)和决定系数(coefficient of determination R2) [16]。具体公式如下:

R 2 = 1 i1 n ( y i y i Λ ) 2 i1 n ( y i y i ) 2 (2)

RMSE= i1 n ( y i y i Λ ) 2 n1 (3)

MAE= i1 n | y i y i Λ | n (4)

式中: y i 为实际观测值; y Λ i 为模型的预测值; y i Λ 为观测的平均值;n为预测样本数。

3.4. 空间自相关分析

空间自相关是指一种现象在空间分布上的相关性。空间自相关分析可以检测多种现象的变化是否存在相关性,是一种较为常见的认识空间分布特征的方法。空间自相关的相关性分为正相关和负相关两类,许多地理现象的空间过程在地域分布上具有连续性,表现为在空间上的自相关。比较常用的度量空间自相关性的指标是Moran’s I。

使用Moran’s I分析空间关联度以及差异计算公式如下[17]

I= n i=1 n j=1 n wij( xi x ¯ )( xj x ¯ ) i=1 n j=1 n wij i=1 n ( xi x ¯ ) = n i=1 n j1 n wij( xi x ¯ )( xj x ¯ ) S 2 i=1 n j1 n wij (5)

式子中xixj分别是第i和第j城市的PM2.5浓度,wij使要素ij之间的空间权重。

4. 结果

4.1. 相关性分析

本研究分析了PM2.5浓度与129个因素的相关性,筛选出28个重要变量。从图2可以看出,PM2.5与Longitude、Latitude、Sp、AOD5000、NL5000、AAL5000、ACL2000、AWB300、RES5000、PL5000、GS5000、BS5000、AR5000、PES5000、Road5000和GDP1000呈正相关,与Shum、Wind、Blh、DEM、Slope、NDVI3000、AFL5000、AGL4000和AUL3000具有负相关性。气象条件如湿度和风速是影响PM2.5分布的关键因素,因为湿度能增加PM2.5重量导致沉降,而风速会加快其扩散。植被通过捕捉PM2.5也能降低浓度。此外,通过将这些变量结合进LUR回归方程,能显著提高模型精度。

Figure 2. Correlation results chart

2. 相关性结果图

4.2. LUR建模与变量选取

本研究以经过相关性分析后筛选得到的变量为自变量,以PM2.5浓度为因变量,采用了多元线性回归的方法实现LUR模型的建立。研究区PM2.5的LUR模型结果如表2所示。

Table 2. PM2.5 stepwise multiple linear regression results

2. PM2.5逐步多元线性回归结果

可变因素

B

Beta

t

显著性

容差

VIF

R = 0.491

R2 = 0.241

调整后R2 = 0.241

(常量)

464.255

86.415

0

AOD5000

32.075

0.191

67.857

0

0.793

1.261

Latitude

2.213

0.341

84.367

0

0.386

2.588

Temp

−0.853

−0.176

−58.136

0

0.692

1.445

BS5000

0.052

0.168

31.217

0

0.217

4.61

Longitude

−2.112

−0.286

−63.556

0

0.312

3.207

DEM

−0.023

−0.222

−57.814

0

0.43

2.326

NDVI3000

−16.661

−0.062

−20.663

0

0.712

1.404

AR5000

−0.031

−0.093

−24.194

0

0.426

2.347

AGL4000

−0.002

−0.052

−14.905

0

0.51

1.959

Wind

−1.459

−0.042

−16.353

0

0.978

1.022

GS5000

0.329

0.071

17.679

0

0.387

2.582

PL5000

−0.002

−0.047

−8.868

0

0.224

4.467

NL5000

0.216

0.05

13.102

0

0.44

2.272

Tp

−288.527

−0.025

−9.747

0

0.947

1.056

RES5000

−0.001

−0.048

−9.23

0

0.235

4.248

Shum

−220.541

−0.028

−9.23

0

0.683

1.463

Blh

−0.004

−0.022

−8.8

0

0.987

1.014

AUL3000

1.10E−02

0.019

6.875

0

0.843

1.186

Road5000

−6.94E−06

−0.03

−6.167

0

0.274

3.646

PES5000

−0.528

−0.014

−4.885

0

0.818

1.223

AFL5000

0.001

0.015

5.395

0

0.777

1.286

AAL5000

0.001

0.015

4.972

0

0.705

1.419

ACL2000

0.002

0.018

4.874

0

0.483

2.07

AWB300

1.99E−01

0.011

4.236

0

0.977

1.024

POP2000

−4.37E−06

−0.006

−2.299

0.022

0.99

1.01

我们可以看到除POP之外,t检验的结果Sig值均低于显著性的0.01。方差膨胀因子(VIF)越大共线性就越强烈。能够看到表2中的VIF大都小于4,可以消除多重共线性对模型的影响。

4.3. Adaboost算法优化LUR模型拟合效果评价

图3是四季及全年时间序列拟合效果图。由图可以看出,R2在春夏秋冬以及年数据均达到了0.6以上,拟合的决定系数较高。其中年度数据的R2为0.65,春季R2为0.62,夏季R2为0.69,秋季R2为0.60,冬季R2为0.67。冬季RMSE最高,达32.32 μg·m3,夏季和秋季相对较低。MAE春季最高,为32.97 μg·m3,夏季最低为11.65 μg·m3。大部分季节的RMSE和MAE的值低于40 μg·m3和20 μg·m3,显示出模型拟合效果整体较好。

Figure 3. Evaluation of PM2.5 pollution time series fitting effect based on machine learning method Adaboost (a spring; b summer; c fall; d winter; e year)

3. 基于机器学习方法Adaboost的PM2.5污染时间序列拟合效果评价(a春季;b夏季;c秋季;d冬季;e年)

4.4. PM2.5时空预测

本研究用Adaboost优化LUR模型得到的PM2.5预测浓度绘成空间分布图,如图4所示。揭示了中国PM2.5浓度的季节性差异,冬季浓度高于其他季节,尤其在中部、京津冀和部分西南地区。夏季浓度最低,春秋季节浓度适中。年度空间分布图显示,中部和京津冀地区PM2.5浓度有时超过120 μg·m3,华东沿海和部分东北地区在60~120 μg·m3之间,其他区域低于60 μg·m3。中部地区PM2.5高浓度与经济发展、人口密集和人类活动密切相关。

Figure 4. Temporal and spatial distribution of predicted concentrations of PM2.5 (a spring; b summer; c fall; d winter; e year)

4. PM2.5预测浓度时空分布图(a春季;b夏季;c秋季;d冬季;e年)

4.5. PM2.5空间自相关分析

表3得出春季、夏季、秋季、冬季以及全年Moran’s I分别为0.612、0.687、0.700、0.592、0.734。Moran’s I检验统计量Z值分别为26.42、29.22、30.32、26.51、32.30。根据Moran’s I值可知,中国春季、夏季、秋季、冬季和全年PM2.5浓度在空间分布上具有显著的正自相关性。且自相关性年 > 秋 > 夏 > 春 > 冬。

Table 3. Moran’s I index table

3. Moran’s I指数表

季节

Moran’s I指数

Zi

p

春季

0.612

26.42

0.0010

夏季

0.687

29.22

0.0010

秋季

0.700

30.32

0.0010

冬季

0.592

26.51

0.0010

全年

0.734

32.30

0.0010

图5可看出四季以及全年的监测点中绝大部分都为高–高集聚以及低–低集聚,反映了PM2.5具有明显的聚集效应,高污染聚集区主要分布在中部、京津冀和长三角,低–低聚类地区主要分布在西部、东北和西南地区,而少部分表现为高–低集聚和低–高集聚。

Figure 5. Localized spatial autocorrelation maps of PM2.5 concentrations (a spring; b summer; c fall; d winter; e year)

5. PM2.5浓度局部空间自相关图(a春季;b夏季;c秋季;d冬季;e年)

5. 结论

本文使用机器学习Adaboost算法对LUR模型进行了优化,克服了传统LUR在非线性拟合方面的不足。建立了一个精度更高、误差更小的非线性回归模型,并对PM2.5浓度进行了预测。结论如下:

1) LUR模型的R2为0.241,而Adaboost优化后的模型R2提高至0.65,春夏秋冬以及年Adaboost模型拟合精度R2均大于0.6,其中夏(0.69) > 冬(0.67) > 年(0.65) > 春(0.62) > 秋(0.60),显示出季节性变化,模型表现良好,解释力强。PM2.5与5000米缓冲区的气溶胶、纬度、5000米缓冲区内的汽车站呈正相关;与温度、4000米缓冲区内的草地、3000米缓冲区内的植被覆盖度呈负相关,显示出环境因素对PM2.5浓度的影响。

2) PM2.5浓度表现出明显的季节性变化和地域性分布特征,冬季最高,夏季最低,春秋相近。这与季节变化、工业排放和气象条件有关。根据Moran’s I值可知,全年及各季节PM2.5浓度均呈正相关,且自相关性年 > 秋 > 夏 > 春 > 冬。局部自相关分析表明PM2.5浓度分布主要为“高–高”聚类和“低–低”聚类。

3) 虽然LUR仍然被认为是经典的空间预测模型,但机器学习的引入可以推动这一研究领域的发展。新建立的模型充分预测了PM2.5浓度的空间分布,为PM2.5浓度预测提供了更科学的探索,同时也为高分辨率PM2.5制图提供了更加有效的途径,对于人群健康暴露风险和空气流行病学研究也具有重要意义。

基金项目

陕西省大学生创新创业训练计划项目(编号:S202310709068)。

参考文献

[1] 张少红, 于少华. PM2.5的来源、危害及防治措施研究[J]. 环境科学与管理, 2014, 39(7): 92-94.
[2] 吴健生, 谢舞丹, 李嘉诚. 土地利用回归模型在大气污染时空分异研究中的应用[J]. 环境科学, 2016, 37(2): 413-419.
[3] 刘炳杰, 彭晓敏, 李继红. 基于LUR模型的中国PM2.5时空变化分析[J]. 环境科学, 2018, 39(12): 5296-5307.
[4] 江曲图, 何俊昱, 王占山, 等. 基于LUR/BME的海岸带地区PM2.5时空特性研究[J]. 中国环境科学, 2017, 37(2): 424-431.
[5] 于梦婷. 基于改进LUR模型的PM2.5时空分布与土地利用关系的研究[D]: [硕士学位论文]. 大连: 大连理工大学, 2023.
[6] 申婷, 闫庆武, 李飞雪. 晋陕蒙地区PM2.5遥感反演与时空分布研究[J]. 干旱区资源与环境, 2022, 36(2): 99-104.
[7] 吴迪, 杜宁, 王莉, 等. 基于GTWR-XGBoost模型的四川省PM2.5小时浓度估算[J]. 环境科学, 2023, 44(7): 3738-3748.
[8] 肖诗霖, 王杨君, 田梦悦, 等. 基于机器学习利用低成本传感器数据构建城市近地面PM2.5浓度的高分辨率空间分布[J]. 环境科学学报, 2022, 42(9): 440-451.
[9] Wong, P., Lee, H., Chen, Y., Zeng, Y., Chern, Y., Chen, N., et al. (2021) Using a Land Use Regression Model with Machine Learning to Estimate Ground Level PM2.5. Environmental Pollution, 277, Article ID: 116846.
https://doi.org/10.1016/j.envpol.2021.116846
[10] Represa, S.N., Palomar-Vázquez, J., Porta, A. and Fernández-Sarría, A. (2019) Daily Concentrations of PM2.5 in the Valencian Community Using Random Forest for the Period 2008-2018. Proceedings, 19, Article No. 13.
[11] 王辉. 中国区域降水时空变化模式分析[D]: [硕士学位论文]. 青岛: 山东科技大学, 2011.
[12] 王宁. 基于LUR模型的土壤重金属浓度空间分布模拟[D]: [硕士学位论文]. 兰州: 兰州大学, 2021.
[13] 杨明亮, 朱宗玖. 基于LUR模型下PM2.5浓度的空间分布模拟分析[J]. 大气与环境光学学报, 2022, 17(3): 347-359.
[14] 唐蓉, 谭定英, 张海扬, 等. 双变量相关分析法在嵌入式医学仪器特性的研究[J]. 现代计算机(专业版), 2015(21): 3-6.
[15] 方雷, 王红, 苏凯. 基于MAPG1S的沙尘暴信息管理系统[J]. 河北遥感, 2012(1): 16-21.
[16] 李玉洁, 江洪, 刘宣广. 基于CatBoost的植被总初级生产力遥感模拟方法及在福建省的应用[J]. 地球信息科学学报, 2023, 25(9): 1908-1922.
[17] 黄寰, 王若楠, 肖义. 长江经济带科技创新与生态效率的协同演化及影响因素[J]. 长江流域资源与环境, 2024, 33(4): 671-686.