1. 背景及文献综述
兰州是中国西北地区重要的工业基地和交通枢纽,由于地处盆地,空气不易流通,工业和长采暖季燃煤产生的粉尘、夏季高温产生的臭氧等污染物不断积聚,使得兰州的空气质量常年处于高污染等级。大气污染物不止会使环境恶化,也会引发心血管和呼吸系统等疾病[1]-[3],造成人类寿命减短或过早死亡。兰州市政府为缓解空气污染问题,采取了一系列措施来改善空气质量、加强环境监测、完善预警体系。预警体系的完善离不开准确的大气污染物浓度预测,同时大气污染物浓度预测不仅对环境保护、健康保护有指导作用,也对城市规划、产业控制等方面都有重要影响。因此,准确预测大气污染物浓度是一个非常紧迫和重要的课题。
根据文献研究,AQI的预测方法主要可以分为物理模型、化学运输模型、统计模型、机器学习、混合模型等几类。物理模型的精度较高,但计算复杂、耗时长,且需要基于可反映污染源时空分布的详细数据[4] [5]。化学运输模型对于AQI的预测精度受到排放数据的质量的显著影响[6] [7]。统计模型[8]虽然可以不那么依赖物理化学反应,只通过分析与污染物浓度变化相关的特征因子就可以进行预测,但精度有限。后期随着人工智能的发展,越来越多的方法被提出,BIANCHINI等[8] [9]采用周期循环神经网络CRNN模型预测了AQI浓度。Samad等人[10]依据气象参数、交通数据和附近监测站的污染物信息,建立的支持向量回归污染物模型。人工神经网络具有良好的泛化能力和对非线性数据的拟合能力,但人工神经网络也很容易陷入过拟合的问题。
由于AQI时间序列的非线性、随机性和波动性的特征,以及各种模型的固有缺点,单个预测模型往往无法发现污染物序列的主要特征,因此人们提出了基于每种模型优点的混合模型。这些混合模型一般由数据预处理、智能优化算法和人工神经网络三部分组成。
常用的预测模型就是LSTM,Das等人[11]将LSTM模型与MLP和RNN模型进行对比,得出结论LSTM比其他两种模型在时间序列预测中具有更显著的优势。本文选取LSTM、BP、CNN三个模型进行对比,讨论更适合AQI预测的模型。Liu等人[12]提出了一种改进的多通道输入输出的VLSTM模型,将其应用于AQI的预测。研究发现LSTM的预测结果受到超参数的直接影响。
虽然以往的学者对LSTM模型进行了改进,但它本质上仍然是单一模型,存在固有的不足。因此,为了减少空气污染物的预测误差,Hu等人[13]在LSTM结构中加入GRU(门控循环单元),构建了精度更高的GRU-LSTM模型,揭示了数据的空间相关性、时间相关性和特征相关性。Dai等人[14] [15]结合非机器学习模型主成分分析,对大气污染数据进行降维提取,虽然提高了预测速度但降低了预测精度。随后有人对数据处理进行探索,发现对空气污染数据进行分解可以简化预测模型,提高预测模型的有效性。因而本文研究了几种数据处理方法。Huang等[16]利用EMD算法对AQI序列进行分解,之后用LSTM进行预测,但是EMD分解数据后依然存在较大误差。Wu等[17]为解决EMD容易出现模态混叠的问题,运用EEMD的方法对原始信号加入白噪声信号来进行EMD分解,将多次分解的结果进行平均即得到最终的IMF,这样的方法可以有效解决模态混叠问题。
由以上论述可以看出,对于不平稳的时间序列进行预测时,LSTM模型由于更擅长处理长期依赖关系,而EEMD可以很好地克服EMD分解中存在的问题,运用IMF进行建模分析和预测,简化模型的复杂程度并且提高预测精度。因此本文选择EEMD处理污染物数据,再用优化模型优化过后的LSTM模型预测更有效。
2. 模型理论研究
2.1. 模型框架
本篇文章要建立EEMD-GWO-LSTM模型来进行预测AQI浓度的实验,首先对收集到的数据进行预处理、填补缺失值、进行归一化等;其次对数据进行EEMD分解,然后将得到的IMF进行GWO-LSTM预测;再其次建立对比模型对数据进行预测;最后通过一系列的指标对比模型的优劣,混合模型流程如图1所示。
2.2. EEMD
集合经验模态分解(EEMD)是对经验模态分解(EMD)进行改进的算法[18],主要用于分析非线性和非平稳时间序列数据。因为模态混叠是EMD方法中存在模态混叠,也就是不同频率的信号成分被错误地归为同一模态。因此EEMD通过在原始数据中加入白噪声,然后对加入白噪声的数据进行多次EMD分解,最后将这些分解结果进行平均,以减少模态混叠现象,提高分解的准确性。
EEMD方法的过程如下:
1) 对原始数据添加标准正态分布的白噪声,
是原始数据,
是白噪声的振幅。
2) 运用EMD对信号进行分解得到N个IMF,
为残差。
3) 重复上述步骤得到M组IMF,然后利用正态分布的白噪声均值为零将所有的IMF进行平均,得到EEMD分解后的IMF:
Figure 1. Mixed model flow diagram
图1. 混合模型流程图图
2.3. LSTM
LSTM [19]是目前应用最广泛的深度学习模型之一,具有较强的长数据处理能力。LSTM模型的核心是LSTM单元,由三个门控单元和一个存储单元组成。这三个门控单元分别是遗忘门、输入门和输出门,用于控制信息的遗忘、输入和输出[20]-[22]。存储单元用于存储和更新信息,LSTM模型的结构图如图2所示。
Figure 2. LSTM structure diagram
图2. LSTM结构图
1) 遗忘门:
LSTM的第一步是决定从细胞状态中舍弃什么信息。该门会读取
和
,输出一个在0到1之间的数值给每个在细胞状态
中的数字。1表示“完全保留”,0表示“完全舍弃”,其中
表示上一个细胞的输出,
为这个细胞的输入。
2) 输入门:
第二步决定让多少新的信息加入到细胞状态中来。包括两个步骤:首先,一个叫做“输入层”的sigmoid层决定哪些信息需要更新;一个tanh层生成一个向量,也就是备选的用来更新的内容
,此时可以将
更新为
,把旧状态
与
相乘,丢弃掉需要丢弃的信息,接着加上
,将状态成果进行更新。
3) 输出门:
第三步确定输出什么值,输出是基于现在的细胞状态,但是也是过滤后的版本。首先运行一个sigmoid层来确定细胞状态输出的部分。接着把细胞状态通过tanh进行处理,得到的值属于[−1, 1],将它和sigmoid层的输出相乘,最终输出确定输出的部分。
2.4. GWO
灰狼优化算法是一种新颖的种群智能优化算法,是通过模仿灰狼的社会等级和群体狩猎机制进行研究与推理而建立的算法模型[23]。灰狼是一种严格区分社会等级的种群,一般分为4个社会等级,分别是狼群的领导者α,协助领导者α的β和σ,以及捕猎具体实施者ω。其中,ω为狼群搜寻猎物的位置,α,β,σ为ω规划移动方向。
算法包括集群领导、包围猎物、定位猎物这三种主要行为,位置更新方式如下:
t代表迭代次数,D为灰狼间的距离,A、C为系数向量,计算公式如下:
狼群的具体捕猎过程如下:
为灰狼的最终位置。
3. 实验分析
3.1. 实验数据集及预处理
兰州的空气质量一直备受关注,更主要是因为兰州空气质量的极端性,体现在数据上就是突变性。空气质量指数AQI对空气状况具有很强的代表性[24] [25]。根据兰州空气质量监测点的数据显示,AQI指数的时序图存在着明显的跳跃点,如图3所示。为了进一步确认兰州AQI指数的数据特性和兰州空气质量状况,本文选取了中国环境监测总站(http://www.cnemc.cn/)兰州市监测点每隔6小时的AQI监测数据共包含自2014年5月13日0时至2024年7月20日18时共14495条数据。
经过计算,兰州市2014年5月13日0时至2024年7月20日18时14,495条数据的标准差约为54.099,但自2016年11月10日6时起连续100个时间点的标准差达到了98.793,而自2014年10月11日6时起连续100个时间点的标准差才38.625。三个时段标准差的区别明显体现出了这份数据的突变性。
在本研究中,数据预处理占据了至关重要的地位,因为数据的质量直接影响了模型预测的准确性。根据数据突变性的特点,首先对数据进行了清洗,运用插值法填补缺失值,并处理异常值。经过处理可以提高数据的质量,从而提高预测模型的准确性和鲁棒性。
Figure 3. AQI timing diagram
图3. AQI时序图
3.2. 评判标准
本实验采用衡量模型预测准确性的常用指标:方均根误差(Root Mean Square Error, RMSE)、平均绝对百分比误差(Mean Absolute Percentage Error)、决定系数(Coefficient of Determination) [26] [27]。
RMSE可以直观地给出误差大小,但它对大的误差更加敏感,而MAPE可以补充RMSE的不足,同时决定系数也直观地表示模型的拟合优度,以获得模型性能的更全面评估。以下是本文评判模型指标的计算公式:
n为数据个数,
是第i个观测值,
是第i个预测值,
是观测值均值。
3.3. 预测结果分析
本实验对预处理后的数据进行EEMD分解,将数据分解为15个IMF以及残差。从图4中可以看出,IMF的频率由高到低逐步剔除了数据中的干扰部分。高频的IMF可以捕捉信号中的快速振荡或瞬时波动,反映了信号的短期变化和噪声成分。而低频的IMF可以表现出慢速振荡或长期趋势,反映了信号的长期行为和趋势变化。在对于天气状况的数据分析中,低频的IMF更能够代表AQI指数的季节性变化或长期气候变化。因此,低频的IMF对于本实验的研究更具有价值,根据本实验的EEMD分解结果图显示,低频的IMF表现出了下降的趋势。
本实验所有的模型都基于python语言,各模型的参数保持一致,其中训练周期设置为50,优化算法的种群个数设置为50。
表1为各个模型的指标对比,很明显可以看出EEMD-GWO-LSTM混合模型在RMSE和R2的表现上最佳,虽然BP神经网络模型的MAPE值最小,但其他两个指标的数值表现过差。经过表格对比,可以看出像是没有经过优化的单一模型LSTM、BP、CNN的预测效果是最差的,根据R2的值也可以看出,这三个模型的拟合优度最低,但LSTM模型在这三个模型中表现最佳。LSTM模型加上分解模型很明显提高了模型的拟合优度,尤其是EEMD-LSTM的R2比LSTM的R2提高了40.32%,EEMD-LSTM的R2
Table 1. Summary of evaluation indicators of each model
表1. 各模型评价指标汇总表
|
LSTM |
BP |
CNN |
EMD_LSMT |
EEMD_LSTM |
CEEMDAN
_LSTM |
RMSE |
37.2760 |
42.9320 |
43.8960 |
19.2478 |
18.3659 |
18.4008 |
MAPE |
15.3456 |
0.2540 |
0.3110 |
9.8465 |
9.4562 |
9.3977 |
R2 |
0.4676 |
0.4220 |
0.3960 |
0.8580 |
0.8708 |
0.8703 |
|
LSTM_GWO |
EEMD_LSTM_
SSO |
CEEMDAN_
LSTM_SSO |
EEMD_LSTM_
GWO |
CEEMDAN_
LSTM_GWO |
|
RMSE |
36.3121 |
14.6531 |
24.9752 |
14.1049 |
21.5001 |
|
MAPE |
15.1221 |
6.6170 |
18.5320 |
6.6963 |
10.5488 |
|
R2 |
0.4948 |
0.9177 |
0.7610 |
0.9238 |
0.8229 |
|
Figure 4. EEMD decomposition result diagram
图4. EEMD分解结果图
和CEEMDAN-LSTM的R2差距并不大,进一步在混合模型中加入优化算法,对预测模型进行升级,经过对比EEMD-LSTM-SSO的R2和EEMD-LSTM-GWO的R2相较于EEMD-LSTM的R2有了明显的提升,分别提升了4.72%和5.33%。整体也可以看出,混合模型的模型拟合优度和精度明显高于单一模型。
同样地,根据图5(a)可以看出,LSTM对于原序列的预测和拟合效果都最好,LSTM的拟合散点图的趋势比BP和CNN的更为明显;图5(b)加入分解模型之后真实值和预测值散点对比的趋势更为明显;图5(c)中的模型中,可以看出EEMD-LSTM-SSO和EEMD-LSTM-GWO的拟合散点图趋势最接近于一条直线,同样的EEMD-LSTM-SSO和EEMD-LSTM-GWO两个混合模型的RMSE也达到了最小,分别是14.6531、14.1049,而EEMD-LSTM-SSO和EEMD-LSTM-GWO两个混合模型的R2也达到了所有对比模型中的最高值,分别是91.77%和92.38%。
4. 结论及建议
4.1. 结论
针对本文的模型来说,对于数据突变性强、波定性大的特点的数据,首先应该对数据进行较好的预处理和数据清洗,以保证可以更高效地使用数据,也可以使模型的拟合效果和鲁棒性都更佳,更利于选择稳定性和预测精度都更好的模型;其次对于预测模型来说,单一模型虽然可以进行预测,但效果不佳,反而是加入了数据分解模型例如EEMD、CEEMDAN这样的混合模型之后,模型的预测精度和模型的稳定性都有了很好的提升;在此基础上,在预测模型部分加入优化算法,对预测模型的参数进行优化,可以进一步提高模型的预测精度,例如本文中进行对比的EEMD-LSTM和EEMD-GWO-LSTM这两个模型,加入优化算法后的EEMD-GWO-LSTM的R2直接提升了5.3%。因而对于数据预测来说,混合模型的预测精度和模型的稳定性都更好。
兰州作为中国西北地区环境情况特殊的重要的工业基地和综合交通枢纽城市,准确的AQI预测不仅对环境保护、健康保护有指导作用,也对城市规划、产业控制等方面都产生了重要影响。大气污染物
(a)
(b)
(c)
Figure 5. (a) Prediction and fitting scatter plot; (b) Prediction and fitting scatter plot; (c) Prediction and fitting scatter plot
图5. (a) 预测及拟合散点图;(b) 预测及拟合散点图;(c) 预测及拟合散点图
浓度预测可以帮助监测和评估空气质量状况,为环境保护和管理决策提供科学依据;人们可以通过提前了解污染物浓度的变化,采取防护措施,减少污染物对健康的危害;政府和企业可以合理规划工业区域、居住区域和交通网络,同时可以制定相应政策,优化生产工艺,减少污染物的排放和扩散,以提高产业效益和环境效益的平衡。综上所述,大气污染物的预测在促进可持续发展和人类社会的良性循环上扮演着重要角色。
4.2. 建议
兰州市空气质量监测还有待提升,为了促使空气质量的预测可以更为严谨和精准,本文有以下建议[28]-[33]:
1) 增加监测站点和多污染物监测:在兰州市的不同区域,如工业区、居民区、交通干道等,增设更多的监测站点,以获得更全面的空气质量数据。同时除了常规的PM2.5、PM10、SO2、NO2、CO、O3监测外,还应考虑包括VOCS (挥发性有机物)、氨气、重金属等其他污染物的监测。
2) 采用先进技术提高监测频率:利用先进的监测技术和设备,如遥感监测、无人机监测等,以提高数据的准确性和实时性。增加监测的频率,从目前的常规监测,扩展到实时或高频率的监测,以便更快地响应空气质量的变化。
3) 跨区域合作且数据公开共享:由于空气质量受到区域性气象条件和污染物传输的影响,建议与周边城市建立合作机制,共同监测和治理区域性的空气污染物。加强空气质量数据的共享与公开,通过政府网站、移动应用等平台,实时发布空气质量信息,提高公众的知情权和参与度。
NOTES
*第一作者。
#通讯作者。