1. 引言
随着全球工业化和城市化进程的迅猛推进,人类活动对大气环境产生了深远影响。工业活动释放大量污染物、汽车和飞机等交通工具的废气排放、家庭和商业活动中使用的煤炭和燃油释放的有害物质都是造成大气污染的主要来源。某些物质进入大气中,呈现出足够的浓度,达到足够的时间,并因此危害了人体的舒适、健康和福利或危害了生态环境。为此我国专门成立了城市空气质量检测部门,预测城市空气质量,保障人们安全的生活环境[1]。根据《环境空气质量指数(AQI)技术规定(试行)》空气质量指数(AQI)可用于判别空气质量等级,是反映大气环境质量水平的重要指标[2]。根据AQI值将空气质量划分为六个等级,不同空气质量等级对应着不同的健康影响和建议措施。此外,准确计算和预测空气质量等级,有助于公众及时了解空气质量状况,采取相应的防护措施,保护自身健康;同时也为政府环境管理部门制定科学合理的污染防控策略、优化产业布局、加强环境监管提供决策支持。
在空气质量预测研究领域,传统方法主要包括时间序列模型(如ARIMA)和统计学习方法[3]。近年来,随着深度学习技术的发展,循环神经网络(RNN)及其变体长短期记忆网络(LSTM)在时间序列预测中展现出显著优势,能够有效捕捉数据中的长期依赖关系[4]。然而,标准LSTM模型在空气质量预测中的应用效果,特别是在融合季节性特征方面的系统优化,仍有待深入评估。本研究旨在系统评估LSTM模型在特定区域空气质量预测中的表现,重点探索季节性特征的引入对六种主要污染物预测精度的影响,以期为精准化空气质量预报提供一个优化的技术案例。
2. 模型假设
为了确保模型在预测任务中的有效性与适用性,我们做了以下假设。
六种污染物浓度序列具有时间依赖性,当前污染水平在一定程度上依赖于过去若干天的历史情况。
污染物的过去趋势可以用来预测未来趋势,未来污染变化可以由历史序列学习获得。
3. 模型的建立
3.1. 相关理论和技术
LATM神经网络最早由Hochreiter和Schmidhuber提出[5],它能够有效克服RNN (recurrentneural network)中存在的梯度消失问题,使网络能够有效地处理长期时间序列数列[6],并且在预测上所得误差明显低于其他方法。本文针对6种常规污染物的单日浓度值数据,提出了基于LATM魂环神经网络的预测方法,包括输入层、隐藏层和输出层网络解构,并使用一种基于多层网格搜索的LSTM预测模型参数优选算法。
LSTM是在RNN基础上进一步发展形成,包括四个核心部分:遗忘门、输入门、细胞状态更新和输出门(图1)。其中遗忘门、输入门和输出门新增逻辑控制单元,通过这三个门控单元来控制信息的流动和更新,从而有效地捕捉和及异常序列中的关键信息。
遗忘门:
(1)
输入门:
(2)
单元:
(3)
(4)
输出门:
(5)
最终输出:
(6)
分别使用i、f和o来表示输入、遗忘和输出门,W和b表示网络的权重矩阵和偏置向量。遗忘门决定前一时刻的细胞状态有多少信息需要以往;输入门决定当前输入信息有多少需要更新到细胞状态中;输出门决定当前时刻的细胞装填有多少信息需要输出到隐藏状态中。
Figure 1. LSTM unit structure
图1. LSTM单元结构
3.2. 数据预处理
数据的可靠性分析,其可靠性分析包括检验数据的完整性和准确性。
数据的完整性指数据中是否存在断电和缺口,并尝试从其他监测站点、历史数据或相关研究中补充数据。对于附件并不存在不连续的时间,故附件数据具有完整性。
数据的准确性是指数据中是否曾在缺失值和异常数据。对于缺失值,我们在对附件遍历时并未发现缺失值;对于异常值,我们采用3σ原则,通过计算均值和标准差确定正常范围的上限和下限(图2)。遍历数据集,识别任何落在正常之外数据点,起被视为异常值。之后我们采用上下数据的均值代替异常值,我们发现附件中的数据存在异常值。因此,附件数据不具有准确性,需要对数据进行清醒,将异常值替换后可用于后续探究分析。
Figure 2. Data processing comparison chart
图2. 数据预处理对比图
3.3. LSTM模型的构建
选取6种污染物单日浓度值按照时间顺序由远及近才形成一个时间序列,将搜集到数据中2019年4月16日到2022年月5日10期间的各污染物浓度数据依次排列。以上数据导入MATLAB后使用figure函数对该时间序列构图,形成一个时间相关的图形。输出各污染物浓度值时间序列图。
从图中可以清晰度的观察到,污染物在整个时间段内呈现出明显的波动特征。浓度值并非保持稳定,而是在不同的时间点有较大的起伏,说明空气质量在不同时间存在明显差异,具有较大的不稳定性。因此,为实现对污染物浓度的有效预测,我们引入LSTM网络模型,构建LSTM污染浓度预测模型。LSTM是一种特殊的循环神经网络(RNN),它通过精心设计的门控机制,能够有效地捕捉时间序列数据中的长期依赖关系。构建的LSTM网络结构图如图3所示。
由于LSTM模型对输入数据的尺度比较敏感,需要对单日浓度数据进行归一化处理,将数据线性映射至0~1范围内。隐藏层采用LSTM细胞和Dropout搭建双层循环神经网络(图4)。由于LSTM神经网络模块的层数越多,其学习能力越强,但是层数过多又会造成网络训练难以收敛,因此训练过程中网络的层数一般不超过3 [7],本文采用两层。隐藏层采用多步预测法,输出层使用了全连接层对结果进行降低维度,并将得到预测数据后进行了反归一化,最终得到预测结果。
Figure 3. Time series charts of concentrations of six pollutants
图3. 6种污染物浓度时间序列图
Figure 4. LSTM network structure for pollutant concentration
图4. 污染物浓度的LSTM网络结构
本文目标是预测6种污染物单日浓度值故选取均方误差(Mean Square Error, MSE)作为损失函数
(7)
通过计算预测值与真实值之间的差值的平方的平均值,能够直观的量化模型预测的准确程度。由于污染物浓度在不同时间存在明显波动,MSE对这种波动具有较高的敏感性。较大的预测误差会导致MSE值显著增加,这能够及时反映出模型在处理污染浓度预测的性能,进而针对性的改进模型。下面6种污染物损失函数曲线图(图5~10)。
其次,选取tanh函数作为激活函数
(8)
优化器采用Adam优化器(Adaptive Moment Estimation,适应性矩估计)进行优化训练。Adam优化器由Kingma和Ba (2015)提出[8],它结合了AdaGrad和RMSProp优化器的优点,能够高效地处理大规模数据和复杂模型,并在各种深度学习任务中取得良好的效果。
Figure 5. O3 loss function curve
图5. O3损失函数曲线图
Figure 6. PM2.5 loss function curve
图6. PM2.5损失函数曲线图
Figure 7. NO2 loss function curve
图7. NO2损失函数曲线图
Figure 8. SO2 loss function curve
图8. SO2损失函数曲线图
Figure 9. CO loss function curve
图9. CO损失函数曲线图
Figure 10. PM10 loss function curve
图10. PM10损失函数曲线图
应用LSTM神经网络对每个污染物预测思路为:用过去30天的浓度值数据信息来对未来5天各污染物浓度值进行预测。因为大气污染物具有时间序列特性,通常对于未来5天浓度值,使用前天30的浓度数据进行预测且30天的数据包含足够信息。所有污染物的LSTM神经网络输出均是未来5天的各污染物的预测值。在参数选取上指定LSTM神经网络单元有64个隐藏单元,并进行100论的训练,用于捕捉输入序列中的长期依赖关系;设初始学习率为0.001,Dropout率为0.2用于防止过拟合,再经过100论训练。设置以上参数进行性调试,以确保模型能够准确的捕捉污染物浓度变化规律,提高预测的准确性。
3.4. 实验评估
本文针对6种污染物浓度值进行预测,因此构建相对误差指标进行测试集预测效果评估。预测精度评估采用平均绝对误差(Mean Absolute Error, MAE),MAE值越低表示模型的而预测值更接近实际值,模型的预测性能更好;均方根误差(Root Mean Square Error, RMSE),RMSE能衡量预测值与真实值之间的平均误差幅度,反应不同污染物对空气质量的误差度,其值越小表示模型的预测精度越高。MAE提供了预测误差的平均水平,而RMSE则强调了大误差的影响。通过二者的指标能更的判断模型的拟合效果。MAE、RMSE的及计算分别如下所示:
(9)
(10)
根据实验,对各个污染物进行了测试数据集与模型预测数据对比(如图11)。可以观察到,部分区域拟合效果较好,担任有部分预测值与实际数据相差较大。根据6种污染物RMSE、MAE值(表1),可以看出NO2、SO2的RMSE和MAE值均较低,与真实值相比误差较小,LSTM模型对两者预测精度看较高;CO、PM10、O3的RMSE和MAE的值相对较大;PM2.5的实验值相比较下误差较大,预测精度较差。由此可见,该模型的预测结果较为良好。
Figure 11. Fitting chart of 6 pollutants
图11. 6种污染物拟合图
Table 1. RMSE and MAE values of 6 pollutants
表1. 6种污染物RMSE、MAE值
|
PM2.5 |
NO2 |
SO2 |
CO |
PM10 |
O3 |
RMSE |
33.58 |
5.31 |
1.07 |
16.73 |
12.02 |
13.26 |
MAE |
26.49 |
3.87 |
0.81 |
13.51 |
9.06 |
9.9 |
3.5. 模型优化
从上述实验评估分析中,可以看到模型的拟合程度还有待提高,预测精度略有偏差。跟据时间序列图发现,污染物浓度存在季节性变化。如臭氧的时间序列图(图12)中,可以看出在臭氧在冬季节浓度值整张幅度变大,在春末到初秋季节浓度相对较低。由此得出,污染物浓度呈现周期性季节性变化。因此,考虑将季节特征列入对LSTM模型的影响因素中。
(1) 季节对污染物的影响
季节因素包括当季温度、湿度、风速和风向等对污染物的影响。对于温度,夏季温度高,大气对流活动相对旺盛,有利于污染物的扩散和稀释,对空气质量有哦一定的改善作用;冬季温度低,大气层相对稳定,会抑制污染物的垂直扩散,导致污染物浓度升高。对于湿度,夏季湿度较大有利于气态污染物(如:二氧化硫、氮氧化物等)的湿沉降;冬季湿度较低,不利于污染物的湿沉降,浓度容易积累升高。由此可见,冬季容易是污染物积累,会导致浓度升高;夏季有利于污染物的扩散和稀释。
Figure 12. Ozone time series chart
图12. 臭氧时间序列图
(2) 数据处理
考虑季节对模型的影响,首先需要对污染物浓度数据的时间进行的提取。空气污染具有明显的周期性,因此从数据的时间字段中提取月和星期,并进一步通过正余弦变换引入周期编码,以增强模型对循环变化的识别。
其次,由问题一计算得到各个污染物的IAQI。空气污染指数通常存在较大的波动,模型易受极端值干扰。为加快网络收敛速度并防止梯度爆炸问题,采用Min-Max归一化方法污染物主变量进行缩放落于区间[0, 1]内。
(3) 参数优化
本文采用超参数优化方法,使用Keras Tuner工具进行超参数自动搜索,结合随机搜索算法(Random Search)实现优化。Keras Tuner是一个用于深度学习模型超参数搜索的高效工具。与传统的网格搜索(Grid Search)相比,随机搜索可以在相同计算预算下更可能找到更优的超参数组合。
Keras Tuner在每一次试验中从超参数搜索空间中采样一组超参数组合,构建模型并训练若干轮,通过验证集误差评估该组合效果,最终记录最优结果。最终,调参过程返回使验证误差最小的超参数组合。该组合用于构建最终预测模型,并在测试集上进行误差评估
(4) LSTM模型构建
LSTM神经网络模块的层数为2层,采用滑动窗口方法构造输入输出模型。LSTM层的输入为过去30天的特征序列,输出捕捉时间依赖特征;全连接输出层为LSTM输出映射到未来5天的预测值。并选取均方误差(Mean Square Error, MSE)作为损失函数。构建的LSTM网络结构图如图13所示。
Figure 13. LSTM network structure diagram
图13. LSTM网络结构图
(5) 模型评估
对于改进后的模型,仍采用相对误差指标进行测试集预测效果评估。预测精度评估采用平均绝对误差(Mean Absolute Error, MAE)和均方根误差(Root Mean Square Error, RMSE)对数据进行精度预测。MAE与RMSE值越低表示模型的而预测值更接近实际值,模型的预测性能更好。
通过对6种污染物展开全面测试,并将测试数据集与模型预测数据进行对比,从图14中可以直观且清晰地观察到,预测数据集曲线几乎与实际测试数据集曲线达到完全重合程度。这一对比表明当前模型在污染物浓度预测方面随具备的卓越性。加入季节特征因素的分析后,与优化前模型对比(图11),模型能够准确地捕捉到污染物浓度随随时间的变化趋势,无论是指数的峰值、谷值还是波动情况,6种污染物的预测精度都大大提高。此外,根据MAE和RMSE值与优化前模型数据对比大部分污染物的值有所降低(如:PM2.5、O3、SO2)。尽管有下数据RMSE和MAE值变化不大甚至有所提高(表2),如:CO、NO2,表明该污染物受季节影响变化不大。
Table 2. RMSE and MAE values of 6 pollutants
表2. 6种污染物RMSE、MAE值
|
PM2.5 |
NO2 |
SO2 |
CO |
PM10 |
O3 |
RMSE |
28.65 |
5.68 |
0.65 |
23.67 |
12.57 |
6.5 |
MAE |
22.82 |
4.3 |
0.46 |
18.08 |
9.25 |
4.56 |
Figure 14. Fitting chart of 6 pollutants
图14. 6种污染物拟合图
3.6. 实验结果
采用LSTM神经网络模型对6种污染物浓度和空气质量指数进行预测。通过时间序列图发现污染物浓度的变化与季节性变化有着密切的关系。考虑季节因素的影响,我们对模型进行了进一步的优化,通过绘制原始数据与预测数据集拟合图发现数据重合成都极高,表明模型的预测值较为精确具有现实意义,并具备对未来一段时期内空气质量指数预报能力,能够为提前发现并有效防止空气污染的治理措施提供精准、可靠的数据支撑。
4. 结论与展望
4.1. 研究结论
本研究系统评估了LSTM模型在六种主要污染物浓度预测中的应用效果,并通过引入季节性特征对模型进行了优化,得出以下结论。
首先,对于模型适用性LSTM模型在空气质量预测中整体表现良好,相比其他模型,在大多数污染物上展现出更高的预测精度,证明了其在处理复杂时间序列数据方面的优势。其次,季节性影响差异其季节性特征对不同污染物的预测效果影响显著:对O3、PM2.5和SO2预测改善明显,优化后MAE分别下降53.9%、13.8%和43.2%,对NO2和CO预测改善有限甚至下降,表明这些污染物受非季节性因素影响更大。此外,优化后的LSTM模型能够有效捕捉污染物浓度的长期趋势和季节性波动,在峰值和谷值预测方面表现稳定,为空气质量预警提供了可靠技术支撑。但该模型仍有不足之处,模型对受突发排放事件和局部人为活动影响较大的污染物(如NO2、CO)预测精度仍有提升空间;同时存在轻微过拟合现象,需进一步优化正则化策略。
4.2. 未来展望
针对本文的研究成果与局限性,为进一步提升模型的预测性能、实用性和可持续性,可从以下几个方面进行优化。
首先,可收集多源数据并将其融合,整合实时气象数据(如风速、风向、温度、湿度、气压、降水量)、地理信息数据(如海拔、土地利用类型)以及人类活动数据等。构建一个多变量的LSTM或Transformer模型,以更全面地捕捉影响污染物扩散与生成的外部驱动因素。
其次,对于不确定性量化可采用分位数回归、蒙特卡洛Dropout或贝叶斯神经网络等方法,为预测结果提供置信区间,而不仅仅是点估计。还可利用SHAP (SHapley Additive exPlanations)、LIME (Local Interpretable Model-agnostic Explanations)等工具分析模型决策的原因,识别影响污染物预测的关键历史时间点和关键特征,增强模型的透明度和可信度,为环境治理提供更深入的洞见。
最后,将优化后的模型部署为可扩展的云端服务,构建一个集数据采集、模型推理、结果可视化于一体的实时空气质量预测与预警系统。通过Web端或移动端应用向公众发布未来数天的空气质量预报和健康建议,实现研究成果的社会价值转化。