摘要: 随着工业化和城市化的加速发展,空气污染已成为全球面临的重大环境问题之一。本研究旨在通过对2010至2014年间逐小时收集的城市空气污染和气象数据进行深入分析,探索不同预测模型在空气质量(PM2.5浓度)预测中的表现。通过使用多重插补法处理数据集中的缺失值,研究构建了长短期记忆网络(LSTM)、ARIMA (1, 0, 1)和ARIMA (2, 0, 2)模型,对PM2.5浓度进行预测。结果表明,LSTM模型在评估指标中均显著优于ARIMA模型,验证了LSTM在处理复杂时间序列数据中的高效性。ARIMA (2, 0, 2)虽然性能优于ARIMA (1, 0, 1),但与LSTM相比仍有较大差距。这项研究不仅提升了对空气质量动态的预测准确性,还为城市环境监测和公共健康管理提供了有力的数据支撑,进一步强调了高级机器学习技术在环境科学中的应用潜力。
Abstract: With the accelerated development of industrialization and urbanization, air pollution has become one of the major environmental issues faced globally. This study aims to explore the performance of different predictive models in forecasting air quality (PM2.5 concentration) by conducting an in-depth analysis of hourly collected urban air pollution and meteorological data from 2010 to 2014. By employing multiple imputation methods to handle missing values in the dataset, this research constructs Long Short-Term Memory (LSTM) networks, ARIMA (1, 0, 1), and ARIMA (2, 0, 2) models for predicting PM2.5 concentrations. The results indicate that the LSTM model significantly outperforms the ARIMA models across all evaluation metrics, verifying the efficiency of LSTM in handling complex time series data. Although ARIMA (2, 0, 2) performs better than ARIMA (1, 0, 1), it still shows a considerable gap compared to LSTM. This study not only improves the accuracy of dynamic predictions of air quality but also provides robust data support for urban environmental monitoring and public health management, further highlighting the application potential of advanced machine learning technologies in environmental science.
1. 引言
随着工业化和城市化的加速发展,空气污染已成为全球面临的重大环境问题之一。城市空气质量的恶化不仅影响人类健康,还对社会经济活动产生深远的影响。因此,对空气污染的监测与预测显得尤为重要,它有助于政府和公众采取有效措施以减轻污染的负面影响。传统的空气质量监测方法主要依赖于地面监测站的实时数据,这种方法虽然可靠,但成本高昂且反应不够及时。研究大气污染浓度的变化,掌握其变化规律对空气污染的治理、改善空气污染尤为重要。
在大气污染物浓度预测领域,众多国内外学者已开发了不同的预测模型。例如,腾浩宇[1]采用多元回归模型对PM2.5的浓度进行预测,而赵学敏[2]则利用灰色GM (1, 1)模型来预测北京市的空气污染浓度。尽管这些模型提供了一定的预测能力,但它们通常未能充分考虑到大气污染数据的时序性和非线性特征。另一方面,岳鹏程[3]结合模糊时序分析和支持向量机来预测SO2浓度,这种方法考虑了数据的时序特性,但支持向量机的参数设定过程依赖于主观经验,难以确定。此外,范竣翔[4]构建了一个基于递归神经网络(RNN)的空气污染时空预测模型,虽然RNN适合处理时间序列数据,但在训练过程中可能遇到梯度消失的问题。
PM2.5作为影响城市空气质量和公共健康的重要因素,其精确预测对于环境监测与管理具有重要意义。通过提高PM2.5的预测准确性,可以更好地理解污染物如何在空间和时间上分布,从而帮助政府和相关部门制定更有效的空气质量改善措施,减少PM2.5暴露带来的健康风险。
2. 数据与预处理
2.1. 数据描述
本研究所使用的数据集包括2010年至2014年间逐小时的空气质量与气象观测数据,总计43800个时间点,旨在预测PM2.5的浓度(以µg/m3为单位)。该数据集不仅涵盖了基本的时间序列信息(年、月、日、小时),还记录了露点温度(DEWP)、气温(TEMP)、气压(PRES)、综合风向(cbwd)、累计风速(Iws)、累计降雪小时数(Is)和累计降雨小时数(Ir)。
2.2. 数据预处理
异常值的存在可能会对数据的分析计算带来负面影响,在本研究中,为了确保PM2.5浓度预测模型的准确性和可靠性,使用箱线图法对数据集进行了异常值检测。通过计算IQR(四分位间距 = Q3 − Q1),确定了异常值的上下界限,即低于Q1 − 1.5IQR或高于Q3 + 1.5IQR的数据点被视为异常值,如图1所示,据统计PM2.5的异常值共1773,占比约4.25%。随后将异常值视为缺失值,使用多重插补的方式对所有缺失值进行填补。
为了将综合风向(cbwd)这一分类变量转化为数值型数据,以便于后续模型的输入和处理,本研究采用了独热编码(One-Hot Encoding)方法。原始数据中的风向类别包括“NE”、“NW”、“SE”和“CV”。通过独热编码,每个风向类别被转换为一个二进制变量,形成一组新的特征列。具体来说,对于每一行数据,如果该行的风向是“NE”,如表1所示,则在新生成的“cbwd_NE”列中赋值为1,其他列赋值为0;同理,其他风向也按此规则进行编码,如表2所示。
Figure 1. PM2.5 outlier detection
图1. PM2.5异常值识别
Table 1. Partial data before processing
表1. 处理前的部分数据
year |
month |
day |
hour |
PM2.5 |
... |
cbwd |
2010 |
1 |
2 |
0 |
129 |
... |
SE |
2010 |
1 |
2 |
1 |
148 |
... |
SE |
2010 |
1 |
2 |
2 |
159 |
... |
SE |
... |
... |
... |
... |
... |
... |
... |
Table 2. Partial data after processing
表2. 处理后的部分数据
Year |
month |
day |
hour |
PM2.5 |
... |
cbwd_NE |
cbwd_NW |
cbwd_SE |
cbwd_CV |
2010 |
1 |
2 |
0 |
129 |
... |
0 |
0 |
1 |
0 |
2010 |
1 |
2 |
1 |
148 |
... |
0 |
0 |
1 |
0 |
2010 |
1 |
2 |
2 |
159 |
... |
0 |
0 |
1 |
0 |
... |
... |
... |
... |
... |
... |
... |
... |
... |
... |
这种处理方式有助于消除类别变量之间的顺序关系,避免模型误认为某些类别比其他类别更“重要”。此外,独热编码后的数据可以直接输入到大多数机器学习模型中,确保模型能够正确地理解和利用这些分类信息。
3. 模型构建
3.1. LSTM模型
3.1.1. LSTM神经网络简介
长短期记忆网络(Long Short-Term Memory, LSTM)是一种特殊类型的递归神经网络(Recurrent Neural Network, RNN),能够有效地捕捉序列数据中的长期依赖关系。LSTM的核心优势在于能够避免传统RNN在处理长序列时遇到的梯度消失或爆炸问题。LSTM通过引入门控机制,在每个时间步对信息流的控制提供了灵活性。与传统的RNN不同,LSTM不仅能记住当前的状态,还能有效地保留跨越多个时间步的历史信息。
3.1.2. LSTM神经网络简介
考虑到不同特征量级差异较大,本研究首先对所有特征和目标变量进行了归一化处理,确保每个特征都在相同的尺度上。随后经过多次参数调优,确定了LSTM架构及其超参数设置。模型结构包括两层LSTM单元,第一层配置了64个记忆单元,增加了L2正则化(权重衰减系数为0.01),以及一个Dropout层,丢弃率设定为0.2。第二层LSTM包含32个记忆单元,继续对特征进行抽象处理,随后同样添加了一个丢弃率为0.2的Dropout层。输出层由单个神经元组成,通过线性激活函数直接映射到目标变量——即PM2.5浓度的预测值。模型训练方面,选择了Adam优化算法,学习率设为0.001,以确保梯度下降过程中的稳定性和效率。考虑到时间序列数据的特点,我们将数据集划分为训练集和测试集,比例为8:2,并且保持时间顺序不打乱,以确保验证过程的真实性。此外,模型训练历时50个epoch,批次大小设定为64。
3.2. ARIMA模型
3.2.1. ARIMA模型简介
ARIMA模型,全称为自回归积分滑动平均模型(Auto Regressive Integrated Moving Average),是时间序列预测中的一种常用统计方法。它结合了三种元素来描述数据中的不同特性:自回归(AR)部分用于捕捉数据自身的线性组合关系,即当前值与过去若干个时间点的观测值之间的关联;差分整合(I,Integration)部分通过差分操作将非平稳的时间序列转换为平稳序列,以消除趋势和季节性影响;滑动平均(MA)部分则考虑了预测误差的线性组合,反映了随机冲击对当前值的影响。
简而言之,ARIMA (p, d, q)模型由三个参数定义:p表示自回归项的阶数,即使用过去的多少个观测值进行预测;d表示数据需要进行几次差分才能达到平稳状态;q表示滑动平均项的阶数,即预测误差的滞后数量。
3.2.2. 序列平稳性检验
通过ADF检验(Augmented Dickey-Fuller Test)来检测时间序列是否平稳。ADF检验的结果显示,统计量值为−23.1528,远小于所有临界值(1%水平:−3.430,5%水平:−2.862,10%水平:−2.567),同时p < 0.001,表明时间序列是平稳的,d = 0。
3.2.3. 确定模型参数
在本研究中,通过观察自相关函数(ACF)和偏自相关函数(PACF)图,如图2所示,初步确定ARIMA模型参数为p = 1,d = 0,q = 1,反映了时间序列的基本动态特性。为进一步优化模型,基于AIC和BIC信息准则进行了系统化搜索,最终确定了参数为p = 2,d = 0,q = 2的模型,该模型不仅提高了预测精度,还确保了对复杂非线性依赖关系的捕捉。
Figure 2. Autocorrelation function plot and partial autocorrelation function plot
图2. 自相关图和偏自相关图
3.2.4. 模型残差检验
为了确保所构建的ARIMA模型充分捕捉了时间序列中的动态特性,并验证其预测误差的随机性,我们对模型残差进行了详细的白噪声检验。根据Ljung-Box Q检验的结果,ARIMA (1, 0, 1)和ARIMA (2, 0, 2)模型的残差均通过了白噪声检验,其p值分别为0.90和0.82,远高于常用的显著性水平(例如0.05),表明两个模型的残差均可视为随机白噪声,没有显著的自相关性。
4. 实验分析
为了评估不同模型在PM2.5浓度预测中的表现,我们比较了LSTM、ARIMA (1, 0, 1)和ARIMA (2, 0, 2)三种模型的预测性能。评估采用了平均绝对误差(MAE)和均方根误差(RMSE)作为主要指标,各指标计算公式如下:
其中n表示测试集中的观测数量,yt表示第t个观测的实际值,
表示第t个观测的预测值。
其中n表示测试集中的观测数量,yt表示第t个观测的实际值,
表示第t个观测的预测值。
实验结果如表3所示。
Table 3. Comparison of MAE and RMSE across different models
表3. 不同模型的MAE与RMSE对比
模型 |
MAE |
RMSE |
LSTM |
37.0331 |
53.5224 |
ARIMA (1, 0, 1) |
82.3678 |
104.4902 |
ARIMA (2, 0, 2) |
51.6008 |
71.1800 |
可以看出,LSTM模型在所有评估指标上均表现出色,其MAE为37.0331,RMSE为53.5224,显著低于其他两种模型。ARIMA (2, 0, 2)模型次之,其MAE为51.6008,RMSE为71.1800,虽然优于ARIMA (1, 0, 1),但在预测精度上仍不及LSTM。相比之下,ARIMA (1, 0, 1)模型的MAE和RMSE分别为82.3678和104.4902,显示出较大的改进空间。
5. 结语
本研究基于2010年至2014年间逐小时记录的空气质量与气象数据,分别构建LSTM、ARIMA (1, 0, 1)与ARIMA (2, 0, 2)三种预测模型,旨在对PM2.5浓度进行精准预测。通过对比模型预测结果的MAE与RMSE,得出LSTM模型更优,展示出LSTM模型在处理此类复杂时间序列数据时的强大能力。ARIMA (2, 0, 2)模型相较于ARIMA (1, 0, 1)表现出更好的预测性能,但在预测精度上仍不及LSTM模型。通过挖掘多维时间序列数据的内在变化规律,LSTM模型不仅能够有效处理复杂的非线性关系,还能充分利用气象变量的影响,实现了对未来PM2.5浓度变化趋势的精准预测。然而,影响PM2.5浓度的因素众多且复杂,如季节变化、污染源排放、气象条件等。因此,在上述研究的基础上,如何结合更多相关变量的影响,并利用历史数据的内在变化规律来进一步改善模型预测效果,仍需从各个层面进行更深入的研究。这不仅有助于提高预测模型的准确性,也为环境监测和政策制定提供了更为科学的决策依据。
6. 政策建议
6.1. 建立实时空气质量预警系统
利用LSTM模型的高预测准确性,政府和环保机构应建立实时空气质量监测和预警系统。该系统能够提前预测空气质量恶化事件,及时向公众发出预警,减少居民暴露于不健康空气环境中的时间。
6.2. 制定动态空气质量管理政策
基于高精度的预测模型,政府可以制定动态的空气污染管控措施,如在预测到严重污染天气时,临时限制机动车行驶、工业生产和施工活动,以减少污染物排放。
6.3. 优化城市规划和交通管理
利用预测模型分析不同区域和时间段的污染趋势,为城市规划和交通管理提供数据支持。例如,调整公共交通运营时间和频率,优化交通流量,减少因交通拥堵导致的空气污染。
6.4. 加强公众健康保护措施
在空气质量较差的日子,政府应通过多种渠道广泛宣传,建议市民减少户外活动,特别是老人、儿童及呼吸系统疾病患者。同时,应在学校、公共场所和社区提供PM2.5防护知识和健康指南。