1. 引言
空气质量指数(AQI)为一个无量纲指数,通过简化常规空气监测中的几种空气污染物,尤其是颗粒物、臭氧和氮氧化物等浓度,通过不同权重将其转化为一个单一的概念性指数值用以描述当前的空气质量状况。在以往的研究中,可以实证的是当上述污染物超过正常环境水平,会对人类健康、生态系统和环境造成一定量的损害。因此,悉心监测空气质量信息,以便直观、简洁地向公众传达空气质量信息至关重要。
在过往的研究中,出现了多种被用于预测各种常见的大气污染物指标的浓度的模型,大致可分为化学传输模型[1]-[3]、统计模型[4]-[8]以及机器学习模型[9]-[12]三类。其中,随着算力的发展,诸如CNN [13]、LSTM [14]-[16]和Transformer [17]等通过分析历史数据来预测未来的数据的深度学习模型在预测空气污染水平领域的普遍应用也证明了其有效性。
随着研究的深入以及算力设备的更迭,传统的单个模型在时序预测的精度和稳健性上开始暴露出短缺,同时集成模型(EL模型)则展示出更强的表现,在各式情况下取得了相较于单个模型更为卓越的性能[18]-[21],本文认为以往作者过于关注模型本身性能,导致未能充分挖掘综合AQI指数相关数据的潜力,如地理位置,大气压力和气候相关信息。本文通过收集到的关于空气报告的丰富数据,涵盖连续时间、降雨量、站点的经纬度、海拔以及气候类型等,认为可以开发出一个通过关注更多特征,且结合长短期记忆网络(LSTM)、门控循环单元(GRU)和Transformer,以有效且稳定地预测AQI的集成学习模型。
2. 相关工作
随着深度学习技术的进步,应用于非平稳时间序列的深度学习模型数量不断增加[10] [16] [22]-[24],预测精度和稳健度也随之提高。其中,林志烨等人基于元线性回归技术与门控循环单元(GRU)设计了有效的集成方案,与其他集成学习方法相比取得了更好的预测性能和精度[22];同期,毛文静提出将新型二进制黑猩猩优化算法(BChOA)与长短期记忆网络(LSTM)相结合以提高模型的准确性和效率的办法[16];比赫特·达斯采用了混合三种深度学习模型(LSTM、RNN和MLP)的方法,通过修改误差项和补充数据的方法提高了空气质量预测的准确性[24]。通过引入额外特征,深度学习模型性能得以提升。以下小节将回顾通过采用额外特征来提高预测准确性的相关研究。
2.1. 采用额外特征的AQI预测框架
通过引入观测点的具体天气情况或经度纬度之间的关联,模型性能通常获得一定量的提升,这使得额外添加地理特征成为一种常用于数据分析或模型预测的方法[25]-[28]。肖通过空间聚类开发了一种广义加法集成模型,通过不同的权重结合不同算法的预测结果,解释了各特征关于空气污染水平的关联性[27]。秦运用关联规则预测了极端颗粒物(PM10和PM2.5)的水平,通过揭示不同城市间PM污染的独特关联规则,指出南方城市的PM浓度与北方城市相比,尤其是PM2.5,呈现出更强的时空相关性[28]。库尔特提出一种将地理模型与神经网络相结合(GFM-NN)的使用前馈反向传播神经网络来处理气象预报数据和空气污染物指标值的方法[26]。
尽管上述工作结合了额外的特征来设计预测模型,但这些模型仍然采用单一模型,而没有结合其他具有不同学习模式的模型以复合模型的特点用来提高预测精度。
2.2. 用于空气质量预测的集成学习模型
在之前的研究中,集成学习利用各种模型的优势用来提高预测准确性的优势被实证,成为一种关于在提升非平稳时间序列预测效果的一种常用且证实有效的方法[22] [29]-[33]。Ksibi提出了采用包括Light-GBM、XGBoost、CatBoost和Extra Tree回归的两层堆叠结构的集成框架,表现出优于各类基线模型和现有模型的性能[29]。Yu通过调整模型架构并整合多种机器学习和深度学习方法[30],开发了深度集成机器学习框架DEML,在不同气候区、季节和建筑类型中都保持着高精度和稳定性。Aggarwal采用模拟鸟群行为的随机优化算法来寻找最优超参数解,并籍此开发了混合的深度学习框架,从而改善了长短期记忆(LSTM)模型的时空不稳定性[32]。
3. 基础模型
如上一节所述,集成学习融合了不同的基学习器,并引入了每个模型的特点。与传统的单一模型相比,它具有更好的性能。本文将分别使用LSTM、GRU和Transformer这三种模型框架作为基学习器。在实际应用上,两种RNN架构模型的融合度高,且原在transformer的基学习器内添加了具有TCN特征的因果卷积层以用于解决两变种RNN模型的长序列遗忘问题。
3.1. 数据集描述
在本研究使用的数据集为收集的2016年1月1日至2024年12月31日期间云南省环境监测站共计46个监测站点的监测数据。地表空气质量测量数据来自中国生态环境部(MEE)最初发布数据的镜像版本。此外,2米气温、蒸发量、地面气压、总降水量和10米风v分量数据来自欧洲era数据集。训练数据的类型与单位见表1。
Table 1. Data Type and Unit used in train
表1. 训练数据的类型与数据单位
Type |
Data Type |
Unit |
AQI |
实时AQI值 |
|
PM2.5 |
一小时平均PM2.5值 |
μg/m3 |
PM10 |
一小时平均PM10值 |
μg/m3 |
SO2 |
一小时平均SO2值 |
μg/m3 |
NO2 |
一小时平均NO2值 |
μg/m3 |
O3 |
一小时平均O3值 |
μg/m3 |
CO |
一小时平均CO值 |
μg/m3 |
2 m露点温度 |
一小时内在观测点的平均温度 |
K |
蒸发量 |
一小时内在观测点的总蒸发量 |
m of water equivalent |
总降雨量 |
一小时内在观测点的总降雨量 |
m |
大气压力 |
观测点处的大气压强 |
kPa |
3.2. CNN数据补足
前文中提到收集的数据以表格CSV格式的形式存在,存在各种缺失值。为了补充缺失值以及原数据不足连续这一问题,本文使用了专门的卷积神经网络(CNN)技术,通过舍弃全连接层并采用特征数量 × 双通道配置,架构依赖于卷积层的局部建模能力,可以区别于传统的图像CNN依赖空间位置来利用数据,利用特征间的相关性学习数据的内在特征和模式来预测缺失位置的值,以保证在适应当前任务功能的前提下,更好地保留局部特征。
Figure 1. CNN model architecture
图1. CNN模型架构
如图1描述了本节提出的CNN具体架构,由特征提取网络和重建网络两项组成。通过在编码器部分逐渐增加滤波器的数量,而在解码器部分减少滤波器的数量,模型可以做到捕获更复杂的特征和逐步重建输出。其中,选择修正线性单元(ReLU)作为激活函数的目的是缓解模型中梯度消失的问题,并加快收敛速度。仅在输出层将激活函数改为sigmoid,可以实现输出范围可控。通过上述设计,该模型更适用于数据中常见的部分观测值缺失的问题。
3.3. 基学习器
如相关工作节所述,深度学习框架已在此领域到应用并日趋成熟,特别是长短期记忆网络和门控循环单元这两种特殊的循环神经网络模型,在时间序列预测中展现出极高的效率和性能。此外,为了在长时间序列上有良好的预测效果,学者们创造出具有多头注意力机制的Transformer模型用于处理长期依赖关系。
本节将分别介绍使用长短期记忆网络(LSTM)、门控循环单元(GRU)和Transformer网络的三个基础模型的设计。
3.3.1. LSTM模型描述
长短期记忆(LSTM)模型是一种特殊的循环神经网络(RNN)架构。通过引入细胞状态,以及如遗忘门(公式1)、输入门(公式2、3)和输出门(公式5、6)等门控循环单元,有效地解决了基础的RNN模型在处理长序列数据时遇到的严重梯度消失问题。
(1)
(2)
(3)
(4)
(5)
(6)
图2展示了长短期记忆(LSTM)的神经单元,其中
决定要丢弃的历史信息的比例,
决定要添加的新信息的比例,
通过逐元素乘法实现信息的选择性保留和更新,
决定从细胞状态中传递到当前输出的信息。
Figure 2. LSTM Neural unit
图2. LSTM神经单元
具体的说,本模型通过使用双层LSTM层,有效保留时间维度,且通过堆叠LSTM层做到压缩时间信息的设计的形式成功捕捉污染物浓度的长期依赖变化。此外,不同的随机失活(Dropout)率的区分,和单元数量的减少,使模型能够逐步压缩特征维度。这种方法增强了模型对高级特征的泛化能力,并保留了更多原始信息。根据上述操作模型具体约束时间记忆能力,而不过度限制输入特征的变换,达成了“编码器–预测器”的结构从而实现端到端的预测。
图3展示了上述LSTM模型的架构,其总共包含三层:输入层、特征编码网络和预测输出网络。
Figure 3. LSTM model architecture
图3. LSTM模型架构
3.3.2. GRU模型描述
门控循环单元(GRU)是长短时记忆(LSTM)模型的一种变种。通过将LSTM的遗忘门和输入门合并为一个单一的更新门,并去除独立的细胞状态,减少了参数数量。更新门的数学公式如以下公式7所示。
(7)
与长短期记忆(LSTM)模型相比,GRU的优势在于平衡性能和效率,在快速迭代、资源有限或涉及小规模数据的场景表现优异。图4展示GRU模型的一个具体神经元。
Figure 4. GRU Neural unit
图4. GRU神经单元
因为GRU在计算时间和性能方面优于LSTM网络,将GRU模型引入上述LSTM模型中,可以确保快速迭代并增强模型多样性以提升集成模型的泛化能力,同时提高模型的稳健性,并降低单一模型存在偏差的风险。为了减少模型融合过程中拟合度的差异以及不恰当融合带来的风险,本文中门控循环单元(GRU)的设计与前文提到的长短期记忆网络(LSTM)模型基本一致。仅将相应的LSTM层替换为GRU层。
3.3.3. Transformer模型描述
Transformer模型具有独特的多头注意力机制,在处理序列数据时,能够并行计算每个位置与所有其他位置之间的关联程度,从而直接捕捉长序列中的长距离依赖关系,解决了随着序列长度增加,上述两种模型难以在长序列中有效利用远距离信息的问题。
Figure 5. Transformer model architecture
图5. Transformer模型架构
图5展示为实现上述功能而引入的Transformer模型的网络架构,通过融合了因果卷积和Transformer模型的混合神经网络架构,在输入阶段使用因果卷积层作为主要特征提取器,时间因果关系得以保持完整,且模型在时空特征融合层中引入了的可学习的位置编码系统可以保证嵌入层在时间步上生成位置向量的动态编码方式使得模型能够自适应地学习不同时间尺度上的周期性特征。
本研究中使用了11个数据特征,包括PM2.5、SO2、NO2等,为保障能够解决在处理多变量空气质量数据,更好地捕捉多变量之间的相互作用关系以及解决数据中的噪声或局部数据缺失问题,基模型引入了对异常值的敏感性更低得transformer模型。模型中的多变量相互作用关系提供的互补信息保证了当变量的数据出现异常时,可以通过其他变量的关联模式推断出合理的值,从而提高模型的鲁棒性和准确性。
3.4. 堆叠元学习器
在时间序列预测领域,单一模型往往受自身特性限制,难以全面捕捉数据中的复杂模式与规律。集成学习整合了多个模型的优势,为提高预测性能提供了一种常规的有效方法。以随机森林(RF)为例,元模型的非线性有助于捕捉复杂的相互作用,使得其对于传统的平均方法由更好的表现。且随机森林在广泛的应用中都取得了显著成功,因而应用广泛,也促成了RF在各领域的案例研究中得到了证明和应用的成熟,也因其成熟性,我们选择RF作为集成学习的顶层元学习器。
使用随机森林的堆叠元学习器
集成模型相较于单一模型因为整合了多个模型的优点,在多层次的协同效应以及增强的系统稳健性上,为提升预测性能精度和泛用性的提升尤其是泛化性,鲁棒性和可解释性上提供了一种有效途径。
Figure 6. Ensemble random forest architecture
图6. 集成随机森林模型架构
图6展示了为将3.3节中提到的基础模型与随机森林(RF)集成而设计的双层异构集成系统架构。通过互补的形式,引入了各模型的优势,来解决LSTM对短期波动敏感度不足以及GRU在长期依赖关系解析方面能力较弱的问题,同时,两种RNN变体模型的结合弥足了Transformer模型对局部突变响应延迟的问题。
通过分别训练三个基学习器,并通过堆叠使用随机森林(RF)作为额外训练的元学习器,整体集成框架得以保留了每个基学习器的特征提取模式和随机森林本身的复杂交互能力从而提高了框架的准确性和通用性。
4. 结果
本文旨在开发一种有效的能够在模型精度和稳健性之间保持平衡的集成空气质量指数预报模型网络,从而建立了三个基础学习器:Transformer、LSTM和GRU,并通过集成随机森林(RF)开发了一个集成学习框架。在模型完成后,我们使用仅进行基于CNN的数据插补得原始数据集来评估集成模型的性能,为评估模型在实际条件下的性能提供更真实的场景。
4.1. 评估指标
在模型的性能评估中,合理选择评估指标是准确衡量模型预测能力的关键一步。在模型指标的预测性评估中,单独使用任一指标都不足以全面准确地评估模型性能。通过均方根误差和平均绝对误差相结合的方式,同时引入R2指数从拟合优度的角度衡量模型对数据的解释能力,结合各评估指标达成相互验证和补充,减少单一指标的偏差,提高模型评估的可靠性和稳定性。
Figure 7. Bar-chart of RMSE value for models
图7. 模型RMSE值柱状图
在以下三个等式中,
是实际值,
是预测值,
是样本数量。
在上述提到的那些指标中,均方根误差(RMSE)通过将误差平方然后再取平方根,可以放大误差权重,使得可以更好关注极端情况下的准确性。为更直观的感受,图7展示了各模型的RMSE值。
(8)
平均绝对误差(MAE)是预测值与真实值之间绝对误差的平均值,能够直观地展示模型在整个预测范围内的平均误差水平。此外,MAE的计算相对简单,无需复杂的数学运算,在本文的预测中,可以更简便的了解到模型预测结果在总体的偏离情况,避免因个别极端值的影响而高估或低估模型的性能。图8为各模型的MAE值柱状图。
(9)
Figure 8. Bar-chart of MAE value for models
图8. 模型MAE值柱状图
Figure 9. Bar-chart of R2 value for models
图9. 模型R2值柱状图
R2的值域定义明确(在0到1之间),可以反映模型对数据的整体拟合优度。一般来说,R2越接近1,模型的拟合效果越好,模型就越能有效地捕捉空气质量变化的主要趋势和模式。各模型关于R2指标的柱状图见图9。
(10)
4.2. 评估总结
本文的实验结果将对所提出的集成模型与三种基学习器LSTM、GRU、Transformer以及三种常用于时间序列预测的模型(LSTM-GRU、线性回归、Informer),使用平均绝对误差MAE、均方根误差RMSE、R2作为评估指标进行全面比较。
Table 2. Comprehensive collection of model evaluation metrics
表2. 模型评估指标总汇
预测类 |
预测模型 |
Max |
Min |
Avg |
MAE |
LSTM |
5.9150 |
3.2137 |
4.599 |
GRU |
6.1148 |
3.3595 |
4.7005 |
Transformer |
9.3577 |
3.2302 |
5.1835 |
Ensemble -RF |
5.8883 |
3.2484 |
4.6348 |
LSTM-GRU |
6.4291 |
3.2781 |
4.7670 |
LR |
6.2551 |
3.5381 |
4.8500 |
Informer |
9.0170 |
3.1726 |
5.1691 |
RMSE |
LSTM |
9.5143 |
4.6618 |
7.0129 |
GRU |
9.7337 |
4.8151 |
7.1075 |
Transformer |
12.5056 |
4.6956 |
7.5665 |
Ensemble -RF |
9.7048 |
4.7864 |
7.124 |
LSTM-GRU |
9.8888 |
4.7227 |
7.1316 |
LR |
9.9758 |
5.2072 |
7.31 |
Informer |
11.9515 |
4.6289 |
7.536 |
R2 |
LSTM |
0.8888 |
0.621 |
0.8081 |
GRU |
0.8882 |
0.6139 |
0.8028 |
Transformer |
0.8964 |
0.6041 |
0.7838 |
Ensemble -RF |
0.8986 |
0.6923 |
0.8010 |
LSTM-GRU |
0.8928 |
0.556 |
0.7992 |
LR |
0.8953 |
0.5766 |
0.7901 |
Informer |
0.8900 |
0.7865 |
0.5515 |
表2为常规的预测模型在本数据集上的表现的汇总结果。如上表所示,集成模型在原始数据上的表现对于基学习器模型有一定优势,表现最佳的单个基础模型GRU、LSTM和Transformer仅获得了平均R2分数为0.803、0.808和0.784,而集成学习框架则可以达到0.8986。除了属于模型集成的基学习器外,在各项指标上集成模型也优于Informer、LSTM-GRU和线性回归等常用模型。考察对各指标的最值的进一步验证中,可以看出不同模型对数据分布表现得更为敏感,而集成模型因其集成优势能证明更稳定的性能的优势,因此容易在特定的集群中会出现显著波动的各模型区分开来。这种增强的稳定性,再加上更高的准确性,使其成为目标预测任务中更可靠、更稳定的解决方案。
5. 讨论
本研究开发了一种集成时间序列预测模型,在实际应用中,该模型在数据集上各个不同的集群涵盖的13个测试样本中,其性能优于基础模型的最佳性能。实验验证了该集成策略在捕捉复杂数据模式方面的有效性,与其他用于空气质量指数(AQI)预测的模型网络架构相比,这种优势表明,该集成模型在处理具有异质性特征的数据时具有更强的适应性和稳健性,在实际应用场景中的精准预测更加有力。
然而,尽管其平均表现令人瞩目,但本模型在特定场景中最低的R2值仅为0.6920,仍存在局限性,表明其泛化能力还有提升空间。此外,本研究使用的数据来源于中国云南省,这是一个内陆地区,拥有多样的气候类型和民族群体,本身具有地理和环境的特殊性,这样的区域独特性可能会影响其更广泛的适用性,可见能否推广到全国或大陆范围仍需进一步研究。
NOTES
*第一作者。
#通讯作者。