1. 引言
PM2.5是指空气中直径小于或等于2.5微米的颗粒物,因其对人体健康和环境的重大影响而备受关注[1]。研究表明,PM2.5中的一些成分,如多环芳烃,具有致癌性,长期接触可能增加患肺癌及其他癌症的风险[2]。因此,监控和预测PM2.5浓度对降低其危害、保护公众健康以及维护生态系统平衡至关重要。构建精准的PM2.5浓度预测模型是解决健康和环境问题的关键。
PM2.5浓度预测是一个典型的时间序列问题,主要基于历史PM2.5浓度进行预测。目前广泛用于PM2.5浓度预测的三种主要方法包括确定性方法[3]、数据驱动方法[4]和深度学习方法。确定性方法通过模拟大气污染物扩散进行预测,但准确性低且计算成本高。统计方法作为数据驱动的早期形式,通过历史数据建立回归模型,但处理非线性关系能力有限。机器学习方法能捕捉复杂非线性关系,但在处理时序依赖性和空间异质性时存在局限,从而导致预测精度不够理想。
深度学习方法,如长短期记忆网络(Long Short-Term Memory, LSTM) [5]、循环神经网络(Recurrent Neural Network, RNN) [6]和卷积神经网络(Convolutional Neural Network, CNN) [7],在处理复杂非线性关系方面表现出色。由于PM2.5浓度具有空间分布和多位点之间的交互效应,为全面捕捉PM2.5浓度的时空依赖性,混合模型,尤其是将CNN与LSTM结合的模型,在该领域得到了广泛应用。例如,[8]提出的CNN-LSTM模型有效预测了北京市每日PM2.5浓度,[9]验证了结合CNN和LSTM的模型在PM2.5浓度预测中的精度优于单一模型。然而,由于PM2.5浓度分布具有显著的空间异质性,传统的混合模型难以捕捉邻近区域之间的空间相关性。通过引入空间特征,模型能够更有效地利用邻近区域的数据,从而提升对污染物空间动态变化的预测精度。作为最新研究进展的代表,[10]创新性地将时空注意力机制集成到CNN框架中,显著提高了模型在PM2.5和PM10浓度的多步预测精度,实现了更精确的提前预报。
在PM2.5浓度的长期预测任务中,随着预测天数的增加,模型的预测误差会不断积累并放大,导致长期预测的精度难以满足实际需求。这主要是由于长期预测中不确定性因素的增加,以及现有模型对长时间依赖关系建模能力的不足。此外,现有的预测模型通常具有较高的复杂性,尽管在一定程度上提升了预测精度,但计算成本高,训练时间长,这种复杂性使得模型在实际应用中难以快速部署和高效运行。这些技术瓶颈严重制约了PM2.5浓度预测的准确性和可靠性。
本文提出了一种面向我国大城市的新型PM2.5浓度预测模型,旨在解决长时间序列预测任务中PM2.5浓度预测精度较低的问题。该模型不仅融合了空间特征提取、空间注意力机制增强和长时间序列建模能力,还通过模块化设计避免了冗余,保持了模型的高效性与收敛性。通过上述研究,本文为城市空气质量管理提供了一种高效实用的PM2.5浓度长期预测新方法。
2. 相关技术
2.1. 卷积神经网络
卷积神经网络通过自动学习输入数据的特征,广泛应用于时空序列预测、计算机视觉和自然语言处理等领域。CNN通过卷积和池化层进行特征提取,以及全连接层进行分类或回归,实现对输入数据的理解和预测。主要由输入层、卷积层、池化层和全连接层等核心组件构成。如图1所示,CNN模型的结构流程始于输入层,该层负责接收原始数据,这些数据可以是图像或时空序列数据。紧接着,卷积层和池化层共同构成了CNN的特征提取部分。其中,卷积层作为CNN的核心,通过卷积操作生成特征映射,使网络能够学习到局部特征与全局特征之间的复杂关系。随着卷积层的逐层堆叠,网络利用多组不同尺寸的卷积核,能够捕捉输入数据中不同尺度的空间特征。在卷积层之后,池化层的作用是保留关键特征信息并减少数据维度,以此避免过拟合的风险。常见的池化方法包括最大池化和平均池化等。最后,全连接层负责将前面各层提取到的特征进行组合,实现对整体特征的判别,进而完成分类或回归预测的任务。通过这一系列处理步骤,CNN模型能够从复杂的输入数据中有效提取关键空间特征,为PM2.5浓度的精准预测奠定了坚实的基础。
Figure 1. Flowchart of the CNN model
图1. CNN模型的结构流程图
2.1. 扩展长短期记忆网络
扩展长短期记忆网络(Extended Long Short-Term Memory, XLSTM)是对传统LSTM的一种扩展,旨在通过引入新的门控机制和存储结构来解决传统LSTM在处理长序列数据时的局限性,例如存储决策不可修订、存储容量有限以及并行性差等问题。XLSTM引入了两种新的LSTM变体:新型矩阵长短期记忆网络(Matrix Long Short-Term Memory, mLSTM)和新型标量长短期记忆网络(Scalar Long Short-Term Memory, sLSTM)。如图2所示,左侧为带前置上投影的mLSTM块示意图。mLSTM被嵌入在两个门控多层感知机(MLP)之间,输入首先通过投影因子(Projection Factor, PF)为2的上投影操作。mLSTM单元的输入在维度方向上进行因果卷积(Causal Convolution, Causal Conv),随后进入可学习的跳跃连接(Learnable Skip, LSkip),最后使用外部输出门对结果进行逐分量门控,然后进行下投影,投影因子为1/2。右侧为带后置上投影的sLSTM块示意图。输入数据首先通过一个因果卷积,随后被送入到一个sLSTM单元。最后输出通过一个MLP进行上投影和下投影,其中投影因子分别为4/3和3/4,以匹配参数。
mLSTM通过引入矩阵记忆单元,显著提升了存储容量。这种矩阵结构不仅能够容纳更多的信息,还通过协方差更新规则高效地存储和检索键值对。sLSTM引入了指数门控机制和新的内存混合技术,通过对输入门和遗忘门引入指数门控机制,可以实现对信息流更加灵活的控制。得益于指数门控,XLSTM能够选择性地保留或忘记空间特征,这对于保留跨连续图像数据的长期依赖关系和上下文信息至关重要。通过这些改进,XLSTM在处理长序列数据时展现出显著提升的性能和卓越的适应能力,使其能够更加高效且精准地应对复杂的长序列建模任务。
Figure 2. Flowchart of the XLSTM model
图2. XLSTM模型的结构流程图
3. 模型结构
3.1. 模型预测流程设计
本文提出了一种基于CNN-XLSTM模型的PM2.5浓度长期预测方法,其预测过程如图3所示。该方法通过结合CNN和XLSTM的优势,能够有效捕捉PM2.5浓度数据中的空间特征和时间依赖关系,从而实现高精度的长期预测。CNN-XLSTM模型的预测流程涵盖以下关键步骤:
步骤一:数据收集。首先收集目标地区(上海和成都)的历史PM2.5浓度数据。这些数据涵盖了长期的时间跨度,能够全面反映PM2.5浓度的变化趋势和周期性特征,为模型的训练与测试提供了坚实的数据基础。
步骤二:数据预处理。对原始数据集进行预处理,以提高数据质量。本文数据预处理主要包括异常值检验、缺失值处理以及数据归一化。通过上述预处理过程,确保了输入数据的可靠性和一致性,为后续模型训练提供高质量的输入。
步骤三:数据集划分。将预处理后的数据集按照7:3的比例划分为训练集和测试集。其中,训练集用于模型的参数学习和特征提取,测试集用于评估模型的泛化能力和预测性能。这种划分方式能够有效避免模型过拟合,同时确保评估结果的客观性。
步骤四:构建预测模型。基于CNN-XLSTM构建PM2.5浓度预测模型,该模型结合了CNN和XLSTM的优势。CNN能够有效地提取出PM2.5浓度数据中的空间分布特征。引入空间注意力机制,使模型更加聚焦于污染源集中的区域,从而进一步增强对关键空间区域的特征表达能力。XLSTM能够捕捉短期时间尺度上的周期性波动、长期时间尺度上的季节性变化以及趋势性变化。
步骤五:训练预测模型,在训练阶段,将训练集数据输入构建的CNN-XLSTM模型,通过反向传播算法不断调整模型参数,以最小化预测误差。
步骤六:模型预测与评估。在测试集上运行已训练完成的模型,输出目标区域的PM2.5浓度预测值。为全面评估模型的性能,选取MAE、MSE、R²作为评价指标,以此衡量模型的预测准确性与效果。
Figure 3. Flowchart of long-term prediction process for the model
图3. 模型长期预测流程图
3.2. 网络模型概况
本文提出的PM2.5浓度长期预测模型的结构如图4所示,其核心设计融合了空间特征提取、空间注意力机制增强和长时间序列建模能力,具体流程如下:模型的输入数据形状为(B, T, C, H, W),其中B表示批次大小,T表示时间步长,C表示通道数,H和W分别表示空间网格的高度和宽度。首先,将输入数据重塑为(B × T, C, H, W),将每个时间步的网格数据视为独立样本,以便CNN进行空间特征提取。CNN对每个时间步的空间维度(H, W)进行卷积操作,提取局部空间特征,如PM2.5扩散的边缘、纹理特征等。经过卷积处理后,输出的特征图形状为(B × T, C, H', W'),其中H'和W'分别为卷积操作后的空间维度。接下来,引入空间注意力机制,对每个时间步和每个空间位置计算注意力权重,动态调整特征图中不同区域的重要性。随后,将每个时间步的空间特征(C, H', W')展平为一维向量,得到形状为(B, T, C × H' × W')的张量。该张量作为输入,由XLSTM进一步处理。XLSTM沿时间序列维度(T)处理每个时间步的特征,依次捕捉各个时间步之间的动态变化和长期依赖关系,从而提取时间依赖性特征。最后,XLSTM的输出通过线性层映射为预测结果(B, T, 1),完成预测未来T天的PM2.5浓度预测任务。通过上述处理步骤,模型能够有效地从输入数据中提取空间特征和时间特征,实现对PM2.5浓度的长期准确预测。
Figure 4. The structural diagram of the CNN-XLSTM model
图4. CNN-XLSTM网络模型结构图
4. 实验结果与讨论
4.1. 数据集
本文的PM2.5浓度数据来源于“国家青藏高原科学数据中心”。实验中使用的ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(China High Air Pollutants, CHAP)中PM2.5数据集[11]。该数据集提供了2000年1月1日至2022年12月31日中国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日,时间覆盖超过20年。本文选取中国的成都和上海作为研究区域,代表了我国不同区域的典型城市,时间跨度为2000年1月1日至2022年12月31日。
4.2. 滚动预测
对于PM2.5浓度长期预测任务,传统方法通过直接修改输出维度的参数来实现未来多个时间步的预测,尽管这种方法在实现上较为简单,但由于PM2.5浓度的时间序列具有较强的时间依赖性,直接多步预测容易导致误差累积,从而使得未来时间步的预测结果偏离真实值较大。为此,本实验采用了一种基于数据滚动的预测策略,如下图5所示。通过逐步更新输入数据并结合滑动窗口机制,逐步预测未来时间步的PM2.5浓度,从而有效减少预测误差。
具体而言,对于利用历史10天数据预测未来3天PM2.5浓度的任务。假设当前时间为t,历史数据为t − 9到t天。数据滚动的具体操作流程如下:
(1) 以历史数据作为输入,通过模型预测第t + 1天的PM2.5浓度值。将第t + 1天的预测值加入输入序列,同时移除最旧的数据点(即第t − 9天的数据),形成更新后的输入序列(t − 8到t + 1天);
(2)使用更新后的输入序列作为新的输入,运行模型预测第t + 2天的PM2.5浓度值。将第t + 2天的预测值再加入输入序列,同时移除t − 8天的数据,形成新的输入序列(t − 7到t + 2天);
(3) 重复上述步骤,使用最新的输入序列预测下一个时间点的PM2.5浓度值,并动态更新输入序列,直至完成未来3天的预测任务。
Figure 5. The principle of rolling prediction
图5. 滚动预测原理
4.3. 实验设置
本实验根据经纬度对预测城市进行网格化划分,将整个城市划分为多个大小相等的网格区域。实验的目标是利用过去10天的历史污染物浓度数据预测未来3天的PM2.5浓度分布情况。该模型在配备NVIDIA GeForce RTX 3090显卡、24核处理器和128G运行内存的计算机上,采用PyTorch框架实现。
均方误差(Mean Square Error, MSE)、平均绝对误差(Mean Absolute Error, MAE)和判定系数(R-Square, R2)是深度学习中评估模型、衡量预测准确性的常用指标。因此,我们使用这三个指标来综合比较模型的性能。MSE放大了大误差的影响,较大预测误差可能会导致预测PM2.5浓度出现错误的决策,MSE能够准确地反映这种风险。MAE对异常值的敏感度相对较低,可以有效衡量模型预测的整体准确性。R2衡量模型对PM2.5浓度数据的拟合程度,评估模型对PM2.5浓度长期变化的解释能力。定义如下:
(1)
(2)
(3)
其中
表示PM2.5浓度预测的天数,
表示第
个样本的真实值,
表示第
个样本的预测值。
4.4. 对比实验结果与分析
为了验证模型的适用性和泛化能力,本文在成都和上海两个城市进行了未来3天PM2.5浓度的预测实验。表1展示了FNN、LSTM以及本文提出的模型在目标城市PM2.5浓度预测中的评估结果。实验结果表明,本文提出的模型在两个城市的所有评估指标上均取得了最优表现,展现了其在不同地理环境下的广泛适用性和预测精度优势。在成都市,相较于FNN,本文模型在MSE和MAE上分别优化了75.00%和67.57%;相较于LSTM,分别优化了66.67%和46.37%。在R2指标上,本文模型相较于表现最好的LSTM,R2提升了4.28%。在上海市,本文模型同样表现优异,相较于表现最好的对比模型FNN,MSE和MAE分别降低了46.67%和45.08%。在R2指标上,相比FNN和LSTM,分别提升了12.04%和18.92%。这些结果进一步验证了本文模型不仅能够适应不同环境下的数据特征,还能够有效处理长期预测任务中的复杂性和不确定性。
Table 1. The results of 3-day PM2.5 predictions by different models
表1. 不同模型预测未来3天PM2.5浓度数据的评估结果
目标城市 |
模型 |
MSE |
MAE |
R2 |
成都 |
FNN |
0.0012 |
0.0296 |
0.3317 |
LSTM |
0.0009 |
0.0179 |
0.6855 |
ours |
0.0003 |
0.0096 |
0.7149 |
上海 |
FNN |
0.0015 |
0.0264 |
0.6237 |
LSTM |
0.0017 |
0.0289 |
0.5876 |
ours |
0.0008 |
0.0145 |
0.6988 |
图6展示了本文模型与对比模型(FNN和LSTM)在两个目标城市PM2.5浓度预测中的部分测试集性能表现。测试数据集共包含2560条数据,为了更清晰地展示结果,图中仅呈现了前200条数据。图中横坐标表示时间(单位为天),纵坐标表示PM2.5浓度(单位为微克每立方米)。通过对比实际值(Actual)与不同模型的预测结果,可以观察到,本文提出的模型在大多数情况下与实际值更为接近,特别在预测峰值和低谷时准确性更高。
Figure 6. Comparison of 3-day PM2.5 predictions by different models in two cities
图6. 两个城市不同模型预测未来3天PM2.5浓度数据的对比图
具体分析来看,本文模型在整个时间序列中与实际值保持了高度一致性,能够精准捕捉PM2.5浓度的波动和趋势变化。以成都市为例,FNN和LSTM在某些区间内虽然能够跟踪PM2.5浓度的变化趋势,但在浓度值骤升的时间段,如第110天至第118天,预测误差显著增大,尤其是在峰值预测方面表现不足。相比之下,本文模型能够准确捕捉到实际值的骤升和骤降,而FNN和LSTM则出现了不同程度的滞后或偏差。在上海市的测试集中,第12~18天的PM2.5浓度波动较为显著。FNN在这一区间能够较好地预测到浓度的骤然变化趋势,但对于微小波动和异常值的捕捉能力较弱,导致预测结果在这些点上与实际值存在一定偏差。相比之下,本文模型不仅能够准确预测实际值的整体变化趋势,还对微小波动点和异常值表现出高度的敏感性。随着预测天数的增加,LSTM的预测误差逐渐放大,例如在测试集第183天,对应模型预测的第三天,FNN和LSTM误差分别为0.016和0.013,而本文模型的误差仅为0.004,这一显著差异表明本文模型采用的滚动预测策略有效减少了误差积累,使其能够更灵活地应对数据的非平稳性,并对最新的变化趋势作出快速响应。
4.5. 消融实验结果与分析
为了验证本文提出的两个创新模块(空间注意力机制和空间特征提取模型)的重要性,我们设计了消融实验,旨在探讨缺少其中一个或两个模块时模型的性能表现。实验设置了两种场景:wo-AT (缺少空间注意力机制的模型)和wo-CNN + AT (同时缺少空间注意力机制和空间特征提取的模型)。本文在成都和上海两个城市进行了未来3天PM2.5浓度预测的消融实验。如表2所示,当模型缺少空间注意力机制时(wo-AT),其对关键空间特征的捕捉能力显著下降,导致无法快速响应局部环境的迅速变化,从而造成预测精度降低。以成都市为例,包含空间注意力机制的完整模型相比wo-AT模型,在MSE指标上降低了57.14%,在MAE指标上降低了16.52%,在R2指标上提升了3.97%。当模型同时缺少空间注意力机制和空间特征提取模块时(wo-CNN + AT),其对PM2.5浓度分布的空间异质性捕捉能力显著减弱,导致不能充分利用空间数据,模型的预测性能进一步显著降低。具体而言,本文提出的完整模型相比wo-CNN + AT模型,MSE降低了66.67%,MAE降低了53.17%,R2增加了19.01%。这些实验结果充分证实了空间注意力机制和空间特征提取模块在提升模型预测精度方面的有效性。
Table 2. The results of 3-day PM2.5 predictions from ablation experiments
表2. 消融实验预测未来3天PM2.5浓度数据的评估结果
目标城市 |
模型 |
MSE |
MAE |
R2 |
成都 |
wo-AT |
0.0007 |
0.0115 |
0.6876 |
wo-CNN + AT |
0.0009 |
0.0205 |
0.6007 |
ours |
0.0003 |
0.0096 |
0.7149 |
上海 |
wo-AT |
0.0016 |
0.0225 |
0.6317 |
wo-CNN + AT |
0.0020 |
0.0236 |
0.6083 |
ours |
0.0008 |
0.0145 |
0.6988 |
图7展示了不同模型在目标城市PM2.5浓度预测中的性能表现。测试数据集共包含2560条数据,为了更清晰地展示结果,图中仅呈现了前200条数据。图中横坐标表示时间(单位为天),纵坐标表示PM2.5浓度(单位为微克每立方米)。从图中可以明显观察到,本文提出的完整混合模型表现出最佳的预测性能,其预测曲线与实际值的贴合度最高。
Figure 7. Ablation comparison of 3-day PM2.5 predictions by different models in two cities
图7. 两个城市不同模型预测未来3天PM2.5浓度数据的消融实验对比图
具体分析表明,在两个城市的预测任务中,缺少空间注意力机制的模型(wo-AT)预测精度显著下降,尤其是在峰值点预测方面表现不佳。以成都市为例,在第46天,其预测值相比真实值误差高达0.03,明显偏离实际浓度。此外,对于PM2.5浓度在极小值处突然升高的时间段,该模型的预测结果往往存在延迟,难以准确识别和模拟这些复杂的浓度变化模式。这一结果表明,缺少空间注意力机制的模型对局部环境变化的敏感性不足,导致其在处理非线性波动时表现较差。与此同时,同时缺少空间注意力机制和空间特征提取的模型(wo-CNN + AT)表现最为不佳,尤其在低浓度PM2.5范围内,如第135~139天,几乎无法捕捉浓度的变化趋势。相比之下,本文提出的完整模型在预测精度和对复杂模式的识别能力上表现更为优越。无论是在高浓度还是低浓度区域,例如在上海测试集的第35~45天和第100~110天,本文模型均能够更准确地捕捉PM2.5浓度的变化趋势。
综上所述,空间注意力机制和空间特征提取模块在提升模型预测性能方面发挥了关键作用。空间注意力机制增强了模型对局部环境变化的敏感性,而空间特征提取模块则充分挖掘PM2.5浓度分布的空间异质性,进一步提升模型对空间模式的识别能力。二者的协同作用显著增强了模型的整体预测性能和对复杂时空数据的捕捉能力。
5. 结论
本文针对PM2.5浓度长期预测任务中难以有效捕捉空间和时间特征的局限性问题,提出了一种新型PM2.5浓度长期预测组合模型。该模型的核心设计融合了空间特征提取、空间注意力机制增强以及长时间序列建模能力,旨在提升模型对复杂时空数据的捕捉能力和长期预测精度。具体而言,模型首先通过卷积神经网络提取空间特征,并利用扩展的长短期记忆网络(XLSTM)对提取的特征进行深度时间序列建模,从而综合考虑空间和时间两个维度的信息。为验证模型的有效性,本文在成都和上海两个城市的数据集上进行了实验,并与多个基准模型进行对比。实验结果表明,本文提出的模型在所有评估指标上均显著优于对比模型,充分验证了其在PM2.5浓度长期预测任务中的优越性能。此外,模型在不同环境下的稳定表现进一步证明了其具有较强的适应能力和泛化性能。