1. 引言
自改革开放以来,我国现阶段在经济发展的同时也面临着复杂多变的环境污染与治理问题,空气污染也在慢慢变成我国经济高速健康发展的掣肘 [1] [2] 。为了处理我国的空气污染问题,习近平 [3] 总书记在党的十九大上指出,要加快生态文明体制改革,建设美丽中国。所以为了应对未来可能出现的空气污染状况,规划更优的治理方案,研究一套用于辅助环境监测治理相关工作的空气质量指数预测系统是具有一定的实际应用价值的。本文研究的基于注意力机制改进的Seq2Seq-LSTM模型的空气质量指数预测模型旨在为工作人员提供更加可靠的预测结果,提前发现污染,降低污染治理的成本,进而推动我国的生态文明建设,提升人民生活的幸福指数。
近年来,以深度学习(机器学习的一种分类)算法为代表的数据驱动模型凭其不需要考虑复杂的空气质量指数参数、通过挖掘数据本身的潜在规律进行模拟预测、模拟精度高等优点在空气质量指数预测中广泛应用 [4] 。常用的机器学习算法在空气质量指数预测中取得了较好的结果。深度学习模型相较于机器学习模型能够以更快速、更有效的方式学习样本数据的内在规律和层次,大大提高了模型预测精度。长短期记忆网络(Long Short-Term Memory, LSTM)、注意力机制(Attention Mechanism, Attention)等均是较常用的深度学习模型 [5] 。其中,LSTM模型以简单、灵活、稳定、具备长时记忆能力等优点被广泛应用于空气质量指数预测研究中 [6] ;Seq2Seq模型由于可以处理输入输出步长不统一的序列被广泛用于多变量预测任务中 [7] ;Attention机制多在自然语言处理领域展现其优良的模型性能 [8] 。
尽管LSTM模型在空气质量指数预测中已被证实具有优良表现,但仍存在一定的缺陷,因此,将模型进行组合突破单一模型的局限性对于空气质量指数预测研究至关重要。
2. 模型原理
2.1. 序列到序列模型(Sequence to Sequence, Seq2Seq)
Seq2Seq模型是一种将输入序列编码为中间向量再解码为输出序列的模型 [9] 。其输入输出序列长度自由,基本框架由编码器、解码器和中间向量三部分组成 [10] 。其中,编码器能够捕捉输入序列x的规律,并将x压缩成指定长度的中间向量C,再由中间向量传递最后一个隐藏层的状态或所有隐藏层状态的变换利用解码器进行解码输出,使任意长度的输入序列映射到任意长度的输出序列上。
Seq2Seq模型的编码器和解码器可根据任务使用不同的神经网络模型。
2.2. 长短期记忆网络(Long Short-Term Memory, LSTM)
长短期记忆网络LSTM (Long Short-Term Memory)是RNN的一种变体,其核心概念在于细胞状态以及“门”结构 [11] 。理论上讲,细胞状态能够将序列处理过程中的相关信息一直传递下去。因此,即使是较早时间步长的信息也能携带到较后时间步长的细胞中来,这克服了短时记忆的影响。信息的添加和移除通过“门”结构来实现。
如图1所示,门(Gate)是一种可选地让信息通过的方式。它由一个Sigmoid神经网络层和一个点乘法运算组成。sigmoid神经网络层输出0和1之间的数字,这个数字描述每个组件有多少信息可以通过,0表示不通过任何信息,1表示全部通过。遗忘门决定应丢弃或保留哪些信息。输入门用于更新细胞状态。输出门用来确定下一个隐藏状态的值,隐藏状态包含了先前输入的信息。
2.3. 注意力机制(Attention Mechanism, Attention)
Attention机制本质为产生一个输入特征的权重分布,再将此权重分布对映到原特征上,使任务重点放在主要特征上,忽略次要信息,进而提高任务效率。Bahdanau [12] 率先将注意力机制应用到机器翻译领域并取得了较好的结果,说明注意力机制能够有效地应用于时间序列任务中。设输入序列向量为
,则Attention机制的计算公式如下:
(1)
其中,W为权重矩阵,与输入序列X做矩阵运算后经过Softmax激活函数,最后与输入序列相乘得到新序列
[13] 。
2.4. 改进后的Seq2Seq-LSTM模型
本研究构建的改进后的Seq2Seq-LSTM组合模型的原理为通过算法之间的耦合使构建的模型在具备单一模型优势的同时克服单一模型的缺陷,使模型更加完善。LSTM通过引入门控单元可以从隐藏的长期信息中学习而具备长期记忆功能 [14] ,并保持了训练过程中梯度下降的稳定性,但每一个输入都产生相应的隐藏状态,输入和输出需要相同的时间步长 [15] 。在本研究中,需要多变量作为输入进行中长期多步预测,Seq2Seq模型允许在输入和输出时间步长不同时建立模型,并通过编码器解码器的信息传递减轻了模型的遗忘程度,因此本文将既具有长期记忆功能又允许输入输出步长不同的Seq2Seq-LSTM模型为第一步的组合模型 [16] 。但Seq2Seq-LSTM模型在传递过程中隐藏层的权重赋值相同,无法针对性地提取有效信息。针对此问题,将Attention机制与Seq2Seq-LSTM进行耦合可以在模型传递过程中利用评分函数计算各输入对预测值的影响程度,并为其赋予不同的权重,从而捕捉各隐藏层的有效信息,有利于模型精度的提升 [17] 。
改进后的Seq2Seq-LSTM模型的结构如图2所示。编码器经过m个时间步更新,最终时间步的隐藏状态为hm,解码器初始状态
以hm作为输入值,加强记忆功能、减少遗忘状态;解码器每一时刻隐藏状态
通过当前时刻的输入hm与上一时刻的隐藏状态
和细胞状态
更新,其表达式为:
(2)
最终通过Attention机制在解码器结构产生新状态前先读取解码器中所有隐藏层的输出向量
并对h分配不同比重,使网络能有针对性地捕捉对预测有效的特征信息并通过全连接层输出为最终的预测值序列。具有m个时间步的编码器LSTM的最终输出可以存储在一个状态向量的单元中,并与之前的隐藏状态一同用作具有n个时间步的解码器LSTM的输入。
3. 实验
3.1. 研究区概况
青岛为海滨丘陵城市,地势东高西低,南北两侧隆起,中间低凹,地处沿海。受海路风的影响,青岛的空气质量物可以输送的方式被清除,海风也会大大降低城市内的污染物浓度,所以相对于山东其他城市而言,空气质量还算是不错的。但是由于经济的发展,排放增多(新建工厂、居民生活、汽车尾气、建筑施工等等),使得局地空气质量有所下降 [18] 。

Figure 2. The structure of Improved Seq2Seq-LSTM model
图2. 改进后的Seq2Seq-LSTM模型结构
以山东省为例,淄博、东营、聊城等等都属于重污染城市,必然在特定气象条件下对青岛的空气质量产生影响。此外,由于机动车的增加,氮氧化物排放增多,一种新型的污染类型逐渐开始出现——光化学污染。这种污染的直接效果是大气浑浊,臭氧超标,对人体危害大,青岛也会有类似情况。
最后,由于青岛湿度较大,高湿度更加利于颗粒物的凝结增长,产生的直接后果是——能见度恶化。另外,臭氧作为一种特殊的污染物,其在城市中的特点是白天生成,夜晚同氮氧化物反应消除。但是由于海陆风的存在,傍晚的陆风将城市的臭氧吹到海面上面“保存”起来,而第二天的海风又将污染物从海面吹回来,继续存留在空气中,导致污染的不断累积 [19] 。
本文从山东省青岛市下设的每个县市选取1~2个空气站,共计11个空气站。统计了每个站点2021~2022年每小时空气质量指数数据,共计1万7千多条数据作为本文的研究数据。各站点分布如图3所示。
由于空气质量指数变动幅度较大,为加快模型收敛速度,使预测结果具有一定的可信度,需要对各站点数据采取归一化处理。其公式为:
(3)
其中,X为原始数据;Xmin和Xmax分别是原始数据的最小值和最大值。
3.2. 模型构建
空气质量指数在时间序列数据预测中,一个关键问题是确定输入变量的最佳时滞数,但是目前还没有确定的方法或者确定的标准来确定时滞数 [15] 。本文将最佳时滞设为6 [16] ,模型输入具有当前时刻和前5个时间步数据序列,即以(t − 6)~(t − 1) h的11个站点数据作为模型输入,输出为(t + 1) h、(t + 3) h、(t + 5) h、(t + 7) h的空气质量指数预测值。
通过穷举法 [17] 以及控制变量法多次确定模型最优参数,此时模型的编码器和解码器均为三层LSTM结构,编码层隐藏层单元数量为256、256、128,解码层隐藏层单元数量为256、256、128。训练过程以均方误差为损失函数,学习率设为0.00001,batch-size为64,最大训练轮数为20,在此基础上使用Adam算法作为降低损失函数值的优化器,最后对模型输出进行反归一化处理,输出最终预测结果。
此外,为验证模型的有效性,采用SVM、LSTM模型输入与该模型相同特征序列与时滞,得出预测结果并进行对比研究。SVM核函数参数γ为0.1、LSTM网络为三层,神经元个数分别为256、256、128。具体参数如图4所示。

Figure 4. The parameter diagram of the improved Seq2Seq-LSTM model
图4. 改进后的Seq2Seq-LSTM模型参数图
4. 结果与讨论
4.1. 改进后的Seq2Seq-LSTM模型结果分析
本文采用拟合优度R方、纳什效率系数(Nash-Sutcliffe Efficient, NSE)、均方根误差(Root Mean Square Error, RMSE)定量评价各模型的模拟效果。R方越接近1,拟合效果越好 [18] 。NS的取值范围为−∞~1,NS值越接近1,模型可信度越高。RMSE可反映空气质量指数预测值和实测值之间的偏差,RMSE越接近0,实测值和预测值的误差越小 [19] 。改进后的Seq2Seq-LSTM模型在(t + 1)~(t + 7) h的预测结果如表1所示。

Table 1. The air quality index prediction results of the improved Seq2Seq-LSTM model at (t + 1)~(t + 7) h
表1. 改进后的Seq2Seq-LSTM 模型在(t + 1)~(t + 7) h 的空气质量指数预测结果
由表1可知,改进后的Seq2Seq-LSTM模型在训练期的模拟精度要优于测试期,但无论是训练期还是测试期模型的模拟精度都是可接受的。具体来看,改进后的Seq2Seq-LSTM模型在测试期(t + 1)~(t + 7) h的R方值均大于0.5,说明拟合效果较好。RMSE值在(t + 1) h为8.52,在(t + 7) h为19.085,说明模型预测值和实测值之间误差不大。预测时间的间隔越大,改进后的Seq2Seq-LSTM模型的预测精度相应降低,但仍有较高的预测精度。如测试期该模型的NS值在(t + 1) h为0.996,在(t + 7) h为0.978,减少了0.018。尽管改进后的Seq2Seq-LSTM模型随着预测时间变长精度有所降低,但是由于总体精度较高,在长时间空气质量指数预测有很大的发展空间。
由图5可知,改进后的Seq2Seq-LSTM模型在(t + 1)~(t + 7) h的预测值与实测值变化趋势基本一致,在预测时间增加时预测精度随之降低,但模型在(t + 7) h的模拟效果仍较好,表明该模型在中长期空气质量指数预报中展现良好的预测能力。
4.2. 模型预测精度对比分析
为验证改进后的Seq2Seq-LSTM模型的有效性,与相同输入的SVM、LSTM模型的预测结果进行对比研究。表2、表3为SVM、LSTM模型在(t + 1)~(t + 7) h的空气质量指数预测结果。对SVM、LSTM、改进后的Seq2Seq-LSTM在更为重要的测试期的表现进行对比分析。由表1~3可知,测试期SVM、LSTM和改进后的Seq2Seq-LSTM在(t + 1) h的NS值均在0.99以上,表明各模型在(t + 1) h时的预测具有非常高的预测精度;在(t + 7) h时NS值均达到了0.97以上,说明各模型在(t + 7) h时预测精度依旧很高,可用于长期空气质量指数预报。
总体来看,改进后的Seq2Seq-LSTM模型的预测效果优于SVM和LSTM。具体以三个模型在(t + 1) h、(t + 7) h上的预测结果为例进行说明。
在(t + 1) h时,改进后的Seq2Seq-LSTM的R方值为0.908,比SVM的R方值高了1%,RMSE值为8.52,低于SVM的RMSE值。但是改进后的Seq2Seq-LSTM的R方值低于LSTM,RMSE值高于LSTM。通过分析可知,LSTM-Seq2seq-Attention在(t + 7) h上的各评价指标均优于SVM但不如LSTM,说明该模型在短期空气质量指数预测效果比SVM模型好,但却不如LSTM模型。
在(t + 7) h时,改进后的Seq2Seq-LSTM模型的R方值为0.536,高于LSTM的0.506与SVM的0.483;改进后的Seq2Seq-LSTM模型的NS值为0.98,高于LSTM的0.978与SVM的0.977;改进后的

Figure 5. The predicted values of the improved Seq2Seq-LSTM at (t + 1)~(t + 7) h are compared with the measured values
图5. 改进后的Seq2Seq-LSTM在(t + 1)~(t + 7) h的预测值与实测值对比

Table 2. The air quality index prediction results of SVM in (t + 1)~(t + 7) h
表2. SVM 在(t + 1)~(t + 7) h的空气质量指数预测结果

Figure 6. The comparison of predicted and measured values of SVM in (t + 1)~(t + 7) h
图6. SVM 在(t + 1)~(t + 7) h的预测值与实测值对比

Figure 7. The comparison of predicted and measured values of LSTM at (t + 1)~(t + 7) h
图7. LSTM 在(t + 1)~(t + 7) h的预测值与实测值对比

Table 3. The air quality index prediction results of LSTM at (t + 1)~(t + 7) h
表3. LSTM在(t + 1)~(t + 7) h的空气质量指数预测结果
Seq2Seq-LSTM模型的RMSE值为19.085,低于LSTM的19.69与SVM的20.15。因此,经过进一步对比分析可知,LSTM-Seq2seqAttention在(t + 7) h上的各评价指标均优于SVM与LSTM,说明该模型在中长期空气质量指数预测的效果优于SVM、LSTM模型。
图6、图7为SVM、LSTM模型在(t + 1)~(t + 7) h上的预测精度拟合曲线。由图5~7可知,SVM、LSTM、改进后的Seq2Seq-LSTM模型在测试期(t + 1)~(t + 7) h上拟合效果较好,但预测时间的间隔越大,预测值与实测值的误差逐渐变大,且在空气质量指数高值处的预测存在一定误差,预测时间天数越长,峰值处的拟合效果越差。
同时,为更直观反映改进后的Seq2Seq-LSTM模型与单一模型SVM、LSTM结果的预测效果,按(t + 1)~(t + 7) h的时间顺序观察各模型的预测情况。如表4所示。

Table 4. The air quality index prediction results of SVM, LSTM and modified Seq2Seq-LSTM at (t + 1)~(t + 7) h during test period
表4. 测试期SVM、LSTM和改进后的Seq2Seq-LSTM在(t + 1)~(t + 7) h的空气质量指数预测
可以看出,改进后的Seq2Seq-LSTM模型的虽然在(t + 1) h和(t + 3) h的优势不明显,但在(t + 5) h和(t + 7) h的各项指标均优于SVM、LSTM模型,进一步说明了改进后的Seq2Seq-LSTM模型在长期空气质量指数预测时,不仅预测精度最高且产生的误差最小。
进一步对比分析发现,虽然SVM、LSTM、改进后的Seq2Seq-LSTM模型的预测值与实测值的拟合程度随着模拟时间的增加而变差,但改进后的Seq2Seq-LSTM模型在(t + 7) h时仍达到了可接受的预测精度。说明改进后的Seq2Seq-LSTM模型在(t + 1)~(t + 7) h的空气质量指数预测均具有较高的预测精度。
综上所述,各方面综合对比分析了测试期SVM、LSTM和改进后的Seq2Seq-LSTM模型的预测结果,得出结论为:改进后的Seq2Seq-LSTM模型中长期空气质量指数预测的各方面预测效果均优于SVM与LSTM,而SVM在各评价指标上预测效果最差。说明深度学习组合模型相对单一模型以及机器学习模型具有更高的预测性能。
5. 讨论
本研究将单一深度学习模型LSTM、Seq2seq、Attention机制进行耦合,构建了改进后的Seq2Seq-LSTM组合模型对青岛市空气质量指数进行模拟预测,并与机器学习模型SVM、单一模型LSTM在多方面结果进行对比。得出结果为:本研究构建的改进后的Seq2Seq-LSTM模型在对中长期空气质量指数预测时精度最高误差最小。这是因为:其一,LSTM在对长时序列进行预测时,其细胞状态与隐藏状态能够保存并传递空气质量变化过程中的重要信息,并通过门结构选择性遗忘次要信息,能够利用有限资料对变化过程进行预测模拟;其二,Seq2seq模型输入输出序列长度自由,同时将编码器解码器为三层LSTM结构,使编码器中每一层LSTM的信息既可以传递到下一层又作为解码器的输入,增加了模型参数,减缓了网络遗忘速度;其三,解码过程中引入Attention机制能够在信息解码时按隐藏状态的重要程度对权重进行分配。因此将三个算法进行组合能够打破LSTM输入输出等长的限制并解决Seq2Seq模型信息传递时权重相等的问题,使组合模型取得更精准的预测结果。
尽管改进后的Seq2Seq-LSTM模型在中长期空气质量指数预测的效果较单一的SVM、LSTM模型更好,但改进后的Seq2Seq-LSTM模型仍存在一些不足。首先,模型的预测精度随预测时间增加而降低且在峰值处的预测值低于实测值。这可能是由于增加了滞后输入,使得输入数据变量之间的相关性减弱,导致提取变量之间的非线性关系变得更为困难。也可能是输入变量不足,本文在24个站点中仅选取了11个站点进行输入,虽能捕捉到空气质量指数变化的一般趋势,但难以准确地反映空气质量指数变化的具体特征 [20] 。同时,本研究输入数据量不足,深度学习模型的构建往往需要大量数据作为输入,而本文只选取2021~2022年共一万七千多个数据作为输入,数据量过少可能导致深度学习算法难以发挥其优势,从而使得预测精度受到影响 [21] 。最后,本文基于三种单一深度学习进行组合建模,由于模型复杂度提高参数也随之增加,由于组合模型为自主构建无法凭经验在短时间内择出最优参数。针对上述问题,在日后的研究工作中可以尝试从增加数据量、优化模型参数、提高模型计算力以及设置自主调参方法等方面提高模型预测精度,从而更准确地反映空气质量指数变化规律。
本研究针对机器学习组合模型不具备记忆功能、无法自动筛选重要信息等问题,提出了一种基于Attention机制改进后的Seq2Seq-LSTM深度学习组合模型,对青岛市(t + 1)~(t + 7) h的空气质量指数进行了预测,并与单一的SVM与LSTM模型进行了对比分析,得到以下结论:
SVM、LSTM和改进后的Seq2Seq-LSTM均可作为短期空气质量指数预测的有效工具,但改进后的Seq2Seq-LSTM模型由于综合考虑了LSTM、Seq2seq、Attention三个模型的优势,在(t + 5) h、(t + 7) h的空气质量指数的预测精度较SVM和LSTM更高,因此改进后的Seq2Seq-LSTM在中长期空气质量指数预测中取得更好的预测效果。由于改进后的Seq2Seq-LSTM模型在具备长期记忆功能的基础上允许输入输出序列长度不受约束,并能在信息传递过程中按重要程度提取信息,从而使空气质量指数预测值与实测值的拟合效果更好,能更加真实准确地反映流域空气质量指数的变化规律,可在资料缺乏时为青岛市空气质量指数提供综合可靠预报结果,是中长期空气质量指数预测的有效工具。
NOTES
*第一作者。
#通讯作者。