1. 引言
1.1. 研究背景与意义
研究背景:全球气候变化和城市化加速导致大气中污染物排放增加,空气质量急剧下降,包括颗粒物、二氧化硫、氮氧化物及温室气体等,大气污染已成为全球性环境问题。在中国,尽管政府已采取措施,但污染问题依旧严峻,冬季雾霾频发,影响能见度、交通及人体健康。为解决此问题,中国政府和科研机构正积极探索新技术手段[1]-[3]。
随着大数据和人工智能技术的快速发展,它们在环境监测、污染源识别等方面展现出巨大潜力。大数据技术对海量数据的存储和分析,挖掘数据背后趋势和规律;人工智能技术则通过机器学习、深度学习等算法,自动识别和预测复杂事件,提高监测准确性和效率。
研究意义:人工智能与大数据技术在环保领域的应用至关重要。它们能精准监测和预警大气污染,及时发现污染物变化趋势,动态识别污染源,为预防和控制提供支持。有助于有效控制和管理环境污染,减少排放和扩散,提升环境质量。未来,随着技术不断进步,它们将在环保领域发挥更重要作用。
1.2. 国内外研究现状
在中国,作为人口众多、经济发展迅速的国家,大气污染防治面临巨大挑战。政府及相关机构借助人工智能与大数据技术,开展创新研究,如深度分析空气污染数据,揭示污染物分布、来源及传播途径,预测污染趋势,优化控制策略,降低成本,提高效率。
与国外相比,后者在此应用领域更加成熟。发达国家已建立完善的大气污染防治体系,利用人工智能技术精准分析气象、污染源等复杂数据,为防治提供强大技术支持。同时,深度挖掘和分析空气污染数据,为制定精准监控和治理策略提供科学依据。
总之,本研究旨在通过构建基于AQI-Transformer的大气污染浓度预测模型,探索人工智能与大数据技术在大气污染防治中的创新应用。研究内容包括模型设计、实验验证、性能评估及未来发展趋势展望等。通过实际数据集上的实验,验证AQI-Transformer模型在短期和中长期污染浓度预测任务中的性能优势,为大气污染防治提供新的技术思路和方法[4]-[6]。
2. 基于AQI-Transformer的大气污染浓度预测
2.1. 实验环境与数据集
1. 实验环境准备:采用了云计算平台,以确保系统高可用性和弹性扩展能力。为FaaS函数部署和执行提供了坚实基础,能够灵活构建和管理大气污染防治大数据AI分析平台。以及采用了分布式存储系统(HDFS)和大数据处理框架(Spark),为数据建模和分析提供支持。整个人工智能模型训练过程是在配备2.20 GHz的Intel(R) Xeon(R) E5-2699 v4 CPU、64GB RAM以及4块48GB显存NVIDIA GeForce RTX 4090 GPU工作站上进行,使用FSDP分布式训练策略。超参数设置:初始学习率3e−4 (采用cosine衰减),batch_size = 256,训练epoch = 300。数据划分比例:训练集:验证集:测试集 = 7:2:1,严格保证时序连续性。
2. 数据预处理:空气污染研究的数据来源气象数据(涵盖了不同地区、不同时间段的大气污染物浓度、气象条件等信息)、污染排放数据(企业排放数据、现场监测数据)、空气质量监测以及历史记录数据(包含O3、SO2、CO、NO2、颗粒物、AQI等信息)。这些数据在时间和空间上具有高度真实多样性,有助于提高模型预测精度和泛化能力[7]-[9]。其数据样例见表1。
过程中充分利用了FaaS函数服务架构的优势。通过FaaS函数能够弹性地扩展数据处理能力,以应对不同时间段数据量的波动。当数据采集量激增时,FaaS能够自动调配更多资源来处理数据,确保数据采集与整合的高效进行。
在数据处理初期,仔细筛选并核实所收集信息,确保其真实准确。整合多源数据,通过匹配提升全面性和精确度。实施标准化与规范化处理,去除异常值、处理缺失值,统一数据格式和单位,填补数据缺失,确保数据集完整可靠。运用统计学或机器学习算法去除噪声,保证输入数据准确有效。将环境数据划分为训练集、测试集和验证集,训练集用于模型学习,验证集实时验证调整模型,监控泛化性能,识别过拟合或欠拟合现象。测试集独立评估模型性能,确保模型在未见数据上的鲁棒性[10]-[12]。其中污染排放监控数据、污染因子数据示例如下表所示:
Table 1. Statistics of pollution factors
表1. 污染因子数据统计表
优良天数比例(%) |
SO2浓度均值(ug/m3) |
NO2浓度均值(ug/m3) |
PM25浓度均值(ug/m3) |
PM10浓度均值(ug/m3) |
CO浓度均值(mg/m3) |
03日最大8h值90%位数值浓度均值(ug/m3) |
2024/09-2024-12 |
2024/09-2024-12 |
2024/09-2024-12 |
2024/09-2024-12 |
2024/09-2024-12 |
2024/09-2024-12 |
2024/09-2024-12 |
85.0 |
20 |
30 |
35 |
50 |
0.9 |
120 |
81.0 |
25 |
36 |
35 |
53 |
0.8 |
115 |
续表
83.0 |
22 |
33 |
32 |
52 |
0.9 |
123 |
89.0 |
24 |
34 |
34 |
51 |
0.8 |
118 |
88.0 |
29 |
32 |
31 |
52 |
0.7 |
124 |
88.0 |
21 |
35 |
33 |
57 |
0.6 |
124 |
86.0 |
23 |
31 |
35 |
52 |
0.7 |
120 |
..... |
20 |
38 |
35 |
50 |
0.8 |
120 |
Figure 1. Research technology roadmap
图1. 研究技术线路图
2.2. 基于AQI-Transformer的预测模型设计
本模型基于Transformer架构创新性整合时空特征分析与动态属性筛选机制,专为污染物浓度预测任务优化。如图1所示,系统框架由动态特征筛选层(基于AQI相关系数的多源属性优化选择)、时空表征层(融合位置编码与时间语义的复合编码器)、深度编解码网络层(含Na层编码器与Nb层解码器的级联处理架构)、预测输出模块层(掩码时序解码与线性映射机制) [13]-[15]。如图2所示。
Figure 2. Structure diagram of AQI-Transformer
图2. AQI-Transformer模型结构
其中中心化浓度矩阵协方差计算公式为
(1)
其中AQI空气质量指数相关系数计算公式
(2)
和
的AQI空气质量指数相关系数越大,说明
和
的相关性越强。通过AQI空气质量指数相关系数筛选属性,保留
的强相关特征生成优化序列X'。
(1) 底层:Transformer-Xception时空特征提取网络空间特征处理:采用改进的Xception网络(和其他卷积模型的参数对比见表2所示),将城市划分为1 km × 1 km网格(输入尺寸:256 × 256 × 3),每个通道对应PM2.5、NO2、O3浓度热力图时间特征处理:集成Transformer模块,设置12个注意力头,处理72小时时序数据(时间窗口滑动步长 = 1 h)。
特征融合:通过空间–时间交叉注意力机制,实现特征矩阵拼接:
(3)
式(3)说明:
X表示改进的Xception网络,通过深度可分离卷积提取多尺度空间特征。
T表示Transformer模块,通过多头自注意力捕获72小时时序依赖。
最终输出Foutput融合了时空联合语义,可用于PM2.5等污染物浓度预测任务。
式(3)分步解释:
1) 空间特征提取(改进的Xception网络):
输入为
(第t小时的PM2.5、NO2、O3、PM10、CO、SO2热力图,输出为空间特征图
。
2) 时空特征融合编码:
AQI-Transformer通过设计融合式时空编码系统,将局部位置感知(基于正弦/余弦函数的位置编码)与全局时间语义(如季节、昼夜等宏观时间规律)相结合,突破了传统Transformer仅依赖序列位置编码的局限,显著提升了污染物浓度时序特征的捕获能力。规则巧妙地使用了余弦和正弦函数特性[16]-[18],对污染浓度数据的局部位置编码(positional encoding, PE)具体定义为
(4)
(5)
公式(4)~(5)定义了基于正弦–余弦交替的位置编码方法:其中p代表序列位置,d为特征维度,偶数维度(2j)采用正弦编码,奇数维度(2j + 1)使用余弦编码,共同构成完整的局部位置表征。
AQI-Transformer创新性地引入全局时间编码机制,通过将月份、日期、星期和小时等时间参数进行归一化处理(式14),有效补充了局部位置编码在时间相关性表征上的不足,显著提升了污染物浓度预测的时序建模能力。
(6)
(7)
(8)
其中编码融合机制:通过式(7)对时间参数进行线性映射生成全局时间编码,再与式(4)~(5)定义的局部位置编码按式(8)叠加,形成融合时空特征向量,最终与原始污染数据相加后输入编解码模块进行特征学习[19] [20]。
3) 时间特征建模(多头Transformer编码器):
(9)
(10)
(11)
多头注意力机制将查询Q、键K和值V分别以不同的线性投影多次投影到dk、dk和dv维,假设头数为 b,dk和dv的计算公式为:
(12)
式(11)~(12)中:dk,dv为投影维度;
为输入维度。在查询Q、键K和值V的每个投影层次上,并行地执行注意力函数,生成dv维输出值,将它们连接起来并再次进行投影,得到最终值,多头注意力机制如图3所示。
Figure 3. Diagram of multi-head attention mechanism
图3. 多头注意力机制
4) 残差与层规范化
在多头注意力机制和前馈网络后面,都包含一个残差与规范化操作,残差机制通过将前一层的输入与输出相加实现,对x残差的计算公式为:
(13)
式(13)中:x为残差机制前一层的输入;G(x)为残差前一层的输出;
表示对x进行残差操作。
5) 前馈网络
编解码器中的前馈神经网络模块(FFN)采用双层线性变换结构(式14),通过ReLU激活函数构建非线性映射关系,其数学表达式计算公式为:
(14)
其中W1、W2和B1、B2分别对应两层网络的权重矩阵与偏置向量。
6) 解码器和输出机制
在多头注意力层、前馈网络层和掩码多头注意力层这三层的周围使用残差连接,掩码多头注意力层(防止未来信息泄露)、常规多头注意力层和前馈网络层,各层均采用残差连接和层归一化设计,最终通过线性变换输出预测的空气质量指数序列。
。
Table 2. Comparison of parameters between Xception model and other convolution models
表2. Xception模型和其他卷积模型的参数对比
模型 |
大小(MB) |
Top-1准确率 |
Top-5准确率 |
参数数量 |
深度 |
Xception |
88 |
0.790 |
0.945 |
22,910,480 |
126 |
VGG16 |
528 |
0.713 |
0.901 |
138,357,544 |
23 |
VGG19 |
549 |
0.713 |
0.900 |
143,667,240 |
26 |
ResNet50 |
99 |
0.749 |
0.921 |
25,636,712 |
168 |
InceptionV3 |
92 |
0.779 |
0.937 |
23,851,784 |
159 |
InceptionResNetV2 |
215 |
0.803 |
0.953 |
55,873,736 |
572 |
MobileNet |
16 |
0.704 |
0.895 |
4,253,864 |
88 |
MobileNetV2 |
14 |
0.713 |
0.901 |
3,538,984 |
88 |
DenseNet121 |
33 |
0.750 |
0.923 |
8,062,504 |
121 |
DenseNet169 |
57 |
0.762 |
0.932 |
14,307,880 |
169 |
(2) 中间层:因果推断模块
混杂因子控制:构建因果图识别6类混杂因素。因果图是一种用于表示变量之间因果关系的图形模型,用于识别和分析潜在的混杂因素。在大气污染预测的场景中,构建因果图有助于理解污染物浓度、气象条件、排放源等多种因素之间的复杂关系,从而更准确地预测污染物浓度。其构建过程首先确定变量,其中目标变量有污染物浓度(如PM2.5、NO2等);潜在原因变量有气象条件(温度、湿度、风速等)、排放源(工业排放、交通排放等)、地理因素(地形、城市布局等)。如图4所示:
Figure 4. Causality diagram
图4. 因果关系图
通过因果图分析,找出那些同时影响原因变量和目标变量,而混杂因素的控制通过将数据按照混杂因素的不同水平进行分层,然后在每一层内分析原因变量和目标变量的关系。找到具有相似混杂因素水平的个体或时间段进行匹配,以消除混杂因素的影响,在回归模型中加入混杂因素作为协变量,通过回归调整消除其影响[21]-[24]。
而双重稳健估计(Doubly Robust Estimation)是一种结合倾向性得分加权和回归调整的方法,为提高因果效应估计的稳健性。具体实现步骤如下:
首先进行倾向性得分估计:使用逻辑回归分类算法,根据混杂因素预测每个样本接受处理(如高排放源影响)的概率,即倾向性得分。倾向性得分反映了在给定混杂因素条件下,样本接受处理的可能性。
然后进行回归调整:建立回归模型,以污染物浓度为因变量,排放源原因变量和混杂因素为自变量,进行回归分析,通过回归模型预测在每个混杂因素水平下,原因变量对目标变量的平均影响。
接着进行双重稳健估计,结合倾向性得分加权和回归调整的结果,计算双重稳健估计量。双重稳健估计采用逆概率加权 + 回归调整方法[30] [31],消除混杂偏差,公式为:
(23)
其中
代表倾向性得分。
最后通过交叉验证方法评估双重稳健估计的稳健性和准确性[25]-[27]。
(3)顶层:多任务学习模块
任务配置:主任务:AQI等级预测(输出维度 = 6,对应优/良/轻度污染等);辅助任务:污染物浓度回归(PM2.5、NO2、O3、PM10、CO、SO2六通道输出)。
其中损失函数公式为:
(24)
P(x)是真实分布,Q(x)是模型预测的分布。KL散度衡量的是使用模型分布Q(x)拟合真实分布P(x)时产生的信息损耗[28] [29]。
2.3. 模型评价指标
对模型预测污染浓度数据的准确性进行评价,采用均方根误差(root mean square error, RMSE)和平均绝对误差(mean absolute error, MAE)评价预测的准确性,均方根误差ERMSE和平均绝对误差EMAE的计算公式分别为
(25)
(26)
式(25)~(26)中:
为实际的污染浓度数据;
为预测的污染浓度数据。
2.4. 实验结果与分析
针对短期预测任务(4 h/24 h),AQI-Transformer在污染物浓度预测精度上显著优于Transformer、Informer等主流时序模型,对比实验的RMSE与MAE指标详见表3,验证了该模型在时间跨度适应性上的优势。
Table 3. Accuracy of AQI-Transformer and other models for power load forecasting
表3. AQI-Transformer 与其他模型开展污染浓度预测的准确性
模型 |
RMSE值 |
MAE值 |
4 h |
24 h |
4 h |
24 h |
AQI-Transformer |
1128.73 |
1252.13 |
833.93 |
975.18 |
Transformer |
1420.21 |
2026.60 |
1048.64 |
1598.17 |
Informer |
1290.99 |
1893.95 |
972.44 |
1543.28 |
Autoformer |
5209.50 |
2441.57 |
3693.68 |
1826.33 |
Seq2seq |
1844.93 |
1638.91 |
1287.57 |
1199.11 |
LSTM |
1608.69 |
1580.64 |
1158.22 |
1122.49 |
由表3数据可见,不同模型在4小时(短期)和24小时(中长期)预测任务中的表现差异显著,AQI-Transformer在两项指标上全面领先,其4小时RMSE (1128.73)和MAE (833.93)均显著低于其他模型,24小时预测的RMSE (1252.13)和MAE (975.18)也保持最优。传统Transformer表现较差,尤其在24小时预测中,RMSE (2026.60)和MAE (1598.17)均明显高于AQI-Transformer。
综上可知,跨时段预测对比实验表明,相较于基准模型(如Transformer、LSTM等),AQI-Transformer在4小时及24小时预测任务中均展现出显著的性能优势,其RMSE与MAE指标全面领先。
2.5. 消融实验
为定量评估AQI相关系数模块与融合时间编码机制的关键作用,本研究采用控制变量法系统性构建四组对照模型(基准模型/增强型模型A/增强型模型B/完整模型),通过模块贡献度分析验证核心技术创新点的有效性。如下:
1) 基准模型(Transformer):保留原始Transformer架构,未引入污染物关联分析与时间编码模块;
2) 增强型模型A (A-Transformer):在基准模型基础上整合AQI污染物关联分析模块,用于捕捉多监测点间的浓度相关性;
3) 增强型模型B (T-Transformer):在基准模型中嵌入融合时间定位编码模块,强化时序特征表达;
4) 完整模型(AQI-Transformer):协同融合上述两项技术模块的优化架构。
通过消融模型开展污染浓度预测的准确性如表4所示,通过对比四组模型在污染浓度预测任务中的RMSE与MAE指标,可定量评估各模块对预测性能的贡献度。
Table 4. Accuracy of AQI-Transformer ablation for power load forecasting
表4. AQI-Transformer消融模型开展污染浓度预测的准确性
模型 |
RMSE值 |
MAE值 |
4 h |
24 h |
4 h |
24 h |
AQI-Transformer |
1129.93 |
1252.13 |
833.93 |
975.18 |
B-Transformer |
1647.96 |
1609.35 |
1251.75 |
1243.82 |
A-Transformer |
1155.12 |
1518.91 |
860.04 |
1172.20 |
Transformer |
1420.21 |
2026.60 |
1048.64 |
1598.17 |
根据表4的数据分析,我们可以得出以下结论:
1) A-Transformer模型的表现:在预测4小时污染浓度数据时,A-Transformer的均方根误差(RMSE)和平均绝对误差(MAE)分别为1,155.12和860.04,相较于Transformer模型,其RMSE和MAE分别减少了18.67%和17.99%。这表明,通过AQI污染浓度相关系数的筛选,A-Transformer能够更精确地预测短期内的污染浓度。对于24小时的污染浓度预测,A-Transformer的RMSE和MAE分别为1518.91和1172.20,与Transformer相比,这两个指标分别降低了25.05%和27.42%。这进一步证实了AQI污染浓度相关系数筛选在提升中长期预测准确性方面的有效性。
2) B-Transformer模型的优势:在24小时污染浓度预测任务中,B-Transformer的RMSE和MAE分别为1,609.35和1,243.82,与Transformer相比,其RMSE和MAE分别下降了20.59%和22.17%。这一改进归功于融合时间定位编码的引入,使得模型能够同时捕获污染浓度数据的局部位置信息和全局时间信息,从而提高了预测的准确性。
3) 消融实验表明(表4数据支撑),AQI-Transformer模型结合相关系数筛选与时间编码双模块时,其RMSE/MAE指标较单一模块模型(A-Transformer/QI-Transformer)提升显著,证明双技术协同可深度挖掘污染物时空演化规律,增强预测精度。
3. 结论
针对工业化进程中大气污染精准治理需求,本研究创新提出集成时空注意力机制与双重因果推断框架的AQI-Transformer复合模型,通过有机融合Transformer、Autoformer以及FaaS函数等架构优势,攻克多尺度时空特征融合与混杂因子干扰难题。实验验证该模型在污染物浓度预测中的RMSE/MAE指标显著优于主流时序模型,为智慧环保决策提供可靠技术支撑。
NOTES
*通讯作者。