1. 引言
1.1. 研究背景及意义
随着工业化和城市化的推进,空气污染已成为全球性问题,尤其在快速发展的城市。成都坐落于中国西南区域,位居四川盆地的中心地带,是西部地区重要的经济、文化和交通枢纽。近年来,由于城市工业化进程的推进、机动车尾气排放量的增加等多重因素,成都市的空气质量出现了较大的起伏,这一现象引起了社会各界的广泛关注[1]。AQI作为衡量空气质量的重要指标,直接影响居民的健康和生活质量。近年来,越来越多的研究开始关注AQI的预测,以期为政策制定和环境治理提供科学依据。传统的统计学和机器学习的预测方法往往基于变量的相关性分析,但相关关系不等于因果关系,忽视了变量之间内在的因果联系。本文旨在通过引入因果分析算法,结合长短期记忆网络,提升空气质量指数预测的精度。
1.2. 国内外研究现状
在大数据时代的背景下,针对时间序列维度不断增加、变量间关系愈发复杂这一问题,对复杂系统进行建模与分析并进行时间序列的趋势预测是重要的研究课题。由于传统的相关性分析无法处理复杂系统变量间的影响,在实际应用中难以满足分析要求,因此,因果分析的方法开始得到广泛关注和研究。作为人工智能的核心组成部分,机器学习凭借其强大的数据学习和潜在规律挖掘能力,在处理复杂、海量数据方面展现出独特的优势,涵盖了贝叶斯、决策树、随机森林、支持向量机、神经网络及集成学习等多种算法。当前,国内外众多学者正积极利用机器学习技术构建空气质量预测模型,以期提高预测的精准度。例如,李高平等人[2]通过应用机器学习中的LSTM(长短时记忆网络)优化算法,成功构建了空气质量二次预测模型,相较于一次预报,该模型显著提升了预测数据与真实数据的匹配度;徐艳平等人[3]则基于随机森林回归算法,结合气象参数,为重庆市构建了空气质量预测模型,利用三年的指标数据验证了模型的高预测精度,并深入分析了影响因子的相对重要性;郑红等[4]考虑气象因素、空间相关性和时间依赖性对AQI的影响,建立联合训练模型,以此提高预测的可靠性。朱菊香等[5]提出了一种基于智能算法和LSTM混合的模型,有效提高拟合度并降低预测的误差。
2. 理论基础
2.1. PCMCI算法原理
因果网络学习方法是一种将变量作为节点,然后通过统计指标计算和推断,将有因果关系的节点通过有向线段连接起来的因果分析方法。常用的因果网络学习方法有PC、FCI等。针对现在系统中变量个数较多,且含有无关变量的问题,采用两阶段策略的因果网络学习方法被广泛使用。通常,这类方法首先利用特征选择方法对原始数据进行预处理,达到降低计算复杂度和减弱干扰信息影响的目的。然后,基于上一阶段的结果对变量间的因果关系进行探究。
其中,PCMCI是一种具有代表性的两阶段因果网络学习方法,其在计算复杂度、一致性等方面都有着很好的效果。接下来对PCMCI的基本原理进行详细介绍。
PCMCI是一种基于约束的因果推断算法,由Runge在2019年提出[6]。PCMCI方法基于潜在结果框架,通过比较实际观察到的结果与潜在结果之间的差异,来推断因果效应。其基本核心是对因果关系中的潜在因果历程进行建模和分析。
PCMCI包括PC和MCI两个阶段:第一步执行PC算法对所有的变量
中找到
的因果父节点
的估计值
,即估计变量间的瞬时影响,得到因果骨架图。第二步,执行瞬时条件独立性检验(MCI算法),检验
和
之间是否存在着瞬时条件独立性。由此就可以获知父节点
与时序上滞后的子节点
之间是否存在着联系[7]。
(1)
2.2. LSTM模型
LSTM (长短期记忆网络)是一种常用于处理序列数据的深度学习模型(图1),与传统的RNN (循环神经网络)相比,LSTM引入了三个门(输入门、遗忘门、输出门)和一个记忆单元(cell state) [8],这些机制使得LSTM能够更好地处理序列中的长期依赖关系,并可以有效解决传统RNN在处理长时间序列数据时的梯度消失和梯度爆炸问题[9]。
Figure 1. LSTM network structure
图1. LSTM网络结构
LSTM神经网络大体结构与RNN神经网络结构相同,其计算过程如式(2)至(8)所示,其中f、i、o分别为遗忘门、输入门、输出门;C代表短期记忆,h代表长期记忆。
为激活函数;W是由单位向量转换到门向量的变换权矩阵(
、
、
、
);X作为当前输入;b是输入层各门获得的向量特征(
、
、
、
)。
是细胞状态。
(2)
(3)
(4)
(5)
(6)
(7)
(8)
3. 数据介绍
3.1. 数据来源
本文采用2019年1月1日到2023年12月31日成都市的6种污染气体的日平均质量浓度数据和每日空气质量指数进行实例分析,包含PM2.5 (μg/m3)、PM10 (μg/m3)、SO2 (μg/m3)、NO2 (μg/m3)、CO (μg/m3)、O3 (μg/m3)和AQI值,数据来源于空气质量在线监测分析平台。除去缺失值和极端值,2023年成都市的AQI数据序列情况如图2所示。
Figure 2. AQI data series for Chengdu in 2023
图2. 2023年成都市的AQI数据序列
3.2. 数据预处理
2019~2023年成都PM2.5、PM10、SO2、NO2、CO、O3和AQI数据中存在的缺失值,本文采用插值法[10]来填补数据集中的缺失值,取数据框中缺失值的上一条数值和下一条数值的平均值代替原缺失值。
同时为降低由于不同特征之间的量纲差异而导致的预测误差,对整个数据进行归一化处理,公式为:
(9)
4. 实验分析
4.1. 因果分析
首先,选择AQI作为目标变量,通过PCMCI算法的因果推断分析得到与目标变量最相关的特征集合,因果分析结果如图3所示。
Figure 3. Causal analysis of AQI dataset
图3. AQI数据集因果关系分析
根据上图所示的因果关系分析结果,选择PM2.5和SO2作为AQI的驱动变量。另外可以看到因果关系图中有一些不定向边,这是由于PCMCI算法自身的局限性导致的,本文在此不讨论相关算法的优化改进。
4.2. LSTM模型的AQI预测
将模型数据分为2部分,总数据随机抽取80%的数据作为训练集,总数据的20%作为测试集,以最终预测的AQI值与实际真值进行对比。(图4)
为了验证模型预测的准确性,分别采用只考虑AQI历史数据单个变量的LSTM模型、ARIMA模型和包含因果分析的PCMCI-LSTM组合模型,对AQI值预测进行仿真分析。为了更好地对模型的预测精度进行对比评估,选择均方根误差(RMSE)和平均绝对百分比误差(MAPE)作为评估指标,计算公式为:
Figure 4. AQI prediction results
图4. AQI预测结果
各个模型的预测误差结果如表1所示。
由表1可知,包含因果分析的PCMCI-LSTM组合模型的预测精度显著高于对比模型。该模型预测AQI值的MAPE和RMSE均低于其他方法,总体来说AQI总体预测有较大提升。
Table 1. Prediction error comparison results
表1. 预测误差对比结果
模型 |
RMSE |
MAPE |
ARIMA |
36.7132 |
0.7651 |
单变量LSTM |
31.6128 |
0.5973 |
PCMCI-LSTM |
28.5832 |
0.5281 |
5. 结论
本研究成功地将因果分析算法应用于成都市空气质量指数的预测中,并通过与深度学习模型LSTM的结合,实现了预测精度的显著提升。利用PCMCI算法,我们有效地识别了与AQI存在因果关系的变量,克服了传统预测方法中仅依赖相关性分析的局限性。实验结果表明,基于因果关系的变量选择能够更准确地反映影响AQI的关键因素,从而提高了预测的准确性。这一研究不仅为成都市的空气质量管理提供了有力的决策支持,也为其他城市的空气质量预测研究提供了新的思路和方法。未来,我们将继续探索和优化因果分析算法在空气质量预测中的应用,以期为实现更加精准和有效的环境管理贡献力量。