基于BP-ARIMA模型的空气质量监测研究——以湘西自治州为例
Research on Air Quality Monitoring Based on BP-ARIMA Model—A Case Study of Xiangxi Autonomous Prefecture
DOI: 10.12677/sd.2025.155142, PDF, HTML, XML,    科研立项经费支持
作者: 李 江*, 舒 晴#:吉首大学数学与统计学院,湖南 吉首
关键词: 空气质量预测预警BP-ARIMA模型Air Quality Prediction and Early Warning BP-ARIMA Model
摘要: 随着现代化进程的不断加速,空气质量问题日益严重。空气污染对生态环境、人类健康以及社会经济造成了严重影响,因此,加强空气质量预测预警至关重要。本研究从数据分析的视角出发,建立BP-ARIMA混合模型预测湘西自治州未来一年内的PM2.5浓度和AQI指数,结果显示未来空气质量将在良好到中度污染之间波动,进而提出四大预警措施,从政府、公众、企业、科研方面给出建议,助力空气污染控制和环保效益提升。
Abstract: With the continuous acceleration of modernization, the problem of air quality is becoming increasingly serious. Air pollution has caused severe impacts on the ecological environment, human health and the social economy. Therefore, it is crucial to enhance the prediction and early warning of air quality. This study, from the perspective of data analysis, establishes a BP-ARIMA hybrid model to predict the PM2.5 concentration and AQI index in Xiangxi Autonomous Prefecture for the next year. The results show that the air quality in the future will fluctuate between good and moderate pollution. Subsequently, four major early warning measures are proposed, providing suggestions from the aspects of government, public, enterprises and scientific research to assist in air pollution control and the improvement of environmental protection benefits.
文章引用:李江, 舒晴. 基于BP-ARIMA模型的空气质量监测研究——以湘西自治州为例[J]. 可持续发展, 2025, 15(5): 230-244. https://doi.org/10.12677/sd.2025.155142

1. 引言

随着现代化进程的不断加速,空气污染问题日益严重,已经成为人们关注的焦点。空气污染不仅危害人类健康和生态环境,也给社会经济带来巨大损失[1]。2022年,在冬季取暖期,湘西自治州的部分地区散煤燃烧较为普遍,由于散煤燃烧效率低、污染物排放量大,导致空气中PM2.5、PM10、二氧化硫等污染物浓度上升。另外,机动车尾气污染问题凸显,在交通流量高峰时段,尾气排放叠加,使局部区域空气质量恶化[2]。2023年,部分时段秸秆焚烧管控不力,一些乡镇存在秸秆露天焚烧现象,大量烟雾飘散,增加了空气中可吸入颗粒物、二氧化硫等污染物浓度,对空气质量造成负面影响。同时,部分工业企业污染治理设施运行不稳定,存在废气超标排放情况,给周边空气质量带来威胁[3]。据2024年统计调查发现,虽然当年湘西自治州地级城市吉首市环境空气优良天数比例为94.5%,但仍存在轻度污染天数比例为4.7%,中度污染天数比例为0.8%的情况。全州8个县市也存在一定比例的轻度、中度、重度及以上污染天数[4]。对此,湘西州环保部门正努力构建合理的空气质量预测预警系统,为政策制定提供科学依据,促进环境保护和社会经济的可持续发展。

近年来,随着气象学、环境科学、计算机科学等领域的发展,各种空气质量的预测方法不断涌现。王欣等[5]在《基于机器学习的北京市PM2.5浓度预测方法》中使用支持向量回归模型(SVR)预测北京市PM2.5浓度。研究结果表明,该方法可以有效预测PM2.5浓度,并且比传统的统计方法更准确。蒋宇等[6]在《南京市PM2.5浓度的时间序列分析与预测》一文中使用了ARIMA时间序列模型对未来PM2.5浓度进行了预测,结果表明该模型可以在不同的时间尺度上预测PM2.5浓度,并且比机器学习方法更稳定。研究结论可以为南京市政府制定空气污染防治措施提供科学依据。张瑶等[7]在《基于传感器网络和深度学习的PM2.5实时浓度预测》中主要使用了传感器网络监测北京市PM2.5浓度,并将数据传输到云端进行处理和分析。研究中采用深度学习算法,使用CNN对传感器数据进行特征提取,然后使用LSTM对特征进行序列建模。最后,将预测结果反馈给政府和公众,提供实时的PM2.5浓度预警信息。本研究基于近年来湖南省湘西自治州的空气质量相关数据,构建适用于湘西地区的空气质量预测模型,如BP-ARIMA模型,实现对空气中PM2.5浓度及AQI指数的短期预测,为提前采取防控措施提供依据。

2. 数据收集

根据所构建的空气质量指标体系进行相关数据收集,本文数据主要来源于湘西州气象局和aqistudy网站。数据集包括空气污染物浓度、环境气象物、空气质量评估指数等相关数据,具体数据及数据来源见表1

Table 1. Data and data sources

1. 数据及数据来源

数据名

数据来源

空气污染物浓度

https://www.aqistudy.cn/

空气质量评估指数

环境气象物

http://hn.cma.gov.cn/dsqx/xxz

3. 基于BP-ARIMA模型的空气质量预测预警

3.1. BP神经网络模型

BP神经网络模型的原理及过程[8]:模型由信息的正向传播和误差的反向传播两个过程组成。输入层的神经元负责接受信息,并将信息传递给中间层神经元,中间隐含层神经元负责将接收到的信息进行处理变换。定义BP神经网络的信息传输模式如图1所示。

Figure 1. Information propagation process of BP neural network

1. BP神经网络的信息传播过程

隐含层的输入与输出分别为:

S K = i=1 n v ki x i , (1)

Z K =f( S K ). (2)

输出层的输入与输出分别为:

S j = k=1 q w jk Z K , (3)

y j =f( S j ). (4)

其中: S K Z K 分别表示隐层的输入与输出; S j y j 分别表示输出层的输入与输出; v ki 表示输入层到隐层的连接权值; w jk 表示隐层到输出层的连接权值。

Step1划分训练集和测试集

将数据集进行二八等分,其中二份数据用于测试集,八份数据用于训练集。

Step2:输入训练数据

建立训练数据集,构建BP神经网络结构分析信息传递过程,这里设置1个输入层、1个输出层和3个隐含层。

Step3:参数设置及前传递过程

设置模型的参数为迭代次数1000次、学习率0.1、训练样本数量3287个、隐含层节点数量3层。具体参数设置如表2所示。

Table 2. Parameters of the BP neural network model

2. BP神经网络模型参数

参数名

参数值

学习率

0.1

迭代次数

1000

隐藏第1层神经元数量

100

隐含层节点数量

3

训练样本数量

3287

构造随机中子数为指定值的随机数生成器,并对数据集中的样本随机排序,最后对神经网络的各层前向进行计算,进行神经网络模型的前传递过程,如图2所示流程:

Figure 2. The pre-transfer process

2. 前传递过程

Step4:计算误差

建立神经网络模型的最后输出为一个函数集合,其定义为:

f( x;θ )=σ( w ( L ) σ( w ( 2 ) σ( w ( 1 ) x+ b ( 1 ) )+ b ( 2 ) )+ b ( L ) ), (5)

其中, L 表示神经网络的输出层, θ={ w ( 1 ) , b ( 1 ) , w ( 2 ) , b ( 2 ) ,, w ( L ) , b ( L ) }

接下来定义神经网络的损失函数:

C ( 1 ) ( θ )= 1 m r=1 m f( x ( r ) ;θ ) y ( r ) . (6)

由公式可以递推出损失函数在隐含层和输出层的误差,分别为:

隐含层:

δ ( L ) = a ( L ) C( θ )Θ σ ( Z ( L ) ); (7)

输出层:

δ ( l ) =( ( w ( l+1 ) ) T δ ( l+1 ) )Θ σ ( Z ( L ) ). (8)

Step5:计算并更新权重

利用梯度下降算法更新权重,具体流程见图3

Figure 3. Weight update and prediction process

3. 权重更新及预测流程

Step7:模型评估

采用均方根误差对BP神经网络模型的预测效果进行评估。它可以反映样本的离散程度,其值越小说明精度越高,值的大小受预测数值的大小影响。

均方根误差一般用RMSE表示,计算公式为:

RMSE= 1 n n=1 N ( Y n Y n ) 2 , (9)

式中: N 为样本总数, n 为样本序号, Y n 为第 n 个样本的预测值, Y n 为第 n 个样本的真实值。这里样本总数包含空气污染物的全部指标数据。

模型的具体评估结果如表3所示:

Table 3. Model evaluation results

3. 模型评估结果

预测指标

RMSE

R2

PM2.5浓度

0.901

0.893

AQI指数

0.859

0.886

由上表可知:预测指标的RMSE值分别为0.901和0.859,可以被视为相对较低的误差水平,表明该模型的预测效果较好。下面展示真实数据与拟合数据的重合度对比,由图4图5可以观察到二者数据存在较高的重合度。

Figure 4. Fitting effect of PM2.5 concentration (BP neural network model)

4. PM2.5浓度拟合效果图(BP神经网络模型)

Figure 5. AQI index fitting effect (BP neural network model)

5. AQI指数拟合效果图(BP神经网络模型)

Step8:预测结果与分析

构建BP神经网络模型,设置模型的步长为365天,即预测未来一年内的空气质量变化趋势。预测结果如图6图7所示。

3.2. ARIMA时间序列模型

ARIMA模型是一种时间序列分析模型,全称为自回归差分移动平均模型,简称 ARIMA( p,d,q ) ,是AR模型和MA模型组合。AR为自回归,MA为移动平均, p 是自回归项, p 是移动平均项, d 是时间序列达到平稳时所做的差分次数[9]。ARIMA模型首先需要将非平稳时间序列转变成平稳时间序列,并且预测的时间序列数据必须是平稳的,否则无法捕捉时序规律。

时间序列模型是由过去值及随机扰动项所建立起来的模型,ARIMA模型是自回归与移动平均的结合,其具体形式为:

X t = φ 1 X t1 ++ φ p X tp + θ 1 ++ θ q ε tq , (10)

式中: X t 代表一个随机时间序列,它用自身的过去值或滞后值以及随机干扰项来解释。

利用ARIMA模型展开预测之前,需要进行对模型进行一系列参数检验,以确保模型具有实用性。模型检验通过后即可进行预测,模型的预测流程如图8所示。

Figure 6. Trend of PM2.5 concentration in the next year (BP neural network model)

6. 预测未来一年内PM2.5浓度的变化趋势图(BP神经网络模型)

Figure 7. Trend of AQI index in the next year (BP neural network model)

7. 预测未来一年内AQI指数的变化趋势图(BP神经网络模型)

Figure 8. Prediction flow chart of ARIMA model

8. ARIMA模型预测流程图

在本研究中,需要在既定目标(未来一年内的PM2.5浓度和AQI指数)和给定约束条件(PM2.5浓度和AQI指数的历史数据)下,分析二者指标的变化趋势,以达到预测目的。具体处理过程如下:

Step1数据的平稳性检验

将PM2.5浓度和AQI指数的数据作为研究样本,分别绘制时间序列关系图,描述各指标数据随时间变化的关系,见图9图10

Figure 9. Distribution of PM2.5 concentration over time

9. PM2.5浓度随时间分布变化图

Figure 10. AQI index distribution over time

10. AQI指数随时间分布变化图

从图中可以看出数据的不平稳现象,因此需要对数据进行差分处理。经过一阶差分处理后,得到相对平稳的时间序列如图11图12所示。

Step2模型识别和定阶

确定时间序列平稳之后,需要对模型进行定阶,即确定 p,d,q 的阶数。首先根据自相关和偏自相关的函数公式计算相关系数,对于一个序列,通常根据它的滞后次数计算自协方差。自协方差存在有偏估计和无偏估计两种估计值,以此定义自相关系数如下:

·无偏估计的自相关系数:

acf( k )= c k c 0 = N Nk t=k+1 N ( x t μ )( x tμ μ ) t=1 N ( x t μ ) 2 , (11)

Figure 11. First-order differential processing (PM2.5 concentration)

11. 一阶差分处理(PM2.5浓度)

Figure 12. First-order differential processing (AQI index)

12. 一阶差分处理(AQI指数)

·有偏估计的自相关系数:

acf ^ ( k )= ( Nk ) c k N c 0 = t=k+1 N ( x t μ )( x tμ μ ) t=1 N ( x t μ ) 2 , (12)

式中: acf( k ) 是无偏估计自相关系数, acf ^ ( k ) 是有偏估计自相关系数。

通过自协方差定义偏相关系数:

pacf( p )= ϕ j ,j=1,2,,p, (13)

式中: ϕ j 表示线性相关系数。

然后绘制自相关和偏自相关图,以找到ACF和PACF的序列,如图13所示。

观察上图,可以发现ACF序列和PACF序列都满足皆不截尾的特点,并且都具有明显的一阶相关性,因此设定 p=1,d=1,q=1 。然后初步建立ARIMA模型,为接下来进行数据拟合做准备。

Step3:模型参数估计及检验

首先设定几组变量,用 X t 表示一个时间序列, x t 表示序列 t 中第个点, t 表示序列长度。定义序列的均值为 μ ,标准差为 σ ,方差为 σ 2 ,相应计算公式如下:

Figure 13. Combination of autocorrelation and partial autocorrelation (PM2.5 concentration and AQI index)

13. 自相关与偏自相关组合图(PM2.5浓度和AQI指数)

μ=E( X t ), (14)

σ 2 =D( X t )=E( ( X t μ ) 2 ). (15)

用协方差刻画长度一样的两条不同序列 X t Y t 的相关性:

cov( X t , Y t )=E( ( X t μ x )( Y t μ ) ), (16)

一般协方差的值越大,说明序列的相关性越强。

通过上述过程可以确定 p,q 设定的准确性,现估计 p,q 参数均为1,然后进行显著性分析,得到ARIMA模型参数显著,初步判断该模型有效。

Step4数据拟合和白噪声测试

利用ARIMA模型对原始数据进行拟合,如图14图15所示的结果,从中可以看出原始数据和拟合数据几乎重叠,表明模型拟合度较高。可行性通过对ACF和PACF进行残余白噪声测试,进一步确保了模型的性能,并将残差级数判断为白噪声。

Figure 14. Fitting effect of PM2.5 concentration (ARIMA model)

14. PM2.5浓度拟合效果图(ARIMA模型)

Figure 15. AQI index fitting effect (ARIMA model)

15. AQI指数拟合效果图(ARIMA模型)

Step5:模型预测与结果分析

根据上述过程,进行最终的模型预测,这里拟合了未来一年内PM2.5浓度和AQI指数的预测曲线,分别见图16图17

Figure 16. Trend of PM2.5 concentration in the next year (ARIMA model)

16. 预测未来一年内PM2.5浓度的变化趋势图(ARIMA模型)

3.3. 自适应混合预测模型——BP-ARIMA模型

对于BP神经网络和ARIMA模型,部分序列用作测试集。在预测过程中,模型的性能越好,对未来预测值的权重越大。因此,本文将两个模型结合起来,通过线性加权两个模型的输出形成最终的预测结果。

Step1将原始数据真实值写为:

y i ={ y 1 , y 2 ,, y n }. (17)

Step2将两种算法的预测值写为:

y ^ k,i ={ y ^ k,1 , y ^ k,2 ,, y ^ k,n },k=1,2;i=1,2,,n. (18)

Figure 17. Trend of AQI index in the next year (ARIMA model)

17. 预测未来一年内AQI指数的变化趋势图(ARIMA模型)

Step3两种算法的预测误差表示为:

φ k,i = | y i y ^ k,i | y i . (19)

Step4混合模型的总误差表示为:

φ k = φ k,i . (20)

Step5不同模型的权重表示为:

w k = 1 φ k k ( 1 φ k ) . (21)

Step6计算混合模型预测值,将BP神经网络模型和ARIMA模型的预测值进行结合,具体公式如下:

y ^ i = k w k y ^ k,i . (22)

Figure 18. Trend of PM2.5 concentration predicted by the mixed model

18. 混合模型预测PM2.5浓度的变化趋势图

Figure 19. Trend of the mixed model predicting the AQI index

19. 混合模型预测AQI指数的变化趋势图

通过计算,得到BP神经网络模型的权重为0.614,ARIMA模型的权重为0.386。基于线性加权法则,利用Python程序进行求解,得到混合模型的预测值,最后绘制PM2.5浓度和AQI指数的预测曲线如图18图19所示。

4. 结论与建议

4.1. 结论

本文采用BP神经网络和ARIMA模型相结合的形式,构建一个混合预测模型,将二者模型的输出进行线性加权,得到新的预测结果,从而作为BP-ARIMA模型的预测结果。

鉴于上述模型分析及结果,可以预见未来一年内PM2.5浓度将在[0, 200]范围内波动,而AQI指数将在[0, 250]范围内波动,这意味着未来的空气质量会在良好到中度污染之间波动。对比以前的空气质量等级,未来空气质量可能会有所改善,AQI指数明显降低,但仍需持续关注和采取有效措施来应对未来可能出现的空气污染问题。

对于未来空气质量的变化趋势,人们可以采取一系列措施来应对未来空气质量的波动,政府部门需要加强监测和预警系统,确保及时发布空气质量信息,以便公众可以采取适当的防护措施。同时,社会各界应该共同努力,改善未来的空气质量,保障人民身心健康和生态环境的可持续发展。对此,本文提出了以下四大预警措施:

(1) 监测预警:严格监测大气污染物浓度和气象条件,根据监测到的数据及时准确地判断空气质量状况,提前发出预警信息,向公众呈现实时的空气质量指数(AQI)等信息。

(2) 消息预警:通过各种形式的媒体发布空气质量预警信息,包括短信、电视、广播、网络等多种渠道,提醒公众关注空气质量,在空气质量出现恶化时提供必要的指导和建议,并采取有效措施进行防护。

(3) 协调预警:政府部门、企业和公众应协同合作,轮流降低污染的排放,限制或停止一些高污染行业的生产经营活动,减少交通拥堵,帮助改善空气质量。

(4) 健康预警:根据空气质量的具体情况,建议公众在戴口罩、减少户外活动等方面采取相应的个人防护措施,特别是儿童、老人和身体虚弱的人群,更应特别关注和加强防范。

4.2. 建议

根据BP-ARIMA模型的预测结果,尽管未来空气质量会有所改善,但仍需做好相关预警措施预防空气污染,确保身心健康。以下是根据当前空气质量状况所提出的一些建议[10]

1. 政府角度

(1) 加强监管和执法:政府应加强对工业企业、交通运输等领域的环境监管和执法力度,确保各项环保法规得到有效执行,减少污染物排放。

(2) 建立完善的监测网络:建立完善的空气质量监测网络,覆盖城乡各地,确保实时监测数据的准确性和及时性,为政府决策提供科学依据。

(3) 推动技术创新:投入资金支持环境保护科技研发和应用,推动污染治理技术的创新和应用,提高污染治理效率和水平。

(4) 增加资金投入:加大在空气质量监测、治理和预防方面的财政投入。

(5) 加强跨部门合作:政府部门之间需要加强合作,形成联防联控的工作机制,共同应对空气污染问题,实现资源共享和信息互通。

(6) 宣传教育:加强环保意识宣传教育,提高公众对空气污染问题的认识,引导公众树立绿色低碳的生活理念。

2. 公众角度

(1) 节能减排:公众应从自身做起,积极参与节能减排活动,减少能源消耗和排放,如合理使用能源、减少不必要的能源浪费等。

(2) 选择清洁能源交通工具:选择清洁能源交通工具,如电动汽车、自行车等,减少对空气质量的负面影响。

(3) 减少一次性用品使用:减少使用一次性塑料制品和其他环境污染物,选择可重复使用的环保产品,降低对环境的负荷。

(4) 倡导绿色出行:倡导绿色出行方式,鼓励步行、骑行和使用公共交通工具,减少个人汽车使用对空气质量的影响。

(5) 积极参与环保行动:参与环保组织或活动,积极参与环保志愿者活动,为改善空气质量贡献自己的一份力量。

(6) 监测空气质量:公众可以关注当地空气质量监测数据,及时了解空气质量状况,采取相应的防护措施,保护自身健康。

3. 企业角度

(1) 推行清洁生产:企业应积极推行清洁生产,采用清洁能源替代传统高污染的生产方式,减少生产过程中的污染排放。

(2) 加强环保投入:加大环保投入,用于技术更新、污染治理设施建设等,提高企业的环境保护意识和责任感。

(3) 建立环境管理体系:建立健全的环境管理体系,制定环境管理规定和标准,加强对生产过程中环境影响的监控和管理。

4. 科研角度

(1) 开展环境监测技术研究:加强环境监测技术研究,以提高监测手段和技术水平,为准确监测空气质量提供技术支持。

(2) 开展环境污染治理技术研究:开展环境污染治理技术研究,探索高效、低成本的污染治理技术和方案,为空气质量改善提供科学依据。

基金项目

2024年度湖南省大学生创新创业训练计划一般项目,基于BP-ARIMA模型的空气质量监测研究——以湘西自治州为例。

NOTES

*第一作者。

#通讯作者。

参考文献

[1] 王娇娇, 赵静敏, 左克文. 经济可持续发展视角下的空气污染问题研究[J]. 中国市场, 2018(20): 37-39.
[2] 湖南省生态环境厅. 2022年10月全省14个市州城市环境空气质量状况及排名[EB/OL].
https://sthjt.hunan.gov.cn/sthjt/xxgk/zdly/hjjc/hjzl/dqzlzk/202207/t20220711_27555271.html, 2025-03-15.
[3] 湘西土家族苗族自治州生态环境局. 2024年6月20日湘西州空气质量日报数据一览[EB/OL]. 环境空气质量日报.
https://sthjj.xxz.gov.cn/ztzl/hjkqzlrb/202406/t20240621_2158038.html, 2025-03-15.
[4] 湘西土家族苗族自治州生态环境局. 空气质量[Z].
[5] 王欣, 李雷, 张帅. 基于机器学习的北京市PM2.5浓度预测方法[J]. 环境科学与污染研究, 2018, 25(14): 13953-13962.
[6] 蒋宇, 李志, 刘军. 南京市PM2.5浓度的时间序列分析与预测[J]. 大气污染研究, 2018, 9(5): 886-894.
[7] 娄智昊. 基于CNN-LSTM的空气质量预报建模方法[J]. 长江信息通信, 2024, 37(12): 43-45.
[8] 章丽萍, 程圆, 王郁聪, 等. 基于BP神经网络的科创板企业研发成本预测[J]. 会计之友, 2023(8): 74-81.
[9] 吴会会, 王嘉鹏, 吴文静, 等. 基于ARIMA模型的全球气表温度预测分析[J]. 现代信息科技, 2023, 7(16): 147-150.
[10] 人大建议. 关于加大力度加强大气污染治理工作的建议[EB/OL].
https://hbj.nantong.gov.cn/ntshbj/jytabljg/content/357c427d-e044-428e-a211-e975bf1b1d58.html, 2025-03-18.