河南省空气质量前瞻性预测研究
Prospective Prediction Study on Air Quality in Henan Province
摘要: 本文依据往年河南省空气质量数据建立ARIMA模型以及BP神经网络模型,对河南省未来的空气质量进行预测研究,并比较其预测效果。研究构建ARIMA模型以及BP神经网络空气质量预测模型,经相关检验修正符合要求后,建模结果显示所建模型精度高,可以满足对河南省空气质量预测要求,具有实践意义。研究结果表明,ARIMA模型预测结果显示2023年河南省AQI仍呈现季节性变化但相较于2018~2022年有所下降。BP模型预测结果显示,2023年河南省AQI逐月变化呈“V”形,据年变化而言,河南省空气质量在向好的趋势发展。ARIMA模型和BP神经网络模型均能有效预测河南省的空气质量,但BP模型的拟合效果以及均方误差均优于ARIMA模型,预测曲线与真实曲线更接近,均方误差更小,因此可为河南省空气质量预测提供依据。
Abstract: Based on the air quality data of Henan Province in previous years, ARIMA model and BP neural network model are established in this paper to predict the future air quality of Henan Province, and compares their prediction effects. Research and construction of ARIMA model and BP neural network air quality prediction model. After relevant testing and correction, the modeling results show that the established model has high accuracy and can meet the requirements of air quality prediction in Henan Province, which has practical significance. The research results indicate that the ARIMA model predicts that the AQI in Henan Province will still show seasonal changes in 2023, but will decrease compared to 2018~2022. The BP model prediction results show that the monthly AQI in Henan Province will change in a “V” shape in 2023. According to the annual changes, the air quality in Henan Province is developing in a positive trend. Both ARIMA model and BP neural network model can effectively predict the air quality in Henan Province, but the fitting effect and mean square error of BP model are better than ARIMA model. The predicted curve is closer to the real curve, and the mean square error is smaller. Therefore, it can provide a basis for predicting the air quality in Henan Province.
文章引用:张静洳, 孙秋棪, 李家惠, 谢强, 曹欣杰. 河南省空气质量前瞻性预测研究[J]. 统计学与应用, 2024, 13(5): 1995-2007. https://doi.org/10.12677/sa.2024.135194

1. 引言

随着习近平总书记“绿水青山就是金山银山”的发展理念的提出,国家越来越关注生态环境的保护,而空气质量直接关系到生态环境的健康状况,良好的空气质量是生态环境优良的重要标志之一。如果空气质量下降,不仅会影响生态环境的稳定性,还会对人类的健康产生负面影响,降低人们的生活质量。因此,保护和改善空气质量是环境保护工作的重要内容之一。

目前关于空气质量的研究与预测已取得许多瞩目成果:昆明理工大学的黄琨在其研究[1]中,基于时空特征分析构建了空气质量预测模型,为空气质量预测提供了新的思路和方法。北京石油化工学院的张雨晴在[2]中,通过对时空特征的深入研究,建立了空气质量预测模型,对空气质量的变化趋势进行了准确预测。此外,中南大学的曹子杰[3]对面向地铁车站候车区空气污染物的多元预测方法进行了研究,为特定区域的空气质量预测提供了有益的参考。东北财经大学的黄杰[4]在空气质量预测问题研究中,提出了一些创新的预测方法和模型。

河南省处于沿海地区与中西部地区的结合部,位于中国中东部,是全国重要的矿产资源大省。河南省地势西高东低,北、西、南三面山脉环绕,容易形成静风等不利的气象条件,导致大气污染物扩散条件差,进而引发中、重度污染。对于河南省的实际情况,国内许多高校对河南省的空气质量也进行了相关的研究。例如:安徽建筑大学的顾娇娇在[5]中,对中部六省地区空气质量进行了时空统计分析与预测,其中包括对河南省空气质量的研究。河南理工大学的张训赦在[6]中,对河南省生态文明建设水平进行了评价研究,其中涉及空气质量的相关内容。

总的来说,国内高校关于空气质量的研究对国家空气质量改善和环境保护有着重大意义,不仅提升了公众的科学认知,还推动了政策制定、技术创新和公众意识的提升,非常符合国家生态的发展和研究需要,应当坚持并且不断完善。

2. ARIMA模型对河南省空气质量的预测

2.1. 空气质量数据处理

为帮助河南省提出改善空气质量的措施,本文构建出一种经典的时间序列分析模型ARIMA模型,对2018~2022年河南省AQI数据进行处理,以18个地级市AQI月均值为代表,采用ARIMA模型[1]预测出河南省12个月分别的AQI指数,从而采取有效措施减少污染物的排放,改善空气质量。

2.2. 序列平稳性分析

为确保时间序列数据的适用性和预测模型的有效性,本文进行了序列的平稳性检验,旨在识别河南省空气质量数据是否围绕某一均值水平波动,且波动幅度与时间无关,即检验河南省空气质量数据是否具有时间上的稳定性。本文运用图检验法来进行平稳性检验,得出2018~2022年河南省AQI指数时序图,如图1所示。

Figure 1. Time series chart of AQI index in Henan province from 2018 to 2022

1. 2018~2022年河南省AQI指数时序图

从时序图(图1)可看出,该序列较为平稳,为进一步验证这一结果,对该序列进行差分平稳化处理,通过差分平稳化处理以及ADF检验判断出该序列是否是平稳的序列。

2.3. 差分预处理

本文首先对原序列作最优差分处理,绘制出相应时序图,观察差分后序列的时序图特征,旨在将非平稳的时间序列数据转化为平稳序列,以便进行更深入地分析和建模。0阶12步差分后序列时序图如图2所示。

图2可看出,0阶12步差分后序列时序图无明显趋势和周期效应,数据基本上是在[−60, 60]之间波动,只有个别数据未在此范围中,可认为这些是特殊值,总体来说,0阶12步差分后序列整体比较稳定,但由于ARIMA模型中图检验法不能准确确定数据是否稳定,因此,在差分后再次做单位根检验以验证模型是否平稳。

Figure 2. Timing diagram of the sequence after 12 step differencing at order 0

2. 0阶12步差分后序列时序图

2.4. 对差分后的数据进行单位根检验(ADF)

本文为验证差分处理后的序列是否确实达到了平稳状态,进一步实施了单位根检验,从而确认差分处理的有效性,得出的ADF检验表如表1所示。

Table 1. ADF inspection form

1. ADF检验表

ADF检验表

变量

差分阶数

t

P

AIC

临界值

1%

5%

10%

AQI

0

−7.435

0.000***

415.696

−3.575

−2.924

−2.6

1

−7.624

0.000***

414.897

−3.581

−2.927

−2.602

2

−4.921

0.000***

430.156

−3.585

−2.928

−2.602

注:******分别代表1%、5%、10%的显著性水平。

表1可得P值均小于0.05,则说明拒绝原假设,该序列为平稳时间序列,最终得出最佳差分序列图,即0阶12步差分后序列的时序图,因此可验证出原序列是平稳序列。最佳差分序列图如图3所示。

Figure 3. Optimal differential sequence diagram

3. 最佳差分序列图

2.5. 模型残差自相关图(ACF)分析

输出的模型残差自相关图如图4所示:

Figure 4. Model residual autocorrelation diagram

4. 模型残差自相关图

在构建并拟合时间序列模型后,本文输出了模型残差的自相关函数图。ACF图用于评估模型残差中是否存在未被模型捕捉到的自相关性。从图4可看出相关系数全在虚线内,因此,该模型为非白噪声序列,即该序列不是随机的,可对未来的趋势进行预测。

2.6. 模型检验表输出

Table 2. Model verification table

2. 模型检验表

ARIMA模型(3,0,3)检验表

符号

Df Residuals

52

样本数量

N

59

Q统计量

Q6 (P值)

0.414 (0.520)

Q12 (P值)

1.677 (0.947)

Q18 (P值)

24.273 (0.019**)

Q24 (P值)

26.063 (0.098*)

Q30 (P值)

40.728 (0.018**)

信息准则

AIC

548.746

BIC

565.366

拟合优度

R2

0.346

注:******分别代表1%、5%、10%的显著性水平。

ARIMA模型要求模型残差不存在自相关性,即模型残差为白噪声,由模型检验表(如表2所示)可得出,Q6和Q12均不显著,因此其模型残差为白噪声,满足建立ARIMA模型的条件,因此,本文采用ARIMA模型对数据进行预测。

2.7. 输出时间序列图

由上述分析及检验可知模型的残差为白噪声序列,由此可构建ARIMA模型,由 SPSS输出的模型参数表(如表3所示)和时间序列图(如图5所示)可得:

Table 3. Model coefficient table

3. 模型系数表

常数

ar.L1

ar.L2

ar.L3

ma.L1

ma.L2

ma.L3

系数

−0.451

−0.317

−0.512

0.224

−0.296

0.303

−0.942

Figure 5. Time series diagram

5. 时间序列图

可建立ARIMA模型如下:

y ( t ) =0.4510.317 y ( t1 ) 0.512 y ( t2 ) +0.224 y ( t3 ) 0.296 ε ( t1 ) +0.303 ε ( t2 ) 0.942 ε ( t3 )

最后,本文通过MATLAB2022软件利用ARIMA模型预测代码对河南省未来一年每月AQI指数进行预测,最终得出如表4所示的结果:

Table 4. ARIMA Model’s prediction results for AQI index

4. ARIMA模型对AQI指数预测结果表

时间

ARIMA预测

2023-01

89.21

2023-02

86.88

2023-03

89.49

2023-04

96.09

2023-05

101.30

2023-06

101.36

2023-07

97.61

2023-08

94.45

2023-09

94.88

2023-10

97.99

2023-11

100.52

2023-12

100.26

3. BP神经网络模型对河南省空气质量的预测

为使模型预测效果更加精确,本文采用BP神经网络模型[7],使得网络能够根据输入的数据预测出期望的输出[8],通过不断地学习和调整,最终实现对输入数据的准确预测通过该方法进行预测,将两种方法结果比较,以此得到更精准的预测结果,减小误差,为河南省改善空气质量的措施提供更加坚实的数据基础。

3.1. 数据归一化处理

由于输入数据单位不同等原因,本文将网络训练的目标数据映射到激活函数的值域,对数据进行归一化处理,以此避免多种因素对数据预测结果产生的影响,从而得到更加可靠的结果。

3.2. 数据划分

为更好对数据进行预测,本文按训练数据80%,测试数据20%的分割比例将2018~2022年AQI数据划分为训练数据和测试数据,训练数据用于构建BP神经网络,测试数据用于测试训练出来的模型拟合效果和预测。

3.3. 构建BP神经网络模型

Figure 6. Structure diagram of BP neural network model

6. BP神经网络模型结构图

该模型由AQI各项影响因素指标作为输入,以AQI指标作为输出,即本文中输入单元数为9,输出单元数为1,故根据上式可以计算出神经元个数为4~13个之间,故在本文中选取隐含层的节点个数为6。BP神经网络模型结构图如图6所示。

3.4. 训练集训练

本文首先对训练集数据进行预测,通过观察训练集预测拟合效果来验证该模型对本研究数据的预测是否有较好的拟合效果。

Figure 7. Fitting results of AQI training set

7. AQI训练集拟合结果图

图7可看出,对训练集数据进行预测时,预测值与真实值的拟合效果较好,其间并无突出误差,因此利用BP神经网络模型对河南省未来一年12个月的AQI指数进行预测。

Figure 8. Fitting results of AQI prediction set

8. AQI预测集拟合结果图

3.5. 预测集预测

通过对预测集中数据预测值以及真实值数据进行可视化分析,得出预测集的拟合效果图,如图8所示:

图8可看出,在进行数据预测时,其拟合效果较好,其间无突出误差,因此,BP神经网络模型可以作为预测的模型之一。

3.6. 得出预测结果

通过python软件,用BP神经网络模型对河南省未来一年每月AQI指数进行预测,最终得出如表5所示的结果:

Table 5. Prediction results of BP neural network model

5. BP神经网络模型预测结果表

时间

bp预测

2023-01

124.18

2023-02

110.88

2023-03

97.61

2023-04

83.04

2023-05

93.64

2023-06

90.70

2023-07

81.09

2023-08

77.92

2023-09

103.89

2023-10

100.00

2023-11

103.43

2023-12

116.59

4. ARIMA模型和BP神经网络模型预测比较

4.1. 定性比较

函数拟合可通过对已有数据分析,揭示数据内在规律,从而找到最优拟合函数,以此更好地理解数据的变化趋势和规律。通过对拟合函数的延伸,可得出未来数据的预测结果。因此,本文通过将ARIMA模型以及BP神经网络模型的拟合效果图进行对比,比较两者的拟合效果,从而说明哪一个模型预测效果较好。

观察图9可得,ARIMA模型的拟合效果图在预测值与估计值之间起伏程度大,误差大,拟合效果不太好,而BP神经网络模型的拟合效果图可看出其真实值与预测值之间的波动程度相对来说较小,拟合效果较好。拟合效果越好,预测精度越高,因此可得BP神经网络模型的拟合效果较好。

Figure 9. Fitting effect of ARIMA model and BP neural network model

9. ARIMA模型与BP神经网络模型的拟合效果图

4.2. 定量比较

本文通过均方误差MSE的比较来探究两种预测模型的效果[9]哪个更好,通过SPSS软件可得出ARIMA模型下该数据RMSE大小,如表6所示:

Table 6. ARIMA model statistics table

6. ARIMA模型统计表

模型统计

模型

预测变量数

模型拟合度统计

杨–博克斯Q(18)

离群值数

平稳R2

RMSE

统计

DF

显著性

AQI-模型_1

0

0.213

21.147

27.401

17

0.052

0

运用Python软件可计算出,在BP神经网络下MSE = 0.11,而由表6可以看出ARIMA模型的RMSE = 21.147,由于 RMSE= MSE ,从而可以看出在ARIMA预测模型下的MSE远大于BP预测模型下的MSE,可证明BP预测模型拟合效果更好。

综上所述,对于本文而言,BP神经网络模型的拟合效果更好。

5. 结论与建议

5.1. 结论

5.1.1. 河南省空气质量整体呈现向好趋势

尽管在某些月份,如1月份,AQI指数可能达到相对较高的水平,但整体上,河南省的空气质量正在逐步改善。这一结论与模型预测的“V”形变化趋势相一致,表明空气质量在年中可能会达到较好的状态。

5.1.2. 河南省空气质量改善的空间仍然存在

尽管模型预测显示空气质量整体向好,但个别月份的AQI指数仍然较高,表明在减少污染物排放、加强空气质量监测与治理等方面仍有待加强。相关部门应继续加大力度,采取有效措施,推动河南省空气质量的持续改善。

5.1.3. BP神经网络模型效果更好

通过对比两种模型的预测结果,我们发现BP神经网络模型在河南省空气质量预测中具有更高的可靠性和准确性,因此,建议相关部门在空气质量预测和管理工作中优先考虑采用BP神经网络模型。

5.2. 建议

5.2.1. 加强站点建设维护

加强空气质量监测站点的建设和维护,确保数据的准确性和实时性。这不仅是空气质量预测工作的基础,也是保障人民群众生态环境权益的重要措施。

5.2.2. 优化模型

进一步优化BP神经网络模型,提高其在空气质量预测中的精度和效率。可以考虑引入更多的影响因素指标作为输入,或者调整模型的参数和结构,以更好地适应河南省空气质量的实际情况。

5.2.3. 调整改善措施

加强对空气质量预测结果的应用和管理。相关部门应根据预测结果及时制定和调整空气质量改善措施,确保河南省空气质量持续改善,保障人民群众生态环境权益。

5.2.4. 探索先进技术

推广和应用先进的空气质量预测技术。除了BP神经网络模型外,还可以探索其他先进的预测方法和技术,如深度学习、机器学习等,以提高空气质量预测的整体水平。

NOTES

*通讯作者。

参考文献

[1] 黄琨. 基于时空特征分析的空气质量预测模型研究[D]: [硕士学位论文]. 昆明: 理工大学, 2022.
[2] 张雨晴. 基于时空特征的空气质量预测模型研究[D]: [硕士学位论文]. 北京: 北京石油化工学院, 2023.
[3] 曹子杰. 面向地铁车站候车区空气污染物的多元预测方法研究[D]: [硕士学位论文]. 长沙: 中南大学, 2023.
[4] 黄杰. 空气质量预测问题研究[D]: [硕士学位论文]. 大连: 东北财经大学, 2023.
[5] 顾娇娇. 中部六省地区空气质量时空统计分析与预测[D]: [硕士学位论文]. 合肥: 安徽建筑大学, 2023.
[6] 张训赦. 河南省生态文明建设水平评价研究[D]: [硕士学位论文]. 焦作: 河南理工大学, 2022.
[7] 谭云骧, 刘彦宗, 计效园, 等. 基于BP神经网络的铸钢件化学成分、热处理工艺与力学能关系预测[C]//中国机械工程学会, 铸造行业生产力促进中心. 2019中国铸造活动周论文集. 2019: 957-964.
[8] 陈艺天. ARIMA模型在我国人均生活能源消费量预测中的应用[J]. 科技创新导报, 2011(26): 194.
[9] 张伟华, 陆迎迎, 徐卫, 等. 基于自回归模型和LSTM的空气质量预测研究[C]//中国高科技产业化研究会智能信息处理产业化分会. 第十六届全国信号和智能信息处理与应用学术会议论文集. 2022: 607-611.