基于时间序列的上海市空气质量变化与污染物特征分析
Analysis of Air Quality Change and Pollutant Characteristics in Shanghai Based on Time Series
DOI: 10.12677/SA.2021.101012, PDF, HTML, XML, 下载: 461  浏览: 1,238  国家社会科学基金支持
作者: 赵子杰, 王晨旻, 林沛辰, 白晓东*:大连民族大学理学院,辽宁 大连
关键词: 时间序列季节模型Holt-Winters指数平滑AQI指数Time Series Seasonal Model Holt-Winters Exponential Smoothing AQI Index
摘要: 本文收集了上海市2014年1月至2020年10月期间的空气质量与主要污染物数据的共计七项指标,在建立时间序列的基础上,采用时间序列季节模型与Holt-Winters指数平滑法对数据进行拟合,并预测未来五期数据。拟合结果表明,上海市空气质量与污染物含量长期以来呈总体下降趋势,并且具有明显的季节性周期变化特征。
Abstract: This paper collects a total of seven indicators of air quality and major pollutant data in Shanghai from January 2014 to October 2020. Based on the establishment of time series, the time series seasonal model and Holt-Winters exponential smoothing method are used to fit the data and predict the next five periods of data. The fitting results show that the air quality and pollutant content in Shanghai have shown an overall downward trend for a long time, and have obvious seasonal and periodic changes.
文章引用:赵子杰, 王晨旻, 林沛辰, 白晓东. 基于时间序列的上海市空气质量变化与污染物特征分析[J]. 统计学与应用, 2021, 10(1): 115-131. https://doi.org/10.12677/SA.2021.101012

1. 引言

随着气候变化,环境保护等话题在全球范围内得到了更加广泛的关注,人们逐渐意识到空气质量与自身生活密切相关,国家也在空气质量与污染治理问题上投入了越来越多的关注。对空气质量与污染物特征的分析研究对空气质量治理具有重要意义。本文使用时间序列相关方法,对上海市空气质量与污染物特征的长期趋势以及周期性波动给出合理的解释,有助于有关部门更好落实空气质量治理。

2. 问题分析

对上海市82期月度数据进行时间序列建模,提取其中长期的线性趋势。由于空气质量数据表现出明显的周期性特征,我们分别采取季节模型以及Holt-Winters指数平滑法对时间序列数据进行拟合并预测五期结果,比较两种模型的优劣,选择最优模型。

3. 名词解释

1) 季节模型 [1]: y t = d s D x t ,若 { y t } 满足季节周期为s的 A R M A ( p , q ) × ( P , Q ) 模型,则称 { x t } 为季节周期为s,非季节阶数为p,d,q,季节阶数为P,D,Q的乘积季节求和自回归移动平均模型,记作 S A R M A ( p , d , q ) × ( P , D , Q ) s

2) Holt-Winters指数平滑 [2] [3]:在Holt线性指数平滑的基础上考虑季节变动的影响,一般来讲,对于趋势和季节的加法模型,Holt-Winters指数平滑法的公式如下

{ α t = α ( x t s t π ) + ( 1 α ) ( α t 1 + b t 1 ) ; b t = β ( α t α t π ) + ( 1 β ) b t 1 ; s t = γ ( x t α t ) + ( 1 γ ) s t π

其中, α t 为该序列水平部分; b t 为该序列的趋势部分; s t 为该序列季节部分; π 为一个季节的周期长度; α β γ 为平滑系数,介于0到1之间。

3) 时间序列 [1] [2]:在统计研究中,一般将按时间顺序排列的一组随机变量 X 1 , X 2 , , X t , 成为一个时间序列(time series),简记为 { X t , t T } 。用 { x t , t = 1 , 2 , n } 表示该序列的n个有序观测值。

4) AQI指数:空气质量指数(Air Quality Index),就是根据空气中的各种成分占比,将监测的空气浓度简化成为单一的概念性指数值形式,它将空气污染程度和空气质量状况分级表示,适合于表示城市的短期空气质量状况和变化趋势。

a) 一级:空气污染指数 ≤ 50优级

b) 二级:空气污染指数 ≤ 100良好

c) 三级:空气污染指数 ≤ 150轻度污染

d) 四级:空气污染指数 ≤ 200中度污染

e) 五级:空气污染指数 ≤ 300重度污染

f) 六级:空气污染指数 > 300严重污染

4. 模型假设

1) 假设模型采集的数据口径相同,无太大误差。

2) 假设2014年1月至2021年1月间上海市未发生导致观测数据出现极端离群值,脱离长期趋势,足以导致模型结果明显误差的事件。

3) 假设上海市空气质量数据以及污染物特征指标连续且具有某种特定趋势,可以进行时间序列建模。

5. 数据预处理

我们收集了2014年一月到2020年十月间的AQI指数,PM2.5浓度,PM10浓度,SO2浓度,NO2浓度,CO浓度,O3浓度的每日数据,取每月的平均值,对月度数据进行建模。

6. 时间序列模型建立

6.1. 序列平稳性检验

根据上海市空气质量与污染物特征的六项指标,绘制时序图如图1所示,并进行线性拟合。可以直观看出AQI指数以及其他物种空气污染物指数均呈现长期下降趋势,并且具有明显的周期性季节波动。为非平稳序列。对六组数据的时间序列进行白噪声检验,p值均小于0.05,说明六组数据的时间序列均为非白噪声序列,不能直接进行建模。

Figure 1. Time series of air quality and pollutant content

图1. 空气质量及污染物含量时序图

为消除其中的趋势,我们尝试采用一阶十二步差分对序列进行处理,得到差分后的时序图如图2

Figure 2. First-order twelve-step difference timing diagram of air quality and pollutant content

图2. 空气质量及污染物含量一阶十二步差分时序图

可以看出所有序列在步长为12的一阶差分后已经没有显著趋势或规律波动,白噪声检验所有差分后的序列p值均小于0.05,通过白噪声检验。

6.2. 季节模型

由于数据表现出明显的季节性周期波动,我们考虑使用季节模型来拟合序列。所有指标序列均为非平稳序列,且有季节性特征,于是我们对序列进行步长为12的一阶差分,目的是消除季节的影响。使用sarima模型对序列进行拟合得到结果如表1所示。

Table 1. Seasonal model fitting results

表1. 季节模型拟合结果

根据诊断图图3图4图5可知,七组数据的模型拟合结果残差acf值始终在二倍标准差范围内,残差检验p值始终大于0.05,QQ图中残差聚集在参考线附近,说明模型对信息的提取比较完善充分,拟合结果成功(SO2,NO2,CO,O3的诊断图详见附录)。

在季节模型的基础上,我们对未来五期的上海市空气质量与空气污染物含量进行预测,预测结果如图6所示,AQI指数以及各污染物含量在2020年十二月达到峰值,随后迅速回落,整体上延续了长期下降的趋势。

Figure 3. AQI index seasonal model diagnosis diagram

图3. AQI指数季节模型诊断图

Figure 4. PM2.5 seasonal model diagnosis diagram

图4. PM2.5季节模型诊断图

Figure 5. PM10 seasonal model diagnosis diagram

图5. PM10季节模型诊断图

Figure 6. Five-phase forecast of seasonal model

图6. 季节模型五期预测

6.3. Holt-Winters指数平滑法

使用Holt-Winters指数平滑法可以有效提取序列中的长期趋势和季节周期性信息,图7中黑色折线为实际数据的时序图,红色为使用Holt-Winters指数平滑法进行拟合后的拟合曲线,所有指标的重合程度都比较高,拟合效果较好。

Figure 7. Holt-Winters exponential smoothing fitting

图7. Holt-Winters指数平滑拟合

在此基础上对AQI指数,PM2.5,PM10,SO2,CO,NO2,O3共七项指标进行五期预测,预测结果如图8所示。与季节模型的预测结果大致相似,未来五个月内,上海市AQI指数与各项空气污染物指标将在2020年十二月达到峰值,然后回落,呈长期下降趋势。

Figure 8. Holt-Winters five-phase forecast

图8. Holt-Winters五期预测

6.4. 预测分析

根据模型拟合结果我们列出了季节模型和Holt-Winters指数平滑两种方法的预测值,预测区间和实际值对比,在此列出了AQI指数(表2),PM2.5 (表3),PM10 (表4)的预测结果,SO2,NO2,CO,O3的预测结果详见附录。

结果显示,两种模型的预测结果都与实际情况高度相符,实际值均落在预测值80%区间内,说明模型对未来空气质量及污染物特征的预测具有很高的准确度。

Table 2. AQI prediction value

表2. AQI预测值

Table 3. PM2.5 prediction value

表3. PM2.5预测值

Table 4. PM10 prediction value

表4. PM10预测值

线性拟合结果表明,未来的一段时间里,AQI指数,空气污染物含量仍然将保持下降趋势,这表明我国长期以来的环境保护和空气质量治理工作取得了切实成效。由于冬季气候干燥,从气象学角度本来就容易产生空气污染,加之取暖等煤炭燃烧,导致了每年十一月,十二月,到次年一月间,空气污染尤其严重,数据呈现的季节性周期波动符合这一客观事实。

综上所述,我们认为在未来的一段时间,空气质量将长期持续得到改善,空气污染物含量将持续呈整体下降趋势,具体数值将围绕趋势周期性波动。在每年冬季达到周期内的峰值。

7. 模型评价

7.1. 模型优点

1) 采用两种模型对同一序列进行分析,相互对照补充,使结论更加完整准确。

2) 短期内预测值与实际值贴合良好,准确度高,具有较高的参考价值。

3) 充分利用了周期性特征,对信息的利用提取较为充分。

7.2. 模型缺点

由于文章完成时,五期预测中,一月只有前二十天的实际值,二月,三月还没到来,无法获取实际值,因此后续预测结果有待完善补充。

8. 总结

本文使用季节模型和Holt-Winters指数平滑法,对上海市2014年一月到2020年十月的AQI指数,PM2.5浓度,PM10浓度,SO2浓度,NO2浓度,CO浓度,O3浓度进行时间序列建模,并采用季节模型与Holt-Winters指数平滑法对序列进行拟合,得到五期预测值。有效准确地拟合了上海市近年来的空气质量与空气污染物特征,对未来上海市空气质量和污染治理具有很好的参考价值。

基金项目

国家级大创项目资助(项目编号:202012026040)。

数据来源

1) https://www.aqistudy.cn/historydata/ PM2.5历史数据。

2) https://www.cnki.net/ 中国知网。

参考文献

附录

附录一. SO2, NO2, CO, O3诊断图

Figure 9. Diagnosis of SO2 seasonal model

图9. SO2季节模型诊断图

Figure 10. Diagnosis of CO seasonal model

图10 CO季节模型诊断图

Figure 11. Diagnosis of NO2 seasonal model

图11. NO2季节模型诊断图

Figure 12. Diagnosis of O3 seasonal model

图12. O3季节模型诊断图

附录二. 五期预测值对比表

Table 5. SO2 prediction value

表5. SO2预测

Table 6. CO prediction value

表6. CO预测

Table 7. O3 prediction value

表7. O3预测

Table 8. NO2 prediction value

表8. NO2预测

附录三. 原始数据

Table 8. NO2 prediction value

NOTES

*通讯作者。

参考文献

[1] 白晓东. 应用时间序列分析[M]. 北京: 清华大学出版社, 2017.
[2] 何书元. 应用时间序列分析[M]. 北京: 北京大学出版社, 2003.
[3] 张鲁玉, 孙亮, 马兰, 鲁頔, 陈雪娇, 田庆丰. SARIMA模型和Holt-winters模型在我国丙肝月报告发病人数预测中的应用比较[J]. 现代预防医学, 2020, 47(21): 3855-3858, 3951.