1. 引言
研究背景及意义
北京、上海和广州作为中国的一线城市,在城市发展、人才吸引、经济实力、教育普及、国际竞争力、交通和科技创新等方面表现突出[1],这些城市同样也是中国科技创新的中心,集聚了大量高科技企业和研发机构,经济活动、能源消耗、工业规模和机动车数量居全国前列[2]。然而,城市的快速发展也带来了人口密集、交通拥堵和环境污染等问题,尤其是环境污染对城市发展带来了巨大压力。因此,改善环境质量已成为急需解决的问题。
为此,我们开展北京、上海和广州这三个一线城市环境空气中PM2.5和PM10细颗粒污染物未来趋势的研究。拟建立恰当的时间序列模型分析各城市细颗粒污染的变化规律和特征,并对未来趋势作出预测分析,有助于人们认识到空气污染对人体健康造成的危害,帮助有关部门提出改善环境质量的有效对策。
2. 预备知识及数据来源
1) 预备知识
a) ARIMA模型
满足下式的模型为
模型
,
,
,
,
;
为平稳可逆的
模型的自回归系数多项式;
为平稳可逆的
模型的移动平滑系数多项式[3]。
b) 季节模型
对于一些非平稳的时间序列来讲,经过d阶差分和D阶差分后,可以变为平稳的时间序列
,即:
若
满足季节周期为s的
模型,则称
为季节周期为s,非季节阶数为
、季节阶数为
的乘积季节求和回归移动平均模型,记作
。
c) AIC准则与BIC准则
赤池信息准则(Akaike Information Criterion,简称:AIC)是评估统计模型的复杂度和衡量统计模型拟合优良性的一种标准,是由日本统计学家Akaike于1973年提出的,它是基于最小信息量思想的准则,在实际应用中,我们应优先考虑AIC值最小的模型。
一般情况下,AIC可以表示为:
AIC准则为模型选择提供了重要依据,但当样本量接近n时,AIC基准确定的模型不收敛于实际模型,模型的阶数高于模型的实际阶数。此时,Akaike提出贝叶斯信息准则(Bayesian Information Criterion,简称:BIC)以弥补AIC准则的不足。定义如下式:
BIC准则考虑了样本个数,样本数量多,可以防止模型精度过高造成的模型复杂度过高。
2) 数据来源
本文数据来源真气网(https://www.aqistudy.cn/historydata/)。选取了北京、上海、广州三个一线城市的AQI、PM2.5、PM10 2014年1月1日-2018年12月31日的逐日数据,共1826个样本。
3. 模型建立与预测
1) 数据预处理
a) 异常值处理
通过绘制北京市、上海市和广州市的AQI、PM2.5、PM10时序图,我们发现样本数据存在异常值,有极个别天数的数据比总体平均值高,为避免后续对建模产生不良影响,我们需要对数据进行标准化,剔除异常数据。
首先,绘制箱形图观察序列中异常值的大致分布情况。在箱线图中,数据的上四分位数(Q3)与下四分位数(Q1)分别位于箱子的上下底,小于Q1−1.5IQR或大于Q3+1.5IQR的值被定义为异常值。见图1。
Figure 1. Box diagram before pretreatment of AQI, PM2.5 and PM10 in Beijing
图1. 北京市AQI、PM2.5、PM10预处理前箱线图
根据箱型图的特性,我们对数据中的异常值进行处理。首先,分别选取coef = 1.1、coef = 1.5、coef = 1.2的盒子长度,使处理前的盒子长度必须为处理后的1.1倍、1.5倍、1.2倍,在异常值处理后,可以看到处理后的箱型图没有明显的特异点,使得后续数据不会对进一步的建模造成较大的影响。然后,我们对数据中的缺失部分进行插值处理,处理后的数据可以进行后续分析。见图2。
Figure 2. Box diagram of pretreatment of AQI, PM2.5 and PM10 in Beijing
图2. 北京市AQI、PM2.5、PM10预处理后箱线图
b) 平稳性检验
为了方便观察大量数据的序列趋势,我们将数据进行分组,利用平均值进行模型的建立,在均值处理后我们使用这60组数据进行时序图的绘制。
由线性拟合图可以看出大部分时序图存在明显的线性趋势,需要进行平稳化处理,我们首先对存在明显趋势的序列进行一阶差分操作,发现部分处理后的序列仍存在明显的季节性周期,进而进行一阶十二步的季节差分处理使序列平稳。见图3。
Figure 3. Linear fitting of AQI, PM2.5 and PM10 in Beijing, Shanghai and Guangzhou
图3. 北京市、上海市、广州市AQI、PM2.5、PM10线性拟合图
Figure 4. Sequence diagram after smoothing
图4. 经过平稳化处理后的时序图
由图4可以看到,经过差分处理后的序列呈现出平稳的性质。但图检验的方法仍存在很强的主观色彩,为了使结果更加准确,我们进一步对差分处理后的序列进行单位根扩展的迪克富勒检验(Augmented Dickey-Fuller Tested,简称ADF检验加以辅助判别。根据ADF检验结果可知所有序列P值均小于0.05,因此可判断序列全部平稳。
c) 序列白噪声检验
进行平稳性判别后,我们还需要对序列进行白噪声检验,确保序列具有统计研究意义。我们对判别为平稳的序列进行Ljung-Box检验[4]。检验结果显示,所有P值均小于显著性水平0.05,因此可以判断序列不是白噪声序列,序列波动具有统计规律,可以进行统计分析。见图5。
Figure 5. White noise test for nine sequences
图5. 九个序列的白噪声检验
2) 模型识别与参数估计
我们通过绘制序列的ACF和PACF图来确定模型的自回归系数和移动平均系数,但由于此种方法具有较强的主观性,模型参数确定不唯一,存在着多个模型均通过检验的情况,此时我们引入AIC和BIC准则对不同参数的模型进行多次测试并辅助auto.arima()函数自动定阶,以确定最优拟合模型如下[5]。九个模型全部通过残差检验,检验结果P值显著大于显著性水平0.05,表明序列中的大部分信息已成功提取,模型拟合成功,进一步检验参数的显著性,剔除冗余的参数。最终确定模型见表1:
Table 1. AQI index, PM2.5 mass concentration, PM10 mass concentration model formula, AIC and BIC values of the three cities
表1. 三个城市的AQI指数、PM2.5质量浓度、PM10质量浓度模型公式及AIC、BIC值
|
|
模型 |
公式 |
AIC |
BIC |
北京 |
AQI |
|
|
500.93 |
509.24 |
PM2.5 |
|
|
509.49 |
517.67 |
PM10 |
|
|
510.38 |
516.62 |
上海 |
AQI |
|
|
442.02 |
450.32 |
PM2.5 |
|
|
316.46 |
322.01 |
PM10 |
|
|
339.1 |
246.33 |
广州 |
AQI |
|
|
461.83 |
470.14 |
PM10 |
|
|
355.79 |
363.02 |
PM2.5 |
|
|
317.74 |
323.09 |
3) 模型诊断性检验
a) Q-Q图检验
b) 残差白噪声检验
利用Ljung-Box检验,对上述城市和指标的残差进行白噪声检验。根据所得结果可知各个指标的P值大于0.05。因此可以判断该序列是随机波动的白噪声,说明模型拟合效果好。见图6和图7。
Figure 6. AQI, PM2.5 and PM10 Q-Q of Beijing, Shanghai and Guangzhou
图6. 北京市、上海市、广州市AQI、PM2.5、PM10 Q-Q图
Figure 7. Residual tests for nine models
图7. 九个模型的残差检验
4) 模型预测及精度分析
Figure 8. Fitting of the three forecast trends of AQI, PM2.5 and PM10 in Beijing
图8. 北京市AQI、PM2.5、PM10三期预测趋势拟合图
Table 2. Accuracy analysis of AQI, PM2.5 and PM10 models in Beijing
表2. 北京市AQI、PM2.5、PM10模型精度分析
|
北京市AQI |
北京市PM2.5 |
北京市PM10 |
真实值 |
预测值 |
95%置 信区间 |
相对 精度 |
真实值 |
预测值 |
95%置 信区间 |
相对 精度 |
真实值 |
预测值 |
95%置 信区间 |
相对 精度 |
第一期 |
80.55 |
87.24 |
[56.12, 118.35] |
0.08 |
71.32 |
43.10 |
[4.09, 82.11] |
0.39 |
79.61 |
87.07 |
[52.69, 121.44] |
0.09 |
第二期 |
80.04 |
83.49 |
[50.49, 116.50] |
0.04 |
38.10 |
40.47 |
[−1.44, 82.38] |
0.06 |
71.96 |
81.75 |
[42.30, 121.21] |
0.14 |
第三期 |
85.29 |
91.56 |
[58.13, 124.99] |
0.07 |
51.42 |
41.05 |
[−1.72, 83.82] |
0.20 |
80.45 |
79.16 |
[37.90, 120.43] |
0.02 |
Figure 9. Fitting chart of three forecast trends of AQI, PM2.5 and PM10 in Shanghai
图9. 上海市AQI、PM2.5、PM10三期预测趋势拟合图
Table 3. Accuracy analysis of AQI, PM2.5 and PM10 models in Shanghai
表3. 上海市AQI、PM2.5、PM10模型精度分析
|
上海市AQI |
上海市PM2.5 |
上海市PM10 |
真实值 |
预测值 |
置信 区间 |
相对 精度 |
真实值 |
预测值 |
置信 区间 |
相对 精度 |
真实值 |
预测值 |
置信 区间 |
相对 精度 |
第一期 |
79.68 |
67.71 |
[47.03, 88.38] |
0.15 |
50.68 |
32.87 |
[20.29, 45.45] |
0.35 |
61.00 |
55.63 |
[36.29, 74.97] |
0.09 |
第二期 |
71.07 |
69.56 |
[48.78, 90.33] |
0.02 |
39.63 |
36.46 |
[23.73, 49.19] |
0.08 |
50.54 |
46.19 |
[26.04, 66.35] |
0.09 |
第三期 |
85.87 |
73.27 |
[52.40, 94.15] |
0.15 |
32.94 |
29.56 |
[16.68, 42.44] |
0.10 |
65.00 |
48.75 |
[27.82, 69.68] |
0.25 |
Figure 10. Fitting chart of the three forecast trends of AQI, PM2.5 and PM10 in Guangzhou
图10. 广州市AQI、PM2.5、PM10三期预测趋势拟合图
Table 4. Accuracy analysis of AQI, PM2.5 and PM10 models in Guangzhou
表4. 广州市AQI、PM2.5、PM10模型精度分析
|
广州市AQI |
广州市PM2.5 |
广州市PM10 |
|
真实值 |
预测值 |
置信 区间 |
相对 精度 |
真实值 |
预测值 |
95%置 信区间 |
相对 精度 |
真实值 |
预测值 |
置信 区间 |
相对 精度 |
第一期 |
72.65 |
74.77 |
[52.60, 96.95] |
0.03 |
38.97 |
35.70 |
[20.57, 50.83] |
0.08 |
59.20 |
59.01 |
[36.24, 81.79] |
0.01 |
第二期 |
48.68 |
75.92 |
[53.21, 98.64] |
0.56 |
31.97 |
36.26 |
[21.036, 51.49] |
0.13 |
48.65 |
52.73 |
[28.13, 77.33] |
0.08 |
第三期 |
67.19 |
67.71 |
[42.71, 92.71] |
0.01 |
47.90 |
46.88 |
[31.56, 62.21] |
0.02 |
69.35 |
64.88 |
[38.76, 91.00] |
0.06 |
模型预测趋势拟合图见图8~10所示,模型精度分析见表2~4。
4. 结论
城市大气污染治理是急需解决的问题。本文使用ARIMA、SARIMA模型,对2014~2018年北京市、上海市、广州市三座城市的AQI、PM2.5、PM10等指标进行了时间序列分析和预测[6],并给出三期预测值。预测结果显示,真实值在95%置信区间内,可知模型预测精度较好。此外,预测结果也显示北京市、上海市、广州市的AQI、PM2.5、PM10浓度有逐渐下降的趋势,空气质量逐渐提高。大气污染不仅会破坏我们赖以生存的大自然,也会对我们的身体造成危害[7],城市大城市大气污染治理需要全社会共同努力[8],相信在未来我国空气质量趋势越来越好。
基金项目
大连民族大学创新创业训练计划国家级大创项目(项目编号:20241202643)。