1. 引言
研究背景及意义
随着城市化与工业化进程加快,空气污染已成为中国面临的重要环境与公共卫生挑战。尽管政府已实施多项治理措施,但北京、上海、广州、天津、重庆等国家级中心城市,受地理位置、产业结构与能源消费特征影响,面临突出空气污染问题。空气污染对居民健康有多方面影响,且具有滞后性[1],更对城市可持续发展构成制约。因此,精准预测空气质量,对政策评估与公共健康保障具有重要意义。
在空气质量预测研究中,国内外学者已从传统时间序列模型转向集成学习与空间分析等复杂模型。国内如牟敬锋等[2]采用ARIMA模型对深圳市AQI进行有效预测,证实传统时间序列方法的可行性。袁燕等[3]提出一种基于社区划分的AQI预测算法,利用社区划分、非线性回归建模等方法提高了预测精度。路凯丽等构建CNN-GRU集成深度学习模型,在处理高维数据和特征提取方面展现出较高的预测精度与稳定性[4]。国际上,Shishegaran等[5]提出非线性集成模型,用于预测德黑兰的空气质量,Phruksahiran [6]用地理加权预测方法改进了AQI预测中对空间异质性影响的刻画能力。尽管空气质量指数预测研究取得了显著进展,但快速的城市化与日益复杂的污染成因对空气污染指数的建模与预测提出了持续挑战。未来研究需进一步融合多源数据与先进算法,来提升预测的准确性与时效性。
2. 预备知识及数据来源
2.1. 预备知识
2.1.1. SARIMA模型
Box-Jenkins法由美国学者Box和Jenkins在1968年提出[7]。SARIMA模型的表达式为
,数学表达式为[8]-[11]:
2.1.2. Holt-Winters指数平滑法
Holt-Winters模型[12]应用于有季节性变化的时间序列分析中。该模型纳入季节性因素,提供加法模型和乘法模型两种形式以适应不同的数据特征。
对于趋势和季节的加法模型,Holt-Winters指数平滑法的公式如下[7]:
对于趋势和季节的乘法模型,Holt-Winters指数平滑法的公式如下:
式中,
为序列水平部分,
为序列趋势部分;
为序列季节部分;
为一个季节的周期长度;
,
,
为平滑系数,介于0和1之间。
2.1.3. AIC准则与BIC准则
AIC准则是一种评价统计模型复杂性和拟合优度的标准,适用于似然函数值较大且参数较少的模型,由日本统计学家赤池弘次在1973年提出。实际应用中一般选择AIC值较低的模型。一般情况下,AIC定义如下式:
样本量较大时,依据AIC选择的模型可能不收敛于真实模型,且模型阶数过高。为解决AIC准则的局限性,施瓦兹提出了贝叶斯信息准则。定义如下所示:
BIC准则在模型选择时纳入样本量的影响,当样本量较大时,它有助于避免因模型过于精确而导致的模型复杂度过高的问题。
2.2. 数据来源
本文使用数据来源于中国环境监测总站,样本涵盖北京、上海、广州、天津和重庆五个关键城市自2014.1.1~2024.6.16逐日AQI记录3788条。
3. 模型建立与预测
3.1. 数据预处理
3.1.1. 时间重采样处理
由于日度数据量较大,为便于观察和分析,对数据进行了时间重采样处理。对每月所有日度数据算均值,得到该月平均AQI值,将日度数据转换为月度数据。见图1:
Figure 1. Monthly AQI for Beijing, Shanghai, Guangzhou, Tianjin, and Chongqing
图1. 北京、上海、广州、天津、重庆处理后AQI月数据
3.1.2. 趋势分解
将月度数据划分训练集和测试集。训练集为2014.1.31~2023.6.30数据,此段用于模型训练,帮助模型学习AQI随时间变化规律;测试集为2023.7.31~2024.6.16数据,此段用于评估模型的预测性能,检验未参与训练的新数据的适用性和准确性。为了更准确识别序列的稳定性,进行了趋势分解。
3.1.3. 平稳性检验
为确定时间序列的平稳性,再进行单位根检验[8]。其结果显示,P值大于0.05,表明原始序列不具备平稳条件,需要进行差分处理,使序列平稳。
差分后的序列值(见图2)大致在一条水平线上下浮动,可初步认为序列平稳,再使用ADF检验进一步验证平稳性假设。结果得出P值显著小于0.05,表明差分后序列平稳,可以继续进行下一步的分析和建模。
Figure 2. Processed time series of AQI for Beijing, Shanghai, Guangzhou, Tianjin, and Chongqing
图2. 北京、上海、广州、天津、重庆平稳化处理后时序图
3.2. 模型识别与参数估计
首先绘制ACF图和PACF图确定模型的自回归系数p和移动平均系数q。ACF在2阶后都落在2倍标准差范围内,PACF从第3阶开始衰减至该置信区间内。选择p和q的取值范围均为0到3。
同时考虑季节性因素,选择SARIMA模型中参数P和Q的取值范围也为0到3,设差分阶数d和季节性差分阶数D均为1,季节长度s为12。遍历所有可能参数组合,计算各模型AIC值,确定AIC值最小的模型,见表1:
Table 1. SARIMA model selection and AIC Values for five major Chinese cities
表1. 北京、上海、广州、天津、重庆遍历的SARIMA模型和对应AIC值
|
模型 |
AIC |
北京 |
|
640.778 |
上海 |
|
567.146 |
广州 |
|
589.539 |
天津 |
|
645.445 |
重庆 |
|
577.742 |
3.3. 模型诊断性检验
3.3.1. 白噪声检验
对模型残差序列进行白噪声检验,并使用statsmodels库中的plot_diagnostics函数生成模型残差序列诊断(见图3),以确保检验的准确性。根据所得结果可知,五个城市指标的P值大于.05。因此可以判断序列是随机波动的白噪声,模型拟合效果好。
Figure 3. Model diagnostic plots for Beijing, Shanghai, Guangzhou, Tianjin, and Chongqing
图3. 北京、上海、广州、天津、重庆模型诊断检验图
3.3.2. 残差检验及Q-Q图检验
残差反映实际观测值与模型预测值之间差异,可能包含对模型假设有用的信息,这些图用于评估模型的拟合效果和残差的性质。各城市标准化残差图、残差检验图、Q-Q图、自相关图见图4。
北京
上海
广州
天津
重庆
Figure 4. Tests on model residuals for Beijing, Shanghai, Guangzhou, Tianjin, and Chongqing
图4. 北京、上海、广州、天津、重庆五个城市各模型残差序列检验
3.3.3. 模型预测及精度分析
另外采用Holt Winters模型的加法和乘法模型进行构建,分别得到测试集拟合效果图如下(见图5~9)。从拟合预测的效果图和精度分析结果(见表2~6)来看,五个城市的模型预测效果均较好。
Figure 5. Holt-Winters fit and forecast for Beijing
图5. 北京市Holt-Winters指数平滑法拟合预测图
Table 2. Forecasting accuracy of two models for Beijing
表2. 北京市两模型精度分析
|
|
预测值 |
真实值 |
95%置信区间 |
相对精度 |
|
第一期 |
95.55 |
93.23 |
(85.79, 100.67) |
2.43% |
第二期 |
78.80 |
71.65 |
(62.52, 80.78) |
9.07% |
第三期 |
71.59 |
70.20 |
(61.39, 79.01) |
1.94% |
Holt-Winters指数平滑法 |
第一期 |
85.35 |
93.23 |
(75.54, 95.16) |
8.45% |
第二期 |
72.19 |
71.65 |
(63.26, 81.12) |
0.75% |
第三期 |
72.54 |
70.20 |
(63.78, 81.30) |
3.33% |
见表2,SARIMA模型在第一、三期预测中表现良好,第二期Holt-Winters指数平滑法低于SARIMA模型。因此,短期预测中SARIMA模型在捕捉数据的季节性和非季节性模式方面可能更为有效。
Figure 6. Holt-Winters fit and forecast for Shanghai
图6. 上海市Holt-Winters 指数平滑法拟合预测图
Table 3. Forecasting accuracy of two models for Shanghai
表3. 上海市两模型精度分析
|
|
预测值 |
真实值 |
95%置信区间 |
相对精度 |
|
第一期 |
69.20 |
63.90 |
(62.27, 76.13) |
8.31% |
第二期 |
59.73 |
61.55 |
(52.79, 66.67) |
3.00% |
第三期 |
55.65 |
58.27 |
(48.71, 62.59) |
4.50% |
Holt-Winters 指数平滑法 |
第一期 |
69.20 |
63.90 |
(62.27, 76.13) |
8.29% |
第二期 |
63.47 |
61.55 |
(56.53, 70.41) |
3.12% |
第三期 |
61.68 |
58.27 |
(54.74, 68.62) |
5.85% |
见表3,Holt-Winters指数平滑法第三期相对精度略高于SARIMA模型,而第一、二期,两模型预测精度相近。因此,对于上海市AQI短期的预测SARIMA模型具有更好的预测效果。
Figure 7. Holt-Winters fit and forecast for Guangzhou
图7. 广州市Holt-Winters 指数平滑法拟合预测图
Table 4. Forecasting accuracy of two models for Guangzhou
表4. 广州市两模型精度分析
|
|
预测值 |
真实值 |
95%置信区间 |
相对精度 |
|
第一期 |
60.64 |
62.63 |
(51.93, 69.35) |
3.17% |
第二期 |
65.64 |
66.55 |
(56.93, 74.35) |
0.15% |
第三期 |
67.64 |
75.09 |
(58.93, 76.35) |
9.94% |
Holt-Winters 指数平滑法 |
第一期 |
62.82 |
62.63 |
(53.47, 72.17) |
0.30% |
第二期 |
67.64 |
66.55 |
(58.29, 76.99) |
1.64% |
第三期 |
74.82 |
75.09 |
(65.47, 84.17) |
0.36% |
见表4,Holt-Winters指数平滑法在第一、三期的预测相对精度均低于SARIMA模型。因此,对于广州市AQI值,Holt-Winters指数平滑法能提供更接近实际观测值的预测。
Table 5. Forecasting accuracy of two models for Tianjin
表5. 天津市两模型精度分析
|
|
预测值 |
真实值 |
95%置信区间 |
相对精度 |
|
第一期 |
103.19 |
104.74 |
(96.40, 113.08) |
1.50% |
第二期 |
94.77 |
87.29 |
(78.95, 95.63) |
7.89% |
第三期 |
91.52 |
88.77 |
(80.43, 97.11) |
3.01% |
Holt-Winters 指数平滑法 |
第一期 |
97.74 |
104.74 |
(92.81, 102.67) |
6.68% |
第二期 |
83.67 |
87.29 |
(78.74, 88.60) |
4.15% |
第三期 |
81.62 |
88.77 |
(76.69, 86.55) |
8.06% |
见表5,SARIMA模型在第一期和第三期的预测相对精度较低,预测效果更佳,Holt-Winters指数平滑法在第二期的预测相对精度最低。
Figure 8. Holt-Winters fit and forecast for Tianjin
图8. 天津市Holt-Winters指数平滑法拟合预测图
Figure 9. Holt-Winters fit and forecast for Chongqing
图9. 重庆市Holt-Winters指数平滑法拟合预测图
Table 6. Forecasting accuracy of two models for Chongqing
表6. 重庆市两模型精度分析
|
|
预测值 |
真实值 |
95%置信区间 |
相对精度 |
|
第一期 |
66.18 |
67.10 |
(62.44, 69.92) |
1.37% |
第二期 |
72.99 |
68.77 |
(69.05, 76.91) |
6.13% |
|
第三期 |
56.72 |
58.83 |
(52.80, 60.64) |
3.56% |
Holt-Winters 指数平滑法 |
第一期 |
67.55 |
67.10 |
(61.89, 73.21) |
0.67% |
第二期 |
72.97 |
68.77 |
(67.21, 78.73) |
6.10% |
第三期 |
58.14 |
58.83 |
(52.38, 63.90) |
1.17% |
见表6,Holt-Winters指数平滑法在三期中的相对精度分别为0.67%、6.10%和1.17%,表明Holt-Winters 指数平滑法在这三期中的预测表现较为准确,优于SARIMA模型。
4. 结论
本文根据2014~2024年AQI数据,采用SARIMA和Holt-Winters模型对中国五个重要城市空气质量进行时间序列分析和预测。结果显示,两类模型均能有效捕捉AQI的季节性与周期性特征,短期预测误差低于10%,其中SARIMA模型整体表现更优。
研究发现,冬季采暖期污染物排放及区域传输导致各城市AQI普遍升高,而产业结构与地理条件的差异是造成城市间空气质量分异的主要原因。本研究为城市空气污染的短期预测提供了有效的时间序列分析方法,为环境保护和公共健康管理提供理论支持。我们相信通过科学的预测方法与精准的区域治理策略,中国城市空气质量将持续改善,为实现可持续发展与公众健康保护提供有力保障。
基金项目
国家级大创项目资助,项目编号:202512026048;校级大创项目资助:项目编号:202512026485。