基于时间序列的中国重要城市空气污染指数的建模与预测分析
Time Series Analysis of Air Pollution Indexes in Major Chinese Cities Modeling and Predictive Analytics
摘要: 中国城市化进程的持续推进,大型城市的空气污染已成为亟待解决的环境与公共健康问题。为提升空气质量预测的准确性,本文选取北京、上海、广州、天津及重庆五个国家级中心城市的2014~2024年的空气质量指数(AQI)逐日数据,构建季节性差分自回归滑动平均(SARIMA)模型与Holt-Winters指数平滑模型,并对二者的预测效能作对比检验。结果显示,两模型均能有效捕捉AQI序列的季节性与周期性波动,样本外预测的相对误差均低于10%;SARIMA模型在多数案例中表现更优的拟合精度。研究表明,城市产业能源结构及交通政策是影响空气质量变化的关键因素。
Abstract: Amidst ongoing urbanization in China, air pollution in major cities has become a pressing environmental and public health issue. To improve the accuracy of air quality forecasting, this study employs daily Air Quality Index (AQI) data from 2014 to 2024 for five national central cities—Beijing, Shanghai, Guangzhou, Tianjin, and Chongqing—to construct Seasonal Autoregressive Integrated Moving Average (SARIMA) and Holt-Winters exponential smoothing models, and compares their predictive performance. The results indicate that both models effectively capture seasonal and periodic fluctuations in AQI sequences, with out-of-sample prediction relative errors below 10%; however, the SARIMA model demonstrates better fitting accuracy in most cases. This study reveals that urban industrial-energy structures and transportation policies are key factors influencing air quality changes.
文章引用:刘小冉, 武守坤, 宋婉宁, 杨馨钰, 王添园, 李雪松, 吴雅涵, 白晓东. 基于时间序列的中国重要城市空气污染指数的建模与预测分析[J]. 统计学与应用, 2025, 14(11): 347-359. https://doi.org/10.12677/sa.2025.1411335

1. 引言

研究背景及意义

随着城市化与工业化进程加快,空气污染已成为中国面临的重要环境与公共卫生挑战。尽管政府已实施多项治理措施,但北京、上海、广州、天津、重庆等国家级中心城市,受地理位置、产业结构与能源消费特征影响,面临突出空气污染问题。空气污染对居民健康有多方面影响,且具有滞后性[1],更对城市可持续发展构成制约。因此,精准预测空气质量,对政策评估与公共健康保障具有重要意义。

在空气质量预测研究中,国内外学者已从传统时间序列模型转向集成学习与空间分析等复杂模型。国内如牟敬锋等[2]采用ARIMA模型对深圳市AQI进行有效预测,证实传统时间序列方法的可行性。袁燕等[3]提出一种基于社区划分的AQI预测算法,利用社区划分、非线性回归建模等方法提高了预测精度。路凯丽等构建CNN-GRU集成深度学习模型,在处理高维数据和特征提取方面展现出较高的预测精度与稳定性[4]。国际上,Shishegaran等[5]提出非线性集成模型,用于预测德黑兰的空气质量,Phruksahiran [6]用地理加权预测方法改进了AQI预测中对空间异质性影响的刻画能力。尽管空气质量指数预测研究取得了显著进展,但快速的城市化与日益复杂的污染成因对空气污染指数的建模与预测提出了持续挑战。未来研究需进一步融合多源数据与先进算法,来提升预测的准确性与时效性。

2. 预备知识及数据来源

2.1. 预备知识

2.1.1. SARIMA模型

Box-Jenkins法由美国学者Box和Jenkins在1968年提出[7]。SARIMA模型的表达式为 SARIMA=( p,d,q )× ( P,D,Q ) S ,数学表达式为[8]-[11]

ϕ( B )Φ( B S ) ( 1B ) d ( 1 B S ) D ( Z t μ )=θ( B )Θ( B S ) α t

ϕ( B )=1 ϕ 1 B ϕ 1 B 2 ϕ p B p Φ( B S )=1 Φ 1 B S Φ 2 B 2S Φ P B PS

θ( B )=1 θ 1 B θ 2 B 2 θ q B q

Θ( B S )=1 Θ 1 B S Θ 2 B 2S Θ Q B QS

2.1.2. Holt-Winters指数平滑法

Holt-Winters模型[12]应用于有季节性变化的时间序列分析中。该模型纳入季节性因素,提供加法模型和乘法模型两种形式以适应不同的数据特征。

对于趋势和季节的加法模型,Holt-Winters指数平滑法的公式如下[7]

{ a t =α( x t s tπ )+( 1α )( a t1 + b t1 ) b t =β( a t a t1 )+( 1β ) b t1 s t =γ( x t a t )+( 1γ ) s tπ

对于趋势和季节的乘法模型,Holt-Winters指数平滑法的公式如下:

{ a t = α x t s tπ +( 1α )( a t1 + b t1 ) b t =β( a t a t1 )+( 1β ) b t1 s t = γ x t a t +( 1γ ) s tπ

式中, a t 为序列水平部分, b t 为序列趋势部分; s t 为序列季节部分; π 为一个季节的周期长度; α β γ 为平滑系数,介于0和1之间。

2.1.3. AIC准则与BIC准则

AIC准则是一种评价统计模型复杂性和拟合优度的标准,适用于似然函数值较大且参数较少的模型,由日本统计学家赤池弘次在1973年提出。实际应用中一般选择AIC值较低的模型。一般情况下,AIC定义如下式:

AIC=2ln( )+2( )

样本量较大时,依据AIC选择的模型可能不收敛于真实模型,且模型阶数过高。为解决AIC准则的局限性,施瓦兹提出了贝叶斯信息准则。定义如下所示:

BIC=2ln( )+ln( n )( )

BIC准则在模型选择时纳入样本量的影响,当样本量较大时,它有助于避免因模型过于精确而导致的模型复杂度过高的问题。

2.2. 数据来源

本文使用数据来源于中国环境监测总站,样本涵盖北京、上海、广州、天津和重庆五个关键城市自2014.1.1~2024.6.16逐日AQI记录3788条。

3. 模型建立与预测

3.1. 数据预处理

3.1.1. 时间重采样处理

由于日度数据量较大,为便于观察和分析,对数据进行了时间重采样处理。对每月所有日度数据算均值,得到该月平均AQI值,将日度数据转换为月度数据。见图1

Figure 1. Monthly AQI for Beijing, Shanghai, Guangzhou, Tianjin, and Chongqing

1. 北京、上海、广州、天津、重庆处理后AQI月数据

3.1.2. 趋势分解

将月度数据划分训练集和测试集。训练集为2014.1.31~2023.6.30数据,此段用于模型训练,帮助模型学习AQI随时间变化规律;测试集为2023.7.31~2024.6.16数据,此段用于评估模型的预测性能,检验未参与训练的新数据的适用性和准确性。为了更准确识别序列的稳定性,进行了趋势分解。

3.1.3. 平稳性检验

为确定时间序列的平稳性,再进行单位根检验[8]。其结果显示,P值大于0.05,表明原始序列不具备平稳条件,需要进行差分处理,使序列平稳。

差分后的序列值(见图2)大致在一条水平线上下浮动,可初步认为序列平稳,再使用ADF检验进一步验证平稳性假设。结果得出P值显著小于0.05,表明差分后序列平稳,可以继续进行下一步的分析和建模。

Figure 2. Processed time series of AQI for Beijing, Shanghai, Guangzhou, Tianjin, and Chongqing

2. 北京、上海、广州、天津、重庆平稳化处理后时序图

3.2. 模型识别与参数估计

首先绘制ACF图和PACF图确定模型的自回归系数p和移动平均系数q。ACF在2阶后都落在2倍标准差范围内,PACF从第3阶开始衰减至该置信区间内。选择p和q的取值范围均为0到3。

同时考虑季节性因素,选择SARIMA模型中参数P和Q的取值范围也为0到3,设差分阶数d和季节性差分阶数D均为1,季节长度s为12。遍历所有可能参数组合,计算各模型AIC值,确定AIC值最小的模型,见表1

Table 1. SARIMA model selection and AIC Values for five major Chinese cities

1. 北京、上海、广州、天津、重庆遍历的SARIMA模型和对应AIC值

模型

AIC

北京

SARIMA( 0,1,2 )× ( 2,1,2 ) 12

640.778

上海

SARIMA( 0,1,2 )× ( 1,1,2 ) 12

567.146

广州

SARIMA( 0,1,2 )× ( 1,1,2 ) 12

589.539

天津

SARIMA( 2,2,2 )× ( 1,1,2 ) 12

645.445

重庆

SARIMA( 0,1,2 )× ( 0,1,2 ) 12

577.742

3.3. 模型诊断性检验

3.3.1. 白噪声检验

对模型残差序列进行白噪声检验,并使用statsmodels库中的plot_diagnostics函数生成模型残差序列诊断(见图3),以确保检验的准确性。根据所得结果可知,五个城市指标的P值大于.05。因此可以判断序列是随机波动的白噪声,模型拟合效果好。

Figure 3. Model diagnostic plots for Beijing, Shanghai, Guangzhou, Tianjin, and Chongqing

3. 北京、上海、广州、天津、重庆模型诊断检验图

3.3.2. 残差检验及Q-Q图检验

残差反映实际观测值与模型预测值之间差异,可能包含对模型假设有用的信息,这些图用于评估模型的拟合效果和残差的性质。各城市标准化残差图、残差检验图、Q-Q图、自相关图见图4

北京

上海

广州

天津

重庆

Figure 4. Tests on model residuals for Beijing, Shanghai, Guangzhou, Tianjin, and Chongqing

4. 北京、上海、广州、天津、重庆五个城市各模型残差序列检验

3.3.3. 模型预测及精度分析

另外采用Holt Winters模型的加法和乘法模型进行构建,分别得到测试集拟合效果图如下(见图5~9)。从拟合预测的效果图和精度分析结果(见表2~6)来看,五个城市的模型预测效果均较好。

Figure 5. Holt-Winters fit and forecast for Beijing

5. 北京市Holt-Winters指数平滑法拟合预测图

Table 2. Forecasting accuracy of two models for Beijing

2. 北京市两模型精度分析

预测值

真实值

95%置信区间

相对精度

SARIMA( 0,1,2 )× ( 2,1,2 ) 12

第一期

95.55

93.23

(85.79, 100.67)

2.43%

第二期

78.80

71.65

(62.52, 80.78)

9.07%

第三期

71.59

70.20

(61.39, 79.01)

1.94%

Holt-Winters指数平滑法

第一期

85.35

93.23

(75.54, 95.16)

8.45%

第二期

72.19

71.65

(63.26, 81.12)

0.75%

第三期

72.54

70.20

(63.78, 81.30)

3.33%

表2,SARIMA模型在第一、三期预测中表现良好,第二期Holt-Winters指数平滑法低于SARIMA模型。因此,短期预测中SARIMA模型在捕捉数据的季节性和非季节性模式方面可能更为有效。

Figure 6. Holt-Winters fit and forecast for Shanghai

6. 上海市Holt-Winters 指数平滑法拟合预测图

Table 3. Forecasting accuracy of two models for Shanghai

3. 上海市两模型精度分析

预测值

真实值

95%置信区间

相对精度

SARIMA( 0,1,2 )× ( 1,1,2 ) 12

第一期

69.20

63.90

(62.27, 76.13)

8.31%

第二期

59.73

61.55

(52.79, 66.67)

3.00%

第三期

55.65

58.27

(48.71, 62.59)

4.50%

Holt-Winters 指数平滑法

第一期

69.20

63.90

(62.27, 76.13)

8.29%

第二期

63.47

61.55

(56.53, 70.41)

3.12%

第三期

61.68

58.27

(54.74, 68.62)

5.85%

表3,Holt-Winters指数平滑法第三期相对精度略高于SARIMA模型,而第一、二期,两模型预测精度相近。因此,对于上海市AQI短期的预测SARIMA模型具有更好的预测效果。

Figure 7. Holt-Winters fit and forecast for Guangzhou

7. 广州市Holt-Winters 指数平滑法拟合预测图

Table 4. Forecasting accuracy of two models for Guangzhou

4. 广州市两模型精度分析

预测值

真实值

95%置信区间

相对精度

SARIMA( 0,1,2 )× ( 1,1,2 ) 12

第一期

60.64

62.63

(51.93, 69.35)

3.17%

第二期

65.64

66.55

(56.93, 74.35)

0.15%

第三期

67.64

75.09

(58.93, 76.35)

9.94%

Holt-Winters 指数平滑法

第一期

62.82

62.63

(53.47, 72.17)

0.30%

第二期

67.64

66.55

(58.29, 76.99)

1.64%

第三期

74.82

75.09

(65.47, 84.17)

0.36%

表4,Holt-Winters指数平滑法在第一、三期的预测相对精度均低于SARIMA模型。因此,对于广州市AQI值,Holt-Winters指数平滑法能提供更接近实际观测值的预测。

Table 5. Forecasting accuracy of two models for Tianjin

5. 天津市两模型精度分析

预测值

真实值

95%置信区间

相对精度

SARIMA( 2,2,2 )× ( 1,1,2 ) 12

第一期

103.19

104.74

(96.40, 113.08)

1.50%

第二期

94.77

87.29

(78.95, 95.63)

7.89%

第三期

91.52

88.77

(80.43, 97.11)

3.01%

Holt-Winters 指数平滑法

第一期

97.74

104.74

(92.81, 102.67)

6.68%

第二期

83.67

87.29

(78.74, 88.60)

4.15%

第三期

81.62

88.77

(76.69, 86.55)

8.06%

表5,SARIMA模型在第一期和第三期的预测相对精度较低,预测效果更佳,Holt-Winters指数平滑法在第二期的预测相对精度最低。

Figure 8. Holt-Winters fit and forecast for Tianjin

8. 天津市Holt-Winters指数平滑法拟合预测图

Figure 9. Holt-Winters fit and forecast for Chongqing

9. 重庆市Holt-Winters指数平滑法拟合预测图

Table 6. Forecasting accuracy of two models for Chongqing

6. 重庆市两模型精度分析

预测值

真实值

95%置信区间

相对精度

SARIMA( 0,1,2 )× ( 0,1,2 ) 12

第一期

66.18

67.10

(62.44, 69.92)

1.37%

第二期

72.99

68.77

(69.05, 76.91)

6.13%

第三期

56.72

58.83

(52.80, 60.64)

3.56%

Holt-Winters 指数平滑法

第一期

67.55

67.10

(61.89, 73.21)

0.67%

第二期

72.97

68.77

(67.21, 78.73)

6.10%

第三期

58.14

58.83

(52.38, 63.90)

1.17%

表6,Holt-Winters指数平滑法在三期中的相对精度分别为0.67%、6.10%和1.17%,表明Holt-Winters 指数平滑法在这三期中的预测表现较为准确,优于SARIMA模型。

4. 结论

本文根据2014~2024年AQI数据,采用SARIMA和Holt-Winters模型对中国五个重要城市空气质量进行时间序列分析和预测。结果显示,两类模型均能有效捕捉AQI的季节性与周期性特征,短期预测误差低于10%,其中SARIMA模型整体表现更优。

研究发现,冬季采暖期污染物排放及区域传输导致各城市AQI普遍升高,而产业结构与地理条件的差异是造成城市间空气质量分异的主要原因。本研究为城市空气污染的短期预测提供了有效的时间序列分析方法,为环境保护和公共健康管理提供理论支持。我们相信通过科学的预测方法与精准的区域治理策略,中国城市空气质量将持续改善,为实现可持续发展与公众健康保护提供有力保障。

基金项目

国家级大创项目资助,项目编号:202512026048;校级大创项目资助:项目编号:202512026485。

参考文献

[1] 赵海莉, 原悦, 李晓芹, 等. 兰州市西固区大气污染对呼吸系统的健康效应[J]. 生态学报, 2022, 42(11): 4603-4616.
[2] 牟敬锋, 赵星, 樊静洁, 等. 基于ARIMA模型的深圳市空气质量指数时间序列预测研究[J]. 环境卫生学杂志, 2017, 7(2): 102-107+117.
[3] 袁燕, 陈伯伦, 朱国畅, 等. 基于社区划分的空气质量指数(AQI)预测算法[J]. 南京大学学报(自然科学), 2020, 56(1): 142-150.
[4] 路凯丽, 杨露, 李涛. 基于集成深度学习模型的空气质量指数预测[J]. 南京信息工程大学学报, 2024, 16(1): 56-65.
[5] Shishegaran, A., Saeedi, M., Kumar, A. and Ghiasinejad, H. (2020) Prediction of Air Quality in Tehran by Developing the Nonlinear Ensemble Model. Journal of Cleaner Production, 259, Article ID: 120825. [Google Scholar] [CrossRef
[6] Phruksahiran, N. (2021) Improvement of Air Quality Index Prediction Using Geographically Weighted Predictor Methodology. Urban Climate, 38, Article ID: 100890. [Google Scholar] [CrossRef
[7] 王春平, 王志锋, 单杰, 等. 随机时间序列分析法在传染病预测中的应用[J]. 中国医院统计, 2006, 13(3): 229-232.
[8] 白晓东. 应用时间序列分析[M]. 北京: 清华大学出版社, 2017.
[9] 丁锐, 李伟, 王若舟. 基于SARIMA和LSTM组合预测模型[J]. 计算机与数字工程, 2020, 48(2): 304 307, 337.
[10] 阿旺央金, 索朗多布杰, 格桑尼玛, 等. 2014-2019年西藏山南市肺结核病流行病学分析[J/OL]. 公共卫生与预防医学, 1-3.
https://kns.cnki.net/kcms2/article/abstract?v=35M_ufc67ztMuhI48xtuO3dFCaRcXbo66NBK7HzhFT8vHaSLwSfNXJBk8YSOFC6caWs_X3h7WGaeYK8tpbWX7KS2FRY1vFf1Wn2gi4ZdG962X5i1GXm7LGS7HTGxgrsAB-itN2VTTmKJtuwiIn3VOlfXayO4rc2vF3tT6NWw4jE=&uniplatform=NZKPT, 2021-03-31.
[11] 魏仁惠子, 沈双全, 欧春泉. SARIMA模型与SARIMA-GRNN组合模型在预测广东省登革热疫情中的应用[J]. 中国卫生统计, 2016, 33(5): 746-748, 751.
[12] 高铁梅. 计量经济分析方法与建模[M]. 北京: 北京清华大学出版社, 2006.