1. 引言
当前中国正面临着多重挑战和机遇,环境污染和经济发展也成为中国乃至世界共同关注的重大问题。机动车的家庭普及率增加,资源能耗增加,交通规模的扩大、工业园区数量激增,随之而来的产生了很多有毒有害气体,空气质量与十年前相比已有明显的下降,产生很多不良影响:人类吸入质量低的空气不可避免对身体造成损害、破坏生态环境的持续发展和生态系统的完整。因此,对空气质量的研究开始变得重要。找出空气污染的变化规律,制定相应的预防对策,为今后的空气污染治理提供参考,从而提高人们的生活环境质量。
随着环境问题受到世界各地的普遍关注,众多学者对此进行评价分析,大多数集中于对空气质量的监测、空气质量的评价分析等方面。国际上,如美国在空气质量的监测领域发展较为领先,日本也较早颁布了空气污染相关法律,对空气的监测网络技术相对成熟,如今,逐渐普及到全球各个国家。这一技术能将其分析结果与国家空气质量标准相比对,判定是否符合标准。研究空气污染的时空分布、其污染物对人类和环境的影响情况、持续影响的时间等,并得到了空气污染预报的结果,用来预测未来可能出现的污染状况。其原理实质上是在时间序列基础上,建立模型和神经网络,展开人工智能技术分析,并得出预测结果。中国采用的是空气污染预报系统CAPPS,它的优势是可以不提供污染源的数据就可以进行污染物浓度预报,也避免了由于偶然和不确定因素导致的数据缺失和不准确带来的预报误差 [1] 。这一系统也应用到国内各个城市,预报的准确度与其他国家的相当,有很强理论支撑和参考价值。现在国内研究学者也在原来定性的基础上对空气质量进一步进行了定量的研究,通常使用时间序列分析方法建立模型进行研究。时间序列通过建模能进行对未来事物的预测,而这一能力也广泛应用到各个领域并与之相互融合,如经济、生物、医学、金融等。
本文通过对空气质量相关的指标进行分析,发现其变化规律,探寻其影响因素,进而对未来空气质量进行预测,并为今后对空气污染的治理提供合理且较有说服力的参考。引起空气污染的原因有很多,如所处地形、气候、汽车尾气、工业废料、生活垃圾焚烧等因素。在此选择珠三角城市群中城市进行研究,珠江三角洲与国内另外两个城市群相比,其城市化水平最高、最具经济发展动力,且地理位置优越,承担较多的经济责任,空气质量受地理位置、气候类型、社会因素影响较大,因此选择珠三角城市群中8个重点城市2018~2019年的空气质量数据进行分析。本文收集2018~2019年珠三角地区有代表性的8个城市的空气质量指标的日数据,其中包括珠三角城市群的龙头城市:广州和深圳,二、三线城市:江门、惠州、东莞、珠海、中山和肇庆等城市,通过ARIMA模型对AQI (空气质量指数)数据进行拟合和分析,发现数据的变化趋势和规律,并根据AIC、BIC最小准则对模型进行优化,最后选择最佳模型得出模型表达式,并对未来五期的数据进行预测。分析结果将有利于相关部门在特定时间对特定污染物进行有针对性的监控和预防,并制定相关政策使得在不同时期的空气质量治理资源得到有效分配。
2. 数据来源
本课题所有数据来自“真气网”,https://www.aqistudy.cn/historydata/,本网站以环保行业发展趋势和国家政策为导向,依托先进的互联网技术,记录并公布国内所有城市的空气质量日数据、月数据,因此数据科学可信。
3. 研究方法
3.1. 术语解释
在统计研究中,一般将一组按照时间顺序排列的随机变量称为一个时间序列,简记为
。时间序列分析就是以动态数据为研究对象,发现其中隐藏的变化规律,并建立效果最佳的模型,将模型应用于预测数据未来的发展 [2] 。所谓AQI指数就是空气质量指数 [3] 。用它可评估人们呼吸了一定时间(几小时或几天)的有毒有害气体后,对身体健康造成的影响。将影响程度按照不同等级表示,以等级来表现某一地区的空气质量情况和发展形势。异常值指的是,由于一些特殊情况可能导致数值出现异常,偏离原有的变化规律,在建模分析之前应对其检测并剔除。异常值分为可加异常值和新息异常值。本文中异常值为可加异常值,即对序列的影响只存在于这一个时间点上,对此后的观测值并无影响。用箱线图检测异常值是否剔除干净,最后用样条插值或线性插值将数据补充完整。ADF检验也叫单位根检验,是Dickey和Fuller在1979年为了检验高阶的自回归模型提出的检验 [2] 。对于AR(p)而言,若检验的p值小于0.05,则认为是平稳序列;反之若不存在,即为不平稳序列 [2] 。
3.2. ARIMA模型
设
是一个时间序列,称满足如下结构的模型为求和自回归移动平均模型,简记为ARIMA(p,d,q),
(1)
其中
为均值为零的白噪声序列,且
,
与
无关,即
,其实该模型的本质就是序列
d阶差分后的序列是平稳且可逆的ARMA(p,q)模型 [2] 。
3.3. Holt-Winters指数平滑
在Holt线性指数平滑的基础上考虑季节变动的影响,一般来讲,对于趋势和季节的加法模型,Holt-Winters指数平滑法的公式如下
(2)
其中,该序列的水平变化表示为
;序列的趋势变化表示为
;该序列的季节变化表示为
;季节的周期长度用
表示;
为平滑系数,范围在0到1之间 [4] [5] [6] [7] 。
4. 建模与预测
4.1. 数据预处理
4.1.1. 异常值处理
收集整理8个城市的2018~2019年每日的空气质量指数,通常情况,实际数据可能存在异常值,所以在建模之前要剔除异常值,避免有特殊情况引起的异常值导致模型建立的误差较大。我们将原序列数据画出箱线图检验,观察图中是否存在离群点,将异常值全部剔除,继而用插值法将数据补充完整。
4.1.2. 序列平稳性检验
建模之前应该对数据有初步的认识,比如大致观察数据的变化趋势,是否存在季节性趋势。首先对八个城市绘制AQI时序图,并绘制出线性拟合图,得到的结果见图1。从时序图中看到均有显著的线性趋势,并且斜率变化不大,接近水平,但仍有少数几个城市呈现上升的趋势。经检验原序列为非纯随机序列,有可以挖掘的有效信息,可以进行建模。由时序图观察得,珠三角地区城市AQI指数长期趋势不太明显,多数城市呈现水平趋势,中山、江门呈现较弱的增长趋势,查阅大量材料发现,珠三角在全国

Figure 1. AQI index time series of 8 cities in the Pearl River Delta
图1. 珠三角8个城市AQI指数时序图
范围内来看空气质量较好,AQI基数较小,y轴截距和拟合曲线斜率较小,因此变动不太明显,即使采取了一定的空气治理措施,但治理后影响的波动空间可能较小 [8] 。
用图检验的方法判定序列是否平稳存在很多主观因素和偶然因素,结果并不是十分准确,为避免主观导致误差影响模型,一般实际问题的运用中,应用单位根ADF检验。在R中安装并加载“urca”安装包,运用kpss函数对一阶差分序列进行平稳性检验。将原序列进行一阶差分后检验,见图2,结果八个城市数据kpss统计量均小于显著性水平10%、5%、2.5%和1%的临界值,故可认为是平稳序列,继而进行建模。

Figure 2. ADF test results of 8 cities
图2. 8个城市ADF检验结果
4.2. ARIMA模型的建立
以7为周期,画出时序图和acf图、pacf图,根据经验判断模型,来确定自回归系数和移动平均系数。定阶的过程通常情况是通过研究者对模型特征的了解和经验来确定阶数。但主观性比较强,还要经过多次尝试不同参数,根据AIC、BIC最小原则来寻找更好的模型。或者运用R中自动拟合函数进行模型的自动拟合,但结果仅供参考,模型可能不是最好的。将选定模型的进行残差检验,见图3,所有模型均通过检验,说明大部分信息已成功提取,模型拟合成功。并且检验参数的显著性,剔除冗余的参数。

Figure 3. Residual test results of 8 models
图3. 8个模型残差检验结果
最终得出8个城市AQI的ARIMA模型见表1和表2:

Table 1. ARIMA models for each city
表1. 各城市ARIMA模型

Table 2. Mathematical expressions of ARIMA model for each city
表2. 各城市ARIMA模型数学表达式
4.3. Holt-Winters指数平滑法
采用Holt-Winters指数平滑法对数据进行拟合、平滑,并进行预测 [2] ,见如图4,图5,图6,黑色折线是原序列数据,红色折线是拟合曲线,可见曲线高度重合,拟合结果尚佳。
4.4. 模型优化与预测
由于在模型识别定阶的过程存在较强的主观因素、偶然因素,要从多个角度考虑模型的适用程度,不同城市的情况可能适用不同的模型,每个城市最终确定一个最优模型,都要经过多次的尝试尽可能找出更好的模型,一般通过变化模型的参数来比较aic值、bic值,还要考虑预测的精度,从多个模型中找出更加合理、准确的模型。ARIMA模型和Holt-Winters指数平滑法的五期预测结果见表3,将两者与真实值进行比较。

Figure 4. Holt-Winters index smoothing fitting of AQI index
图4. AQI指数Holt-Winters指数平滑拟合

Figure 5. Holt-Winters index smoothing fitting of AQI index
图5. AQI指数Holt-Winters指数平滑拟合


Figure 6. Holt-Winters index smoothing fitting of AQI index
图6. AQI指数Holt-Winters指数平滑拟合

Table 3. Comparison between the predicted values and the real values of the two models
表3. 两个模型预测值与真实值比较
由图可以根据预测结果,依照评定等级来判定空气质量等级,并对应建议人们采取有效的防护措施 [9] 。Holt-Winters指数平滑法预测图见图7:

Figure 7. Prediction of AQI index by Holt-Winters exponential smoothing method
图7. AQI指数Holt-Winters指数平滑法预测
ARIAM模型预测图见图8:

Figure 8. Prediction of AQI index by ARIAM model
图8. AQI指数ARIAM模型预测
4.5. 模型预测精度分析
预测精度即相对误差,是绝对误差占真实值的比值。将模型预测结果与真实值进行比对,通过计算预测的相对误差,比较模型的预测精度,见表4。预测相对误差越小,预测精度越高,模型拟合越成功。通过对比ARIMA模型和Holt-Winters的相对误差发现,没有绝对的最好模型,每个城市使用的模型也不一定相同,要通过比较选择更好的模型。但是通过观察数据发现,大部分的城市应用ARIMA模型预测的结果误差率较小,准确率较高。Holt-Winters指数平滑预测的数值误差也不是很大,也有一定的参考价值。因此,为了避免由于偶然因素导致预测误差,通常会选择至少两个模型进行比较,进行多次的完善优化,最终选择更好的模型 [10] 。

Table 4. Comparison of prediction accuracy of the two models for each city
表4. 各城市两个模型预测精度比较
5. 结论
5.1. 自然环境因素与社会因素分析
通过观察AQI的总体范围,发现珠三角的指标基数较小,与长三角地区相比,珠三角地区的空气质量情况要远远好于国内其他地区,在不影响正常经济活动的同时也做到了对空气质量污染的防控和治理 [11] [12] 。全年来看,6月和7月的空气质量良好、臭氧浓度较高,10月至12月的空气质量较差、臭氧浓度较低,这是由于珠三角的气候和温度特征:从气候类型角度,它属于南亚热带季风气候。全年比较潮湿,降雨较多,全年无霜雪。每天的气温年较差活动范围很小。受海洋影响,这里降水丰富。月降水量分布相对均匀,雨季较长。季风给珠江三角地区带来了相对干净的海洋气流,以及更高的降水量,更有利于污染物的向周边扩散,并逐渐消解,使得夏季污染物浓度较低。虽然珠江三角洲和长江三角洲的气候是亚热带季风气候,但前者位于气候带的南部,后者位于气候带的北部。因此珠江三角洲的降水量比长江三角洲大,而受到寒冷空气的影响较小,同时由于季节原因,珠三角冬季气温较高也避免了由于供暖带来的空气污染 [13] [14] [15] 。由监测网络结果得出,2019年测得的二氧化硫、PM10的年平均值与2018年相比,有明显的下降,但2019年的污染物浓度如臭氧与2018年相比有所上升很明显,二氧化氮和PM10在广州、肇庆和其他地区的集中度相对较高,臭氧在所有城市中浓度都很高,广州、东莞和肇庆的污染物排放量较大。长期以来,广东省的火电行业和发电装置大部分都在珠三角地区,这些都会产生很多污染物,比如硫化物和氮氧化物,这些都是引发酸雨的重要物质,珠三角因此也是酸雨排放的重点地区,这些地区工业份额较大,能源消耗随之增加,针对这样严重的空气质量问题,政府也采取了相应地采取措施,如在发电厂安装脱硫装置、关闭有严重污染问题的工厂 [8] 。肇庆和江门处于下风状态,因此受污染物的影响更大。同时机动车污染也是一个不容忽视的非常重要的因素。依旧需要政府采取措施以更好解决区域内的空气质量污染问题,尤其是光化学类污染。珠三角地区大力发展电子产业、家电行业,是广东省乃至国内重要的生产基地,对科技资源的发展做出较大的贡献。然而,承担这一重要责任也引发了环境污染和空气污染等一系列问题 [16] [17] [18] 。由于维持工业化城市的发展,“三废”的排放量不断增加,但相应的污染处理却不成比例,造成珠三角的污染。然而,与长三角地区等其他城市群的城市相比,以资源为基础的重工业数量较少,也减少了由此产生的污染物。
5.2. 各城市空气质量与发展情况关系分析
在AQI时序图分析中可以看出,广州、深圳空气质量较好,两者都是珠三角地区的一线城市,珠海、江门、中山空气质量较差。这样看来,空气质量与所在城市的发展规模有可能存在相关联系。一线城市自然是最具经济发展活力,承担较大的经济和政治责任,对空气质量的管控也更加严格;二、三线城市相对发展比较缓慢,对空气质量的治理意识较为薄弱。近年来,珠三角地区对经济产业结构加以调整,第一产业所占份额一直在降低,第二和第三产业所占份额占据主导,增加了以技术为核心的产业,着力提高制造业水平,着重完善服务业和农业,这样的调整也减少了之前由于重工业产生的有毒有害气体,对整个城市群发展和空气质量也有着深远的意义。
基金项目
国家级大创项目资助,项目编号:202312026043。