AAM  >> Vol. 7 No. 6 (June 2018)

    西安空气质量数据的回归分析
    Regression Analysis of Air Quality Data in Xi’an

  • 全文下载: PDF(2481KB) HTML   XML   PP.731-742   DOI: 10.12677/AAM.2018.76088  
  • 下载量: 354  浏览量: 921   科研立项经费支持

作者:  

唐金玉,高 翔:中国海洋大学数学科学学院,山东 青岛

关键词:
空气质量回归分析显著性检验AQI指数预测Air Quality Regression Analysis Significance Test The Prediction of AQI Index

摘要:

空气是人类及生物赖以生存的条件,因此清洁的空气对人类显得尤为重要。但是,近年来随着我国工业和交通运输业的发展,大量的污染物被排放到空气中,空气质量每况愈下,空气质量问题也越来越受到政府和公众的关注。为了探究空气质量与哪些污染物密切相关以及它们之间的关系,本文选取西安作为实例,收集了2013年12月~2018年4月西安空气质量数据,主要包括空气质量指数(AQI)及PM2.5、PM10、SO2、CO、O3等含量,应用R软件进行回归分析。首先利用2013年12月~2017年6月的空气质量数据进行建模,并对模型进行显著性检验,然后利用2107年7月~2018年4月的数据进行AQI指数的预测,以此来检验模型的好坏。

Air is the condition for human beings and organisms to survive, so clean air is especially important to people. However, in recent years, with the development of China’s industry and transportation industry, a large number of pollutants have been discharged into the air, the quality of air is getting worse and worse, and the problem of air quality has been paid more and more attention by the government and the public. In order to explore the close correlation between air quality and which pollutants and the relationship between them, this article selected Xi’an as an example to collect Xi’an air quality data from December 2013 to April 2018, mainly including air mass index (AQI) and PM2.5, PM10, SO2, CO, O3 and so on. R software was used for regression analysis. First, the air quality data of December 2013-2017 year June are used to model the model, and the model is tested. Then the data of April July 2107-2018 are used to predict the AQI index, in order to test the model.

1. 引言

工业的快速发展与城市化导致我国的空气污染形势日益严峻。近年来,我国有越来越多的城市被雾霾问题所困扰,这一问题逐渐引起了国内外媒体与广大学者的关注,我国也开始在治理空气污染方面加大投入。党的十九大报告指出,我们要着力解决突出环境问题。国内外学者用不同的方法对我国的空气质量情况进行了分析。李丹 [2] 基于聚类分析和多元回归的思想对空气质量问题进行了研究,建立了回归模型;李晓童 [3] 等人,基于Bootstrap方法,对北京市空气质量的影响因素进行回归分析及预测;肖正 [4] 等人基于多元线性回归分析对合肥市的空气质量进行了实证研究。基于以上研究,本文利用回归分析对西安空气质量数据进行了分析。首先利用2013年12月~2017年6月的空气质量数据进行建模,并对模型进行显著性检验,然后利用2107年7月~2018年4月的数据进行AQI指数的预测,以此来检验模型的好坏。

2. 回归分析建模

回归分析 [5] 是研究变量间函数关系的一种方法。

2.1. 建立一般多元线性回归模型

假设AQI为响应变量,PM2.5、PM10、SO2、CO、NO2、O3为预测变量,响应变量与各预测变量的建模过程如下:

1) 散点图

图1的散点图可以看出,响应变量与各预测变量之间大致呈线性关系,因此建立一般多元线性回归模型。

2) 拟合模型

表1,从拟合结果来看,只有变量PM2.5,PM10和O3的系数显著,其他几个参数估计结果均不显著,R-squared = 0.9701是一个很大的值,F检验的p-value: < 2.2e−16是一个很小的值,这说明模型可能存在过拟合的情况。

3) 回归诊断

绘制上述模型的边际模型图:

Figure 1. Scatter plot

图1. 散点图

Table 1. Model fitting result

表1. 模型拟合结果

图2,边际模型图显示各个变量的拟合效果比较好。

绘制上述模型的诊断图(图3)。

图3拟合模型的诊断图:用Q-Q图判断正态性,若满足正态假设,那么图上的点应该落在呈45度角的直线上 [6] ,可以看出模型的标准化残差不满足正态性;用位置尺度图判断同方差性,若满足不变方差假设,那么在“位置尺度图”中,水平线周围的点应该随机分布 [6] ,该图不满足同方差性假设。

进一步绘制上述回归模型的变量添加图评估一下每个变量对其他变量的影响。

Figure 2. Marginal model diagram

图2. 边际模型图

Figure 3. Regression diagnosis chart

图3. 回归诊断图

图4变量添加图可以看出,PM2.5,PM10和O3对其他变量影响较大,NO2,SO2和CO对其他变量的影响都不是太大,这也与估计结果中NO2,SO2和CO的系数估计的结果不显著相对应,所以我们考虑将这三个变量去除之后再做模型的拟合。

表2模型拟合结果来看,去掉变量后所建模型中变量的系数均显著,并且R-squared没有减小且F检验的p-value依旧显著。绘制这个模型的标准化残差诊断图。

图5回归诊断图可以看出,虽然模型拟合较好但是诊断图形呈现的问题仍然没有得到解决。于是认为,一般的线性模型不足以表达变量间的关系,我们考虑对变量进行变换继续建立更加有效地模型。

Figure 4. Variable addition graph

图4. 变量添加图

Table 2. Model fitting result

表2. 模型拟合结果

2.2. 变换变量建模

首先,我们从验证变量为正态分布的假设入手,我们需要画出各变量高斯核密度估计图、箱线图、QQ图。

图6~12中观察可得各变量数据存在偏态非正态的情况,所以考虑对其预测变量和相应变量同时进行BOX-COX变换。

Figure 5. Regression diagnosis chart

图5. 回归诊断图

Figure 6. AQI: normal distribution test

图6. AQI正态分布检验

Figure 7. PM2.5: normal distribution test

图7. PM2.5正态分布检验

Figure 8. PM10: normal distribution test

图8. PM10正态分布检验

Figure 9. NO2: normal distribution test

图9. NO2正态分布检验

Figure 10. SO2: normal distribution test

图10. SO2正态分布检验

Figure 11. CO: normal distribution test

图11. CO正态分布检验

Figure 12. O3: normal distribution test

图12. O3正态分布检验

表3的结果显示对变量进行如下变换:log(AQI),log(PM2.5),1/ SO 2 ,1/CO对变换后的变量进行建模。

表4的模型拟合结果来看,变量NO2,tSO2,tCO系数不显著,这有可能是由多重共线性引起的,下面进行多重共线性的判别。

tPM2.5 PM10 NO2 tSO2 tCO O3

28.211357 24.0693573.452873 10.288414 14.752069 6.674461

由上面的多重共线性的输出结果可以看出,方差膨胀因子存在大于10的值,因此数据存在多重共线性。下面采用向后剔除法进行变量选择。

表5可以看出,变量选择后的模型中各个变量都是显著的。

绘制上述模型的诊断图(图13)。

图13的回归诊断图可以看出残差与拟合图中的点更加随机的分布在水平线周围,说明建立的模型合适。位置尺度图中的点也随机分布在水平线周围满足同方差性。因此该模型的拟合效果比较好。

Table 3. BOX-COX transformation results

表3. BOX-COX变换结果

Table 4. Model fitting result

表4. 模型拟合结果

Table 5. Variable selection results

表5. 变量选择结果

Figure 13. Regression diagnosis chart

图13. 回归诊断

绘制上述模型的边际模型图(图14)。

图14的边际模型图也可以看出拟合效果很好,因此该模型为有效模型。

综上,最终确定模型为:

log ( AQI ) = 0. 3995 0 6log ( PM2 . 5 ) + 0.00 3997PM1 0 + 0.00 3511O 3 + 2 . 187334

3. 预测

得到的预测结果如下:

表6的预测结果显示真实值全在预测区间内,预测效果很好,由此进一步证明了模型的有效性。

Figure 14. Marginal model diagram

图14. 边际模型图

Table 6. Forecast result data

表6. 预测结果数据

4. 总结

本文首先建立一般多元线性回归模型,通过模型诊断发现一般多元线性回归模型不能很好的反映响应变量与各预测变量之间的关系,拟合效果并不好,然后通过变量变换和变量选择,建立了变换后的模型,通过回归诊断发现模型的诊断效果比较好,确定了最终模型,最后用最终确定的模型进行了预测,发现预测,将预测值与真实值进行比较,发现预测效果很好,进一步证明建立的最终模型有效。

基金项目

山东省自然科学基金(ZR2018MA006),山东省研究生教育创新计划项目(SDYY15129),山东省研究生导师指导能力提升项目(SDYY17009)。

NOTES

*通讯作者。

文章引用:
唐金玉, 高翔. 西安空气质量数据的回归分析[J]. 应用数学进展, 2018, 7(6): 731-742. https://doi.org/10.12677/AAM.2018.76088

参考文献

[1] 西安空气质量指数AQI-PM2.5月统计历史数据-中国空气质量在线监测分析平台历史数据[EB/OL]. https://www.aqistudy.cn/historydata/monthdata.php?city=%E8%A5%BF%E5%AE%89
[2] 李丹. 基于聚类分析和多元回归的空气质量的分析[D]: [硕士学位论文]. 天津: 南开大学数学科学学院, 2015.
[3] 李晓童, 夏明月, 林善冬. 基于Bootstrap方法对北京空气质量的回归分析[J]. 河北北方学院学报(自然科学版), 2014, 30 (4): 31-34.
[4] 肖正, 祁孟阳, 朱家明. 基于多元线性回归模型的合肥市空气质量实证分析[J]. 兰州文理学院学报(自然科学版), 2017, 31(4): 13-19.
[5] Samprit Chatterjee, Ali S. Hadi. 例解回归分析[M]. 北京: 机械工业出版社, 2013.
[6] Robert I. Kabacoff. R语言实战[M]. 北京: 人民邮电出版社, 2016.