1. 问题背景
近年来,空气质量成为了大多数城市关注力度较高的问题,影响空气质量的因素多种多样,本问题研究长沙空气质量与一些影响因素之间的关系,并且预测出之后的两个季度(2017年第四季度至2018年第一季度)中空气质量情况;找出与空气质量关系较为密切的因素,并将这些因素作为自变量做关于空气质量的回归分析。收集的影响因素及数据见表1,空气质量的标准以AQI [1] 为参考量,近年来各季度(从2015年第一季度至2017第三季度)的AQI平均值见图1折线统计图。
根据可能影响空气质量的因素 [2] 和长沙当地情况可认为长沙空气质量主要与人口密度、橘洲烟花的燃放、生产力度的大小、工业影响、农林业影响 [3] 、绿化带的面积、大风、温度、降雨量 [4] 有关。
其中用各季度生产总值来衡量生产力度,认为生产总值越高生产力度越强;用各季度第一产业生产总值 [5] 表示农林业的影响;用各季度第二产业生产总值 [5] 表示工业的影响(认为工业生产总值越多则进行的工业活动越多);用风级 [6] 大于三级(在这里认为大于三级风属于大风情况 [7] )的天数来表示风力影响;并将气温分为日均最高温 [6] 和日均最低温 [6] 研究其影响;用常住人口的数量来衡量长沙人口密度,且因为常住人口数量无法按季度统计,所以一年的四个季度中均用该年所统计的常住人口数量作为参考值。

Figure 1. AQI quarterly broken line chart in recent years
图1. AQI近年各季度折线统计图(AQI与各子影响因素收集数据见附录)
2. 问题分析
本问题研究长沙空气质量与一些影响因素之间的关系,用长沙各季度的AQI平均值作为长沙空气质量的衡量标准。为了得出各子因素与AQI之间的相对关系,可利用灰色关联分析 [8] 的方法,选取适当的分辨系数ρ,计算得出各因素与AQI之间的相关度,对比各相关度,做优势分析并找出与空气质量关系较为密切的因素,我们可以称这些因素为主要影响因素。为了进一步得出空气质量与主要影响因素之间的具体关系,可以对空气质量和主要影响因素做回归分析,并利用最小二乘法确定出空气质量与主要影响因素之间的具体表达式,并做相应的分析。根据2015年第一季度至2017年第三季度AQI的平均值构建GM(1,1)模型,确定灰微分方程,并利用最小二乘法求出其相应白化方程的参数,然后利用该GM(1,1)模型对2017年第一季度和2018年第二季度的AQI平均值进行预测。
3. 模型建立及解答
3.1. 优势分析
灰色关联分析方法,是根据因素之间发展趋势的相似或相异程度,衡量因素间关联程度的一种方法。我们可以利用该方法粗略的得出长沙空气质量与其影响因素之间的相对关联程度,从而进行优势分析。
3.1.1. 建立参考数列与比较数列
本问题是分析长沙空气质量与其影响因素之间的关系,显然将长沙各季度的AQI平均值作为参考数列,设为
。
其中参考数列
中的各分量分别为2015年第一季度至2017年第三季度各季度AQI的平均值。
同理,比较数列则为可能影响长沙空气质量的十个因素,十个影响因素依次为,常住人口、橘洲烟花燃放次数、生产总值、第一产业、第二产业、绿化面积、风级超过三级天数、日均最高温、日均最低温和降水量,将其设为
。
其中
表示第i个影响因素第k个季度的指标值。
3.1.2. 标准化数据
由于不同的影响因素对空气质量的影响效应是不同的,例如有的影响因素指标与空气质量成正比关系,也有影响因素指标与空气质量成反比关系,所以为了使所有影响因素指标的影响效应相同,需要进行数据标准化,将与空气质量成反比关系的影响因素指标转化为正比关系。
从直观角度可确定橘洲烟花燃放次数业、第二产业与AQI成正相关;绿化面积、风级超过三级天数、日均最高温、日均最低温和降水量与AQI成负相关;而常住人口、生产总值、第一产业不能直接确定正负相关关系,则由公式确定正负相关。
若子因素
与
同号则为正相关,反之则为负相关,计算结果见表1。

Table 1. System resulting data of standard experiment
表1. 相关关系计算
所以最终得出各个子因素与母因素AQI的相关性见表2。

Table 2. System operating parameters
表2. 各子因素与母因素AQI的相关性
3.1.3. 求灰色关联系数
所谓的关联程度,实质上是曲线间几何形状的差别程度。因此各曲线间差值大小,可作为关联程度的衡量尺度。对于该灰色关联分析模型,一个参考数列
有若10个比较数列
,在分辨系数
取0.5的前提下,各比较数列与参考数列在各个时刻(即曲线中的各点)的关联系数
可由下列公式算出:
其表示含义是第i个影响因素对AQI在k时刻的关联系数。
3.1.4. 计算关联度
因为关联系数是比较数列与参考数列在各个时刻(即曲线中的各点)的关联程度值,所以它的数不止一个,而信息过于分散不便于进行整体性比较。因此有必要将各个时刻(即曲线中的各点)的关联系数集中为一个值,即求其平均值,作为比较数列与参考数列间关联程度的数量表示,公式如下:
最终计算各个子因素与母因素的相关度见表3。

Table 3. System operating parameters
表3. 各子因素与母因素AQI的相关性
关联度越接近于1,说明关联度越好。从表中可以得出与AQI相关度最高的五个子因素由大到小依次是日均最高温、降水量、绿化面积、日均最低温和大风级天数,则认为这五个子因素为主要影响因素。
将分析结果与实际结合可以得出:
1) 从日均最高温和日均最低温可以看出长沙的空气质量主要受季节的影响,搭配图1可看到春冬季空气质量较差;夏秋季空气质量较好。
2) 从降水量的影响可以看出,降雨过后有利于空气中的细颗粒物沉淀,更易于扩散,所以降水量大的季度空气质量较好。
3) 从绿化面积的影响可以看出,绿色植被可以净化空气,所以长沙市的绿化面积越大空气质量越好。
4) 大风级天数越多,则大颗粒的污染物被吹散的可能性就越大,所以空气质量越好。
以上四点的分析结果均符合客观事实。
除优势因素之外,还可以看出橘洲的烟花燃放次数对AQI的影响最小,从侧面反映出通过减少橘洲烟花燃放次数来改善空气质量的效果并不明显。
3.2. 回归分析
回归分析是比较常用的统计方法,在各种预报预测中,能利用最小二乘原理建立因变量与一组自变量之间的数学关系式,也能定量的分析出各自变量对因变量的影响,为了进一步得出空气质量与主要影响因素之间的具体关系,我们接下来对空气质量和主要影响因素做回归分析。
3.2.1. 建立线性回归模型
首先,我们假设空气质量与主要影响因素的关系为线性关系,则可认为空气质量与主要影响因素的关系表达式为:
其中,
表示自变量绿化面积,
表示自变量大风级天数,
表示自变量日均最高温,
表示自变量日均最低温,
表示自变量降水量,
是测量值的误差,我们可以把
看做是数学期望为零的随机变量。奥无疑问,这里的
就是待估计参数,可以根据自变量组和因变量的观测值估计出这些参数,接下来我们要做的就是利用观测值对这些参数进行估计。
3.2.2. 参数估计
为了方便计算,将自变量的观测值记为:
将每次观察下的误差记为:
将自变量组记为:
将待估计参数记为:
则原关系式就可以表示为:
根据最小二乘原理,尽可能的使每次观察误差的平方和达到最小,我们令:
为了寻找使得Q达到最小值的参数估计量
,我们可以先利用微积分求出上述方程的驻点,然后再验证其驻点就是最小值点,Q对
分别求偏导数得:
化简得待估计参数
的估计量
:
因为在该组数据中,通过计算可知
是非奇异矩阵,所以上述估计量成立,利用MATLAB可以求得:
具体每个参数
的估计值见表4。

Table 4. System operating parameters
表4. 各子因素与AQI的相关性
3.3. 灰色预测
灰色系统理论认为对既含有已知信息又含有非确定信息的系统进行预测,就是对在一定方位内变化的、与时间有关的灰色过程的预测。尽管各季度AQI平均值的变化看似是随机的、杂乱无章的,但毕竟是有序的、有界的,因此这一数据集合具备潜在的规律,灰色预测就是利用这种规律建立灰色模型对灰色系统进行预测。灰色系统的预测是基于最小二乘原理的预测,但又与线性回归预测不同,灰色预测可以认为是对一组时间序列进行预测,不需要自变量的观测值,其缺陷是只适用于短期预测。
3.3.1. 数据处理
首先我们要构造原始数列,构造规则与灰色关联法参考数列的规则相同,原始数列的具体情况如下:
为了保证预测的可靠性,需要检验数列的级比是否合理,级比数列计算公式如下:
所计算的级比数列为:
级比应落在区间
,即区间
内才能通过检验,这是建立GM(1,1)模型的一
个必要条件,显然该级比数列不符合,则应对数列
做适当平移,将级比数列中每一分量都加一常数300得:
再次检验新数列
的级比是否合理:
所计算的级比数列为:
显然新数列的级比是符合标准的。
3.3.2. 建立GM(1,1)模型
为了降低数据的波动性和随机性,我们利用
数列做一次累加,累加生成数列记为
,累加生成能使任意非负数列、摆动的与非摆动的,转化为非减的、递增的。
为了建立灰微分方程,我们需要计算加生成数
的均值数列,可根据如下公式进行计算:
于是定义GM(1,1)的灰微分方程模型为:
其相应的白化微分方程为:
其中,
称为灰导数,a称为发展系数,
称为白化背景值,b称为灰作用量。
将11个时刻的数据带入方程可得方程组:
我们可以很明显的看出,求解发展系数a和灰作用量b的值需要采用最小二乘法,这也是本文第二次用到最小二乘法。
记参数向量为:
记因变量的观测值向量为:
记自变量组的观察值矩阵为:
则由最小二乘法的原理可知,我们所求的发展系数a和灰作用量b的值,为误差平方和达到最小时所对应的值,设
根据本文3.2回归分析中的计算方法,可以求得当
达到最小时所对应的
,结果见表5。

Table 5. System operating parameters
表5. 发展系数与灰作用量的估计值
3.3.3. 预测
将代入方程求解得发展系数a和灰作用量b的估计值代入方程:
因为在数据处理的过程中,我们将原始数据进行了一次累加,所以需要先将计算所得数据进行还原,即进行累减处理。然后再将还原后的数据各项减去300得到预测值向量
,预测结果见图2:

Figure 2. Solution flow based on Greedy Algorithm
图2. 预测结果所示图
综上可得2017年第四季度AQI的平均值为68.60409;2018年第一季度AQI的平均值为67.64813。
由图2可见2017年冬季与2018年春季空气质量相对前几年将有所改善。
为了判断预测效果的好坏,我们需要对预测数据进行残差检验。
令残差为
,计算
得残差数列:
可以明显的看出残差值
,
,
和
均大于0.2,所以此次预测的结果准确度较差,预测方案还有待改进,改进后的预测方案将在模型的改进中给出。
4. 模型的改进
4.1. GM(1,1)模型的改进方案
由图1可看出各年四个季度AQI的变化趋势呈现一定的“周期性”,所以为了消除该“周期性”的影响,所以本次建立模型为收集2013至2016各年第四季度AQI的平均值作为参考值预测2017第四季度的AQI平均值;收集2014至2017各年第一季度AQI的平均值作为参考值预测2018第一季度的AQI平均值,原始数据见表6和表7。
假设我们所研究的RGV智能加工流水线的五组参数如表2所示,单位为秒。

Table 6. System operating parameters
表6. 2013至2016各年第四季度AQI的平均值

Table 7. System operating parameters
表7. 2013至2016各年第四季度AQI的平均值
4.2. 改进模型下的预测
由于该模型建立的方法与2.2.2的模型相同,所以以下建立过程进行简写。
设第四季度AQI的平均值的原始数列:
级比数列为(1.3668,1.2915,1.0441)均落在(0.6703,1.3956)之间,可直接建立GM(1,1)模型。
经过累加、均值处理并建立灰微分方程,可算得预测第四季度AQI的平均值的发展系数
和灰作用量
:
代入方程求解得:
可以算出2017年第四季度AQI平均值的预测值为67.3718。
残差检验数列为:

残差数列各值均小于0.1,可认为高度达到预测结果。
设第一季度AQI的平均值的原始数列:
级比数列为(1.12,1.16,1.0)均落在(0.6703,1.3956)之间,可直接建立GM(1,1)模型。
经过累加、均值处理并建立灰微分方程,可算得预测第一季度AQI的平均值的发展系数
和灰作用量
:
代入方程求解得:
可以算出2018年第一季度AQI平均值的预测值为84.9393。
残差检验数列为:
残差数列各值均小于0.1,可认为高度达到预测结果。
综上则预测出较为可靠的后两个季度AQI的平均值,近几年实际的AQI平均值与后两个季度预测的AQI的平均值的变化趋势见图3。

Figure 3. Solution flow based on greedy algorithm
图3. 预测值与实际值
通过图2预测结果与图3预测结果的对比也可以直观的看出,经过改进的GM(1,1)模型预测结果更符合实际,各年四个季度AQI的变化趋势仍然呈现一定的“周期性”。
5. 结论
从优势分析可以看出空气质量的影响主要与季节,降雨量和城市的绿化情况有关,通过控制降雨量和季节改善空气质量是很困难的,但是增大城市绿化面积是可以做到的,通过所收集近年的绿化面积的数据可以看出,近年来长沙市在大力扩增绿化面积,植树造林不仅可以改善我们的生活环境,还会使空气质量大大提高,从问题1.1的结果可以看出,这个决策的效果是非常明显的。自2017年开始,长沙橘洲的烟花燃放次数进行了缩减,目的之一就是为了提高长沙的空气质量,但从所得的结果可以看出,这项决策对于空气质量的影响微乎其微,几乎起不到主体作用。
经过对主要影响因素日均最高温、降水量、绿化面积、日均最低温和大风级天数与各季度AQI平均值的回归分析,可以给出AQI与主要影响因素之间的线性表达式,这对于制定空气质量的改善方案有着非常大的帮助。可以在给定主要影响因素指标的前提下,估算出AQI的平均值,可见,回归分析在环境科学领域有着重要的地位。
针对后两个季度AQI平均值的预测,在第一个建模方案中,虽然该GM(1,1)的部分结果偏差较大,但是从图2可以大致看出AQI值正在逐年递减,空气质量正在逐步的提高,这个结果与长沙市近年所采取提高空气质量的措施是相符的,例如扩增绿化面积,说明近年来采取的一系列提高空气质量的措施起到了一些作用。第二个建模方案较为合理,预测值也更加可信,该方案的预测结果是2017年第四季度AQI平均值的预测值为67.3718,2018年第一季度AQI平均值的预测值为84.9393,与实际结果相差不大,说明了模型的有效性和适用性。
基金项目
湖南省大学生创新创业训练计划项目(No. S201910536031)。
附录
数据