1. 引言
空气污染是21世纪普遍存在的环境问题。随着工业化和城市化的快速发展,大气污染日益严重,严重影响了人类的生存环境和健康[1]。Li等人得出结论,由于中国的环境空气污染,户外体育运动会带来很大健康风险[2] [3]。根据《中国环境空气质量标准》(GB30952012),用于监测空气质量的常规空气污染物有六种:二氧化硫(SO2)、二氧化氮(NO2)、粒径小于10微米的颗粒物(PM10)、粒径小于2.5微米的颗粒物(PM2.5)、臭氧(O3)和一氧化碳(CO) [4]-[6]。这些污染物对人体健康有不利影响。国际能源署估计,空气污染每年造成650万人过早死亡,而长期暴露于细颗粒(如PM2.5)或交通相关污染物等污染物与肺癌、冠心病和其他疾病的较高发病率有关[7] [8]。因此,空气质量预测的研究尤为重要,被认为是保护环境的关键因素。空气质量监测、建模和准确预测对于清楚地了解未来的污染水平及其相关的健康风险非常重要。
在目前的研究中,空气质量预测模型大致有三类:黑盒模型、白盒模型和灰盒模型。Raimondo等人[9]、Garcia等人[10]和Park等人[11]使用神经网络建立模型来预测单个污染物的流行情况,例如,测量小于10微米的颗粒物(PM10)。Raimondo等使用支持向量机(SVM)和人工神经网络(ANN)对模型进行训练。Yu等[12]提出了一种随机森林方法,命名为RAQ,用于AQI类别预测。随后,Yi等[13]应用深度神经网络进行AQI类别预测。Veljanovska和Dimoski [14]采用不同的设置来优于k-最近邻(k-NN)、决策树和支持向量机来预测AQI水平。他们的人工神经网络模型达到了92.3%的准确率,优于所有其他经过测试的算法。但是以神经网络为代表的黑盒模型的内部参数和结构难以得到验证,这类预测模型缺乏可解释性,使得用户难以理解预测背后的原因。给实际应用带来了潜在的风险。为了得到可靠的预测结果,需要从可解释的角度出发构建出合理的模型从而获得可靠的预测结果。为了解决这一问题,研究人员正在开发一种混合模型,这一模型旨在提供准确透明且具有可解释的预测,使用户能根据模型的输出结果从而做出明智的决策。
灰盒模型结合了黑盒模型和白盒模型的优点,很好地在准确性和可解释性之间取得了平衡。它可以像黑盒模型一样捕捉数据中的复杂关系,同时也可以像白盒模型一样提供对决策过程的洞察。模型的体系结构和参数可以根据问题的领域知识进行调整,从而提高了模型的准确性和可解释性。
BRB作为一种典型的灰盒模型,它可以整合不同来源的证据,做出准确的预测和决策。其次,BRB模型允许将专家知识纳入决策过程。这些专业知识可以帮助提高模型的准确性和可解释性。
2. RFI-HBRB模型的问题描述
空气质量预测对我们的生存环境和身体健康至关重要,因此建立有效准确且具有可解释性的预测模型直接关系到我们能否采取正确的措施应对空气污染带来的危害。本节给出了基于BRB的空气质量指数的问题描述。然后,构建了RFI-HBRB的基本模型框架。
本文在构建RFI-HBRB空气质量指数预测模型时考虑了以下三个问题:
问题1. 在实际预测中,影响环境质量的指标较多,例如PM2.5、PM10等,然而有些指标的数据同时包含定量信息和定性信息,有些指标对于空气质量的影响程度几乎可以忽略不计。若将所有指标全部作为评估指标,则会造成计算量较大,并且对于模型的最终预测准确率也会有影响。因此,如何选取有效的评估指标对于模型的建立极其重要。指标的选取可以描述为:
(1)
(2)
(3)
其中,O表示原始特征集,
表示筛选方法,
表示筛选后得到的特征集。
问题2. 在筛选出有效特征指标后,未被筛选出的指标对预测结果仍然有影响,如何处理这些特征指标使其在模型预测中发挥积极的作用是本文要解决的第二个问题。未被筛选出的特征指标处理可以描述为:
(4)
(5)
其中,P表示筛选后的特征集,
表示证据推理方法,T表示进行融合后的结果。
问题3. 如何在前人提出的BRB可解释性一般准则的基础上总结出适用于预测模型的BRB可解释性准则。Cao等人对BRB可解释性进行了全面的综述,并提出了八个通用的标准。来指导可解释性BRB的建立。因此,本文在一般准则的基础上提出可解释性准则,如式(6):
Interpretability criteria:
(6)
其中,C表示可解释的准则集,n表示准则数。
最终的模型推理描述为式(7):
(7)
其中,
表示空气质量预测系统的输入数据。
代表专家知识。I表示空气质量指数预测结果集合。g为非线性函数,表示系统特征与预测值之间的关系。
表示空气质量预测模型。
3. 基于RFI-HBRB的空气质量预测方法
新提出的基于RFI-HBRB的模型结构如图1所示,该模型由四个部分组成。第一部分是特征筛选,采用随机森林(Random Forest)进行特征重要性排序,选取对于结果影响较大的指标。第二部分是使用证据推理(ER)来融合多个特征指标的信息。第三部分是基于可解释的分层BRB推理方法。第四部分是BRB的优化训练算法。
3.1. 基于Random Forest的空气质量预测特征筛选
随机森林(Random Forest, RF)作为一种集成机器学习方法,它利用随机重采样技术bootstrap和节点随机分裂技术构建多颗决策树,通过投票得到最终结果。随机森林具有分析复杂相互作用分类特征的能力,对于噪声数据和存在缺失值的数据具有很好的鲁棒性,并且具有较快的学习速度,其变量重要性度量可以作为高维数据的特征选择工具,近年来已经被广泛应用于各种分类、预测、特征选择以及异常点检测问题中。
在这一部分中,使用随机森林特征选择算法对特征重要性进行排序,从而选出最具有效性的特征。特征重要性计算是Random Forest内嵌的功能,以袋外(Out-Of-Bag, OOB)数据分类准确率的变量为评价准则。
假设有bootstrap样本
,K表示训练样本的个数,每个样本有N个特征,特征重要性排序的计算步骤如下:
Figure 1. Air quality prediction method based on RFI-HBRB
图1. 基于RFI-HBRB的空气质量预测方法
步骤1:初始化k = 1,创建决策树
;
步骤2:对第k个bootstrap样本训练
,计算第k个OOB数据的分类准确率
。
步骤3:随即对OOB数据集中的特征
,
施加扰动,再次计算
。
步骤4:对于
重复步骤1~步骤3。
步骤5:特征
的重要性度量
通过式(8)计算
(8)
步骤6:对
降序排列,得到特征重要性排序。
3.2. 基于证据推理的空气质量指标评估模型
在空气质量预测中,对于一些极端天气,可能会大大提高数据获取的难度,从而对空气质量预测带来很大的影响。另一方面,如果只用随机森林筛选出的具有有效性指标进行预测,而放弃未被筛选出的指标,分析过程孤立且结论缺乏说服力。同时筛选指标会造成信息损失,预测结果存在误差。因此,本文采用证据推理(ER)算法对筛选后余下的指标进行融合,确保使用数据的完整性。其流程如图2所示。主要实现步骤如下:
步骤1:根据专家知识初始化指标中不同评估等级的置信度,第i个指标可以描述为:
(9)
其中
表示第r个指标数据的评估级别,
表示在证据
下被评估为等级
的置信度。θ表示全局无知,
表示第个指标中数据未分配的置信度。
Figure 2. Flow chart of evidence reasoning
图2. 证据推理流程图
步骤2:计算证据的基本概率质量,如式(10~12)描述:
(10)
(11)
(12)
其中,
表示的是第r个指标中第i个指标等级的基本概率质量,
代表未分配给数据等级集合的基本概率质量,
为缺少的第i个数据指标概率质量。
步骤3:基于Dempster规则求解组合概率质量:
(13)
(14)
(15)
(16)
(17)
步骤4:根据上述结果计算联合置信度:
(18)
步骤5:假设评估等级
的效用为
,那么评估的期望效用计算如下:
(19)
基于上述分析,式(19)的结果能对影响空气质量的指标进行有效的评估,某类指标的效用值越高,代表该类属性对空气质量预测的影响越大,验证了空气质量预测方案的有效性。
3.3. 模型构建
在实际问题中存在各种不确定因素,特别是人类活动,使得对于空气质量预测难度较大,而BRB模型是一种具有专家系统和数据驱动模型特征的新型智能专家系统。BRB是采用Yang等人提出的证据推理方法的规则库。在该方法中,第条IF-THEN置信规则表示为式(20):其中,
是指空气质量预测评估指标;
表示评估指标的参考值集合;
是RFI-HBRB模型输出结果的参考等级;
表示第k条置信规则下,每个结果对应的置信度;
表示第i条置信规则的规则权重;K表示置信规则的数量;
表示第i个评估指标的属性权重;M表示评估指标的数量。
(20)
可以看出,BRB可以很好地处理定性和定量信息,并且建模容易理解。但在BRB的应用中由于影响指标较多,输入属性过多会导致规则爆炸。因此,考虑到具有多重属性,设计了分层结构,这样的模型结构具有良好的可扩展性,能够更好的应用于空气质量预测问题。
该方法将随机森林筛选出的属性作为输入,并根据专家知识建立的BRB输出相应的结果,然后继续作为下一层的输入值,直到最后一层。然后考虑采用可解释准则的优化算法进行优化。最终在可解释模型下得到高精度的预测结果。其推理过程如下。
步骤1:初始化。通过专家知识构建初始化规则置信度。
步骤2:使用下列公式计算输入与参考值的匹配度:
(21)
其中,
表示第i个输入
对于参考值
的匹配度。
步骤3:计算规则激活权重,公式如下:
(22)
其中,
表示第k条规则的激活权重,
表示第k条规则的规则权重,
表示第i个属性权重,T表示先行属性的数量。
步骤4:使用ER分析算法生成每个空气质量预测结果的置信度,公式如下:
(23)
(24)
步骤5:最终输出为:
(25)
其中,
表示模型的实际输出,
表示相对于评价结果
的置信度。
3.4. 模型优化过程
Figure 3. Flowchart of the whale optimization algorithm
图3. 鲸鱼优化算法流程图
考虑到空气质量受到环境和人类活动的干扰以及专家知识的有限性影响,模型难以准确预测空气质量的真实情况。因此,RFI-HBRB的优化对提高模型的精度是至关重要的。鲸鱼优化算法(Whale Optimization Algorithm, WOA)是由MIRIALILI提出的一种模拟座头鲸捕食猎物行为的新型智能优化算法。该算法将猎物的位置抽象为一个对应的最优解,鲸鱼通过种群个体搜索,收缩包围猎物来实现最终达到猎物位置即最优解位置。由于鲸鱼算法原理简单,参数设置少和具有较强的全局搜索能力的优点。算法的简单步骤如图3所示。
4. 案例研究
4.1. 实验过程
实验主要包括数据下载、数据处理、初始模型建立、模型训练、结果对比分析等部分。空气质量预测的实验过程如图4所示。
Table 1. Initial reference values
表1. 初始参考值
|
参考点 |
VL |
L |
M |
H |
BRB1 |
X1 |
2 |
56 |
186 |
380 |
X2 |
6 |
49 |
129 |
560 |
BRB2 |
X3 |
0.22 |
0.65 |
0.83 |
0.98 |
X4 |
15 |
49 |
129 |
440 |
Table 2. Initial rules for BRB
表2. BRB的初始规则
Rule No. |
Indicators
|
Rule Weight Constraint
|
Rule Weight
|
Initial Belief
|
The Belief Constraint
|
1 |
VLVL |
0.5-1 |
1 |
{0.9, 0.05, 0.05, 0} |
{0.8-0.9, 0-0.1, 0-0.1, 0-0.1} |
2 |
VLL |
0.5-1 |
1 |
{0.75, 0.2, 0.05, 0} |
{0.7-0.8, 0.2-0.3, 0-0.1, 0-0.1} |
3 |
VLM |
0.5-1 |
1 |
{0.3, 0.4, 0.2, 0.1} |
{0.2-0.4, 0.4-0.5, 0.1-0.3, 0-0.1} |
4 |
VLH |
0.5-1 |
1 |
{0.05, 0.35, 0.3, 0.3} |
{0-0.1, 0.1-0.2, 0.2-0.4, 0.3-0.5} |
5 |
LVL |
0.5-1 |
1 |
{0.9, 0.1, 0, 0} |
{0.9-1, 0-0.1, 0-0.1, 0-0.1} |
6 |
LL |
0.5-1 |
1 |
{0.75, 0.15, 0.1, 0} |
{0.7-0.8, 0.1-0.2, 0-0.1, 0-0.1} |
7 |
LM |
0.5-1 |
1 |
{0.25, 0.35, 0.3, 0.1} |
{0.2-0.3, 0.3-0.4, 0.3-0.4, 0-0.1} |
8 |
LH |
0.5-1 |
1 |
{0.2, 0.3, 0.25, 0.25} |
{0.1-0.3, 0.3-0.4, 0.2-0.3, 0.2-0.3} |
9 |
MVL |
0.5-1 |
1 |
{0.25, 0.35, 0.3, 0.1} |
{0.2-0.3, 0.3-0.4, 0.2-0.4, 0-0.1} |
10 |
ML |
0.5-1 |
1 |
{0.55, 0.2, 0.15, 0.1} |
{0.5-0.6, 0.1-0.3, 0.1-0.2, 0-0.1} |
11 |
MM |
0.5-1 |
1 |
{0.2, 0.25, 0.4, 0.15} |
{0.1-0.2, 0.2-0.3, 0.4-0.5, 0.1-0.2} |
12 |
MH |
0.5-1 |
1 |
{0.05, 0.1, 0.3, 0.55} |
{0-0.1, 0.1-0.2, 0.2-0.3, 0.5-0.6} |
13 |
HVL |
0.5-1 |
1 |
{0.05, 0.5, 0.25, 0.2} |
{0-0.1, 0.4-0.6, 0.2-0.3, 0-0.2} |
14 |
HL |
0.5-1 |
1 |
{0.25, 0.5, 0.15, 0.1} |
{0.2-0.3, 0.4-0.6, 0.1-0.2, 0.1-0.2} |
15 |
HM |
0.5-1 |
1 |
{0.05, 0.1, 0.2, 0.65} |
{0-0.1, 0-0.1, 0.1-0.3, 0.6-0.7} |
16 |
HH |
0.5-1 |
1 |
{0, 0.1, 0.15, 0.75} |
{0-0.1, 0-0.1, 0.1-0.2, 0.7-0.8} |
根据专家知识的判断,选择四个语义值来描述系统状态,即“非常低”(VL)、“低”(L)、“中等”(M)和“高”(H)。BRB1和BRB2的属性权重及初始参考值如表1所示。初始规则和初始规则权重如表2所示。
Figure 4. Experimental process of air quality prediction
图4. 空气质量预测实验过程
4.2. 模型的实验步骤
Table 3. Optimized rules
表3. 优化后的规则
Rule No. |
Indicators
|
Rule Weight
|
The Optimized Belief
|
1 |
VLVL |
0.9522 |
{0.95, 0.05, 0, 0} |
2 |
VLL |
0.5621 |
{0.75, 0.25, 0, 0} |
3 |
VLM |
1 |
{0.3, 0.4, 0.2, 0.1} |
4 |
VLH |
1 |
{0.05, 0.35, 0.3, 0.3} |
5 |
LVL |
0.6427 |
{0.85, 0.15, 0, 0} |
6 |
LL |
0.9452 |
{0.7, 0.15, 0.1, 0.05} |
7 |
LM |
0.9022 |
{0.3, 0.35, 0.3, 0.05} |
8 |
LH |
1 |
{0.2, 0.3, 0.25, 0.25} |
9 |
MVL |
0.8385 |
{0.3, 0.35, 0.3, 0.05} |
10 |
ML |
0.6173 |
{0.6, 0.2, 0.15, 0.05} |
11 |
MM |
0.5509 |
{0.15, 0.25, 0.4, 0.2} |
12 |
MH |
0.9633 |
{0, 0.05, 03, 0.65} |
13 |
HVL |
1 |
{0.05, 0.5, 0.25, 0.2} |
14 |
HL |
0.8777 |
{0.2, 0.5, 0.2, 0.1} |
15 |
HM |
0.8273 |
{0., 0.1, 0.1, 0.8} |
16 |
HH |
0.9978 |
{0, 0, 0.15, 0.85} |
首先分析数据集的激活权重,并标记不激活权重。图5显示RFI-HBRB各规则的激活权重。图中3、4、8、13未激活。这表明在有限的数据集中,这些规则对结果没有影响。因此,在优化过程中,如果需要调整相关参数,为避免破坏模型的可解释性,需要对这些规则进行标记和修正。
Figure 5. RFI-HBRB rule weight activation analysis
图5. RFI-HBRB规则权重激活分析
Figure 6. Predicted and true values of RFI-HBRB
图6. RFI-HBRB的预测值和真实值
初始参考值和最佳参考值的可行区间如表1和表2所示,表3所示的优化规则显示了调整后优化算法的有效性。预测结果如图6所示。
4.3. 分析实验结果
为了更好地评估模型性能,我们选择了BP神经网络(BP Neural Networks)、KNN、ELM、SVM、RF (Random Forest)和K-means六种算法进行对比试验。此外还比较了专家知识构建的BRB0、原始BRB1和RFI-HBRB。本文选择MAE、RMSE和R2进行综合评价和模型比较。
4.4. 精度分析
Table 4. Comparison of RFI-HBRB and other model predictions
表4. RFI-HBRB和其他模型预测的比较
No. |
Method |
MAE |
RMSE |
R2 |
1 |
RFI-HBRB |
3.6229 |
11.4485 |
0.9854 |
2 |
BP neural works |
9.9683 |
13.03 |
0.95271 |
3 |
KNN |
10.72 |
16.63 |
0.9095 |
4 |
ELM |
12.22 |
21.84 |
0.844 |
5 |
SVM |
15.8 |
25.1 |
0.75 |
6 |
RF |
12.5 |
19.9 |
0.87 |
7 |
K-means |
12.54 |
16.56 |
0.938 |
Figure 7. Comparison between other algorithms and real values
图7. 其他算法和真实值比较
在精度分析中,实验结果分为两部分进行描述。为了有效地对模型进行综合评价,本节使用了MAE、RMSE和R2作为评价指标。计算公式如式(26)。RFI-HBRB结合BP Neural Networks、KNN、ELM、SVM、RF和K-means。结果如表4所示。
(26)
在第一部分,RFI-HBRB的输出值和真实值如图6所示。如图中所示,预测值和真实值拟合程度较好,说明该模型对于空气质量预测的有效性。第二部分是BP neural networks、KNN、ELM、SVM、RF和K-means与真实值的比较。如图7。
由此可以得出,本文所使用的模型相较于其他模型拥有很高的预测准确率,适用于空气质量预测领域。
5. 结论
考虑到空气质量在时间和空间上复杂和不断变化的性质,准确预测空气质量是一项艰巨的任务。本文在BRB的基础上构建了RFI-HBRB模型,为空气质量预测提供了一种高度准确和可信的方法。研究人员已经证明了BRB专家系统预测未来空气质量的能力。RFI-HBRB模型增强了BRB的可解释性,显示了RFI-HBRB在空气质量预测中的优势。最终结果表明,RFI-HBRB模型在提高可解释性的同时,MAE稳定在2~4之间,基本达到了初始BRB的精度。这一成就不仅强调了置信规则库和专家知识在预测空气质量方面的有效性,而且强调了通过创新方法解决环境问题的潜力。
总之,我们的研究突出RFI-HBRB模型在空气质量预测方面的意义,并证明了它优于传统的深度学习算法。从我们的研究中获得的见解具有普遍适用性,为解决全球范围内的空气质量问题提供了机会。通过置信规则库和专家系统的协同作用,我们为可持续和更健康的未来铺平了道路。