基于可解释性置信规则库的东北多年冻土区地表冻结天数预测模型

doi:10.12677/csa.2024.1412246

期刊菜单

基于可解释性置信规则库的东北多年冻土区地表冻结天数预测模型
An Interpretability Model for Surface Freezing Days Prediction in the Northeast Perennial Permafrost Region Based on an Interpretable Belief Rule Base

DOI: 10.12677/csa.2024.1412246, PDF, HTML, XML,
作者: 李硕子, 马宁：哈尔滨师范大学计算机科学与信息工程学院，黑龙江哈尔滨
关键词: 置信规则库(BRB)；Interpretable Surface Freezing Days (ISFD)；因子分析；东北地区；Belief Rule Base (BRB)； Interpretable Surface Freezing Days (ISFD)； Factor Analysis； Northeast Region

摘要: 准确地预测多年冻土区地表冻结天数对于当前地表环境有重大意义。当前地表冻结地区融化时间推后，融化结束时间提前，总体冻结时长增加。对于传统置信规则库来说，只考虑了其精准性的问题，而对于地表冻结时长天数，其可解释性具有重大意义，需要考虑水汽、气体以及在融化过程之中的能量交换过程。因此本文使用因子分析法，对于影响地表冻结天数的因素提取因子，然后使用可解释性置信规则库，对地表冻结天数进行可解释性预测，使用中国东北地区的数据进行案例研究，结果表明可解释性置信规则库可以对多年冻土区地表冻结天数进行有效预测，验证了模型的有效性。

Abstract: Accurate prediction of the number of days of surface freezing in perennial permafrost regions is of great significance for the current surface environment. Currently, the thawing time is pushed back in the surface freezing region, the thawing end time is advanced, and the overall freezing duration increases. For the traditional belief rule base, only its accuracy is considered, but for the surface freezing duration days, its interpretability is of great significance, and it needs to consider the water vapor, gas, and the energy exchange process during the melting process. Therefore, this paper uses the factor analysis method to extract the factors for the number of days of surface freezing, and then uses the interpretable confidence rule base to predict the number of days of surface freezing with interpretability, and uses the data from Northeast China to conduct a case study, and the results show that the interpretable belief rule base can effectively predict the number of days of surface freezing in the perennial permafrost region, which verifies the effectiveness of the model.

文章引用：李硕子, 马宁. 基于可解释性置信规则库的东北多年冻土区地表冻结天数预测模型[J]. 计算机科学与应用, 2024, 14(12): 118-131. https://doi.org/10.12677/csa.2024.1412246

1. 引言

多年冻土是指在高海拔和高纬度地区，土壤或岩石在连续两年或更长时间内的温度低于0℃，是冰冻圈的关键组成部分。这种土壤类型约占据了北半球陆地面积的24% [1]-[3]。全球气候变暖导致寒区地表温度显著上升，全球冻土面临广泛、快速的融化趋势[4]。这一趋势的主要表现包括冻土融化开始的时间推迟、融化结束时间提前，冻土融化的持续时间缩短以及冻土融化的强度减弱[5]-[7]。东北多年冻土区位于欧亚大陆多年冻土区的南缘，是中国中高纬度地区多年冻土区的主要分布区，具有高变异性和小范围离散性，不同时空尺度下的温度、厚度、热稳定性和对气候环境变化的敏感性存在显著差异[8] [9]。多年冻土的退化对地表冻融过程产生深远影响，而这些过程在地气之间的能量、水分和气体交换方面具有重要作用，进一步影响了全球和区域尺度的水文过程、气候变化和生态过程[10] [11]。因此，准确掌握地表冻融状态信息对于研究碳循环、陆地水文过程以及气候变化等相关问题具有重要意义。

中国的冻土测绘研究开始于20世纪60年代。在20世纪80年代以前，制图主要基于有限的多年冻土调查和调查资料，以及对多年冻土形成和分布的温度条件和地形地貌特征的认识；是人为手绘的，制图的精度不高。在这一时期出版的第一代多年冻土图受前苏联和北美多年冻土分类体系的影响，以连续性作为划分多年冻土带的标准，将纬向带和垂向带结合起来，用连续性来界定多年冻土分类体系。

因此，早期多年冻土区与近年来的研究结果存在较大差异。近年来，随着调查方法的优化、监测数据的积累和开放共享、遥感数据的日益丰富以及物理模型的完善，为了解冻土的分布和变化提供了有利条件。在1996~2006年期间，Wu和Zhang每月对青藏公路沿线10.7 m深度的冻土区的10个钻孔进行监测。他们为了表征冻土的冻结和融化状态，利用现场观测资料分析了青藏高原近地表空气冻结/融化指数(AFI/ATI)和地表冻结/融化指数(GFI/GTI)的变化。结果表明：1998年以来，青藏高原的解冻指数呈显著上升趋势，冻结指数呈显著下降趋势。

目前，判别地表冻融状态的方法主要是站点监测、数值模拟和遥感反演这三类。但站点监测方法和数值模拟方法由于站点数量和模式参数等限制，不适用于模拟较大区域的地表冻融状态。而被动微波遥感技术方法主要的误差来源有：1) 积雪特征的时空变化；2) 地下、土地植被覆盖；3) 环境因素。由这些来源的各种因素引发的不确定性会阻碍雪深反演的可靠性。这些现场采样和观测数据为相关人员通过可解释性的置信规则库模型进行地表冻结天数预测提供了大量数据支持。

在目前的预测模型研究中，预测模型大致分为三类：黑盒模型、白盒模型和灰盒模型。黑盒模型，如神经网络，在处理复杂和非线性关系方面是强大的，使它们在许多领域都很有用。白盒模型，如线性回归，简单且易于解释，允许透明和理解模型如何达到其决策。虽然黑盒模型达到了很高的准确性，但它们往往缺乏可解释性，这使得用户很难理解预测背后的原因。另一方面，白盒模型往往会牺牲准确性。为了解决这些问题，研究人员正在开发混合模型，将两种方法的优点结合起来。这些模型旨在提供准确且透明且易于理解的预测，使用户能够根据模型的输出做出明智的决策。灰盒模型结合了黑盒模型和白盒模型的优点，在准确性和可解释性之间取得了平衡。它可以像黑盒模型一样捕捉数据中的复杂关系，同时也可以像白盒模型一样提供对决策过程的洞察。模型的体系结构和参数可以根据问题的领域知识进行调整，从而提高了模型的准确性和可解释性。然而，这些模型的发展仍然是一个正在进行的研究课题，需要做很多工作来提高它们的准确性和可解释性。

BRB模型是一种典型的灰盒模型，具有处理不确定和不完整数据的能力，具有较高的准确性。它可以整合不同来源的证据，做出准确的预测和决策。其次，BRB模型允许将专家知识纳入决策过程。这些专业知识可以帮助提高模型的准确性和可解释性，特别是在数据有限或不完整的情况下。然而，基于BRB的地表冻结天数预测存在一些问题。首先，没有详细的BRB可解释性标准来确保该模型在地表冻结天数预测领域的可用性。其次，传统BRB模型考虑的属性数量过少，进行预测时可靠性存在不足。因此需要根据提出的准则，对BRB-based ISFDP模型的各个部分进行调整，以保证整个模型的可解释性。

2. 数据

2.1. 研究区概况

研究区位于中国东北部，地理范围介于116.27˚E~130.38˚E，46.72˚N~53.42˚N之间(图1)，总面积大约为3.87 × 10⁵平方千米。这一地区属于寒温带大陆性季风气候，同时受蒙古–西伯利亚高压和海洋季风的影响，导致四季分明，夏季湿热多雨，冬季漫长且寒冷。降水主要集中在每年7月和8月，降雪从每年11月初开始，一直持续到次年4月初。该研究区的年平均气温在−5℃至2℃之间，呈南北逐渐降低的趋势。该地区的多年冻土属于高纬度多年冻土，主要包括不连续多年冻土区(多年冻土连续性在50%~90%之间)、零星多年冻土区(多年冻土连续性在10%~50%之间)以及孤立斑块多年冻土区(多年冻土连续性小于10%)。研究区的地貌以山地和高原为主，主要分布在大兴安岭和呼伦贝尔高原地区。植被主要由森林和草原组成，尤其是大兴安岭山脉东部，这里以落叶林和混交林为主，森林覆盖率较高，是中国重要的原始林区之一。

2.2. 数据来源

2.2.1. AMSRE和AMSR2亮温数据

本研究采用的是JAXA官方网站(https://gportal.jaxa.jp/gpr/)提供的AMSRE和AMSR2亮温数据。将每年的7月1日至次年的6月30日设定为一个地表冻结判别年，由于搭载获取亮温数据传感器的卫星在2011年7月~2012年6月停止工作，我们未在研究中对这一冻结判别年进行计算。

2.2.2. 实地数据

气象站数据(0 cm地表温度)来源于中国气象数据中心的中国地面气候日值数据集(V3.0)。研究区内有16个监测站，每个监测站包含每日0 cm地表温度的最大值、最小值和平均值等信息。以各站点每日0 cm地表温度为标准确定所在区域的土壤冻融状态。如果0 cm地表温度大于0℃，则归类为融化土壤；如果0 cm地表温度小于0℃，则归类为冻结土壤。

2.2.3. 环境数据集

基于遥感数据，选取高程，坡度和坡向作为地形因素；气温和降水作为气候因素；土壤湿度和土壤类型作为土壤质地因素；植被覆盖类型，NDVI和雪盖作为地表覆盖因素；经度和纬度作为地带性因素。其中，高程数据来源于ASTER DEM数据集，空间分辨率为30 m，坡度和坡向数据使用ArcGIS 10.2软件(ArcGIS version10.2, Environmental Systems Research Institute, Inc., Red-lands, CA, USA)提取于高程数据。NDVI数据以及植被覆盖类型数据选取自MODIS数据集中的MOD13Q1产品和MCD12Q1产品，空间分辨率分别为250 m和500 m。其中MCD12Q1产品使用IGBP全球植被分类方案，我们将研究区内的植被分为常绿林、落叶林、混交林、稀树草原、草原、农田六种植被覆盖类型。另外，我们根据该数据提取出水体，建筑用地、湿地等土地覆盖类型对所有栅格数据对应位置进行擦除，避免上述土地覆盖类型对研究造成影响。

土壤类型数据使用美国粮农组织(Food and Agriculture Organization, FAO)发布的世界土壤数据库v1.2 (https://www.fao.org/soils-portal)。土壤质地按美国农业部(United States Department of Agriculture, USDA)划分，研究区主要土壤类型分为粉砂质粘壤土(SICL)、壤砂土(LS)、粘壤土(CL)、粉粘壤土(SIC)、砂粘壤土(SACL)、壤土(L)和砂壤土(SL)。雪盖、气温、土壤湿度和降水数据使用ERA5-Land月度气候再分析数据集，该数据集是ECMWF后处理的完整ERA5-Land数据集的每月平均子集，空间分辨率为0.1˚ × 0.1˚，使用Google Earth Engine (GEE)平台(https://developers.google.com/earth-engine/)进行裁剪和下载。

多年冻土类型数据提取自国家青藏高原科学数据中心(http://data.tpdc.ac.cn/zh-han)的环北极地区多年冻土和地下冰状态图，研究区主要存在不连续多年冻土(Discontinuous Permafrost)，零星多年冻土(Sporadic Permafrost)和孤立斑块多年冻土(Isolated Patches of Permafrost)。关于数据集的详细信息见表1，上述数据使用ArcGIS 10.2统一重采样到0.1˚并根据研究区边界进行裁剪以匹配AMSRE和AMSR2亮温数据。

Table 1. Types and sources of remotely sensed data

表1. 遥感数据类型及来源

类别	因素	时间范围	空间分辨率	数据来源
亮温数据	AMSRE/AMSR2	2002.06~2011.06/	0.1˚	https://gportal.jaxa.jp/gpr/
		2012.06~2022.06
地形	高程、坡向、坡度	\	30 m	https://search.earthdata.nasa.gov/
气候	气温	2002.06~2011.06/	0.1˚	https://developers.google.com/earth-engine/
		2012.06~2022.06
	降水	2002.06~2011.06/	0.1˚	https://developers.google.com/earth-engine/
		2012.06~2022.06
土壤质地	土壤湿度	2002.06~2011.06/	0.1˚	https://developers.google.com/earth-engine/
		2012.06~2022.06
	土壤类型	\	1 km	https://www.fao.org/soils-portal
地表覆盖	植被覆盖类型	\	500 m	https://search.earthdata.nasa.gov/
	NDVI	2002.06~2011.06/	250 m	https://developers.google.com/earth-engine/
		2012.06~2022.06
	雪盖	2002.06~2011.06/	0.1˚	https://developers.google.com/earth-engine/
		2012.06~2022.06

3. 研究方法

3.1. 数据处理

由于对地表冻结天数时长的影响属性过多，如DEM、NDVI、土壤湿度等。这些前提属性都可以用来在BRB中构建置信规则库，由于置信规则库中的规则由每个属性的参考值进行组合，因此前提属性数量过多，规则库中的规则数量会非常大，就会出现组合爆炸的问题。为了减少规则库的规模，我们采用因子分析方法来对数据集进行处理。

Figure 1. Schematic of BRB-based ISFDP structure with attributes and factors

图1. 具有属性和因子的BRB-based ISFDP结构示意图

少量的因子会被提取出来作为新的属性，用来构建BRB系统，如图1所示。在此我们使用探索性因子分析(Exploratory Factor Analysis, EFA)来进行处理。

假设有由p个属性 $x_{1}, x_{2}, \dots, x_{p}$ 来用于预测地表冻结天数。如果这些属性不是独立的，则会有一些未观察到的潜在变量 $f_{1}, f_{2}, \dots, f_{k}$ 即因子，来表示这p个观察到的变量。因子分析方法用于寻找这些潜在变量。在进行因子分析后，可以找到未观察到的潜在变量，并将其建模为这些观察到的属性的线性组合。因子模型如下所示：

${\begin{array}{l} f 1 = l 11 x 1 + l 12 x 2 + \dots + l 1 p x p \\ \begin{matrix} f 2 = l 21 x 1 + l 22 x 2 + \dots + l 2 p x p \\ ⋮ \end{matrix} \\ f k = l k 1 x 1 + l k 2 x 2 + \dots + l k p x p \end{array}$

这里 $L = {l_{i j}; i = 1, \dots, k; j = 1, \dots, p}$ 为加载矩阵，每个元素表示因子 $f_{i}$ 与观测属性 $x_{j}$ 之间的相关系数。它显示了每个属性与某个因素的相关性有多强，以及每个属性对该因素的度量有多好。探索性因子分析有三个步骤，即相关性分析、因子提取和因子旋转。

1) 相关性分析

相关性分析是找出属性之间的关系，当前各项因子通过相关性分析所得到的相关性矩阵如表2所示。

Table 2. Correlation matrix

表2. 相关性矩阵

	冻结天数	经度	纬度	植被覆盖	DEM	土壤湿度	降水	ndvi	坡度	坡向	气温	土壤类型	雪盖
冻结天数	1.000	0.025	0.641	−0.162	0.416	0.603	0.415	0.539	0.184	−0.004	−0.867	0.183	0.921
经度	0.025	1.000	−0.025	0.063	−0.676	0.629	0.789	0.446	−0.085	−0.021	0.390	0.147	0.116
纬度	0.641	−0.025	1.000	−0.171	−0.050	0.197	0.111	0.241	0.022	0.002	−0.657	0.127	0.618
植被覆盖	−0.162	0.063	−0.171	1.000	−0.068	−0.028	−0.019	−0.126	−0.075	0.025	0.150	−0.053	−0.112
DEM	0.416	−0.676	−0.050	−0.068	1.000	−0.111	−0.278	0.020	0.254	0.012	−0.640	0.065	0.314
土壤湿度	0.603	0.629	0.197	−0.028	−0.111	1.000	0.806	0.643	0.110	−0.002	−0.224	0.168	0.611
降水	0.415	0.789	0.111	−0.019	−0.278	0.806	1.000	0.655	0.065	−0.013	−0.017	0.201	0.426
ndvi	0.539	0.446	0.241	−0.126	0.020	0.643	0.655	1.000	0.214	−0.016	−0.249	0.308	0.450
坡度	0.184	−0.085	0.022	−0.075	0.254	0.110	0.065	0.214	1.000	0.031	−0.175	0.084	0.109
坡向	−0.004	−0.021	0.002	0.025	0.012	−0.002	−0.013	−0.016	0.031	1.000	−0.010	−0.022	−0.003
气温	−0.867	0.390	−0.657	0.150	−0.640	−0.224	−0.017	−0.249	−0.175	−0.010	1.000	−0.078	−0.821
土壤类型	0.183	0.147	0.127	−0.053	0.065	0.168	0.201	0.308	0.084	−0.022	−0.078	1.000	0.101
雪盖	0.921	0.116	0.618	−0.112	0.314	0.611	0.426	0.450	0.109	−0.003	−0.821	0.101	1.000

2) 因子提取

提取因子是确定产品属性中存在的初始因子。通常采用PCA方法进行提取。设相关矩阵为 $R = {(ρ_{i j})}_{p \times p} (i = 1, 2, \dots, p; j = 1, 2, \dots, p)$ 。存在一个特征方程 $\det (R - λ I) = 0$ ，求出矩阵的特征值 $λ_{j} (j = 1, 2, \dots, p)$ 其中I是单位矩阵。对应的特征向量 $u_{j} = {(u_{j 1}, u_{j 2}, \dots, u_{j p})}^{T}$ 可由式 $R u_{j} = λ_{j} u_{j}$ 导出，其中 $u_{j}$ 满足条件 $u_{j}^{T} u_{j} = 1$ 。则第k个分量的得分为：

$f_{k} = u_{j 1} (\frac{x_{1} - {\bar{x}}_{1}}{\sqrt{var (x_{1})}}) + \dots + u_{j p} (\frac{x_{p} - {\bar{x}}_{p}}{\sqrt{var (x_{p})}})$

得到p个分量，与属性的数量相同。选取两个分量作为主分量，即初始因子。它们可以用来解释原始属性数据中尽可能多的变化，并且可以通过观察到的变量的线性组合来表示。

3) 因子旋转

因子旋转旋转的目的是使初始因子更具可解释性。当在多维空间中旋转时，初始因子模型转化为一个简单的结构，其中连接观察变量与未观察变量(因子)的因子加载矩阵尽可能极值(即接近0或1)。

为了使载荷矩阵更接近这种简单结构，通常采用变矩旋转方法。假设有p个观察属性和k个因子。varimax准则要求使平方荷载(属性与因素之间的平方相关性)的方差之和达到最大，即：

$M a x \sum_{s} {p \sum_{j} {(a j s^{2} / h j^{2})}^{2} - {[\sum (a j s^{2} / h j^{2})]}^{2}}$

在旋转之后，任何给定的因子都只由少数对该因子具有非常高负载的属性组成，而其余属性对该因子的负载接近于零。因此，这些因素可以通过其相关的观察属性来解释，并将用于构建消费者偏好预测的置信规则库。

3.2. 置信规则库可解释性准则

针对BRB-based ISFDP方法存在的两个问题，综合考虑模型的精度和可解释性，建立了具有可解释性的BRB预测模型。具体问题如下。

问题一：如何在前人提出的BRB可解释性一般准则的基础上，总结出适用于预测模型的BRB可解释性准则。Cao等人对BRB可解释性进行了全面的综述，并提出了8个通用标准 ${C_{general} | C_{1}, C_{2}, \dots, C_{8}}$ ，以指导可解释性BRB的建立。这些标准可为今后BRB研究提供参考。确保整个建模过程尽可能地可解释是很重要的。

因此，本文在一般准则的基础上提出可解释准则，如式(1)所示：

$Interpretability criteria: {C | C_{1}, C_{2}, \dots, C_{n}}$

其中，C表示可解释的准则集，n表示准则数。

如何基于可解释性准则构建BRB-based ISFDP模型。根据提出的地表冻结天数预测可解释性准则，有必要对模型各部分进行调整。在建立模型、推理和优化时，必须充分考虑计算的合理性和输入输出之间的因果关系。

第一个问题是如何构建一个合适的模型结构，如式(2)所示：

$ψ = ϑ [x_{1}, x_{2}, \dots, x_{m}]$

其中 $X_{j} (j = 1, 2, \dots, m)$ 表示系统的先验属性输入。ψ表示构造的有理模型结构。表示构建过程。

下一个问题是如何改进优化算法，如式(3)所示：

$Ω_{b e s t} = Ξ (Ω, ϖ)$

其中Ω为优化过程的参数集。表示专家设置的可解释约束。Ξ表示参数的优化过程。 $Ω_{best}$ 为优化后的最优参数。

最终的模型推理描述为(4)：

$y = f (x, C, E K)$

其中，x为地表冻结天数的输入数据。EK代表专家知识，用于设置规则库参数Ω和可解释性参数。y为地表冻结天数的预测结果集合。f为非线性函数，表示系统特性与预测值之间的关系。

地表冻结天数对模型的可解释性有很高要求，初始BRB系统就具有可解释性的优势，是一个灰盒模型，但仍然无法保证其在地表冻结天数的全局可解释性。因此为了保证BRB-based ISFDP模型的全局可解释性和合理性，本文在因此，在Cao等人提出的BRB可解释性一般准则的基础上，根据文献本文建立了具有全局可解释性的地表冻结天数预测模型。考虑BRB的全局可解释性应从图2中具体考虑模型构建、推理和优化三个方面。

1) 模型构建的可解释性：

准则1：系统应该有清晰的语义。

首先，IF-THEN规则输入的参考值及其匹配区间具有语义可分辨性，以表示清晰的语义。第二，匹配度的标准化可以形成易于理解的语义。匹配归一化保证每个参考值在X域中至少有一个匹配分数为1的数据点，并且所有的匹配分数都在0到1之间。可以用式(5)来描述：

$\begin{array}{l} \forall 1 \leq v \leq T, \exists x p \in X, a_{v} (x p) = 1, \\ \forall 1 \leq v \leq T, x \in X, 0 \leq a_{v} (x) \leq 1 \end{array}$

式中，T表示前提属性参考值的个数， $x_{p}$ 表示域内某一固定值。 $a_{v} (x)$ 表示第v个参考值的匹配度，x表示x的整个可行域。

准则2：系统应该有一个完整的规则库。

规则库的完备性是指对于任何可能的输入至少匹配一个参考值，并且至少激活一个规则，可以用式(6)来描述。换句话说，所有的工作状态都应该包含在规则库中。

$\forall x \in X {\begin{matrix} \exists 1 \leq v \leq T, a_{v} (x) > 0 \\ \exists 1 \leq l \leq L, 0 < w l \leq 1 \end{matrix}$

式中，L表示规则数， $w_{l}$ 表示第L条规则的激活权重。

准则3：规则库的简洁性。

简单规则库是BRB可解释性的关键部分，它有利于研究人员更容易理解全局系统，获得更高的模型性能。对于BRB，一个规则库由一组简洁、易于理解、具有少量前件和结果所组成。为了评估一个给定的规则库是否简洁，我们可以考虑规则的数量以及前提属性和结果参数的数量。一个简单的规则库通常会有更少的规则和更少的前件和结果。该准则也是研究者的研究热点。规则库的简单性极大地限制了BRB的应用。目前，构建合理的结构或进行特征筛选是一种非常合适的方法。下面的式(7)显示了计算某个4属性系统的规则库的大小，很明显，这使得规则库的大小小了很多。

$\begin{array}{l} N A = T_{δ}_{_{a}} * T_{δ}_{b} * T_{δ}_{c} * T_{δ}_{d}, \\ N B = T_{δ}_{_{a}} * T_{δ}_{b} + T_{δ}_{c} * T_{δ}_{d} + T_{δ}_{_{a, b}} * T_{δ}_{c, d} \end{array}$

其中， $N_{A}$ 和 $N_{B}$ 分别表示直接构建和分层构建的规则库的大小。 $T_{δ_{i}} (i = a, b, c, d)$ 表示先验属性的参考值个数。 $T_{δ_{a, b}}$ 和 $T_{δ_{c, d}}$ 表示下一级属性参数的数量。

准则4：规则的一致性。

规则的一致性可以有效地防止最终结果的模糊性。在建模过程中，冲突的规则不能被理解，也不允许存在。提取专家知识并将其转化为规则并构建规则库是一种很好的方法。

准则5：系统参数应具有物理意义。

具有物理意义的参数是可解释性模型的基础。如果参数没有意义，整个方法就没有意义。BRB模型的参数主要包括z置信度、规则权重、属性权重和激活权重，这些参数都有其物理意义。都在0~1之间，可以用式(8)来描述：

${δ, θ, β, w} \in [0, 1]$

其中β为置信度。θ为规则权重。δ为属性权重。ω为激活权重。

2) 推理过程的可解释性：

准则6：系统应保证信息转换过程的等价性。

在推理过程中，系统应尽量保持初始信息的完整性，并在置信结构中进行合理的信息转换。基于规则和效用的ER方法是一种较好的算法，它在置信结构中具有等效和合理的信息转换能力。

准则7：系统的推理引擎应该是透明的。

BRB是一种流行且有效的决策方法，但需要保证推理算法保持规则库的可解释性，并提供透明的推理过程以获得可理解的结果。在这方面，ER方法是一种透明的推理方法，可以有效地保证模型推理过程的可解释性。

3) 优化的可解释性：

准则8：参考值的可微性。

初始参考值和最佳参考值应在专家初步判断的可行区域内，如式(9)所示：

${(β, θ, δ)}_{low} \leq (β, θ, δ) initial \leq (β, θ, δ) up$

${(β, θ, δ)}_{initial}$ 和 ${(β, θ, δ)}_{optimal}$ 分别表示初始专家知识和优化后的专家知识。 ${(β, θ, δ)}_{low}$ 和 ${(β, θ, δ)}_{up}$ 表示可行域的空间。

准则9：要合理运用专家知识。

专家知识是可解释性的重要组成部分，对于局部搜索，优化过程应基于专家判断。因此，在初始种群中引入专家知识，并引入欧几里得距离，进一步实现局部搜索域优化，可表示为(10)、(11)：

$m^{(g)} = {\begin{array}{l} E K, i f g = 1 \\ m^{(g)}, i f g \neq 1 \end{array}$

式中 $m^{(g)}$ 为第 $g$ 代总体。

$ρ (x n, x^{'} n) = \sqrt{\sum_{i = 1}^{n} {(x i - x^{'} i)}^{2}} \leq d$

$ρ (x_{n}, {x^{'}}_{n})$ 是初始个体群体与专家知识之间的欧几里得距离。d为专家确定的距离参数。

准则10：有效规则参数参与优化。

假设BRB的参数向量表示为式(12)：

$Ω = (β, θ, δ)$

如果第i条规则激活，则相关的被激活的参数 $(β_{1}^{i}, β_{2}^{i}, \dots, β_{N}^{i}, θ_{i}, δ_{1}, δ_{2}, \dots, δ_{T})$ 可参与优化，其他未激活参数继续保持初始专家知识。因此，有必要区分有效工作的不活跃规则，可以表示为等式(13)、(14)：

$ω k = {\begin{array}{l} 0, W k = 0 \\ 1, otherwise \end{array}$

$W k = (w 1, w 2, \dots, w P), k = 1, 2, \dots, L$

其中ω用于区分未激活的规则，数据集的大小为p， $w_{k}$ 是从数据集计算的激活权向量。如果对未激活规则的参数进行优化，则对初始专家知识进行校正，如式(15)：

$Ω_{m}^{(g + 1)} \Leftarrow {BRB}_{initial} (β k, θ k)$

式中 $Ω_{m}^{(g + 1)}$ 为第m个参数向量。 $B R B_{initial} (β_{k}, θ_{k})$ 表示初始专家知识库中与第k条规则相关联的参数。 $\Leftarrow$ 是替换操作，它替换了过度优化的参数，从而形成一个新的符合可解释性的 $Ω_{m}^{(g + 1)}$ 。

Figure 2. Description of interpretability criteria for belief rule base

图2. 置信规则库可解释性准则描述

准则11：置信分布要合理。

对学生的评价有三个等级：优秀、良好和差。教师的评价为{(优秀，0.8)，(良好，0.2)，(差，0)}。然而，优化后的置信分布可能是{(优，0.6)，(好，0)，(差，0.4)}，这是无法解释的。如图3所示，该系统中合理的置信分布形状应该是单调的如图4：distribution level (a)或凸的如图3：distribution level (b)，而凹的置信分布形状如图4：distribution level (c)是不合理的。例如，第k条规则的可解释准则可以表示为等式(16)、(17)：

$β i^{k} \sim C 11, i = 1, 2, \dots, N$

$C 11 = {(β_{1}^{k} \leq β_{2}^{k} \leq \dots β_{N}^{k}) \lor (β_{1}^{k} \geq β_{2}^{k} \geq \dots β_{N}^{k}) \lor (β_{1}^{k} \leq \dots \leq \max (β_{2 ， \dots, N - 1}^{k}) \geq \dots \geq β_{N}^{k})}$

$β_{i}^{k} (i = 1, 2, \dots, N)$ 为满足可解释性准则 $C_{11}$ 的第k个置信分布。

Figure 3. Possible shapes of the belief distribution

图3. 置信分布可能出现的形状

3.3. BRB-Based ISFDP的构建

Figure 4. Flowchart of CMA-ES optimization algorithm

图4. CMA-ES优化算法流程图

BRB是一种基于Yang等人提出的证据推理方法的规则库。方法中，第k条IF-THEN置信规则表示为式(18)：

$\begin{array}{l} R_{k} : IF X_{1} i s A_{i}^{k} \land X_{2} i s A_{2}^{k} \land \dots \land X_{T_{k}} i s A_{T_{k}}^{k} \\ THEN {(D_{1}, β_{1, k}), (D_{2}, β_{2, k}), \dots, (D_{N}, β_{N, k})}, (\sum_{n = 1}^{N} β_{n, k} = 1) \\ with rule weight θ_{k}, (k = 1, \dots, K) \\ and attribute weight δ_{i}, (i = 1, \dots, M) \end{array}$

其中 $X_{1}, X_{2}, \dots, X_{T_{K}}$ 为地表冻结天数预测方法的先行属性。 $A_{i}^{K} (i = 1, 2, \dots, T_{k})$ 为参考值。 $θ_{k}$ 是第k条规则的权值。 $δ_{i} (i = 1, 2, \dots, T_{K})$ 表示第i个属性的权重。L表示规则的个数， $T_{K}$ 表示先行属性的个数。 $D_{N}$ 表示预测结果， $β_{i}^{k} (i = 1, 2, \dots, N)$ 表示置信度。

由于BRB的规则库是由IF-THEN规则创建的，因此可以更清楚地理解模型的结构。

可以看出，BRB可以很好地处理定性和定量信息，并且建模容易理解。但在BRB的应用中，由于影响指标较多，前提属性过多会导致规则爆炸。

因此，考虑到与冻结时长有影响的属性众多，本文使用因子分析方法对初始数据进行处理，使得模型的结构具有良好的可解释性，能够更好地应用于地表冻结天数预测问题。

本文使用P-CMA-ES方法来对模型参数进行优化，具体的优化过程如图4所示。如图在步骤二，对上文提出的可解释性准则进行了考虑，使模型的优化过程也是可解释的。

4. 实验结果与分析

4.1. 实验过程

实验过程包括获取遥感图像，进行遥感图像处理得到各项属性数据，进行因子分析处理，初始模型建立，模型优化，结果分析与处理。

对所有环境数据进行因子分析，用主成分分析法提取出两个占比最大的成分如表3总方差解释。根据选出的两个成分，可以得到成分矩阵如表4，成分矩阵是各个原始变量的因子表达式的系数，表达提取的公因子对原始变量的影响程度。简单来说，通过因子成分矩阵可以得到原始指标变量的线性组合。接下来对成分矩阵进行旋转，使用凯撒正态化最大方差法(Kaiser (1958)提出来的最大方差旋转法(Varimax))得到旋转后的成分矩阵如表5。将旋转后的成分矩阵得出的因子1和因子2作为BRB-based ISFDP的两个前提属性。

Table 3. Total variance explained

表3. 总方差解释

成分	初始特征值		提取载荷平方和
成分	方差百分比	累积%	方差百分比	累积%
1	33.853	33.853	33.853	33.853
2	22.529	56.382	22.529	56.382
3	9.333	65.716
4	8.017	73.733
5	7.540	81.272
6	6.965	88.238
7	5.660	93.897
8	2.964	96.861
9	1.298	98.159
10	0.947	99.105
11	0.410	99.515
12	0.317	99.832
13	0.168	100.000

Table 4. Component matrix

表4. 成分矩阵

属性	成分
属性	成分1	成分2
冻结天数	0.936
雪盖	0.903
土壤湿度	0.770	0.468
Ndvi	0.720	0.328
气温	−0.714	0.673
纬度	0.611
土壤类型
坡度
植被覆盖
经度		0.917
DEM		−0.777
降水	0.646	0.668
坡向

Table 5. Component matrix after rotation

表5. 旋转后的成分矩阵

属性	因子
属性	因子1	因子2
冻结天数	−0.972
雪盖	0.925	0.317
土壤湿度	0.860	0.352
Ndvi	0.650
气温	0.630	−0.504
纬度
土壤类型
坡度		0.920
植被覆盖		0.918
经度	0.351	0.830
DEM	0.392	0.687
降水
坡向

4.2. 实验参数设置

表6给出了初始参考值和最佳参考值区间以及初始规则的初始值和最佳区间。

Table 6. Initial and optimal intervals for reference values

表6. 参考值的初始值和最佳区间

Attribute	Attribute Weight	Attribute Weight Constraint	Referential value
Attribute	δ_i	δ_i~C1	VL	L	H	VH
Factor 1	1	0.7~0.9	−3.1	−0.58	−0.06	2.5
Factor 2	1	0.7~0.9	−3	−1.21	−0.44	0.8
Predicted value			128	150	159	183

4.3. BRB-Based ISFDP结果分析

实验结果如下图5所示：

Figure 5. Final model fit

图5. 最终模型拟合图

本模型最终的MSE及各项对比如表7所示：

Table 7. Comparison of final results

表7. 最终结果对比表

	初始专家知识	初始BRB	可解释性BRB
MSE	5.146489433999699	3.302654154427460	3.345910372386462

5. 结论

由图可知，本模型的MSE虽然比初始BRB精度稍低一点，这是由于使用了可解释性约束，约束后会带来一定的精度下降。但是可解释性得到了显著增强，在一定小范围内的精度下降是可接受的。本文通过使用冻土数据集来对可解释性BRB进行验证，表示出当前模型的稳定性和有效性。

参考文献

[1]	Dobinski, W. (2011) Permafrost. Earth-Science Reviews, 108, 158-169. [Google Scholar] [CrossRef]
[2]	Hu, G., Zhao, L., Wu, X., Li, R., Wu, T., Xie, C., et al. (2017) Comparison of the Thermal Conductivity Parameterizations for a Freeze-Thaw Algorithm with a Multi-Layered Soil in Permafrost Regions. CATENA, 156, 244-251. [Google Scholar] [CrossRef]
[3]	Qin, D., Yao, T., Ding, Y. and Ren, J. (2021) Introduction to Cryospheric Science. Springer Nature. [Google Scholar] [CrossRef]
[4]	Streletskiy, D., Anisimov, O. and Vasiliev, A. (2015) Permafrost Degradation. In: Shroder, J.F., Haeberli, W. and Whiteman, C., Eds., Snow and Ice-Related Hazards, Risks, and Disasters, Academic Press, 303-344. [Google Scholar] [CrossRef]
[5]	Man, H., Xiao, Y., Zang, S., Li, M. and Dong, X. (2023) Detecting Surface Freeze/Thaw States in Northeast China with Passive Microwave Data Using an Improved Standard Deviation Method. Advances in Climate Change Research, 14, 190-199. [Google Scholar] [CrossRef]
[6]	Comite, D., Cenci, L., Colliander, A. and Pierdicca, N. (2020) Monitoring Freeze-Thaw State by Means of GNSS Reflectometry: An Analysis of Techdemosat-1 Data. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 13, 2996-3005. [Google Scholar] [CrossRef]
[7]	Johnston, J.M., Houser, P.R., Maggioni, V., Kim, R.S. and Vuyovich, C. (2022) Informing Improvements in Freeze/Thaw State Classification Using Subpixel Temperature. IEEE Transactions on Geoscience and Remote Sensing, 60, 1-19. [Google Scholar] [CrossRef]
[8]	Jin, H.J., Yu, S.P., Lv, L.Z., Guo, D.X. and Li, Y.W. (2006) Degradation of Permafrost in the Da and Xiao Hinggan Mountains, Northeast China, and Preliminary Assessment of Its Trend. Journal of Glaciology and Geocryology, 28, 467-476.
[9]	Zhou, Y.W., Wang, Y.X., Gao, X.W. and Yue, H.S. (1996) Ground Temperature, Permafrost Distribution and Climate Warming in Northeastern China. Journal of Glaciology and Geocryology, 18, 139-147.
[10]	Wang, H., Ma, M., Wang, X., Yuan, W., Song, Y., Tan, J., et al. (2012) Seasonal Variation of Vegetation Productivity over an Alpine Meadow in the Qinghai-Xizang Plateau in China: Modeling the Interactions of Vegetation Productivity, Phenology, and the Soil Freeze-Thaw Process. Ecological Research, 28, 271-282. [Google Scholar] [CrossRef]
[11]	Wang, J., Jiang, L., Cui, H., Wang, G., Yang, J., Liu, X., et al. (2020) Evaluation and Analysis of SMAP, AMSR2 and Measures Freeze/Thaw Products in China. Remote Sensing of Environment, 242, Article 111734. [Google Scholar] [CrossRef]

为你推荐

友情链接