1. 引言
森林是地球上最宝贵的自然资源之一[1]。森林带来了无数好处,是地球可持续发展不可或缺的一部分。这些益处横跨各个领域,包括经济、环境、社会和文化领域[2]。森林在全球碳循环中也发挥着关键作用,是重要的碳汇。森林能够吸收二氧化碳,减少大气中的温室气体含量[3]。然而,森林砍伐或退化造成的森林损失会对全球碳循环产生严重影响,导致大气中的二氧化碳含量增加。近年来,野火的严重程度和频率不断增加,对世界各地的森林造成了广泛的破坏[4]。因此,必须制定有效的政策,保护这些宝贵的自然资源免受野火侵袭。
高效的野火应急响应需要准确预测野火全天的蔓延情况。这对于资源分配和快速应对野火爆发至关重要。然而,预测野火蔓延是一个复杂的过程,已被证明具有挑战性[5]。长期以来,开发精确的野火蔓延预测模型一直是野火研究界的目标[6]。文献中通常使用两种野火蔓延数值模型。第一种是基于物理和化学现象建模的物理模型,如计算流体动力学(Computational Fluid Dynamics, CFDs)模型[7]。第二种方法是基于传播速度(Rate of Spread, RoS)的经验模型,将传播速度、坡度、风和植被特性联系起来[8]。然而,这些方法需要大量计算资源,非常耗时。例如,单个处理器需要计算872,000分钟(约600天)才能完成一次野火蔓延模拟[9]。
近年来,研究人员采用机器学习(Machine Learning, ML)算法来提高野火预测的准确性[10]-[12]。例如,Markuzon和Kolitz于2009年进行的一项研究利用随机森林(Random Forest, RF)、贝叶斯网络(Bayesian Networks, BN)和K-Nearest Neighbors (KNN)来预测野火是否会在点火两天后变大[13]。另一项研究介绍了FirePred,这是一种使用多时数据集预测野火蔓延的模型。不过,研究人员没有明确指出哪一时段的数据对预测更有意义,他们的模型被认为过于复杂[14]。此外,还有人提出了一种深度卷积逆图网络(Deep Convolution Inverse Graph Network, DCIGN),利用环境变量来估计野火前沿的空间演变。卷积神经网络(Convolutional Neural Network, CNN)的输出是一个空间网格,与野火到达像素的可能性相对应。尽管利用火区模拟器(Fire Area Simulator, FARSITE)基于物理模拟的6小时燃烧图实现了80%的平均灵敏度和89%的平均精确度,但该模型需要大量的计算资源[15]。
随着时间的推移,野火的规模也会发生变化,这就凸显了适应这种变化的策略的必要性。最近的研究在计算机视觉应用中引入了有向空间金字塔集合(Atrous Spatial Pyramid Pooling, ASPP)机制[16]。之前的研究已将该机制应用于预测野火蔓延[14] [17] [18]。然而,该机制在野火蔓延预测中的黑箱性质仍未得到探索。为了弥补这一不足,本研究将重点放在使用配备ASPP机制的可解释CNN模型(CNN-ASPP)预测全美国(U.S.)的野火蔓延。因此,本研究的主要目标可概括为:1) 使用可解释人工智能(Explainable Artificial Intelligence, XAI)解释ASPP模块提取的特征,以及它们与使用梯度加权类激活映射(Gradient-Weighted Class Activation Mapping, Grad-CAM)的模型输出之间的关系;2) 将CNN-ASPP结果与传统的基于ML的模型进行比较。通过关注这些目标,本研究旨在提高预测模型在野火蔓延预测中的透明度和适用性,从而有助于制定更有效的野火管理策略。
2. 数据集
Figure 1. Study area and wildfire site distribution
图1. 研究区域及野火点分布
本文选取美国自2012~2020年所公开记录的野火数据作为野火点,该数据详细记录了野火发生的精确位置以及时间。图1显示了研究区域以及2012年至2020年间相应的野火地点。同时,基于一个名为 “次日野火蔓延”的新公开数据集开展本文的研究数据。该数据集包括海拔高度、风向和风速、最低和最高温度、湿度、降水、干旱指数、归一化差异植被指数(Normalised Difference Vegetation Index, NDVI)和能量释放分量,作为野火蔓延预测的各种信息来源,该数据集主要用于研究基于观测数据预测野火蔓延模型的潜力[19]。这些数据源在空间和时间维度上都是一致的,为预测模型训练提供了一个特征丰富的数据集。该数据集是独一无二的,因为它将二维火灾数据与多个解释变量(如地形、植被、天气、干旱指数和人口密度)结合在一起,并在二维区域内对齐。这个特征丰富的数据集可作为一个基准,用于开发基于遥感数据的野火传播模型,提前期为一天。
3. 方法
野火蔓延预测与图像分割任务有相似之处,因此,图像金字塔的概念是考虑不同尺度野火的不同形状和大小的重要方法。这种方法提高了分割精度。在类似金字塔的方法中,先从不同尺度提取特征,然后再进行插值和合并。然而,分别计算每个尺度的特征图会增加网络的规模,并可能导致过度拟合。为了有效结合多尺度信息,有人提出了空间金字塔池化(Spatial pyramid pooling, SPP) [20]。SPP最初是为了解决物体检测中的随机输入大小问题而开发的。SPP是一种将随机图像尺寸划分为多个分区、分别汇集这些分区并将它们连接起来以生成与输入图像相关的固定尺寸特征图的技术。虽然SPP能有效捕捉图像的多尺度特征,但在图像分割任务中,它在汇集过程中会丢失像素细节。为了解决这个问题,本文提出使用ASPP。在ASPP中,SPP中的正常池化层被具有不同扩张率(Dilation Rates, DRs)的无齿(含孔)卷积所取代。通过合并从每个DR提取的特征来创建最终特征向量。这种方法可以实现不同的感受野,使模型能够捕捉到图像中更多的细节信息。图2展示了带有ASPP模块版本的CNN-ASPP模型,用于野火蔓延预测。
Figure 2. CNN-ASPP model architecture for wildfire spread prediction
图2. 用于野火蔓延预测的CNN-ASPP模型架构
本文所提出的方法首先应用两个卷积层从输入数据中提取64和128个特征。然后,将第二个卷积层的输出通过DRs分别为1、3、6和12的四个无级卷积层,将这些特征组合起来。每个卷积层包括32个滤波器,内核大小为3 × 3。这一过程可以提取多尺度特征。随后,两个卷积层(每个卷积层有32个滤波器,内核大小为3 × 3)被应用于合并特征。为了对提取的特征进行归一化处理,最后一个卷积层的输出会在最后一个卷积层之前输送到一个批量归一化层,最终生成预测图。
然后,归一化特征被传递到一个带有滤波器和核大小为1 × 1的卷积层。最后的卷积层使用Sigmoid函数获得每个像素的燃烧概率值。除最后一个卷积层外,所有卷积层都使用了整流线性单元(Rectified linear unit, ReLU)激活函数。
在本研究中,精确度(P)、召回率(R)、F1-分数(F1-score)和总体准确率(OA)被用于验证分析和综合模型评估,其定义如下:
(1)
(2)
(3)
(4)
其中,TP、FP、TN、FN分别为正确预测的野火蔓延点、错误预测的野火蔓延点、正确预测的未蔓延野火点、错误预测的未蔓延野火点。
此外,本文还使用了Tversky指数(Tversky index, TI)作为损失函数。公式(1)表示TI损失公式,其中α和β是满足α + β = 1条件的两个参数。在本研究中,设定α = 0.7和β = 0.3。
(5)
4. 实验结果
4.1. 实验设置
CNN-ASPP模型使用Tensorflow实现。测试和训练在Inter i7-11700H 2.5 GHz处理器、16 GB内存和NVIDIA GTX 2060Ti显卡上进行,训练过程中涉及8616个训练样本和685个验证样本。训练阶段的批量大小设定为8。在训练过程中,CNN-ASP模型的学习率设定为0.0004,并使用贪婪搜索技术进行了200次迭代。
4.2. 模型比较结果
Table 1. Comparison of models in terms of OA, precision, recall, F1-score and training time
表1. 各个模型在OA、精确度、召回率、F1-score和训练时间方面的比较
模型 |
邻域大小 |
OA |
R |
P |
F1-score |
训练时间(小时) |
RF |
3 × 3 |
83.72 |
81.90 |
86.57 |
84.17 |
3.2 |
5 × 5 |
82.57 |
80.36 |
86.21 |
83.18 |
3.8 |
7 × 7 |
88.19 |
88.64 |
87.61 |
88.12 |
5.4 |
SVM |
3 × 3 |
81.45 |
79.53 |
84.69 |
82.03 |
38.6 |
5 × 5 |
80.26 |
78.28 |
84.29 |
81.02 |
53.4 |
7 × 7 |
85.81 |
90.74 |
85.67 |
85.79 |
82.7 |
ANN |
3 × 3 |
81.77 |
79.81 |
84.67 |
82.35 |
3.4 |
5 × 5 |
80.59 |
78.28 |
89.55 |
81.35 |
4.7 |
7 × 7 |
90.20 |
90.74 |
82.35 |
90.14 |
5.8 |
CNN-ASPP |
- |
96.46 |
99.37 |
93.51 |
96.35 |
4.3 |
CNN |
- |
89.25 |
89.79 |
88.58 |
89.18 |
3.1 |
表1从OA、P、R、F1-score和训练时间等方面对所提出的模型与其他著名的ML方法进行了比较。虽然RF、SVM和人工神经网络(Artificial Neural Network, ANN)没有被提议用于野火蔓延预测任务,但本研究在输入像素周围的正方形中提取了三种不同大小的邻域(即3、5和7),以提供上下文空间信息。可以看出,所有采用7 × 7邻域大小的ML模型都取得了与CNN和CNN-ASPP相当的结果,而采用7 × 7邻域大小的ANN则优于其他ML模型。如表1所示,SVM模型的训练速度大大低于其他两种ML模型。总体而言,根据邻域大小的不同,ML模型在评估指标和训练时间方面的表现都非常不错。与其他模型相比,CNN-ASPP模型的训练时间适中。在CNN-ASPP模型中,数据准备是最重要的步骤。因此,CNN模型在数据准备方面更具适应性,而ML模型则需要进行邻域特征提取,从而增加了计算成本。
4.3. CNN-ASPP模型的定性结果
CNN-ASPP模型可以根据天气条件、燃料状况或地形,在下一个时间步骤中有效区分燃烧和未燃烧的像素。图3显示了CNN-ASPP模型的正确和错误预测示例。
Figure 3. CNN-ASPP model predictions for ten validation samples. Green: not burned, red: burned classes. The black box indicates where the model failed to accurately predict burn and not burned pixels
图3. 十个验证样本的CNN-ASPP模型预测结果。绿色:未烧毁,红色:烧毁。黑框表示模型未能准确预测烧毁和未烧毁像素的位置
5. 讨论
深度学习技术由于结构复杂、涉及参数众多,通常被视为“黑箱”。这种复杂性使得解释成为一项具有挑战性的任务。然而,在决策过程中,了解结果的可靠性至关重要,这就需要清楚地了解模型的输出结果。要对模型进行恰当的解释,关键是要解释模型的每个组成部分,如过程、预测和提取的特征。这是因为理解这些组成部分可以深入了解模型的决策过程和驱动其输出的因素[21]。在本节中,根据本文利用ASPP模块增强简单CNN的核心理念,旨在阐明从DR中提取特征的解释。提取的特征指的是ASPP模块的基本组件,这些组件是根据Grad-CAM算法确定的。
Figure 4. Histograms of R2 values for all data based on different DRs
图4. 基于不同DR的所有数据R2值直方图
Figure 5. ASPP-CNN predictions at different DRs (shaded pixels are wildfire spread labels)
图5. 不同DR下的ASPP-CNN预测结果(阴影部分为野火蔓延标签像素)
Figure 6. Linear regression model results between the Grad-CAM output of the last convolution layer and the Grad-CAM output of extracted features by the convolution layer equipped with DRs of 1, 3, 6, and 12 in the CNN-ASPP model
图6. 在CNN-ASPP模型中,最后一个卷积层的Grad-CAM输出结果与卷积层提取特征的Grad-CAM输出结果之间的线性回归模型结果,卷积层的DR分别为1、3、6和12
为了确定不同DR对提取特征的贡献,本文使用了线性回归模型,以找出预测结果与DR Grad-CAM输出之间的相关性。热图被视为X,而CNN-ASPP模型中最后一个卷积层的Grad-CAM输出被视为 Y,然后使用R平方(R2)来衡量数据点与拟合线的相关程度。
为了解DR与其Grad-CAM行为之间的差异,本文对所有数据样本应用了回归模型,并收集了它们的R2值。然后生成了与每个DR相对应的直方图,并分析了每个受检DR的R2值直方图(见图4)。直方图显示,DR值越小,CNN的感受野越小,R2值也就越小。相反,DR越大,R2值越高,这表明较大的DR有助于预测正确的野火掩码。图5和图6通过显示一个数据样本及其相应的回归结果证实了这一观察结果。DR = 12的R2值最高,在0.2到0.3之间,而DR = 1和DR = 3的R2值最低,在0到0.1之间。这表明,在CNN-ASPP模型中,DR = 6和DR = 12提取的特征与最终预测图之间存在很强的关系。相反,CNN-ASPP模型中DR = 1和DR = 3提取的特征与最终预测图之间的关系则不那么明显。ASPP模块中较高的DR值可用于提取野火蔓延预测任务中的一般模式,而较低的DR值则最适合小规模野火蔓延,在预测野火的小边缘和曲线方面有一定的优势。然而,高DR值和低DR值对于准确的野火预测任务都是必要的,因为它们可以互相帮助,同时捕捉大的和详细的小模式。这些结果与之前将ASPP模块用于分割任务的研究结果一致[22]。
6. 结论
本文使用了一个名为“次日野火蔓延”的数据集来预测美国境内的野火蔓延情况。此外,本文还将所提出的CNN-ASPP模型与ANN、SVM和RF这三种不同的著名机器学习方法进行了比较,以证明其效率。综合实验结果和分析,得出以下结论:
1. CNN-ASPP模型在野火蔓延预测任务中表现出色,其性能优于现有的机器学习方法,这验证了ASPP机制在提高模型预测能力方面的有效性。
2. 通过Grad-CAM算法的解释,揭示了不同扩张率对特征提取的影响,表明较大的扩张率有助于模型捕捉更多细节信息,从而提高预测的准确性。
3. 本研究的CNN-ASPP模型不仅提高了野火蔓延预测的准确性,而且通过解释算法增强了模型的可解释性,这对于森林管理和野火预防策略的制定具有重要意义。
4. 尽管CNN-ASPP模型在本研究中取得了良好的预测效果,但仍存在改进空间。未来的研究可以探索将变换器模型(如视觉变换器)和迁移学习技术应用于野火蔓延预测,以进一步提高模型的泛化能力和适应性。
综上所述,本研究提出的CNN-ASPP模型为野火蔓延预测提供了一种新的、有效的技术手段,对于提升野火管理的科学性和预防措施的有效性具有重要的理论和实践价值。