1. 引言
森林火灾是一种破坏性极强的森林灾害,具有突发性强、破坏性大、难以控制等特点,是全球发生最频繁、处置最困难、危害最严重的自然灾害之一。近年来,随着气候变暖和极端天气增多,全球进入了森林火灾的高发期,我国仍将长期处于森林火灾的易发期和高危期。由于森林面积大、分布范围广,地形条件复杂,人工巡检极为困难。此外,每年的森林防火期,有利于火势蔓延的高温、干旱、大风天气多,可燃物非常干燥,火源管理难度大;受气候变化影响,雷击火增多;林下经济活动和森林旅游日益频繁,人为火源管理难度大[1]。因此,我国森林火灾频发且规模较大,需耗费大量的人力物力才能控制住火情,造成人员伤亡和相当大面积的森林损失。积极探索森林火灾的有效特征,研究智慧林业森林高质量监测与实时预警技术,对于我国当前的森林防火工作具有重要意义。
早期的林火检测主要是通过火灾颜色和烟雾识别提出的,Cruz et al. [2]提出了一种基于颜色索引的森林火灾快速检测算法和Sudhaka [3]等人提出了一种基于烟雾运动识别的无人机火灾监测方法。但是该方法只提取了火焰和烟雾特征,未结合火焰细粒特征,在实际应用中仍有较大的局限性。现有的基于可见光的林火和烟雾特征提取方法,大多是基于像素来提取林火和烟雾特征,谢书翰[4]提出基于改进YOLOv4的火灾检测模型,为增强模型的烟雾特征提取能力,在检测头融合了通道注意力机制,同时对烟雾特征对损失函数和先验框进行优化。但该模型且易受山林云雾影响,产生误检。蔡静[5]在YOLOv5s算法的基础上进行优化处理,提出了速度更快、准确度更高及性能更优的YOLOv5s-RAS烟雾检测模型,该模型采用麻雀搜索算法,大幅提高了该模型对火灾烟雾的识别效果。Kim Soonyoung [6]等人提出基于深度学习和无人机影像的森林火灾烟雾监测模型,为了增强YOLOv7的特征提取能力,他们引入了CBAM注意力机制,然后在网络的主干上增加了SPPF+层,以更好地集中较小的野火烟雾区域,使用BiFPN加速多尺度特征融合,获取更多的特异性特征,并引入学习权重,使其优先考虑对结果影响最显著的特征。为了提高算法在复杂场景中对小火焰和烟雾的检测性能,王晨灿、李明[7]对v8版本的YOLO算法进行改进,设计了一种轻量型的Fire-YOLOv8火灾检测网络,该网络在YOLOv8的基础上增加一个更小的目标检测层,并使用Focus层对输入图像进行切片操作,解决微小火焰检测的难题。在网络优化中,特征提取选用轻量级的BottleneckCSP模块,[8]使用样本数据集进行迁移学习,更新网络参数,能够有效区分火焰、烟雾等干扰信息。
综上所述,目前用于森林火灾检测的算法仍存在缺陷,目前的特征提取方法所使用的数据集较为局限,大多为火灾蔓延后较为明显时的图像,缺少森林火灾初期数据且环境单一,对小目标的监测效果不佳,对于森林小火灾或森林火灾初期的感知并不灵敏,导致训练的模型无法关注被地形和植被等背景条件遮挡的火焰和烟雾特征,受光照条件恶劣和山林云雾环境影响大,不足以满足森林野火早期发现的需求,无法有效捕捉图像中多尺度火焰和烟雾的特征,上述火灾探测方法大多存在漏检误检、准确度低等问题。
为解决这些问题,本文构建由真实图像和合成图像组成的包含各类环境的大规模森林火灾遥感图像数据集,针对遥感图像的特点,优化YOLOv8模型,设计动态稀疏注意机制和多尺度特征融合网络,并加入小目标检测层。提供一种基于动态稀疏注意机制和交叉可变特征融合的单阶段遥感森林野火检测模型,解决策略精准地从复杂背景中提取火焰和烟雾特征,以达到显著提高对微小火苗和烟雾的检测精度的目标。
2. 模型改进
提出了一个基于动态稀疏注意机制和交叉可变特征融合的单阶段遥感森林野火检测模型。首先,在骨干提取网络中设计了交叉可变特征融合模块,再YOLOv8结构基础上改进普通卷积C2f,形成一种新的可变形卷积C2f-DCNv3,该卷积使得卷积核能够在进行卷积操作时进行微小的偏移,从而更精确地提取不规则形状物体的特征,解决由于压缩像素造成的遥感图像变形而难以获得小火焰的特征的问题。其次,在骨干网底部设计动态稀疏注意机制关注模块,引入BiFormer注意力机制,可以在森林在地形和植被遮挡复杂背景下关注烟火特征,提高网络的特征表示能力。最后,在改进后的网络中设计一个有效地减少了来自无关背景干扰的SOD (小目标检测层)层,提高了网络的特征提取性能,有效提升在火灾早期对小火苗的捕获能力。
综上所述本项目设计的基于交叉可变特征融合,动态稀疏注意力和小目标检测的遥感森林野火检测模型,如图1所示。
2.1. 交叉可变特征融合模块
提出的交叉可变特征融合模块是在原跨阶段部分特征融合上设计一个可变形卷积网络,这样做的目的是解决由于压缩像素造成的遥感图像变形而难以获得小火焰的特征的问题及原跨阶段部分特征融合模块带来的参数过多的问题。
2.1.1. 可变形卷积简介
基础的可变形操作并没有改变卷积的计算操作,而是在卷积操作的作用区域上,加入了一个可学习的参数
,公式如下:
(1)
对于每个输出
,都要从x上采样9个位置,这9个位置是中心位置向四周扩散得到的,但是多了
,允许采样点扩散成非网格形状。这样就使得作用区域更加广阔且准确,用于特征识别的范围更大,与普通卷积对比见图2。
可变形卷积还包括可调节ROI (感兴趣区域)池化模块将任意大小的输入矩形区域转换为固定大小的特征这样就能够更有效地处理图像中的物体变形,提高图像识别的精度。给定一个ROI,大小为
,它最后会被均匀分为
块,k是个自由参数,
是块内的像素值,增加一个偏移量
,
是权重。可调节ROI池化定义如下:
(2)
Figure 1. Remote sensing forest wildfire detection model
图1. 遥感森林野火检测模型
Figure 2. Comparison of ordinary convolution and deformable convolution
图2. 普通卷积和可变形卷积对比
2.1.2. Deformable Convolution v3 (DCNv3)
虽然基础的可形变卷积能够对关键目标的特征提取能力更强,但是运用基础可变形卷积进行小目标检测时,会提取很多冗余的信息,从而影响特征提取。为应对这一问题,本文引入可变形卷积DCNv3,DCNv3是基础可变形卷积的扩展,借用可分离卷积的思想,并将原始卷积解耦为深度卷积和逐点卷积,实现卷积神经元之间的权重共享、引入多组机制、将元素级的Sigmoid归一化调整为沿采样点的Softmax归一化。[9]卷积神经元共享权值,使得采样点与采样方向的投影权重共享,提升模型长距离的识别能力,引入多组机制,将空间聚合过程分组并配置偏移量与特征振幅提升空间变形适应性,应对遥感图像变形问题,沿采样点的Softmax归一化,使得整个训练过程更加稳定。DCNv3将卷积分为G组,每组都具有单独的偏移量
和特征振幅
,对于目标点
:
(3)
式中:G表示聚集群数。对于第g组,
,
表示该组与位置无关的投射权值,其中表示C = C/G组维度;
表示第g组第k个采样点的调制标量,沿维度K用Softmax函数归一化;
表示切片输入特征图;
为第g组网络采样位置对应的偏移量。模块结构如图3所示:
Figure 3. C2f-DCNv3 module
图3. C2f-DCNv3模块
2.2. 动态稀疏注意机制
本文设计一种基于两层路径的动态稀疏注意机制来解决遥感图像中很多小火焰和烟雾被林木遮挡导致目标漏检的情况。在YOLOv8骨干网的倒数第二层增加了关注机制,以提高模型对烟雾和火焰的准确识别。动态稀疏注意机制是一种基于BRA (双层路由注意)模块构建的金字塔结构的可视化Transformer。如图4所示。BRA模块的核心思想是先构造和构建区域级有向图,过滤掉粗糙区域中不相关的键值对,然后在路由区域的并集中使用细粒度令牌对令牌关注,获得剩余的小部分相关键值对。具体算法如图4所示:
Figure 4. RBA module
图4. RBA模块
输入一张图片,
,首先将其划分为
个不同的区域,其中每个区域包含
个特征向量。即将X变为
,然后,通过线性映射获得
:
(4)
(5)
(6)
其中,
分别是投影权重。网络设计时在第一阶段使用重叠块嵌入,在第二到第四阶段使用合并模块降低输入空间分辨率,同时增加通道数量,然后使用连续的BiFormer模块进行特征转换。在每个BiFormer模块的开头使用3 × 3深度卷积隐式编码相对位置信息。然后依次使用BRA (双层路由注意)模块和2层多层感知机模块进行跨层建模和位置嵌入。如图5所示:
Figure 5. Dynamic sparse attention mechanism module
图5. 动态稀疏注意机制模块
2.3. 小目标检测层(SOD层)
遥感图像中的小火焰通常具有有限的样本量,而YOLOv8的大下采样比可能使深度特征映射难以捕获其特征。为了解决这个问题,本文设计特征映射大小为160 × 160的小目标检测层。该层包含深层语义信息和浅层位置信息,提高了对微小火焰和烟雾的检测精度。此外,设计了低级特征的检测头,大大提高检测微小火焰的能力。最后,对输入图像进行4次降采样后,通过自适应权值的特征融合网络进行多尺度特征融合,增强了对小火焰的捕获能力,提高了对小火焰的检测效果。
3. 实验结果及分析
3.1. 硬件条件及参数设置
3.1.1. 硬件配置
本实验的环境配置见下表1,对比实验的硬件配置与该环境的配置相同。
Table 1. Operating environment
表1. 运行环境
CPU |
RAM |
GPU |
操作系统 |
Cuda |
Pytorch |
python |
Miniconda |
I7-12700H |
16GB |
RTX3060 |
Windows11 |
11.8 |
2.3.1 |
3.8 |
4.11.0 |
3.1.2. 数据集
文中使用的数据集是我们以无人机的视野生成用于森林火灾探测的综合数据集。该数据集由两部分组成:一是基于无人机视角的合成数据集,通过模拟不同的火灾场景和天气条件,提供多样化的训练样本。另一个是真实的火灾数据集,包含了我们团队使用无人机捕获的野火数据集和从互联网上收集的数据集。共有5945张图片,将数据集按照训练集:测试集:验证集 = 7:2:1的比例进行划分。本实验YOLOv8经过大量实验选取最优参数,对部分参数进行了调整。实验批量大小设置为32,迭代次数为200次。
3.2. 评价指标
为了证明模型的可行性,目标检测模型的实用程序在森林火灾检测任务进行了仔细检查。核心目标在于对比基于三个中心考虑的火灾探测算法阵列:检测火灾的准确性、模型训练的速度以及固有的计算要求。
在项目中,准确率(P),召回率(R)和平均精度(mAP)被选为评估指标,以评估模型的性能。此外,还考虑浮点运算和检测速度,以更准确地评估轻量级模型的性能。系统根据以下公式计算:
(7)
(8)
(9)
(10)
其中TP表示正确识别为阳性类别的阳性样本的数目,FP表示错误识别为阳性类别的阴性样本的数目,FN表示错误识别为阴性类别的阳性样本的数目,并且n表示数据集中的样本类别的数目。
3.3. 实验结果
3.3.1. 注意力机制对比实验
为验证比BiFormer注意力机制的有效性,本文引入CA、CBAM、SE等三种注意力机制,将注意力机制分别嵌入原网络结构,并调整各注意力机制的位置与数目,选取实验中最佳的实验性能进行对比,下表2为是不同注意力机制的性能客观指标对比,分别嵌入各项注意力及之后在原有模型基础上指标均有提升,其中引入BiFormer注意力机制的模型性能提升最为明显,P值提升1.3%,mAP50值提升0.3%,mAP50-95值提升0.8%,其检测平均精度在对比实验中最高。
Table 2. Comparative experiments with different attention mechanisms
表2. 不同注意力机制的对比实验
Models |
P |
R |
mAP50 |
mAP50-95 |
base |
82.4 |
82.1 |
87.1 |
50.7 |
+CA |
85.7 |
79.2 |
87.0 |
50.8 |
+CBAM |
85.1 |
80.0 |
87.2 |
51.1 |
+SE |
84.4 |
80.7 |
87.2 |
51.2 |
+BiFormer(ours) |
83.7 |
81.1 |
87.4 |
51.5 |
3.3.2. C2f模块改进对比实验
本文将C2f模块中添加可变形卷积DCNv3,为验证改进后C2f-DCNv3模块的有效性,本文引入Faster、DCNv2、DYSnakeConv等卷积模块,分别将各模块添加到原模型结构中的C2f模块进行实验,获取其最佳性能指标,下表3为各该进模块实验客观指标,在原网络模型基础上,各模块改进后在性能指标上的提升各有不同,C2f-DCNv3模块表现最佳,P值提升1.6%,mAP50-95值提升0.1%,P值及mAP50-95值在各模块对比实验中均最高。
Table 3. Comparative experiments with different convolutions
表3. 不同卷积对比实验
Models (加入SOD层) |
P |
R |
mAP50 |
mAP50-95 |
Base (+SOD层) |
83.6 |
82.0 |
87.9 |
52.0 |
C2f-Faster |
83.4 |
81.4 |
88.0 |
52.0 |
C2f-DCNv2 |
83.5 |
82.3 |
87.9 |
52.1 |
C2f-DySnakeConv |
83.2 |
81.7 |
87.4 |
51.9 |
C2f-DCNV3(ours) |
85.2 |
80.8 |
87.9 |
52.1 |
3.3.3. 消融实验
为了分析不同改进对模型性能提升的影响,本文通过设计相同条件及相同数据集下的消融实验来验证本文改进模型的有效性,下表4为消融实验各改进的客观性能指标:
Table 4. Ablation experiments
表4. 消融实验
experiments |
BiFormer |
C2f-DCNv3 |
小目标检测层 |
P |
R |
mAP50 |
mAP50-95 |
0 |
|
|
|
82.4 |
82.1 |
87.1 |
50.7 |
1 |
√ |
|
|
83.7 |
81.1 |
87.4 |
51.5 |
2 |
|
√ |
|
83.5 |
81.8 |
87.6 |
51.4 |
3 |
|
|
√ |
83.6 |
82.0 |
87.9 |
52.0 |
4 |
√ |
√ |
|
84.0 |
80.8 |
87.3 |
51.0 |
5 |
√ |
√ |
√ |
83.9 |
82.5 |
88.4 |
52.3 |
从表中可以看出,在添加BiFormer注意力模块后,P值提升1.3%,mAP50值及mAP50-95值均有提升,R值下降1.0%;在此基础上,在C2f模块中引进可变形卷积DCNv3后,R值与mAP50-95有所下将,P值与mAP50值均有小幅度提升;最后在模型中继续引入小目标检测层,除P值有小幅度下降外,R值提升1.7%,mAP50值提升1.1%,mAP50-95值提升1.3%。在本次消融实验中,本文整体改进后的yolov8模型效果最佳,R值、mAP50值、mAP50-95值均最佳,性能提升效果显著。
3.3.4. 其他目标检测算法对比实验
为验证本文提出的交叉可变特征融合和动态稀疏注意力YOLOv8的遥感森林野火检测模型的有效性,本文选取目前目标检测领域的一些主流检测算法进行对比。如:YOLOv5、YOLOv6、YOLOv8、YOLOv10。下表5为各算法在本文自制数据集下训练的客观性能指标:
Table 5. Comparative experiment of object detection algorithm
表5. 目标检测算法对比实验
Models |
P |
R |
mAP50 |
mAP50-95 |
YOLOv5 |
85.8 |
83.2 |
87.1 |
50.3 |
YOLOv8 |
82.4 |
82.1 |
87.1 |
50.7 |
YOLOv6 |
84.1 |
81.8 |
87.2 |
49.9 |
YOLOv10 |
81.8 |
80.2 |
85.7 |
50.3 |
ours |
83.9 |
82.5 |
88.4 |
52.3 |
由表可知,本文提出的改进模型相较于现目前的主流检测模型,在森林野火的检测上表现最佳,mAP50值、mAP50-95值分别为88.4%、52.3%,在对比实验中均为最高,相较与改进前各项指标均有提升,改进后模型性能提升显著。
3.3.5. 检测效果与分析
选取YOLOv8与改进后的模型检测进行对比,检测效果如图所示。初始YOLOv8模型在森林树木遮挡与雨雾天气因素影响下存在漏检误检、准确性下降、小目标检测效果不佳的缺陷,如图6所示:(a)、(b)中,漏检了火焰目标,(c)和(d)中漏检了烟雾,而且原模型检测精度较低,改进后的模型能够准确检测出图像中所有的火焰、烟雾目标,与初始YOLOv8模型相比,准确率也有所提升,成功地解决了漏检误检、小目标检测效果不佳的问题。
Figure 6. Comparison of model detection results
图6. 模型检测效果对比图
4. 结论
针对传统检测算法在树木遮挡与雨雾天气因素影响下存在漏检误检、准确性下降、小目标检测效果不佳的缺陷,使用自制数据集,优化YOLOv8模型,设计动态稀疏注意机制引入BiFormer注意力模块,提升在森林、在地形和植被遮挡复杂背景下对烟火特征的关注,提高网络的特征表示能力、在C2f模块添加可变形卷积DCNv3形成多尺度特征融合网络,解决由于压缩像素造成的遥感图像变形而难以获得小火焰的特征的问题,并加入小目标检测层,提高了网络的特征提取性能及对小目标的检测与关注性能。实验结果表明,所提出的改进模型在森林野火检测中各项指标均有提升,在各种复杂环境下都能精准检测到森林野火目标,对小目标检测效果优异,表现出卓越的性能,能够对我国当前的森林防火工作提供可靠支持。