1. 引言
显著目标检测(SOD) [1]-[3]是计算机视觉领域中的一项关键技术,可以在图像中精准识别提取出那些视觉上独特的目标或区域,该技术在图像理解[4] [5]、动作识别[6]、目标跟踪[7]-[9]等领域发挥着关键作用,为后续高级视觉任务提供了重要的预处理支持。
显著目标检测任务主要处理的图片分为自然场景图像(NSIs)和光学场景图像(ORSIs),前者主要通过手持相机获得,后者主要通过卫星与航空传感器获得,两者都具有红绿蓝三个光学波段,但是后者的场景往往更加复杂多样,所以对技术方面要求更高。但ORSI-SOD具有重要的现实意义,它能够帮助我们在军事侦察中快速地发现和识别图像中的关键目标,为农业生产提供精准的土地利用和作物监测信息,以及在救灾过程中及时发现受灾区域和救援目标等。
鉴于光学遥感图像显著目标检测具有重要的理论意义和实际应用价值,相关模型研究不断推进,涌现出多种代表性方法:Liu等人[10]提出US-CMC模型,基于颜色马尔可夫链与圆形特征相关性理论实现对油库的无监督显著检测。Li等人[11]提出LVNet模型,设计L型双流金字塔模块与V型嵌套编码–解码结构,通过双流金字塔提取多尺度互补特征以感知目标局部细节,借助嵌套连接融合编解码特征,实现复杂背景高效抑制。Zhang等人[12]提出DAFNet,引入含全局特征聚合单元与级联金字塔注意力单元的GCA模块,前者增强空间位置特征嵌入关联性,后者将注意力图从粗到精优化,可捕获长距离语义关联、适配遥感目标尺度变化,并引导高维特征注意力图生成。Zhou等人[13]提出ERPNet,采用编码器–双并行解码器结构,边缘提取模块与编码器构成U型结构以提供精准边缘线索并保障信息完整,特征融合模块通过EPAU将边缘信息融入解码,锐化目标定位并校准特征学习方向。Li等人[14]提出CorrNet,针对光学遥感图像特性进行轻量化优化,对VGG-16主干网络轻量化处理后,通过特征相关性模块(CorrM)挖掘高层语义特征中的目标位置信息,以“粗到精”策略生成显著图,最终模型仅含4.09 M参数量,实现了检测精度与效率的良好平衡。Luo等人[15]提出SAFINet,该网络以MobileNet V2为骨干,融合多尺度注意力融合、注意力反馈特征细化及空间相关模块,通过递归的高分辨率空间注意力反馈实现高低分辨率特征的精准融合,最终模型仅含3.12 M参数量,同样实现了检测精度与效率的良好平衡。
这些方法在光学遥感图像显著目标检测任务上均取得了较好的检测性能,但是部分模型参数量过大,计算成本过高;部分模型没有充分利用边缘信息,目标存在边缘模糊等问题。针对这些问题,本文提出一个边缘增强轻量型模型(Edge-Guided Lightweight Attention Network, EGLANet),该模型主要由三部分组成:第一部分是主干网,以MobileNet V3作为主干网,生成五个初级特征图;第二部分是边缘提取模块,利用第一部分的初级特征图获得四个边缘特征图以及一个精细的边缘图;第三部分是目标检测模块,利用第二部分得到的边缘特征图和精细的边缘图来获得最终的显著目标图。经三模块协同处理,输入光学遥感图像即可得到精细的显著目标预测结果。
2. 模型介绍
2.1. 模型框架
图1展示了本文模型的主体框架,图片从上往下依次是主干网、边缘提取模块和目标检测模块。
Figure 1. Model framework diagram
图1. 模型框架图
2.1.1. 主干网
文献[15]提出的SAFINet模型选择MobileNet V2 [16]作为主干网进行编码,按网络阶段将MobileNet V2划分为五个部分,输出五级编码特征图,从而为后续解码做准备。本次实验则选择MobileNet V3 [17]作为主干网,具体操作同模型SAFINet一样,也是划分成五个部分来获得五个编码特征图
(i = 1, 2, 3, 4, 5),见图1模型主体框架第一行。选择MobileNet V3的原因是其作为MobileNet系列的升级版本,在继承V2轻量化核心优势的基础上,通过架构优化、激活函数革新、动态网络设计等创新,在性能、效率、泛化能力等方面实现了显著提升。
2.1.2. 边缘提取模块
由图1可知,主干网和边缘提取模块之间还经过了一个C(32)的操作,该操作将五个初级特征图的通道数统一调整为32,其结构由1 × 1、3 × 3和3 × 3卷积块拼接而成,实现特征通道的标准化与维度调整。
边缘提取模块由四个EMSAM (Edge Multi-Scale Attention Module,边缘多尺度注意力模块)组成,该模块主要作用是接受主干网编码的初级特征图,从后往前依次解码出四个边缘特征图
(i = 1, 2, 3, 4)以及一个精细的边缘图se,为后续显著目标的精准解码提供边缘线索。
每个EMSAM均先利用CLC结构处理一个浅层特征
和一个深层特征
得到一个跨层相关特征图;再通过一个多分支多尺度并行卷积结构(具体细节见图2),每条分支依次经过k × k、1 × 1、k × k三个卷积块和相乘相加,其中第一个卷积块后接着一个BN层和一个ReLU激活函数,而后面两个卷积块则不接任何函数,三条分支的k值依次取3、5和7,从而实现了多尺度捕获更加充分的特征信息;紧接着将三条分支并联后再进行卷积压缩其通道数为初始值,最后再与跨层相关特征图相加得到对应的边缘特征图。最后
经过Salhead (四个卷积块拼接)输出精细的边缘图se。
Figure 2. Specific structure of EMSAM
图2. EMSAM具体结构
CLC (Cross-Layer Correlation,跨层相关性)具体结构见图3,CBAM [18]是经典的轻量级注意力模块,这里用来处理浅层和深层特征,再将处理过的特征图拼接在一起,通过一个卷积后利用函数Softmax生成权重图,再分配对应通道数的权重特征图与初始输入的特征图相乘,后续再经过并联、卷积和相加即可得到上面提到的跨层相关特征图。
Figure 3. Specific structure of CLC
图3. CLC具体结构
2.1.3. 目标检测模块
由图1可知,目标检测模块由三个MSAM (Multi-Scale Attention Module,多尺度注意力模块)组成,该模块主要作用是接受边缘提取模块的四个边缘特征图
(i = 1, 2, 3, 4)以及一个精细的边缘图se,从后往前进行解码操作,最终解码出显著目标图sm。
MSAM具体结构如图4所示,与EMSAM结构相似,输入的浅层特征图和深层特征图先经过CLC结构处理后再经过一个多分支多尺度并行卷积结构(具体细节见图4),该多尺度结构值得注意两个地方:其一,采用1 × k与k × 1的分组卷积操作,在保证多尺度信息提取能力的同时,大幅减少模型参数量与计算量;其二,设置1 × 1 conv操作,将各分支特征图的通道数压缩至1。后续操作中分支特征图并联、压缩通道和相加操作与EMSAM的一样,不同的是MSAM在输出特征图之前还经过了EGM (Edge Guidance Module,边缘引导模块)操作。整个过程产生三个目标特征图
(i = 1, 2, 3),最后
经过Salhead输出最终显著目标图sm。
EGM的具体结构见图5,该结构主要是利用了边缘提取模块中得到的精细边缘图se作为引导,结合通道注意力(CA)和空间注意力(SA)机制,对MSAM的中间特征图进行加权优化,突出目标的边缘与区域特征,抑制背景干扰,从而获得更精细的目标特征图,提升显著目标的定位精度与轮廓完整性。对于EGM位置的选择,考虑到经过CLC与多尺度卷积输出的特征已具备较完整的目标语义与结构信息。此时引入边缘引导,能够对已初步成型的目标特征进行精准锐化、边界校准与背景抑制,引导效果更稳定、更可控。
Figure 4. Specific structure of MSAM
图4. MSAM具体结构
Figure 5. Specific structure of EGM
图5. EGM具体结构
2.2. 损失函数
在文献[14]中,Li等人使用了经典BCE损失和IoU损失结合的方法,该方法综合考虑了不同因素,能够更好地选出较优模型。并且也有不少前人[19]-[21]使用的损失函数也包括了这两种损失,已经证明了其可靠性与有效性。因此,本文参考该方法,将BCE损失与IoU损失结合,分别构建边缘检测损失与目标检测损失,再通过加权融合得到总损失函数,公式表示如下:
其中
、
分别为边缘图与显著目标图的原始预测值,
、
为经Sigmoid激活函数归一化后的预测值;
和
分别为边缘图与显著目标图的真实标签;
为权重参数,取值范围为0~1,用于调节调整显著目标图损失和显著边缘图损失的组合比例,实验中我们设置为0.5。
3. 实验
3.1. 实验数据与实施细节
我们选取了公开基准数据EORSSD进行实验,该数据集包含了2000张图片(1400张作为训练集,600张作为测试集),涵盖了丰富的遥感场景和目标类型。在数据集预处理阶段,对训练集进行翻转和旋转(90˚,180˚和270˚)进行数据增强,这样子训练集数量就变成了原来的8倍,同时从增强后的训练集中随机抽取20%的样本作为验证集,用于训练过程中的模型性能验证与最优模型选取。
本次实验在一台配置为12th Gen Intel(R) Core(TM) i9-12900 2.40GHz CPU、128-GB RAM和NVIDIA RTX A4000 GPU的机器上实现。在训练阶段,我们把图像尺寸都调整为288 × 288,训练批次设置为8,初始学习率为1e−4,实验完整迭代70轮,学习率衰减率设置为0.1,每迭代30轮对学习率进行一次衰减。
3.2. 实验结果
本次实验选取了10种先进的方法进行比较,分别是VOS [22]、SMFF [23]、CMC [10]、LVNet [11]、DAFNet [12]、ERPNet [13]、CSNet [24]、SAMNet [25]、CorrNet [14]和SAFINet [15]。为了更好地评估所有模型的性能,先后进行了定性分析和定量分析,定性分析则通过对比所有方法的显著目标图,定量分析则计算了所有模型的S测量值(S)、F测量值(
)、交并比(IoU)和平均绝对误差(MAE)四个指标,另外还绘制了其中部分方法的PR曲线图和F测量值曲线图来进行可视化对比。
3.2.1. 定性分析
Figure 6. Comparison of significant target prediction maps from different models. (a) Optical remote sensing image; (b) true label; (c) EGLANet; (d) SAFINet; (e) CorrNet; (f) ERPNet-R; (g) DAFNet-R
图6. 不同模型显著目标预测图的对比。(a) 光学遥感图像;(b) 真实标签;(c) EGLANet;(d) SAFINet;(e) CorrNet;(f) ERPNet-R;(g) DAFNet-R
不同模型显著目标预测图的对比如图6所示,由图可知,在光学遥感图像显著目标检测任务中,EGLANet在多类典型场景下展现出优于其它模型的综合性能。由第1行、第2行和第4行这三行图片可知,在小目标场景中,EGLANet可精准捕捉稀疏微小目标,无明显遗漏或误检;由第3行图片可知,在建筑物等块状目标无直接接触但距离较近的场景中,EGLANet的边界预测清晰锐利,与真实标签轮廓高度吻合;由第5行和第6行图片可知,在岛屿和河流等显著目标与背景紧密交错的场景中,EGLANet预测结果能保持目标连续性与完整性,并且有效区分了显著区域和非显著区域。综上,与其他模型相比,EGLANet在小目标检测能力、目标结构完整性、边界定位精度及复杂背景鲁棒性方面均有显著提升,检测出的目标轮廓更清晰,更接近真实标签(GT图),对复杂背景的抑制效果更优,能更完整地检测出显著目标区域。
3.2.2. 定量分析
由表1可知,EGLANet在光学遥感图像显著目标检测任务中,整体性能显著优于其它对比模型。在Sm、adpFm、meanFm、maxFm、IoU等关键评价指标上,EGLANet分别达到0.9301、0.8468、0.8666、0.8827、0.8074,其中Sm、maxFm、IoU三项指标为所有模型中的最高值,adpFm (0.8468)、meanFm (0.8666)略低于SAFINet的0.8575和0.8710;在MAE指标上,EGLANet仅为0.0061,仅略高于DAFNet-R的0.0053和DAFNet-V的0.0060,显著低于多数对比方法。虽然EGLANet在部分指标上不如SAFINet和DAFNet,但是EGLANet模型参数量仅1.75 M,而SAFINet模型参数量为3.12 M,DAFNet模型参数量则高达29.35 M,所以EGLANet更加轻量化。
Table 1. Quantitative evaluation results of different models. Note that “↑” (“↓”) indicates that a higher (lower) value indicates better performance, and the optimal value in each column has been bolded
表1. 不同模型的定量评估数值结果。需注意,“↑”(“↓”)表示数值越大(越小)性能越优,此外每列最优值已加粗
|
Sm↑ |
adpFm↑ |
meanFm↑ |
maxFm↑ |
IoU↑ |
MAE↓ |
VOS |
0.5083 |
0.1843 |
0.2115 |
0.2776 |
0.2034 |
0.2096 |
SMFF |
0.5405 |
0.2089 |
0.3011 |
0.5208 |
0.3935 |
0.1434 |
CMC |
0.5800 |
0.2009 |
0.2696 |
0.3272 |
0.2365 |
0.1057 |
LVNet |
0.8644 |
0.6306 |
0.7356 |
0.7824 |
0.6734 |
0.0145 |
DAFNet-R |
0.9184 |
0.6522 |
0.7980 |
0.8734 |
0.7765 |
0.0053 |
DAFNet-V |
0.9166 |
0.6423 |
0.7842 |
0.8612 |
0.7702 |
0.0060 |
ERPNet-R |
0.9252 |
0.7170 |
0.8269 |
0.8743 |
0.8045 |
0.0082 |
ERPNet-V |
0.9210 |
0.7554 |
0.8304 |
0.8632 |
0.7887 |
0.0089 |
CSNet |
0.8364 |
0.6319 |
0.7656 |
0.8341 |
0.7436 |
0.0169 |
SAMNet |
0.8622 |
0.6114 |
0.7214 |
0.7813 |
0.6671 |
0.0132 |
CorrNet |
0.9291 |
0.8322 |
0.8591 |
0.8778 |
0.8051 |
0.0084 |
SAFINet |
0.9267 |
0.8575 |
0.8710 |
0.8799 |
0.8015 |
0.0065 |
EGLANet |
0.9301 |
0.8468 |
0.8666 |
0.8827 |
0.8074 |
0.0061 |
由图7可知,EGLANet的PR曲线虽与其他对比模型的曲线相互重叠,但放大曲线右上角区域可见,EGLANet还是比其它方法更靠近右上角。对于F测量值曲线,CorrNet、SAFINet和EGLANet三条曲线重叠在一起,覆盖面积相近并且大于其它方法。总的来说,EGLANet还是优于其它方法。
Figure 7. Quantitative evaluation curve diagram of different models. The closer the PR curve is to the upper right corner, the better it is; the larger the coverage area of the F-measure curve, the better it is
图7. 不同模型的定量评估曲线图。PR曲线越靠近右上角越优,F测量值曲线覆盖面积越大越优
综上,EGLANet在显著目标检测的精准度、目标区域完整性及与真实标签的匹配度上均具备明显优势,能够更准确、完整地检测出显著目标区域,有效降低误检与漏检风险;同时通过轻量化网络设计,进一步减少了模型参数量与计算成本,在检测精度与轻量化之间实现了更优的平衡,综合性能在所有对比模型中处于领先水平。
3.2.3. 超参数敏感性分析
在前面实验中,超参数
取值为0.5,该设置已经取得了良好的实验结果。为了证实其有效性,我们针对
进行线性搜索实验,但进行穷尽搜索的时间成本过高,所以我们只补充取值为0.3、0.4、0.6和0.7的四组实验,然后通过四项评价指标展示模型性能的变化趋势(见图8)。图中Smeasure、maxFm和meanIoU曲线对应左侧y轴,MAE曲线对应右侧y轴。由图可知,四项指标的曲线变化相对平稳,这表明所提模型对超参数的敏感性较低,进而证得
取值为0.5的合理性。
Figure 8. Hyperparameter sensitivity
图8. 超参数敏感性
4. 总结
针对光学遥感图像显著目标检测中现有模型参数量大、计算成本高或边缘信息利用不足导致目标边缘模糊的问题,本文提出了一种边缘引导的轻量型注意力网络模型EGLANet,实现了光学遥感图像显著目标的轻量化、高精度检测,与众多先进方法对比中处于领先地位,为光学遥感图像显著目标检测提供了一种高效的轻量化解决方案,在无人机航拍、卫星遥感监测等资源受限的实际应用场景中具备良好的部署前景。后续研究可进一步探究在目标检测模块中边缘信息引导切入的更优位置,以及进一步压缩模型体积,提升模型的推理速度,实现更高效的工程化部署。