1. 引言
合成孔径雷达(Synthetic Aperture Radar,简称SAR)是一种高分辨率成像雷达系统,比光学遥感系统具有更明显的优势,能够在各种天气条件和光照条件下工作[1]。近年来,已经出现了许多关于SAR图像目标检测的研究成果,重点包括检测飞机、船舶和车辆等目标[2]。其中,船舶检测对于渔业管理、港口管制和海洋监测等方面提供了很大帮助[3]。但是,船舶通常稀疏地分布在公海,密集地挤在海岸附近,这使得对SAR图像船舶检测充满了挑战。
在SAR图像检测领域,算法最初应用了基于水平边界框(HBB)的方法进行船舶检测。例如,Chen等人[4]提出了CSD-Yolo算法,通过结合置换注意力机制和空洞空间金字塔池化,以增强该模型的多尺度特征提取能力。Li等人[5]提出一个注意力引导的平衡特征金字塔网络,减小背景杂波和噪声对船舶检测的影响,从而增强了对多尺度船舶的检测性能。Zhu等人[6]提出了一个名为DB-YOLO的SAR船舶检测器,通过改进跨阶段的子模块来增强信息融合,实现对小目标的准确检测。Zhou等人[7]提出了一种分步特征细化主干和金字塔网络,通过分步空间信息解耦函数依次细化船舶的位置和轮廓,提高船舶检测性能。
上述方法主要采用水平边界框进行船舶检测。但是,船舶通常具有较大的纵横比,这使得难以使用HBB准确直观地传达出它们的方向和尺寸信息。并且在港口等船舶密集分布的区域,HBB可能与主要目标周围的其他船舶目标重叠,导致检测精度降低。相反,基于定向边界框(OBB)的检测器可以为船舶目标提供更精确的定位和方向信息,并且更适合于SAR图像中的船舶检测。Sun等人[8]提出一种具有双向特征融合架构的任意方向边界框检测模型,并将角度信息作为一个整体进行分类,生成符合船舶目标方向的边界框。Zheng等人[9]提出一种用于SAR图像中旋转船舶检测的方法,引入了旋转角度的概念,使其适用于旋转框检测场景。Wang等人[10]提出了一种两阶段网络,通过结合多尺度上下文语义信息融合模块和散射点信息学习模块,以增强检测的鲁棒性。
综上所述,目前SAR图像在船舶检测领域已经取得了较多研究成果。然而,在实际应用中仍存在许多挑战。例如,对于近岸船舶检测,由于场景庞大复杂、船舶分布密集且具有任意方向性,从而增加了将船舶目标与近岸港口和建筑物分开的困难。对于小目标,通常由于占据图像中较小区域并且缺乏明确的细节信息而难以检测到它们。此外,不同图像中船舶目标尺寸存在多尺度差异,这进一步增加了检测的难度。因此,针对上述提到的这些挑战,本文在YOLOv11框架[11]的基础上进行改进,提出了一种SAR图像定向船舶检测方法YOLOv11-FM,旨在增强对复杂环境中多尺度船舶目标的检测性能。主要创新如下:
1) 设计了一种快速混合聚合网络(Fast Mixed Aggregation Network, FMANet),增强主干网络的特征提取能力。
2) 提出了一种双向自适应特征融合网络(Bi-Directional Adaptive Feature Fusion Network, BAFFN),通过跨层连接的方式实现更丰富的特征交互与融合。
3) 采用小波特征增强(Wavelet Feature Upgrade, WFU)模块[12]改进颈部网络中上采样融合模块,避免高低频信息的混叠。
2. 算法框架
2.1. YOLOv11-FM模型结构
本文以YOLOv11模型为基础,在主干网络、特征融合网络和颈部上采样融合模块三个方面进行了改进,其结构如图1所示。首先,在模型的主干网络中加入本文提出的FMANet模块,以增强对目标特征的提取能力。接着,通过双向自适应特征融合网络实现跨尺度特征融合与交互,并在自下而上的路径中采用WFU模块,从而有效整合不同层级的语义和空间信息。最后,通过检测头执行分类和回归任务。
Figure 1. YOLOv11-FM model structure diagram
图1. YOLOv11-FM模型结构
2.2. 快速混合聚合网络
合成孔径雷达(SAR)图像中的船舶分布并不规则。尤其是在近岸环境中,船舶往往密集排列,呈现出的特征信息不够鲜明、轮廓相对模糊,并且易受邻近海岸建筑物的干扰,从而导致漏检或定位不准确。因此,在SAR图像中高效提取船舶特征成为一个颇具挑战性的难题。针对此问题,本文基于混合聚合网络(MANet) [13]和FasterNet模块[14],提出了快速混合聚合网络(FMANet),如图2所示。通过增强船舶目标在复杂环境中的特征表达能力,使网络能够更好地捕捉图像中的语义信息。
Figure 2. Structural diagram of fast mixed aggregation network
图2. 快速混合聚合网络结构图
FMANet结合了三种类型的模块来丰富信息流,从而增强主干网络的特征提取能力。其中,1 × 1旁路卷积用于通道特征重新校准,通过调整通道间的特征权重来增强重要特征,抑制不重要特征。用于高效空间特征处理的深度可分离卷积(DSConv)将标准卷积分解为深度卷积和逐点卷积。深度卷积对每个输入通道分别进行空间卷积,然后逐点卷积再对深度卷积的输出进行通道间的线性组合。这种设计能够有效地提取图像的空间特征(如边缘、纹理等),同时提高计算效率。C2f模块通过提取多层次的特征,能够增强特征表达能力。这种融合在训练阶段产生了更加丰富的梯度流,有助于网络更好地学习特征,显著增强了每个阶段基本特征所包含的语义深度。FMANet用公式表示如下:
(1)
其中,
的通道数为2c,而
的通道数均为c。最后,再通过拼接操作融合三种类型特征的语义信息,并利用
卷积进行通道压缩,最终生成通道数为2c的
,公式描述如下:
(2)
FasterNet模块包含一个部分卷积(PConv)层[14],后接两个逐点卷积(PWConv)层。如图3所示,部分卷积只对输入通道的一部分应用常规卷积进行空间特征提取,其余通道保持不变。通过同时减少冗余计算和内存访问,更有效地提取空间特征。为了充分且高效地利用所有通道的信息,在部分卷积的基础上进一步添加了一个逐点卷积。它们在输入特征图上的有效感受野看起来像一个T形卷积,与均匀处理一个局部区域的常规卷积相比,这种设计更加关注局部区域中包含最丰富的信息中心位置,提高了特征提取的效率和效果。
Figure 3. Structural diagram of partial convolution
图3. 部分卷积结构图
2.3. 双向自适应特征融合网络
Figure 4. Structural diagram of bi-directional adaptive feature fusion network
图4. 双向自适应特征融合网络结构图
将SAR图像输入主干网络后,可以获得不同层次的特征图。较浅层的特征图包含丰富的空间信息和局部特征。而较深层的特征图包含丰富的语义信息,但空间细节丢失较多。因此深层特征图无法提供精确定位船舶目标所需的空间信息,且随着特征图分辨率降低,小尺度目标的特征会逐渐丢失,这将严重影响SAR船舶检测的最终效果。针对该问题,本文提出了一种基于自适应融合(Adaptive Fusion, AF)模块[15]的双向自适应特征融合网络(BAFFN),其结构如图4所示。通过跨层连接的方式实现更高级别的特征融合,增强它们之间的信息交互,从而提高模型对多尺度船舶的检测性能。
自适应融合的核心思想是动态地为每个输入特征分配权重,然后根据这些权重对特征进行加权求和,得到一个融合后的特征。具体来说,假设输入的大小可以表示为(bs, C, H, W),然后通过卷积、拼接和Softmax操作获得一个空间自适应权重,其大小为(bs, 3, H, W)。这三个通道与三个输入一一对应,再通过计算加权和,可以将上下文信息聚合到输出中。
2.4. 小波特征增强模块
在颈部网络中,直接采用上采样将不同分辨率的特征对齐,再进行融合可能会导致高低频信息的混叠,从而影响目标检测的性能。因此,本文引入了小波特征增强(WFU)模块[12],如图5所示。WFU模块通过小波变换
将特征图分解为高频和低频分量,分别进行处理后再融合,这样可以更好地增强船
舶的细节信息和整体轮廓。具体来说,对于较大尺寸
和较小尺寸
,首先对较大尺寸
应用小波变换,得到与
相同尺寸的四个小波子带:
(3)
其中,
表示
的低频部分,
、
和
表示
的三个高频部分。由于小尺度特征
主要包含低频信息,所以将
与它组合作为增强后的低频子带。同时,使用残差块来增强图像的高频分量。最终,
通过逆小波变换
得到输出
:
(4)
其中,
表示逆小波变换,
表示拼接,
表示标准残差块。
Figure 5. Structural diagram of wavelet feature upgrade
图5. 小波特征增强模块结构图
3. 实验环境与数据集
3.1. 实验环境与参数
实验采用PyTorch 2.1.2开源深度学习框架搭建网络,GPU采用NVIDIA RTX 3090 (24 G)。并使用SGD优化器进行训练,初始学习率为0.01,动量为0.937,训练迭代次数为300次,批量大小为32。
3.2. 数据集
为了评估模型的性能,本文使用公开的SAR图像船舶检测数据集RSDD-SAR [16]作为实验数据集。RSDD-SAR数据集包含7000张分辨率为512 × 512的图像,其中共有10,263艘船只。该数据集还涵盖了各种场景,包括港口、航运通道和岛屿等。训练集、验证集和测试集按照7:1:2的比例随机划分。
3.3. 评估指标
为了更好地评估所提出方法的性能,我们采用精确率(P)、召回率(R)和平均精度(Average Precision, AP)作为评估指标。
(5)
(6)
(7)
其中,TP是正确预测的正样本,FP是错误预测的正样本,FN是错误预测的负样本,P (R)为准确率–召回率曲线。
根据不同的IoU阈值,平均精度可以分为AP50和AP50:95。当IoU阈值设置为0.5时,式(7)计算得到的结果即AP50。如果IoU在0.5和0.95之间以0.05的步长逐渐增加,则获得的十个值的平均值为AP50:95。
4. 实验结果分析
4.1. 消融实验
为验证各项改进模块的有效性,我们在RSDD-SAR数据集上进行了消融实验。由表1实验结果可见,各项改进措施均带来了精度和召回率的提升。YOLOv11-FM与YOLOv11模型相比,AP50和AP50:95分别提高了0.5%和0.9%。因此,所提出的这些改进模块是有效的,增强了网络检测船舶目标的性能。
Table 1. Impact of different improvement sections on detection performance
表1. 不同改进部分对检测性能的影响
算法 |
FMANet |
BAFFN |
WFU |
P |
R |
AP50 |
AP50:95 |
YOLOv11 |
|
|
|
0.933 |
0.928 |
0.971 |
0.743 |
(a) |
Π |
|
|
0.937 |
0.934 |
0.973 |
0.747 |
(b) |
|
Π |
|
0.938 |
0.933 |
0.975 |
0.750 |
(c) |
|
|
Π |
0.935 |
0.931 |
0.972 |
0.745 |
YOLOv11-FM |
Π |
Π |
Π |
0.940 |
0.936 |
0.976 |
0.752 |
4.2. 对比实验
为全面评估YOLOv11-FM在SAR图像船舶检测任务中的性能,将其与其他一些经典目标检测算法进行对比。表2给出了YOLOv11-FM与其他目标检测算法在RSDD-SAR数据集上的检测结果[17]。可以看出,相较于其他目标检测算法,YOLOv11-FM的准确率提高了3%~21.4%,召回率提高了2%~21.3%,AP50提高了9.2%~30.9%。这些结果表明我们提出的YOLOv11-FM在精度、召回率和AP50均优于其他模型,同时还保持了相对适中的参数量。
Table 2. Comparison of YOLOv11-FM model with other models
表2. YOLOv11-FM模型与其他模型对比
算法 |
P |
R |
AP50 |
Params (M) |
R-Faster R-CNN |
0.850 |
0.877 |
0.833 |
41.41 |
R-RetinaNet |
0.726 |
0.723 |
0.667 |
32.44 |
R3Det |
0.865 |
0.884 |
0.809 |
41.81 |
S2ANet |
0.910 |
0.916 |
0.879 |
36.45 |
ReDet |
0.901 |
0.902 |
0.884 |
31.57 |
YOLOv11-FM |
0.940 |
0.936 |
0.976 |
38.81 |
4.3. 检测结果可视化
为直观验证本文模型的检测效果,将YOLOv11-FM在RSDD-SAR数据集中部分图像的检测结果可视化,如图6所示。第一行图片中的绿色框表示船舶的真实框,第二行图片中的红色框表示本文模型对图像中船舶的检测框。可以看出,YOLOv11-FM能够准确地检测到任意方向的船舶目标,表现出了巨大潜力。
Figure 6. Detection effect diagram of YOLOv11-FM
图6. YOLOv11-FM检测效果图
5. 结束语
针对SAR图像船舶目标检测出现漏检和误检的问题,本文提出了一种改进YOLOv11的定向船舶检测方法YOLOv11-FM。其中,FMANet通过增强船舶目标的特征表达,提高了网络的特征学习和提取能力。BAFFN通过跨层连接的方式实现更高级别的特征融合,有助于检测多尺度船舶目标。WFU模块能够增强船舶的特征细节信息,提升模型的检测精度。实验结果表明,YOLOv11-FM优于其他目标检测算法,能够应对复杂环境条件下对多尺度船舶目标的检测任务。