1. 引言
遥感技术是指从高空获取有关地球及其环境的信息,通常是通过飞行器或者卫星来收集 [1] 。近年来,随着高性能视觉传感器和航天航空技术的研究和发展,遥感技术也有了很大的进步,例如,遥感卫星的分辨率和数据获取速度得到了显著提高。由于遥感数据具有全局性、实时性和大规模等优势,因此在军事防御、灾害监测、城市规划和环境保护等各个领域都有应用。
遥感图像目标检测是遥感技术中的一个重要研究领域,主要通过自动化的方式,对遥感图像中的目标进行快速准确的识别和定位。传统的遥感图像目标检测方法由于需要人工进行大量的参数调整,难以进一步进行应用,因此基于深度学习的遥感图像目标检测方法逐渐成为主流,众多学者在这方面做出了杰出的研究成果。Zhu等人通过设计一个新型预测头来处理目标的尺度差异,提高遥感图像中小目标的检测精度 [2] 。Fu等人提出了一种特征融合架构,通过生成多尺度特征融合来处理多尺度物体,不同层次的特征组合有助于检测不同尺度的物体 [3] 。Hou等人设计了一种用于任意方向物体检测的形状自适应检测器,根据不同物体形状对IoU阈值的要求不同,设计了一种针对遥感图像的样本匹配策略 [4] 。胡俊顾等人在YOLOv4的基础上,加入多模态的想法,构建了新型小目标检测模型,提高了遥感图像小目标的检测精度 [5] 。
综上所述,虽然目标检测技术发展迅速,将自然场景下的检测模型迁移应用于遥感图像检测也取得了一定成果。然而,由于遥感图像的特殊性仍然存在许多挑战,尤其是目标尺度变化剧烈、小目标检测等问题。因此,本文提出了一种基于自适应空间融合结构的网络模型,本文工作如下:
1) 针对遥感图像小目标排列密集、数量众多的难点,提出自适应空间融合结构,使用模型学习的权重来融合深层特征信息和浅层特征信息,提高模型对小目标的检测精度。
2) 针对单阶段检测器由于缺乏候选区域选择阶段而产生的正负样本不平衡问题,修改了置信度损失函数。
3) 针对遥感图像中存在着大量高长宽比的目标物体,优化了样本匹配策略。
2. 改进的YOLOX算法
YOLOX [6] 是一种高效的目标检测算法,它是YOLO系列中的最新成员,它结合了目标检测近年来的一些重要研究热点,比如无锚框检测器、先进的标签分配策略和端到端检测器等,从而达到了较好的检测性能。本文在网络结构和样本匹配策略方面进行改进,用于提高遥感图像目标检测性能。本文算法框架如图1。

Figure 1. Improved network structure diagram of YOLOX algorithm
图1. 改进后的YOLOX算法网络结构图
2.1. 自适应空间融合结构
金字塔特征表示法(FPN) [7] 是目标检测模型在面对尺度变化较大时常用的解决方法。对于融入FPN的单阶段检测器来说,不同特征尺度之间的不一致是其主要限制,若是直接融合各层次特征就显得并不合理,所以本文提出了自适应空间特征融合结构,它通过在空间上过滤冲突信息来抑制梯度反转的时候不一致的情况,改善了特征的比例不变性。模块结构如图2所示。
以Fusion-3为例,将来自level 1、level 2、level 3的特征χ1、χ2、χ3与来自不同层的权重参数
、
和
相乘并最后相加,就能得到自适应融合特征Fusion-3。公式如下:
(1)
2.2. 平衡损失函数设计
在整个训练过程中,损失函数式由
、
、
三部分组成,
是指在取出特征点的类别预测结果后,根据真实框的类别与特征点的类别预测结果做出的交叉熵损失,
是根据正负样本

Figure 2. Adaptive spatial fusion structure diagram
图2. 自适应空间融合结构图
和特征点是否包含目标物体的预测结果做出的交叉熵损失,
是预测框和真实框的IoU损失。具体如公式2,其中是
人为可以设置调整的权重参数。
(2)
由于我们的模型是一个单阶段的检测器,没有提前生成候选区域的过程,它将对从网络中提取的每个特征进行预测,并对每个位置的类别进行区分。这种过于密集的预测方法会产生过多负样本,导致产生正负样本不平衡问题,因此我们使用Focalloss [8] 来代替原先的BCE loss,公式如下:
,
(3)
上式中,y的取值为1和−1,分别代表前景和背景,p的取值范围为0~1,是模型预测属于前景的概率。
和
都是权重参数,通过
可以抑制正负样本的数量失衡,通过
可以控制难易区分样本数量失衡。
2.3. 样本标签匹配策略
目标检测算法往往都需要解决预测出来的框过多,如何去除低质量框的问题,也称为正负样本匹配策略问题。常见的策略大多是使用预测框和真实框直接算IoU,根据IoU阈值去划分正负样本,大于IoU阈值的为正样本,低于IoU阈值的则视为负样本或者忽略样本。YOLOX的标签匹配策略为SimOTA技术,它将匹配问题看成一个最优传输的问题,即如何将预测框与真实框进行匹配使得代价最低。具体流程如图3所示。
在上述的过程,预测框与真实框之间形成的IoU起着决定性的作用,它决定了这个样本是否能够成为正样本。然而,对于遥感图像这种目标排列密集,物体尺度变化剧烈的对象来说,直接使用IoU来作为评判标准并不严谨。在面对长宽比比较大的狭长类物体如轮船、港口等时,直接比较IoU来判断正负样本时,就容易漏掉一些潜在高质量正样本。如图4右图相较于左图仅仅是旋转角度
有一点变化,整体的IoU就急剧下降,但是从图4中可以看出,右图其实是一个潜力框,并不应该被直接否定。因此,本文使用一种形状自适应阈值来代替传统的IoU阈值。
相比传统的静态IoU阈值需要人为进行不断调整从而达到最优效果,我们的方法可以随着目标物体自适应调整,无疑更具先进性。具体如公式4所示:
(4)
其中,
表示第i个真实标准框它所对应的阈值,
是计算目标物体长宽比的函数,
和
则分别是平均值和标准差,其公式如下。

Figure 3. SimOTA sample assignment strategy
图3. SimOTA样本匹配策略

Figure 4. Effect of angular offset on objects with high aspect ratio
图4. 角度偏移对高长宽比物体的影响
(5)
(6)
其中,
指第j个预测框与第i个真实框的IoU,
的具体计算方式为长边与短边之比,根据分析,整体IoU阈值的大小应该随着长宽比的增大而减小,因此
被我们设计成一个递减的函数,其公式如下:
(7)
其中,
是一个人为设置的权重参数,根据实验可知,当数据集中狭长类目标物体占比更大时,更大的
往往会取得更好的性能。
3. 实验结果与分析
3.1. 实验设置
实验采用深度学习框架Pytorch 1.11.0,NVIDIA GeForee GTX 1080Ti显卡,E5-2620 v4 CPU,64 GB内存,64位Window 10操作系统。实验输入图像大小设置为640*640,Batch大小设置为4,epoch设置为100,学习率设置为0.0001,使用余弦退火策略调整学习率。
3.2. 数据集
我们在武汉大学发布的DOTA数据集上进行了训练和预测,DOTA数据集的内容丰富,包含多种检测类别,且各种目标之间的尺度存在差异、目标排列紧密且方向任意,是一个具有挑战性的大规模遥感图像数据集。目标类别分别是:飞机(PL)、棒球场(BD)、桥梁(BR)、田径场(GTF)、大型车辆(LV)、小型车辆(SV)、船舶(SH)、网球场(TC)、篮球场(BC)、储存罐(ST)、足球场(SBF)、环岛(RA)、港口(HA)、游泳池(SP)、直升机(HC)。
此外,我们还在HRSC2016数据集上进行实验来验证本文方法的鲁棒性。
3.3. 评价指标
本实验采用mAP作为模型性能的评价指标,它能够全面地评估目标检测模型的性能,包括定位准确度和分类准确度,公式如(8)~(11):
(8)
(9)
(10)
(11)
其中,TP为真正例即算法预测正确的正样本个数,FP为算法预测错误但是判断为正样本的个数,FN为算法预测错误且被认为是负样本的个数,P为准确率,R为召回率,AP是平均准确度。mAP是所有类别AP的平均值。
3.4. 消融实验
为了验证本文改进网络的有效性,在相同实验条件下,对各个方法模块进行实验,实验结果如表1,可以看出本文提出的各个改进模块都对整体模型的性能提升起到了不错的效果。

Table 1. Ablation experiments on the DOTA dataset
表1. 在DOTA数据集上的消融实验
3.5. 对比实验
上述实验验证了本文方法各个模块的有效性,接下来在DOTA数据集和HRSC2016数据集上分别进行实验,并与主流方法RetinaNet、SCR Det [9] 、F3Net [10] 和原始YOLOX算法进行对比。实验结果如表2所示,我们的算法相较于原始YOLOX不仅小目标的AP明显提升,而且对于高长宽比的目标物体如船舶等的识别效果更好,算法的mAP相较于原始算法提升了2.75%,达到了79.07%的优秀水平。在DOTA数据集上的可视化结果如图5所示,可以看出相较于原始算法,本文算法的漏检率更低,识别更精确。

Table 2. Comparison with dominant methods on the DOTA dataset
表2. 在DOTA数据集上与主流方法的对比

Figure 5. Visualization results on the DOTA dataset (a is the original YOLOX visualization, b is the visualization results of the algorithm in this paper)
图5. 在DOTA数据集上的可视化结果(a为原始YOLOX可视化,b为本文算法可视化结果)
为了证明本文方法的鲁棒性,在HRSC2016数据集也进行了实验,并分别与RoI Transformer [11] 、Gliding Vertex [12] 、R3Det [13] 、SLA [14] 、DAL [15] 等优秀方法做了对比,如图6所示,证明本文算法的性能最优,在该数据集上mAP达到了90.14%。

Figure 6. Comparative experiments on the HRSC2016 dataset
图6. 在HRSC2016数据集上的对比实验
4. 结论
针对遥感图像中小目标排列密集、高长宽比目标物体普遍存在、正负样本失衡的问题,本文在YOLOX算法的基础上,引入了自适应特征融合结构,该结构在特征金字塔的基础上,通过学习不同特征图之间的潜在关系,将不同级别的特征自适应地融合在一起,有效提高了小目标的检测精度;使用Focal loss替换掉原先的BCE loss,通过减小易分类样本的权重来缓解正负样本不平衡问题;并提出形状自适应IoU阈值来优化样本匹配策略,该阈值通过对目标的形状进行分析,结合目标的长宽比和尺度信息,自适应调整IoU阈值解决高长宽比目标对于角度偏移敏感的问题。实验结果表明,改进后的YOLOX算法在遥感图像目标检测方面拥有不错的性能,同时具有一定的鲁棒性。但是,本文的改进还存在一些不足之处,在数据量较小的情况下,模型的泛化能力有待进一步提升,未来可以考虑引入更加先进的网络模型来提升遥感图像目标检测器的性能。