1. 引言
随着计算机视觉技术的快速发展,目标跟踪在安防监控、自动驾驶、军事侦察等领域的应用需求日益增长。无人机具有低成本,操作灵活,体积小等优点,因此无人机跟踪[1]在近年来已经引起了广泛的关注,然而无人机跟踪面临着许多挑战:1) 无人机视角移动变化大,导致目标姿态尺度易发生较大变化。2) 应用场景较为复杂,极易受到天气光照变化的影响。3) 无人机平台计算资源十分有限,对算法性能要求高。针对第二点问题,现有的许多无人机平台引入了热红外摄像头来应对。在基于RGB-T [2]的目标跟踪方向,SiamFT [3]采用了沿通道维度进行多模态特征拼接的方案,SiamCDA [4]提出了通过自适应权重进行跨模态特征残差连接的方案,但目前研究仍存在不足,比如多模态图像数据有着天然的异构性,图像特征难以高效融合,并且无人机通常采用两个不同的摄像头来进行拍摄,获取的双模态数据在空间视角上存在着差异性。
为了解决上述问题,本文提出一个基于孪生网络的轻量化目标跟踪算法SiamTSA (Siamese Network with Temporal and Spatial Attention),为了保证算法在无人机平台轻量化的需求,选择了基于MobileNetV3-small算法的特征提取主干网络。同时为了解决多模态图像特征难以高效融合,以及无人机多模态图像天然存在的空间视角差异问题,本文提出了一个跨模态时空交互注意力模块,将具有明显视觉风格差异的双模态图像特征视作具有时间差异的图像特征,计算其时间注意力分数与空间注意力分数,充分抑制因模态风格差异导致的冗余特征(如RGB中过曝区域与红外中低温噪声),增强跨模态一致的特征表达,同时融合双模态视角信息,提升了目标跟踪过程中的鲁棒性。最后,本文设计了一个双模态自适应惩罚选择模块,通过预测框前后帧的比例变化以及尺度变化进行惩罚,抑制了尺度突变的预测框输出,缓解了目标跟踪中由于快速移动引起的跟踪框抖动以及目标形变导致的跟踪漂移问题。
2. 方法
文中提出的跟踪算法总体结构框架如图1所示,总共可以分为三个部分:1) 前端使用改进过的MobileNetV3-small作为主干网络对双模态的搜索图与模板图像分别进行特征提取。2) 由主干网络提取的双模态特征经过双模态时空交互注意力模块进行充分特征融合后再与原始特征相连接。3) 双模态图像特征分别进行深度互相关并由分类回归网络生成响应图,再经过双模态自适应惩罚选择模块得到最终输出结果。
Figure 1. Overall framework of UAVs RGB-T object tracking algorithm based on lightweight Siamese network
图1. 基于轻量孪生网络的无人机RGB-T目标跟踪算法总体框架
2.1. 特征提取网络
为了保证算法模型的轻量化以及对于无人机平台设备的适应性,本文使用MobileNetV3-small [5]作为主干网络,相较于MobileNetV2 [6],MobileNetV3引入轻量级注意力机制(SE模块)与硬件感知的h-swish激活函数,在显著降低计算开销的同时,实现了多尺度特征的有效表征,其改进的倒残差结构进一步平衡了模型效率与特征提取能力的矛盾。为了使其适应目标跟踪任务,本文对网络结构做出了一定的调整。原始的MobileNetV3网络经过多次下采样得到目标图像的特征图,过大的总步长会导致输出图像特征分辨率过低,丢失部分特征信息,并且一定程度上会影响计算效率,受到论文[7]的启发,本文选择原始MobileNetV3-small的前10层作为主干网络,并且将最后一个Bneck层的步长由2调整为1,进一步降低了网络参数量与计算量的同时将感受野控制在了一个合理的大小,避免了过大的感受野所导致的性能下降。表1为网络结构的具体参数,表中输入以搜索图像为例,输入尺寸大小为255 × 255 × 3的图像,经过主干网络后,得到特征尺寸为16 × 16 × 96。
2.2. 双模态时空交互注意力模块
有效挖掘可见光与红外模态的互补特征并实现跨模态高效协同,是提升RGB-T目标跟踪算法鲁棒性、精度及环境适应能力的关键挑战,除了双模态特征本身存在视觉风格差异性之外,在无人机RGB-T目标跟踪中,还存在着双模态摄像头带来的空间视角差异问题。受论文[8]的启发,本文引入了一种时空交互注意力的双模态特征处理模块,通过视觉风格差异的时间注意力建模和空间视角差异的空间注意力建模,自适应挖掘可见光模态与红外模态的时空依赖相关性,抑制跨模态噪声干扰,从而提升复杂场景下的跟踪鲁棒性,结构如图2所示。
Table 1. Structure parameters of backbone network
表1. 主干网络结构参数
网络层 |
输入 |
输出 |
卷积核 |
步长 |
是否使用SE |
Conv1 |
255 × 255 × 3 |
128 × 128 × 16 |
3 × 3 |
2 |
无 |
Bneck1 |
128 × 128 × 16 |
64 × 64 × 16 |
3 × 3 |
2 |
是 |
Bneck2 |
64 × 64 × 16 |
32 × 32 × 24 |
3 × 3 |
2 |
否 |
Bneck3 |
32 × 32 × 24 |
32 × 32 × 24 |
5 × 5 |
1 |
否 |
Bneck4 |
32 × 32 × 24 |
16 × 16 × 40 |
5 × 5 |
2 |
是 |
Bneck5 |
16 × 16 × 40 |
16 × 16 × 40 |
5 × 5 |
1 |
是 |
Bneck6 |
16 × 16 × 40 |
16 × 16 × 40 |
5 × 5 |
1 |
是 |
Bneck7 |
16 × 16 × 40 |
16 × 16 × 48 |
5 × 5 |
1 |
是 |
Bneck8 |
16 × 16 × 48 |
16 × 16 × 48 |
5 × 5 |
1 |
是 |
Bneck9 |
16 × 16 × 48 |
16 × 16 × 96 |
5 × 5 |
1 |
是 |
Figure 2. Dual-modality temporal-spatial interactive attention module
图2. 双模态时空交互注意力模块
对于输入的特征
,首先通过
的卷积核进行通道压缩,再进行展平操作得到
,其中
。展平操作旨在降低计算复杂度,并使得特征矩阵适配注意力机制的序列化处理。接下来对于
,分别进行归一化操作(Batch Normalization)和
卷积操作得到:
(1)
其中
,
,其中
不共享参数,
共享参数。
然后分别计算视觉风格依赖时间注意力
与空间位置依赖空间注意力
,如式(2)所示。其中
表征了可见光模态和红外模态在不同通道维度上视觉风格的相似性(将视觉风格上的差异视做时间风格的差异),
表征了具有视角差异的可见光模态和红外模态在空间维度上的空间位置相似性。
(2)
如式(3)所示,利用矩阵
与
对
分别进行重建可以得到
。
(3)
将重建结果通过重塑操作恢复到
,再通过1 × 1的卷积核将通道由
恢复至
并进行归一化操作,得到与原始特征大小相同的特征。
2.3. 分类回归网络
经过双模态时空交互注意力模块得到的特征
与
分别与原始特征
与
连接以保证原始特征信息的保留,共得到,,,四个特征,为获取更丰富的通道语义信息,本文采用了经典目标跟踪算法SiamRPN++ [9]和SiamMASK [10]等使用的深度互相关(Depth-Wise Correlation)操作,分别对可见光模态与红外模态上的搜索特征与模板特征进行深度互相关以得到分类响应图和回归响应图。
在分类分支中,分类响应图上的位置
映射到搜索图像上,对应搜索图像
在标注框内则代表是前景,否则为背景。分类损失采用二分类交叉熵损失函数进行训练,其数学表达式为:
(4)
在回归分支中,目标框的回归精度会直接影响跟踪器的鲁棒性。本文在回归分支中采用CIoU (Complete Intersection over Union)损失函数,相较于IoU损失函数,CIoU同时考虑了重叠区域面积、中心点距离与宽高比,使得回归损失计算更加精确,在目标框部分重叠或完全包含等复杂场景下也可提供更准确的梯度方向,从而加速模型收敛,其公式定义为:
(5)
其中IoU代表了预测边框与真实边框的重叠度得分,
与
分别代表了预测框与真实框的中心位置,
代表了预测框与真实框中心点之间的欧氏距离(Euclidean Distance),
代表了能够同时包围预测框和真实框的最小矩形框的对角线长度,
是用来衡量预测框与真实框长宽比的一致性参数,
是用于平衡高宽比惩罚项
的权重系数,
,
的计算公式分别如式(6)和式(7)所示:
(6)
(7)
其中
,
分别代表真实框的宽和高,
,
分别代表预测框的宽和高。
网络的整体损失函数由可见光损失和红外损失共同构成,总损失的定义可以表示为式(8):
(8)
其中
代表可见光模态损失,
代表红外模态损失,
与
为调整两个模态收敛速度的权重因子。对于其中任一模态的损失可分为分类损失和回归损失两个部分,公式可以表示为式(9):
(9)
其中
与
为调节回归损失与分类损失的权重因子。
2.4. 双模态自适应惩罚选择模块
为了从分类回归网络输出的双模态跟踪结果中得到最好的预测框,本文设计了一个双模态自适应惩罚选择模块。首先选择保留分类响应图中的前景通道
作为目标得分图,同时考虑前景的最高得分与平均得分,确保目标空间位置的准确性的同时抵抗局部噪声干扰,具体如式(10)所示:
(10)
其中PeakScore为最高得分,MeanScore为平均得分,
为超参数。同时为了抑制预测框幅度过大的比例与大小变化,本文受[11]启发设计了一个惩罚函数,根据前后帧目标框尺度的变化对目标得分进行调整,以此确保最终输出结果的稳定性,其定义如式(11)所示:
(11)
其中
和
分别表示当前帧候选框与上一帧预测框的宽高比,
和
分别表示当前帧与上一帧的尺度。当宽高比或尺度发生显著变化时,惩罚系数会相应降低目标得分,若宽高比与尺度变化微小,惩罚系数趋近于1,目标得分基本保持不变。通过对数平方项的设计,该函数对宽高比和尺度的增减变化具有对称惩罚特性,确保不同变化方向的影响权重一致。最终目标得分由原始得分经惩罚函数修正后得出:
(12)
对于可见光模态与红外模态的输出结果,分别使用上述方法进行处理,最终可决定输出分支为:
(13)
3. 实验分析
3.1. 实验细节
实验环境:本文在Ubuntu18.04操作系统下,使用的硬件环境配置为CPU型号AMD Ryzen 7 5800H,显卡Nvidia GeForce RTX3080laptop,32GBRAM。软件环境为python版本3.7.1,pytorch1.7.1,CUDA11.6以及CUDNN8.6。
训练细节:模板图像大小设置为127 × 127 × 3,搜索图像大小设置为255 × 255 × 3,孪生网络初始加载论文[5]中提供的MobileNetV3预训练模型,在LasHeR [12]数据集与VTUAV [13]数据集的训练集上进行训练,共训练50个epoch,采用随机梯度下降法SGD进行训练,动量为0.9,BatchSize设置为32,学习率初始为0.001,在前5个epoch中上升至0.005,后45个epoch中衰减至0.0005,前10个epoch冻结主干网络参数,后40个epoch解冻主干网络参数进行整体训练。
3.2. 对比实验
将本文算法在主流的RGB-T数据集GTOT数据集,RGBT234数据集以及针对无人机的VTUAV数据集上分别进行对比实验,图3展示了本文算法在具有挑战性的场景下展现出了显著的鲁棒性。
Figure 3. Performance of SiamTSA in challenging Scenarios
图3. SiamTSA在具有挑战性场景的表现
3.2.1. GTOT数据集对比实验
GTOT [14]数据集包含50组RGB与热红外视频对,总帧数约7.8 K,覆盖实验室、道路等16类场景。目标以行人、车辆为主。将文中提出算法与APFNet [15],TFNet [16],MANet [17],DAPNet [18],ADNet [19],SiamDW + RGBT [7]等RGBT跟踪算法进行对比。在GTOT跟踪基准上,本文算法与对比算法的准确率和成功率如图4所示。从实验结果可知,本文提出的SiamTSA算法跟踪成功率达到了0.735,准确率达到了0.907,分别排在第三和第一,在成功率和准确率具有竞争力的同时,本文算法在运算速度上有着明显的优势。
3.2.2. RGBT234数据集对比实验
RGBT234 [20]由RGBT210拓展而来,包含234组RGB与热红外视频序列对,总帧数达234 K,共有12种挑战属性(如遮挡、快速运动、尺度变化等)。在RGBT数据集上进行实验可以更好地评估算法在面对相对复杂场景时的鲁棒性,实验结果如图5所示,本文算法的成功率为0.578,准确率为0.814,排在第二,相较于APFNet [15],本文算法在成功率与准确率上稍逊,但APFNet是基于MDNet [21]改进的算法,依赖于在线更新机制,对于计算资源消耗大,不适合在低计算开销的无人机平台进行部署,而本文算法在较低的计算成本下实现了接近的跟踪性能,在FPS指标远超其他算法。
Figure 4. Comparative experimental results on the GTOT dataset
图4. GTOT数据集对比实验结果
Figure 5. Comparative experimental results on the RGBT234 dataset
图5. RGBT234数据集对比实验结果
3.2.3. VTUAV数据集对比实验
VTUAV [13] (Visible-Thermal UAV Tracking Benchmark)是由大连理工大学卢湖川团队于2022年构建的大规模可见光–热红外无人机视角目标跟踪数据集,其数据规模与场景多样性显著超越传统RGB-T数据集。该数据集包含500个高分辨率(1920 × 1080像素)视频序列,总计170万对的RGB-T图像,划分为250个训练序列与250个测试序列,支持端到端模型训练与评估。在场景多样性方面,VTUAV覆盖白天(325序列)与夜间(175序列)环境下的5类目标超类(行人、车辆、动物等)及13个子类,采集高度为5~20米,目标尺寸动态范围从图像面积的1%至30%以上,模拟无人机低空动态追踪的复杂场景;同时标注13种挑战属性(如热交叉、极端光照、遮挡等)。相较于早期数据集,VTUAV以高分辨率、长序列、多任务标注和严苛场景设计,为无人机视角下的算法鲁棒性评估提供了更贴近实际应用的基准平台。本文算法在VTUAV-short测试集上与FSRPN [22],mfDimp [23],DAFNet [24],ADRNet [25],HMFT [13]进行对比实验,得到结果如表2所示。从结果可以得知,本文算法在成功率与准确率领先的情况下,在性能方面有着较大的优势,可以满足无人机跟踪的实时性要求。
Table 2. Comparative experimental results on the VTUAV-short dataset
表2. VTUAV-short数据集对比实验结果
跟踪算法 |
成功率(%) |
准确率(%) |
速度(FPS) |
FSRPN |
54.4 |
65.3 |
34.7 |
mfDimp |
55.4 |
67.3 |
32.6 |
DAFNet |
45.8 |
62.0 |
17.5 |
ADRNet |
46.6 |
62.2 |
21.4 |
HMFT |
62.7 |
75.8 |
29.3 |
Ours |
67.5 |
78.1 |
56.3 |
4. 消融实验
为了确保本文算法模块的有效性,在VTUAV-short上进行消融实验。第一组设置为单纯以MobileNetV3-small作为主干网络的孪生网络目标跟踪算法,第二组引入双模态时空交互注意力模块,第三组在第二组的基础上再引入双模态自适应惩罚选择模块。得到结果如表3所展示。可以看出双模态时空交互注意力模块显著地提升了算法模型的成功率和准确率,同时双模态自适应惩罚选择模块的引入进一步提升了算法模型的跟踪性能。
Table 3. Comparative results of the ablation study
表3. 消融实验对比结果
分组 |
成功率(%) |
准确率(%) |
速度(FPS) |
I |
57.4 |
68.1 |
62.1 |
II |
64.6 |
74.9 |
57.9 |
III |
67.5 |
78.1 |
56.3 |
5. 结论
本文针对无人机平台下RGB-T双模态目标跟踪的挑战,提出了一种轻量化算法SiamTSA。通过改进MobileNetV3-small主干网络,显著降低了模型计算复杂度;跨模态时空交互注意力模块有效融合了双模态特征,抑制了视角差异与噪声干扰;自适应惩罚选择模块进一步提升了跟踪框的稳定性。实验表明,SiamTSA在GTOT、RGBT234和VTUAV-short数据集上均取得领先性能,尤其在无人机场景下的VTUAV-short数据集中,跟踪成功率和实时性分别达到67.5%与56.3 FPS,验证了算法的鲁棒性与实用性。