1. 引言
随着无人机技术的飞速发展,航拍图像在导航定位[1]-[3]、地图构建等诸多计算机视觉下游任务中得到了广泛应用[4] [5],而图像匹配作为这些任务的核心支撑环节,其匹配精度与鲁棒性直接决定了下游任务的最终性能。无人机航拍场景具有独特性,受飞行姿态变化、拍摄视角差异等因素影响,航拍图像常面临大角度旋转、尺度变化等复杂几何变换挑战[6],这使得常规图像匹配算法的性能极易出现显著退化,难以满足实际应用对匹配可靠性的需求。
无人机航拍图与基准地图匹配的应用场景如图1所示,无人机在飞行的过程中,对下方进行实时拍摄,航拍图像通过与该区域的基准地图块进行匹配可以得到多对匹配点[7] [8]。根据得到的匹配点对,确定无人机当前的飞行位置,实现视觉导航[7]。因此,图像匹配技术的速度与定位准确度,直接影响无人机的导航精度。
然而,在实际应用过程中,基准地图与无人机实时航拍图差距较大,图像的差距一方面由于无人机拍摄的俯仰角和飞行高度决定,另一方面由于基准地图并非实时更新,存在建筑物的显著变化[9]。这对于无人机航拍图与基准地图的精准匹配,带了巨大的挑战。
Figure 1. Schematic diagram of matching between drone aerial image and reference map
图1. 无人机航拍图与基准地图匹配示意图
为提升图像匹配性能,学术界与工业界开展了大量研究。传统的特征点检测技术因其稳定性强、亚像素精度、硬件需求低等优点被广泛应用在诸多领域,随着计算机视觉的发展,其中深度学习驱动的匹配模型凭借强大的特征学习与关联建模能力,逐渐成为主流。多种基于卷积神经网络(Convolutional Neural Networks, CNN)的特征点提取与描述算法比传统算法拥有更强的特征检测能力和描述能力使得图像匹配能力大幅提升[7]。SuperGlue算法创新性地融合Transformer与图神经网络,实现了特征点间上下文关联的有效建模;LoFTR算法则通过自监督学习范式与互相关层设计,达成了密集特征的高效匹配。efficient LoFTR提出两阶段匹配策略,先对较大的图像块之间做粗匹配,对于可信配对再做进一步的精细高分辨率匹配,兼顾了匹配点定位精度与速度[10]。为了进一步提升图像匹配精度,ROMA采用稠密特征点匹配方法[11],虽然相较LOFTR、SuperGlue等算法在图像特征匹配上有了显著提升,然而其模型推理速度较慢,并不适用于无人机实时航拍的图像特征匹配场景。
上述算法在光照变化、轻微几何形变等常规场景下展现出优异的匹配性能[12] [13],为图像匹配任务提供了高效解决方案。然而,通过深入研究发现,当前主流深度学习匹配模型在特征表示环节缺乏显式的旋转不变性设计,导致其在无人机航拍常见的大角度旋转场景中,匹配精度与召回率大幅下降,严重限制了其在复杂航拍场景中的应用范围[14]。如何增强图像匹配算法的旋转鲁棒性,使其能够适应无人机航拍的复杂几何变换场景,成为当前亟待解决的关键问题。
针对上述局限,本文提出一种基于主导方向校正的图像匹配算法IMA-DDC (Image Matching Algorithm Based on Dominant Direction Correction),以增强图像匹配的旋转不变性。该框架在特征点匹配阶段,依托初始特征匹配对构建可表征旋转特性的主导方向,并在匹配推理环节嵌入旋转一致性约束,对SuperGlue算法的匹配过程进行优化,以提升模型对大角度旋转场景的适应能力。本文通过在自建无人机航拍数据集的大量实验验证了所提算法的有效性,实验结果表明改进模型相较原始SuperGlue、LoFTR算法在匹配召回率与精度上均实现显著提升。本研究不仅有效强化了现有匹配模型的旋转适应能力,也为无人机航拍图像在复杂几何变换场景下的可靠应用提供了技术支撑,具有重要的理论意义与实用价值。
2. 研究方法
图像匹配的核心是对参考图像与待匹配图像进行相似性评估[14]-[16]。由于参考图像与待配准图像的拍摄时间存在差异、采集所用的传感器类型不同,这类图像间常存在光照强度波动、拍摄视角偏移等不一致性[17] [18]。
当前主流的匹配策略,是从图像中提取具备稳定性与可重复性的点特征来完成匹配过程。以点特征匹配为例,其图像匹配流程如图2所示,若能获取足量的正确对应点特征对,则可判定这两幅图像完成了有效匹配。
特征检测用于提取图像中显著且具有强不变性的区域作为匹配参考物。常见的特征检测算法主要基于角点特征、斑点特征、学习特征等。特征描述用于对提取出的图像特征进行表征,即将特征区域抽象为特征向量,以便后续根据距离函数计算特征区域之间的相似性,该特征向量称为特征描述子。传统的异常点去除方法包括尺度不变特征变换SIFT中的比率检验法、随机抽样一致RANSAC算法、基于先验模型的剔除算法等。
Figure 2. The flowchart of image matching process
图2. 图像匹配过程图
因此,可以看出特征点的匹配性能,对于图像匹配至关重要。然而,图像的大角度旋转会造成特征点匹配性能的降低。为了提升特征点的旋转不变性,现有方法通常在数据集构建中,加入具有角度偏转的图像,进行模型训练,使其具备旋转不变性。然而对于一些模型训练代码非开源的情况,如SuperGlue,则难以通过该方法提升旋转不变性。鉴于此,本文提出的IMA-DDC算法既可以提升旋转不变性,又无需重新进行模型训练。
以下是该无人机航拍图与基准地图匹配算法的详细实现步骤:
步骤1:原始图像特征点提取。原始无人机航拍图和基准地图分别表示为:
和
。使用SuperPoint分别对
和
做特征提取,输出两者的特征点集,分别表示为:
(1)
其中,
和
分别表示
和
的第i个特征点坐标,
和
分别表示对应的高维特征描述子,
和
分别表示航拍图和基准地图特征点数量。
步骤2:隐式特征点增强。在进行特征点提取时,为避免因纹理特征较少而导致特征点数量下降,需要进行隐式特征点增强。通过使用EfficientLOFTR算法进行匹配点提取,该算法基于自注意力和交叉注意力机制,无需进行显式的特征点提取,在两个图像的特征矩阵之间直接计算相关性,从而建立像素级的匹配关系。
步骤3:初始特征点匹配。利用SuperGlue特征匹配模型,将无人机航拍图像的特征点集
和基准地图的特征点集
进行匹配,将其“关键点坐标 + 特征描述子”作为输入,通过模型的关联推理机制,输出初始特征匹配对集合,表示为:
(2)
其中,
表示匹配到的特征点数。
步骤4:旋转角度计算。针对初始特征匹配对集合中的匹配点对,利用RANSAC (随机抽样一致性)算法进行鲁棒拟合,排除
中的错误匹配对,估计航拍图相对基准地图的旋转角度。
步骤5:主导方向确定。在利用特征点对计算得到多个旋转方向后,需要确定主导方向。以各个旋转角为特征,使用k-means进行聚类,统计各聚类簇的匹配点数量占比,选取占比最高的簇的中心点值作为主导方向。
步骤6:航拍图像旋转校正。以
的图像中心为旋转基准点,对
执行旋转变换,旋转角度为计算得到的主导旋转角度,以此抵消航拍图相对基准地图的旋转偏移,得到校正后的航拍图。
步骤7:精准特征点匹配。对重新调用SuperPoint模型,提取其特征点集,输入SuperGlue模型,重复特征匹配流程,输出消除旋转干扰后的精准特征匹配对集合。图3为算法流程图。
Figure 3. The flowchart of the proposed algorithm
图3. 算法流程图
综上,本文提出的IMA-DDC算法首先通过SuperGlue进行初级特征点匹配,计算出航拍图像的旋转主导方向;然后利用主导方向进行图像校正,最后进行图像的二次匹配,既实现图像匹配的旋转不变性,同时保证了算法的时效性。
3. 实验设计与结果分析
3.1. 数据集构建
本研究共采用了两种数据集,分别是通过谷歌地图提取的公开基准地图数据集和自制的无人机航拍数据集。
为全面验证所提基于主导方向校正的图像匹配算法的有效性与泛化能力,本研究构建了包含两类核心数据的实验数据集,具体如下:
(1) 公开基准地图数据集:该数据集来源于谷歌地图公开数据源,通过专业地图提取工具获取,涵盖城市道路、沙漠地貌、海洋、港口等4种典型场景共1196张。数据集中的图像均经过预处理,可作为图像匹配任务中的基准参考图像,用于评估算法在标准场景下的匹配精度。
(2) 自制无人机航拍数据集:该数据集通过无人机实地航拍采集获得。采集过程中,选取晴天不同飞行高度开展航拍作业,覆盖与公开基准地图数据集对应的匹配场景,确保数据的针对性与关联性。采集后的航拍图像经筛选、去噪、尺寸标准化等预处理步骤,最终形成包含不同光照变化、视角偏移及大角度旋转工况的自制数据集,用于模拟航拍场景,验证算法对复杂几何变换的适应能力。
3.2. 实验设计
为了验证本文方法的有效性,测试了不同地形、地貌情况下的配准情况。图4分别为城镇、森林、沙漠和海洋四种情况下的基准地图和待匹配的局部图像。下面分别对这四种情况下的场景,使用主流的图像配准方法以及本项目的配准方法进行配准测试。
Figure 4. Reference maps and local images to be registered under different terrains
图4. 不同地形下的基准地图和待配准的局部图像
3.3. 结果分析
3.3.1. 定量分析
对上面的四种情况下(城市、森林、沙漠、海洋)的局部场景进行角度旋转,然后再进行配准测试。使用最新的主流配准算法SuperGlue算法和Efficientloftr作为对比。以局部场景左上角的角点坐标作为测试对象,计算定位精度,其结果如表1所示。可以看到,提出的IMA-DDC方法在所有地形场景中均取得了最高的定位精度,且与对比方法存在显著性能优势。
在城镇地形中,提出的IMA-DDC方法(99.24%)相较SuperGlue和EfficientLoFtr,分别提升5.98%和2.72%。在森林地形中,SuperGlue精度仅为73.41%,EfficientLoFtr将精度提升至95.92%,而IMA-DDC方法进一步提升至98.86%,相较前两者分别提升25.45%和2.94%。沙漠地形中,IMA-DDC方法以98.41%的精度领先,相较前两者分别提升35.04%和2.76%。海洋地形中,IMA-DDC方法以98.74%的精度最优,相较前两者分别提升22.15%和2.02%。
Table 1. Positioning accuracy under different terrains (%)
表1. 不同地形下的定位精度(%)
|
城镇 |
森林 |
沙漠 |
海洋 |
SuperGlue |
93.26 |
73.41 |
63.37 |
76.59 |
EfficientLoftr |
96.52 |
95.92 |
95.65 |
96.72 |
提出的IMA-DDC |
99.24 |
98.86 |
98.41 |
98.74 |
3.3.2. 定性分析
结合该消融实验的可视化结果(匹配连线展示),对不同方法的匹配性能进行定性分析。本次消融实验以是否引入主导方向校正模块为变量,对比了本文方法(含主导方向校正)与基线方法(SuperGlue,无主导方向校正)的匹配效果。
消融实验结果如图5所示,其中红线表示通过RANSAC的匹配点对连线,绿线表示未通过RANSAC的匹配点对连线。可以看到,本文方法的匹配连线数量更多,覆盖了重叠区域内的多数关键特征点,体现了更好的匹配召回率;而基线方法的有效匹配连线相对稀疏,部分核心特征点未形成正确匹配对,匹配覆盖度更低。
同时,本算法考虑了两段特征点匹配的误差积累问题。在完成第一阶段特征点匹配以后,使用RANSAC方法进行了置信度较低特征的筛选,如图5绿色连线所示,这些特征点对在计算主导方向时并未使用,因此很大程度上减小了两阶段特征匹配的误差积累。
Figure 5. Comparison of ablation experiment results
图5. 消融实验结果对比
4. 结论
本文针对无人机航拍图像匹配任务中,大角度旋转与复杂地形(低纹理、遮挡场景)导致的定位精度退化问题,提出了基于主导方向校正的IMA-DDC图像匹配算法,并通过定量实验、定性分析与消融实验系统验证了其性能优势。在城镇、森林、沙漠、海洋四类典型地形的定位精度测试中,IMA-DDC方法的精度均显著优于主流图像匹配算法,充分体现了IMA-DDC对不同地形场景的强适应性。
后续研究可进一步优化IMA-DDC的推理计算效率,以适配无人机边缘设备的实时部署需求;同时可拓展至强光照、强遮挡等极端环境场景,进一步提升算法的泛化能力。