1. 前言
准确且稠密的场景深度数据在自动驾驶领域[1]中得到了广泛应用。然而受限于现有硬件能力,直接获取密集深度图仍具挑战。例如,使用激光雷达获取的深度过于稀疏,无法直接使用;而深度相机虽然能够获取稠密深度,但其因精度不足,难以满足自动驾驶领域的实际应用需求。因此,补全采集到的深度图中缺失的部分是相当必要的。该任务的关键挑战在于如何从不规则采样的稀疏深度点中高效恢复稠密且准确的深度。
近年来,基于深度学习的深度补全方法表现出了显著优势,根据输入数据的类型可以分为两类:非图像引导法和图像引导法[2]。前者直接基于稀疏LiDAR数据生成稠密深度,但当深度数据极为稀疏时,缺乏邻近结构与边缘先验信息,难以恢复完整的深度图。相比之下,图像引导方法通过引入与稀疏深度图配对的彩色图像作为输入的一部分引导深度补全,借助彩色图像中丰富的信息,大幅改善了物体边界预测结果模糊变形、不规则形状物体预测缺失等情况。因此图像引导法能够显著提升深度补全性能,并逐渐成为主流方法[3]。
图像引导的深度补全方法主要沿着多模态融合与空间传播网络两个方向发展。在多模态融合方面,Tang等人提出的GuideNet [4]通过引导卷积在不同尺度上利用图像特征动态更新深度特征,显著提升了彩色图像对深度补全的引导能力。Zhang等人提出的Cformer [5]将CNN与Transformer结合,有效缓解了单一Transformer在局部信息提取上的不足。此外,国内学者也开展了大量基于多模态融合的研究[3] [6]-[8],通过分别提取图像与稀疏深度特征来提升深度补全性能。在空间传播网络(SPN [9])方向,Cheng等人先后提出CSPN [10]和CSPN++ [11],其中CSPN使用卷积运算实现高效传播,CSPN++则在此基础上引入预定义窗口实现自适应优化。Park等人提出的NLSPN [12]通过非局部邻域实现了灵活的深度传播;Wang等人提出的LRRU [13]采用可变形卷积实现亲和度矩阵的内核可变性。
然而,现有图像引导方法仍存在两个主要问题:其一,尽管高分辨率图像蕴含丰富的边界信息,但大多数方法依赖常规卷积提取其特征,导致图像中边界信息挖掘不足,同时对稀疏深度直接卷积容易因空值点传播产生噪声,影响初始深度估计质量;其二,多数方法仅通过通道拼接或逐元素求和等简单操作融合稀疏深度与图像信息,忽略了跨模态特征融合的动态性与有效性。
针对上述问题,本文提出了一种双分支多尺度网络(Dual-branch Multi-scale Network, DM-Net),整体由深度插值分支和深度更新分支构成。其中,深度插值分支采用引导双边插值对稀疏深度图进行填充,以获得初始的密集深度图,从而有效避免直接对稀疏数据进行卷积时因无效点传播带来的噪声干扰。引导双边插值首先利用引导滤波器提取图像中丰富的边缘与纹理信息,再结合原始图像与稀疏深度的特征,用以生成插值过程中的权重与偏置。具体而言,引导双边插值以稀疏深度图中有效深度点所对应的图像像素为导向,在目标像素的局部邻域内自适应地进行深度插值。这样一来,插值结果不仅考虑空间距离,还能依据图像边缘与深度差异进行动态调整。当像素处于物体边界或深度突变区域时,引导双边插值会自动抑制跨边界的深度传播,强化同一物体内部的结构相关性。得益于这一机制,引导双边插值在边界区域具有更强的结构保持能力,能够在稀疏区域恢复出更加连续和平滑的深度过渡。基于此,深度更新分支进一步引入CSPN++对初始插值结果进行迭代优化。由于引导双边插值已在前阶段生成了边界友好的初始稠密深度图,CSPN++在传播过程中能够更准确地利用邻域像素间的结构关系,从而实现细节的精细恢复与边缘的锐化。换言之,引导双边插值的边界一致性为后续深度传播提供了更加稳定且可靠的结构先验,显著提升了整体的深度补全质量。此外,针对稀疏深度图的离散特性,网络结合子流形稀疏卷积与空洞空间金字塔池化,以高效提取稀疏深度特征;在跨模态特征融合阶段,引入卷积块注意力模块,实现对彩色图像与稀疏深度特征权重的自适应调整,进一步提升融合特征的辨识能力与深度估计精度。本文的主要贡献如下:
提出一种双分支多尺度深度补全网络,通过引导双边插值生成初始稠密深度,并结合CSPN++迭代优化,兼顾边界恢复与全局一致性;
设计结合子流形稀疏卷积与空洞空间金字塔池化模块,将空洞空间金字塔池化模块中的普通卷积替换为相结合,有效增强稀疏深度的多尺度表征能力;
引入卷积块注意模块,在图像与深度特征融合过程中实现跨通道与空间的动态加权。
2. 双分支多尺度深度补全网络
双分支多尺度深度补全网络的整体结构如图1所示。首先,利用引导双边插值对稀疏深度图进行填充,生成初始稠密深度图(见第2.1节);其次,结合子流形稀疏卷积与空洞空间金字塔池化模块,用于提取稀疏深度的多尺度特征(见第2.2节);在跨模态特征融合阶段,引入卷积注意力模块,实现对彩色图像与稀疏深度特征的通道–空间自适应加权(见第2.3节);最后,在第2.4节中介绍了具体的实施细节。
2.1. 引导双边插值
设彩色图像记为I,通过标定参数将三维点投影到图像平面上所获得的稀疏深度图记为S。彩色图像I提供了丰富的场景上下文信息,具有清晰的边界与精确的语义;相比之下,深度图S虽然与彩色图I具有相同的分辨率,但其分布稀疏且离散,仅包含有限的深度点。但这些深度测量通常具有较高的准确性和确定的几何约束。因此为充分利用两者的互补特性,本文设计了引导双边插值模块,以插值生成初始稠密深度图D'。
如图2所示,引导双边插值方法首先通过Sobel算子提取图像的增强边缘特征,并与原始图像一同输入引导滤波器[14],得到强化边界特征的引导滤波图,随后,通过卷积得到边界特征
,用于强化邻域像素的边缘相关性,接着,将边缘特征与图像和稀疏深度信息融合后,进行加权插值得到目标深度
,其计算公式如下:
Figure 1. Structure diagram of the dual-branch multi-scale depth completion network (DM-Net)
图1. 双分支多尺度深度补全网络(DM-Net)结构图
(1)
其中,
表示目标像素i的初始稠密深度,
为目标像素i的邻近像素j的候选深度,由像素i邻域内N = 4个有效深度点的线性组合生成,其计算公式如式2所示:
(2)
其中
为邻近像素j所对应的深度值,
为线性组合的权重稀疏系数,
为偏移稀疏。其系数
与
由多层感知机(MLP)生成:
(3)
通过设定一个两层隐藏层的多层感知机(MLP)实现,MLP的输入包括目标像素i与源像素j的图像编码I,源像素j的深度编码S,以及像素i到j的空间偏移编码
,MLP在每层后使用GELU激活函数引入非线型性,输出对应系数
与
。
引导双边插值巧妙的将目标深度
转化为可学习的参数化表述,实现从稀疏深度到稠密深度的自适应估计。与传统插值方法不同,能够根据图像内容和空间位置动态生成目标深度,从而适应稀疏且不规则的深度分布。具体而言,多层感知机会根据目标像素与邻域像素的深度差异、图像特征以及空间偏移动态调整
与
,在深度差异较大时会自动抑制邻域深度的影响,从而直接回归更可靠的目标深度。同时,由引导滤波得到的边缘权重系数
又可进一步强化边缘特征,确保边界结构的一致性。这种机制使得在表达能力和鲁棒性上均优于传统插值方法。
通过上述机制,引导双边插值利用引导滤波提取边缘特征的同时,有效融合稀疏深度的空间信息与彩色图像的纹理信息,从而在保持边缘结构一致性的前提下,提高了全局初始稠密深度的精度。
Figure 2. Schematic diagram of the guided bilateral interpolation module
图2. 引导双边插值模块示意图
2.2. 子流形稀疏卷积与空洞空间金字塔池化
在KITTI-DC数据集中,将稀疏点云投影到对应的RGB图像后,约有3%的像素位置具备有效的深度信息[15]。若直接采用常规卷积对其进行特征提取,类似于对普通图像的处理方式,容易引入大量无效卷积操作,难以有效捕获深度补全任务中所需的关键深度特征。为克服传统卷积在处理稀疏深度图时的不足,本文将传统的普通卷积替换为子流形稀疏卷积[16],并构建了一种新的特征提取模块子流形稀疏卷积与空洞空间金字塔池化单元。该模块兼具子流形稀疏卷积在稀疏结构保持方面的优势与空洞空间金字塔池化单元的多尺度特征提取能力,可以高效地从稀疏数据中提取深层特征。
具体而言,针对输入深度图的稀疏与离散特性,模块采用更适合稀疏数据的子流形稀疏卷积替代传统卷积。该卷积机制通过限制输出点的激活范围,仅在有效深度点上执行卷积运算,从而准确定位有效点并避免冗余计算。在保证深度点空间特征完整性的同时,有效降低了计算复杂度[16]。此外,在网络的深层部分引入空洞卷积以扩展感受野(如图3所示),并通过设置膨胀率为2、4和8的子流形卷积来在不同尺度上捕获局部特征,同时减少模型参数量。随后,采用全局平均池化提取全局语义信息,最终通过跳跃连接将稀疏深度特征与Conv2D层进行融合,以防止信息丢失。
Figure 3. Schematic diagram of sparse convolution and atrous spatial pyramid pooling
图3. 稀疏卷积与空洞空间金字塔池化示意图
2.3. 卷积块注意力模块
在现有大多数图像引导的深度补全方法中,多数方法仅通过通道拼接或逐元素求和等简单操作融合稀疏深度与图像信息,这种融合方式不仅没有考虑到不同场景下不同模态特征的置信度,还难以充分利用有效深度点的信息,引入大量无效特征,从而降低深度预测的准确性。为解决这一问题,本研究在稀疏深度与图像特征融合阶段引入卷积块注意力模块,该模块通过自适应调整通道和空间权重,在有效深度点区域增强点云特征的重要性,同时在无效深度点区域提升图像特征的贡献,从而整体上提高深度补全的精度与鲁棒性。
具体而言,卷积块注意力模块由通道注意力和空间注意力两个顺序子模块串联构成[17] (如图4所示),通道注意力模块利用特征间的通道关系生成通道注意力图,为高效计算通道注意力,采用最大池化与平均池化操作对输入特征图的空间维度进行压缩。空间注意力模块则利用特征间的空间关系生成空间注意力图。与通道注意力不同,空间注意力更关注特征的“位置”信息,与通道注意力形成互补。二者结合后,能够根据像素点与深度点的综合信息动态调整各通道的重要性。在有效深度区域强化点云特征,在空缺区域增强图像引导,从而兼顾几何精度与纹理细节,该自适应重标定机制有效提升了模型在有限且关键的深度信息上的关注度,从而增强深度补全任务的预测性能。
Figure 4. Diagram of convolutional block attention module (CBAM)
图4. 卷积块注意力模块示意图(CBAM)
2.4. 实施细节
2.4.1. 损失函数
本次实验采用的是
组合计算损失[12],这种方式可以同时发挥
损失函数和
损失函数的优势,在深度补全网络模型训练时的快速收敛和取得优良性能之间取得了相当的平衡。真实深度为
,为了避免无效深度对损失的干扰,仅在有效像素处计算误差,定义掩码函数:
(4)
在每一层,计算预测与真值之间的L1与L2误差,并通过逐像素相乘
与掩码结合:
(5)
其中:
表示L1范数,对应MAE;
表示L2范数,对应RMSE;
为了强调深层预测结果的重要性,同时保证浅层预测的约束作用,我们为第i层引入衰减系数γ,本文实验中设置γ = 0.8,因此最后一层的权重最大,更加突出最终结果的优化。整体损失函数定义为:
(6)
其中:
2.4.2. 训练设置
本文基于PyTorch框架实现所提出的方法,并在配备2张Nvidia RTX 3090 GPU的工作站上进行训练。网络结构主要由残差块与稀疏卷积堆叠而成,并在残差块的跳跃连接前引入Dropout作为正则化手段,以增强模型训练的稳定性。优化器采用AdamW,权重衰减系数设为0.05,同时对梯度进行裁剪,当梯度的L2范数超过0.1时进行约束。模型输入为KITTI-DC训练集,从零初始化开始训练,总训练轮次(epoch)为40,学习率按照OneCycle策略调整,最终降低至最大学习率的25%,批量大小设为32,最大学习率为0.001。
3. 验证结果及分析
3.1. 验证数据集
为了全面验证所提方法的有效性,本实验选取了广泛应用于自动驾驶研究的KITTI-DC数据集[15],该数据集由车载平台在城市、乡村及高速公路等多样化场景下采集,包含真实的RGB图像、原始稀疏深度图以及对应的半密集深度图,图像分辨率为1216 × 352,每张图像最多包含约15辆车辆和30个行人,并具有不同程度的遮挡和截断情况。KITTI数据集共提供超过93,000组样本,按照训练集、验证集和测试集分别划分为86,000、7000和1000组,其中稀疏深度由Velodyne HDL-64E激光雷达采集,半密集深度图通过对原始数据进行半全局匹配(semi-global matching, SGM)纯化并聚合11帧连续数据生成,有效点约占30%,在保证真实感的同时兼顾了稀疏性与稠密性。
3.2. 评估指标
KITTI中关于深度补全数据集包含真值作为监督信息用于训练模型和评估,评价指标通常使用真实深度图GT中的有效深度值与预测深度图P中对应位置的深度值进行比较,根据不同的距离衡量标准,可以分为均方误差(RMSE)、平均绝对误差(MAE)、逆深度均方误差(iRMSE)和逆深度平均绝对误差(iMAE)四个指标,其中RMSE为主要的评估指标。
均方误差如式(7):
(7)
平均绝对误差如式(8):
(8)
逆深度均方误差如式(9):
(9)
逆深度平均绝对误差如式(10):
(10)
其中,其中V是GT中有效点的集合。
为真值中有效点的深度值,
即预测值中对应位置的深度值。
3.3. 验证结果分析
表1展示了本文方法与当前主流深度补全方法在KITTI-DC基准上的定量评估结果,所有方法均按照RMSE指标进行排名。由于从稀疏深度图和RGB图直接预测稠密深度图是一个高度病态的问题[13],类似与GuideNet [4]这种直接回归类方法往往模型参数规模庞大,推理时间较长,而其性能往往难以达到最优水平,为提升直接回归类方法的表现,研究者提出了一系列空间传播网络作为后处理模块对预测结果进行细化,例如CSPN [10]、CSPN++ [11]和NLSPN [12]。这些方法在一定程度上提升了结果精度,并逐渐成为深度补全的主流方向。然而,它们仍难以避免普通卷积在稀疏深度图中处理空值区域时产生的卷积噪声问题,同时对彩色图像边界信息的利用不足,导致物体边界的恢复效果有限。
Table 1. Comparative test results of various methods on the KITTI dataset
表1. 在KITTI数据集上各方法对比试验结果
Methods |
RMSE↓ [mm] |
MAE↓ [mm] |
iRMSE↓ [1/km] |
iMAE↓ [1/km] |
CSPN [10] |
1019.64 |
279.46 |
2.93 |
1.15 |
GuideNet [4] |
736.24 |
218.83 |
2.25 |
0.99 |
CSPN++ [11] |
743.69 |
209.28 |
2.07 |
0.9 |
NLSPN [12] |
741.68 |
199.59 |
1.99 |
0.84 |
CFormer [5] |
708.87 |
203.45 |
2.01 |
0.88 |
DM-Net |
698.26 |
195.54 |
1.97 |
0.82 |
注:最佳结果以黑色加粗标出。
相比之下,本文提出的双分支多尺度深度补全网络展现出更高的有效性。具体而言,该网络在KITTI-DC的所有评估指标(RMSE、MAE、iRMSE与iMAE)上均取得了优异表现。该性能提升的核心在于DM-Net的双分支协同设计,尤其是深度插值分支中引导双边插值模块的创新应用:通过强化图像的边界信息并结合稀疏深度特征以生成高质量初始稠密深度图,不仅为后续CSPN++的迭代优化提供了可靠先验,更从根本上规避了直接对稀疏深度图进行普通卷积所带来的无效点传播、噪声扩散及结构模糊等问题。同时,引导双边插值模块与CSPN++的协同机制有效提升了深度补全的细节恢复能力与边缘锐化效果,为稀疏深度补全任务提供了高效可行的解决方案。
图5展示了KITTI-DC验证集上的可视化结果对比。本文采用各主流方法作者提供的公开代码及其最佳模型进行复现,并保持输入稀疏深度一致。结果显示,本文方法在物体边界及细节区域的深度预测更为清晰,而其他方法在这些复杂区域仍存在明显不足,从而进一步验证了本方法在边界恢复上的有效性。
4. 结束语
本文针对自动驾驶场景中深度补全过程中因深度点稀疏导致空值区域易产生卷积噪声以及物体边界
Figure 5. Visualization comparison of KITTI-DC dataset test results
图5. KITTI-DC数据集测试结果可视化对比
恢复不足等问题,提出了一种双分支多尺度深度补全网络。该方法通过“插值 + 更新”的两阶段策略,在插值分支中结合引导双边插值、子流形稀疏卷积与空洞空间金字塔池化,实现初始稠密深度估计;同时引入通道–空间注意力机制,动态增强跨模态特征融合。在更新分支中,利用迭代传播机制进一步优化结果,从而在保持全局一致性的同时提升了局部细节恢复能力。最后,在KITTI数据集的实验结果表明,DM-Net相较于现有主流方法在RMSE、MAE、iRMSE和iMAE等指标上均取得了较好性能,显著优于CSPN、GuideNet、NLSPN等方法。