1. 引言
面向自动驾驶的感知系统中,如何在车载算力受限条件下实现成本低、实时性高的三维环境理解,是车辆安全行驶的关键问题之一。对于远处的行人和小型车辆等小尺度目标,由于在图像中仅占据极少像素且深度与纹理信息不足,传统纯视觉三维检测在定位精度和召回率上都会明显下降,进而影响后续的跟踪稳定性。因此,面向小目标进行专门优化的三维检测与跟踪技术,正逐渐成为视觉感知研究的重要方向。
现有双目三维检测多采用伪LiDAR思路,如Pseudo-LiDAR++ [1]先由双目图像估计深度,再转换为点云并交由点云检测器处理。ZoomNet [2]、DSGN [3]、OC Stereo [4]等则依赖额外的点云或深度图监督。此类方法虽能取得较高精度,但点云生成和三维卷积会带来大量的计算与存储开销,在远距离小目标场景下的深度恢复能力也有限。针对小目标本身,已有工作从数据增强、超分辨率、上下文建模、多尺度特征以及锚框和注意力设计等角度提升检测性能,但普遍存在对小目标提升有限或计算成本显著增加等问题。
近年来兴起的空间剪枝为轻量级视觉模型提供了新的思路。典型方法通过注意力掩码裁剪冗余token,或利用背景体素稀疏性在点云与BEV特征上跳过无关区域[5] [6]。DSP则专门面向点云小尺度目标三维检测,在无目标体素位置省略上采样操作以进一步降低开销[7]。这类方法在空间维度上有选择地计算特征,从而兼顾精度与效率,但大多聚焦于点云或Transformer结构,尚未充分挖掘双目图像浅层特征对小目标三维检测及跟踪的潜力。
基于上述分析,本文在双目视觉框架下提出面向小目标的动态特征剪枝与DFC注意力联合建模方法,构建端到端的三维检测与多目标跟踪一体化网络。我们在主干网络多尺度图像特征上引入动态特征剪枝策略,重点保留疑似小目标区域并抑制与任务无关的大目标及背景,实现对小目标浅层语义的高效提取。在左右视图融合阶段加入硬件友好的DFC注意力模块,以较低成本构建高质量视差代价体并增强长距离依赖建模。在此基础上,检测分支直接回归小目标三维框的尺度、位置、类别与朝向,同时设计轻量级三维多目标跟踪分支,在时间维度上对检测结果进行关联与轨迹更新。实验结果表明,该框架在小尺度目标的三维检测精度、推理速度以及连续跟踪稳定性方面均优于现有代表性方法。
2. 方法
2.1. 整体框架
整体网络框架如图1所示,可概括为检测分支与跟踪分支两个阶段。首先,将双目图像输入同一ResNet [8]主干网络,在不同层级提取多尺度语义与空间特征。随后,左右视图在各个尺度上分别送入多尺度立体融合模块,完成立体匹配与特征交互,每一层融合单元内部都嵌入DFC-Ghost模块,以较低计算成本生成更加丰富的立体表征并增强长距离像素依赖。与此同时,来自左视图主干网络的多层特征被送入DFP模块,对与小目标相关的区域进行选择性放大、抑制冗余背景,得到小目标增强特征,再与左视图最高层特征进行拼接整合。之后,我们将左右视图融合得到的立体特征与增强后的左视图特征联合输入检测头,对三维边界框的类别、位置、尺寸以及朝向进行预测,得到稳定的三维检测结果。
在此基础上,利用检测结果构建时序输入,引入AB3DMOT [9]作为统一的三维多目标跟踪基线,对连续帧中的候选目标进行数据关联与运动状态更新,形成了基于双目的小目标三维检测和统一多目标跟踪的一体化框架。一方面,DFC-Ghost模块提升了立体几何信息的表达能力,为后端跟踪提供更加准确的三维位置与尺度估计。另一方面,DFP模块显式强化Hard难度下小目标的特征响应,使得在同一AB3DMOT基线上,我们的检测–跟踪组合在轨迹连续性与实时性上均优于以PointRCNN [10]等方法为前端的方案,这一点在第3节的实验对比中得到进一步验证。
Figure 1. Overall network framework
图1. 网络总体框架
2.2. DFC-Ghost模块
在立体匹配中,传统做法常用特征拼接(Concatenation)构建代价体,右视图特征在通道维与左视图特征直接叠加,在每个视差位置将两者连接。若双目特征图尺寸为
,通过拼接得到的cost volume形状为
。通道数随之翻倍,会显著增加后续三维卷积的计算量,使立体匹配难以满足实时要求。为提高效率,本文采用基于相关性的代价体构造方式,通过归一化点积计算左右特征在不同视差下的相似度,得到的cost volume维度为
,在保证匹配精度的前提下有效降低了计算开销。然而,此时三维特征通道数较少,再加上下采样操作带来的细节损失,立体信息不足,整体表示易偏向左视图,使三维框的预测精度受到限制。
为缓解上述问题,我们在代价体构造后引入DFC-Ghost模块,对特征进行增强并实现多尺度融合。Ghost模块的核心思想是常规卷积产生的特征图中存在较多冗余分量,这些冗余对精度有益,但完全依赖标准卷积会带来过高的FLOPs。因而先通过少量“核心特征”再用廉价线性变换生成冗余ghost特征,从而以更低成本获得近似等价的表示[11]。设输入特征为
,其中
为通道数,
为空间尺寸。标准卷积产生
个输出通道,可写为
(1)
其中
表示卷积,
为卷积核,
为偏置项,输出
。其计算量约为
。在Ghost结构中,先用一组较小的卷积核获取
个核心特征
:
(2)
其中
。接着,对每个核心特征图
应用若干个线性算子
,生成一组ghost特征
,并将所有核心特征及其ghost特征拼接,得到总通道数
的输出
。由于线性变换参数量远小于常规卷积,从而在接近的表达能力下显著降低了FLOPs。
但核心特征
仍然由局部卷积产生,只能感知有限的感受野。为引入全局依赖,我们在Ghost结构中融入DFC注意力。设某一层特征
,可视作
个token组成的集合
。若直接用全连接层在二维平面上建模注意力,其复杂度约为
,对实时推理不利。DFC将二维全连接拆分为水平方向与垂直方向两个分支,分别学习对应方向上的长程依赖:
(3)
其中
,
分别表示只在横向或纵向进行的线性变换,得到的注意力图再组合用于调制特征。这样计算复杂度可降为
,在保持较强建模能力的同时兼顾了速度。
综合上述思想,DFC-Ghost模块构造为一个倒残差瓶颈结构,如图2所示,内部包含两个Ghost分支。第一个用于通道扩展,生成更丰富的中间表示。第二个在融合DFC注意力后进行通道压缩得到输出特征。具体实现中,输入特征分别进入Ghost分支和DFC分支,一条路径产生候选特征,另一条输出注意力图,两者做逐元素乘积后再次送入Ghost模块细化,最终与初始输入进行拼接,形成增强后的输出。
从复杂度与效果的角度看,DFC-Ghost模块在相关性cost volume的基础上仅引入了少量线性变换与解耦全连接操作,相比直接叠加更深、更宽的三维卷积网络,其参数量和FLOPs增幅有限。在引入DFC-Ghost后,整体推理时间仍维持在0.08 s/帧量级,却在Easy、Moderate与Hard三个难度上均带来了稳定的3D AP提升。这说明该模块在精度和速度权衡上是增益显著、代价可控的,既弥补了相关性cost volume通道不足及下采样带来的信息损失,又没有破坏系统的实时性,为后续小目标三维检测与多目标跟踪奠定了可靠的立体特征基础。
Figure 2. DFC-Ghost module structure
图2. DFC-Ghost模块结构
2.3. DPF模块
在整体网络设计中,DFP模块只作用于左视图的高层特征,而不直接处理右视图的深层特征。原因在于,右图与左图之间天然存在视差偏移,只有经过多尺度立体融合模块后得到的双目联合特征,才能在同一坐标系中与左图的语义空间精确对齐。如果将尚未对齐的右视图高层特征直接拼接或叠加到检测分支,极易引入额外噪声,削弱三维框回归与分类的稳定性。同时,若将左右视图的深层特征全部与立体融合特征一起连接,通道维度会急剧膨胀,既显著提高计算量和显存开销,也会使输出特征在通道分布上过度偏向原始RGB纹理,从而压制对精细视差信息和立体结构的建模能力。
为提升左图中小目标的表达效果,本文设计了动态特征剪枝模块DFP,其结构如图3所示。该模块通过可学习的剪枝比例
以及概率排序相结合的掩码机制,在特征图上自动选出响应度较高、潜在包含小目标的位置;同时,将低分辨率特征中携带的全局上下文信息反向投影到高分辨率尺度,在高分辨率空间内补充小目标的语义线索,缓解多次下采样带来的信息缺失。大面积与任务无关的区域则被显式剔除,仅在关键位置(疑似小目标处)保留特征,实现对小目标表示的强化与整体计算开销的压缩。
Figure 3. DFP module structure
图3. DFP模块结构
DFP的输入由三个尺度的特征图
组成。对于每个尺度
,引入一个可学习标量,并通过sigmoid函数映射得到保留比例,再据此计算需要保留的元素个数:
(4)
其中
,
分别表示第
层特征
的高和宽。由于
是动态学习得到的,网络在训练过程中可以自适应调节不同尺度的保留密度。对于小目标分布更密集的高分辨率层,模块会倾向于学习更大的保留比例,以避免对细粒度结构过度剪枝;而在低分辨率层中,则可适当减小
,从而减少冗余计算。
当特征
进入DFP模块后,首先通过
卷积进行初始打分,生成第
层的特征评分图:
(5)
其中
为非线性激活函数。经过这一步,高响应区域更集中于小目标或其他关键结构。当
时,还会进行跨尺度信息交互。将更低分辨率层中已被剪枝的特征上采样到与当前尺度一致,经
卷积投影后得到跨尺度特征,再与
融合,形成融合得分图
。这种跨尺度投影能够把低分辨率的全局语义补充到高分辨率局部响应中,使小目标的显著性更加清晰。对每个融合得分
,我们先将其展平成一维向量,对低响应值进行score threshold,抑制明显噪声,随后施加带温度参数的softmax:
(6)
其中
为温度系数,用于控制分布的平滑程度。接下来,利用Top-P掩码
保留累积概率不超过
的位置,同时通过Top-K掩码
强制选出前
个最高响应点。二者合并后再重塑回原始空间尺寸,得到最终的二值掩码
,并用于特征筛选:
(7)
其中
表示逐元素乘积操作。该混合策略一方面保证最显著的
个关键位置(通常对应小目标或其边缘区域)不会被误删,另一方面又能在剩余区域按概率质量适度保留部分上下文,为目标与背景的区分提供辅助信息。最后,对于
的各尺度输出
,我们按从高分辨率到低分辨率的顺序依次进行下采样与拼接,将多尺度的小目标增强特征在通道维度上融合,得到最终的增强特征,并送入后续的三维检测与跟踪分支。这使得网络在保持整体效率的同时,显著提升了对远距离和小尺度目标的三维感知能力。
需要强调的是,DFP模块与KITTI数据集中Hard难度样本的特性高度契合。此类样本往往目标尺寸较小、遮挡严重、截断率高,若采用均匀计算策略,模型容易被大面积背景与近处大目标影响。通过动态剪枝与跨尺度投影,DFP在空间维度上形成了高分辨率细粒度加上低分辨率全局语义的互补结构,使网络在有限计算预算下,将更多算力集中到疑似小目标区域。第3节的对比结果表明,Hard难度下的AP提升幅度显著高于Easy、Moderate场景,印证了DFP对小目标检测的针对性贡献,也为后续在时序维度上保持小目标轨迹稳定提供了更强的单帧特征基础。
3. 实验验证
3.1. 基准数据集
在实验中,模型的检测部分基于KITTI Object Detection Benchmark [12]进行训练与评估。该数据集为车载场景构建,提供同步采集的RGB图像、激光雷达点云、三维标注真值以及传感器标定文件等多模态信息,能够较为完整地刻画道路环境中的三维结构。官方标注的语义类别包含‘Car’、‘Van’、‘Truck’、‘Pedestrian’、‘Person_sitting’、‘Cyclist’、‘Tram’、‘Misc’和‘DontCare’等多种交通参与者及忽略区域。参考baseline model中的设置,本文仅选取“汽车(Car)”和“行人(Pedestrian)”两个类别参与训练和测试。KITTI三维目标检测基准中共提供7481帧用于训练,7518帧作为测试。按照Chen等人[13]的划分方案,本文将7481帧训练数据进一步分为3712帧训练子集与3769帧验证子集,便于与已有方法进行公平对比。
为了验证所提出检测–跟踪一体化框架在时序场景中的有效性,本文在完成三维检测网络训练后,又引入KITTI Multi-object Tracking Benchmark对多目标跟踪分支进行评估。与检测基准类似,跟踪数据集同样由车载传感器采集的连续帧图像构成,并提供逐帧的二维/三维边界框标注以及跨帧的一致目标 ID,可同时服务于检测质量与轨迹连贯性的联合分析。在跟踪实验中,我们保持与检测部分一致的类别选择,主要关注行人和车辆在连续帧中的三维位置与身份保持性能。通过在KITTI检测和跟踪两个数据集上的联合实验,我们能够系统性地评估所提方法在单帧三维几何预测与跨帧时序关联两方面的性能表现。
3.2. 小目标检测实验
在检测实验部分,本文主要侧重分析在不同难度划分下的检测表现与小目标感知能力。评价指标采用官方3D AP (Average Precision)度量,在Cars类别上使用IoU = 0.7阈值,在Pedestrian类别上采用IoU = 0.5阈值。KITTI官方根据目标高度、遮挡程度和截断比例将样本划分为Easy、Moderate和Hard三个等级,其中Hard更倾向于尺寸较小且被严重遮挡或部分截断的样本,因此在本文中可视作小目标场景的代表,用于验证网络对于小目标的检测性能。
首先从车辆检测的结果来看,如表1所示,在仅使用双目图像输入的前提下,我们将所提网络与StereoRCNN [14]、YOLOStereo3D [15]等代表性方法进行对比。相较YOLOStereo3D,所提网络在Car类别的Easy、Moderate、Hard三个难度下3D AP分别提升约+2.36%、+0.55%和+0.54%,说明DFP与DFC-Ghost的结合能够在不牺牲速度的前提下,进一步提升双目三维几何回归的精度。同时与一系列依赖点云数据或预训练视差估计模块的方案Pseudo-LiDAR、OC Stereo、ZoomNet、Disp R-CNN、Pseudo-LiDAR++、DSGN相比,我们在Hard难度上取得相近甚至更优的AP,同时推理时间控制在约0.08 s/帧,远低于部分基于点云方法0.3~0.6 s/帧的水平,体现出明显的实时性优势。
在行人检测任务上,我们在同一验证集划分下对Pedestrian类别进行了进一步评估,如表2所示。实验结果表明,所提网络在Easy、Moderate与Hard三个难度上均超过对比方法,尤其是Hard场景中提升更为突出。相较YOLOStereo3D,三种难度下的3D AP分别提升约+2.08%、+0.96%和+1.79%。这说明DFP模块有效缓解了小尺度行人特征易被下采样和背景淹没的问题,而DFC-Ghost生成的多尺度立体特征也为行人三维框的稳定回归提供了更充足的深度信息。综合车辆和行人两个类别的结果可以看出,本方法在整体精度、对小目标的敏感度以及实时性之间取得了较为理想的平衡,为自动驾驶场景中的高效三维检测与后续三维跟踪提供了可靠基础。
Table 1. Comparison of 3D target detection results for car categories by different methods
表1. 不同方法的车辆类别3D目标检测结果对比
方法 |
Easy |
Moderate |
Hard |
Time |
基于点云 |
|
Pseudo-LiDAR |
61.90 |
45.30 |
39.00 |
0.40 s |
OC Stereo |
64.07 |
48.34 |
40.39 |
0.35 s |
ZoomNet |
62.96 |
50.47 |
43.63 |
0.35 s |
Disp R-CNN |
64.29 |
47.73 |
40.11 |
0.42 s |
续表
Pseudo-LiDAR++ |
63.20 |
46.80 |
39.80 |
0.40 s |
DSGN |
72.31 |
54.27 |
47.71 |
0.67 s |
基于双目视觉 |
|
StereoRCNN |
54.11 |
36.69 |
31.07 |
0.30 s |
YOLOStereo3D |
70.06 |
46.58 |
35.53 |
0.08 s |
Ours |
72.42 |
47.13 |
36.07 |
0.08 s |
Table 2. Comparison of 3D target detection results for pedestrian categories by different methods
表2. 不同方法的行人类别3D目标检测结果对比
方法 |
Easy |
Moderate |
Hard |
Time |
基于点云 |
|
Pseudo-LiDAR |
33.80 |
27.40 |
24.00 |
0.40 s |
OC Stereo |
34.80 |
29.05 |
28.06 |
0.35 s |
基于双目视觉 |
|
YOLOStereo3D |
37.46 |
29.04 |
23.25 |
0.08 s |
Ours |
39.54 |
30.00 |
25.04 |
0.08 s |
3.3. 多目标跟踪实验
在多目标跟踪实验中,本文沿用检测部分对小目标的定义,将满足KITTI数据集中Hard难度条件的车辆和行人统一视作小目标场景。在相同的AB3DMOT跟踪基线上,我们分别采用PointRCNN与本文提出的双目检测网络作为前端,保持跟踪参数与评价流程一致,以突出前端三维检测质量对整体跟踪表现的影响,可视化结果如图4所示。
Figure 4. Visual comparison of multi-object tracking results
图4. 多目标跟踪结果可视化对比
从可视化对比可以观察到,在远距离或被部分遮挡的小目标上,基于PointRCNN的方案更容易出现轨迹片段化、ID频繁切换以及三维边界框抖动等问题。而采用本文检测结果作为输入时,Hard难度下的车辆与行人轨迹显著更为连贯,三维框在深度方向和横向位置上与真实轨迹贴合度更高,尤其在车流密集或行人聚集的复杂场景中,小目标的跟踪稳定性提升更为明显。此外,在维持更高跟踪精度和轨迹连贯性的同时,整体推理速度也由基于PointRCNN的约207 FPS提升至约270 FPS,证明所提出的小目标三维检测与跟踪框架在同一跟踪基线下实现了精度提升和速度加速的双重收益,进一步印证了方法设计的合理性。
4. 总结
本文围绕自动驾驶场景下远距行人和小型车辆等小目标难以稳定感知的问题,构建了一个面向双目视觉的三维检测与多目标跟踪一体化框架。方法在左视图主干特征上引入动态特征剪枝策略,显式突出小尺度区域并压缩冗余背景。在立体匹配阶段通过相关性构造代价体,并结合DFC-Ghost结构高效生成多尺度立体特征,在较低计算开销下增强长距离像素关联与深度表征。基于该检测网络,进一步接入AB3DMOT三维多目标跟踪模块,对时序帧中的车辆与行人轨迹进行关联与更新。实验结果表明,所提方法在KITTI检测基准上相较现有双目与点云方法,在小目标上取得了更优的3D AP与更好的实时性平衡。在同一跟踪基线上,相比以PointRCNN为前端的方案,小目标轨迹更加连续、定位更加精确,整体速度由约207 FPS提升至约270 FPS。
未来工作中,我们计划从以下几个方向进一步扩展和完善本文方法:第一,将框架迁移到nuScenes、Waymo Open Dataset等包含更多传感器形态与复杂交通参与者类型的大规模数据集上,系统评估在多天气、多光照和多场景条件下的泛化能力;第二,探索与BEV表示、Transformer结构等新型三维感知架构的结合方式,使DFP与DFC-Ghost可以模块化集成到更多前端检测器中;第三,在检测与跟踪联合优化方面,引入端到端训练策略或联合损失设计,增强时空一致性建模,从而进一步提升在密集车流、夜间驾驶、恶劣天气等极端场景下的小目标稳健感知能力。这些方向有望推动本文方法从研究原型走向更大规模、更加复杂的实际自动驾驶应用场景。