1. 引言
针对车辆与行人等交通参与者的目标检测算法广泛应用于自动驾驶、智能交通系统中,对提升交通安全具有重要意义[1]。然而,在夜间道路环境及光照不足条件下的交通场景中,由于照明不足和光照条件复杂,采集图像往往存在亮度低、对比度差等问题,使得现有目标检测算法面临诸多挑战,从而凸显了低光照条件下目标检测研究的重要性。
目前,以Faster R-CNN [2]、YOLO [3]系列为代表的基于深度学习的目标检测算法已成为主流研究方向。针对低光照图像检测,现有研究主要有两种优化思路:一类是直接改进检测模型架构。李俊林等人[4]将YOLO11骨干网络替换为EfficientNetV2,并提出频域感知模块以更好提取轮廓和暗部细节。张卓等人[5]提出LL-YOLO,通过动态卷积优化主干网络、重校准特征金字塔和轻量化共享检测头设计提高对煤矿下低光环境下人员的检测能力。此类方法的优势在于不依赖额外的图像增强网络。然而,这类方法只能改善特征提取能力的一部分,无法根本解决夜间图像本身亮度低、噪声多、对比度差导致的输入信息不足问题。另一类是融合图像增强与检测模型。PE-YOLO [6]通过金字塔增强网络与YOLOv3结合提升暗光目标检测性能;王宏伟等人[7]使用去噪扩散概率模型(DDPM)增强图像,并将低频滤波模块引入YOLOv8以提高检测精度;孔烜等人[8]将ZeroDCE [9]网络作为预处理,结合YOLOv7的注意力特征融合,解决低光照环境下车辆多尺度检测问题。此外,RetinexFormer [10]引入Transformer的全局建模能力用以增强图像质量,许广平等人[11]研究表明这种方法能够显著改善夜间图像质量,但计算开销显著增加。
尽管以上方法在不同场景已取得一定效果,但针对道路场景的车辆行人检测,仍面临三方面挑战:(1) 复杂光照条件下特征提取能力不足;(2) 样本不平衡导致检测性能下降:(3) 检测性能与模型计算复杂度的矛盾。
针对上述挑战,本文提出一种融合图像增强与轻量化检测的低光照目标检测方法。首先,采用HVI-CIDNet [12]对低光照图像进行增强;其次,以YOLO11 [13]轻量化模型YOLO11n为基础框架,设计全局边缘信息传输模块(Global Edge Information Transfer, GEIT)实现浅层边缘特征提取及与骨干网络的特征融合;最后,精简检测头结构并引入部分卷积(Partial Convolution, PConv) [14]与EMASlideLoss损失函数缓解样本不平衡问题。实验表明,本文方法在基于BDD100K [15]构建的夜间车辆行人检测数据集中实现了检测精度与推理效率的良好平衡。
2. 方法
2.1. HVI-CIDNet图像增强算法
常规图像增强算法通常在RGB或HSV色彩空间中对图像进行直接增强,然而在低光照条件下,这类方法容易在暗区域引发颜色失真或产生黑色伪影,进而影响后续目标检测任务的精度。为缓解上述问题,我们引入了Yan等人[12]提出的HVI-CIDNet模型,并将其作为低光照目标检测的前端增强模块。HVI-CIDNet主要由三个部分组成:水平/垂直–强度(Horizontal/Vertical-Intensity, HVI)色彩空间变换模块、颜色和强度解耦网络(Color and Intensity Decoupling Network, CIDNet)以及感知逆HVI变换模块(PHVIT, Perceptual-inverse HVI Transformation),其整体结构图见图1。
首先,将输入的RGB图像通过HVI色彩空间变换模块,得到包含颜色与结构信息的HV Color Map以及表征亮度信息的强度图Intensity Map。随后,HV Color Map与强度图Intensity Map分别经过一个3 × 3卷积层进行特征提取,并映射至统一的特征空间。在此基础上,增强网络采用双分支结构,分别对HV分支中的颜色与结构信息以及I分支中的亮度信息进行去噪与亮度映射。同时,在两个分支之间引入轻量级交叉注意力模块(Lightweight Cross Attention, LCA),以实现跨分支的信息交互与协同优化,从而在提升亮度的同时有效抑制噪声并保持颜色一致性。在特征增强阶段完成后,将HVI变换得到的原始HV与增强特征在通道维度上进行拼接,并与增强后的特征结果进行残差融合,以进一步稳定增强过程并避免过增强现象。最后,利用PHVIT模块将增强后的HVI图映射回RGB空间,得到最终的增强图像。
Figure 1. HVI-CIDNet low-light image enhancement network
图1. HVI-CIDNet低光照图像增强网络
2.2. 改进YOLO11算法
YOLO11 [13]是Ultralytics团队开发的YOLO系列实时目标检测器,其主要架构包括骨干网络、颈部网络和检测头。YOLO11包含多种模型尺寸,本文在计算量与效率之间权衡,选取以YOLO11n为基础模型。为缓解低光照环境下车辆与行人检测面临的问题,在其骨干网络引入全局边缘信息传输机制(Global Edge Information Transfer, GEIT)并对检测头做出改进。改进的YOLO11算法结构如图2所示:
Figure 2. Improved YOLO11 overall architecture diagram
图2. 改进YOLO11整体架构图
2.2.1. 全局边缘信息传递模块
针对夜间或低光照场景中目标尺寸小、纹理信息弱、对比度低且背景干扰显著等检测难点,现有主流YOLO系列目标检测算法缺少主动提取边缘信息的模块,受到Da等人[16]的启发,我们在YOLO11骨干网络中引入了全局边缘信息传递模块(Global Edge Information Transfer, GEIT)和边缘信息融合模块(Edge Information Fusion, EIF),结构如图3所示。
GEIT模块从浅层特征中提取清晰且结构性较强的边缘信息,并以多尺度形式传递至骨干网络不同阶段,实现跨尺度特征补强,从而增强模型对目标边界和细节结构的感知能力。需要指出的是,本研究并未直接从原始图像中提取边缘信息,而是作用于骨干网络浅层特征图,其原因在于浅层特征能减少计算量并能够有效过滤原始图像中的噪声干扰,同时保留丰富的边缘与纹理信息。GEIT采用Sobel卷积算子对浅层特征图进行边缘梯度计算,具体计算过程如公式(1)、(2)所示,通过水平与垂直方向梯度响应的融合得到边缘特征图;随后对边缘特征图进行三次最大池化以保留区域最强特征并构造逐级降采样的多尺度边缘特征序列,并使用1 × 1卷积对各尺度特征执行通道对齐,便于后续融合操作。
(1)
(2)
构建的多尺度边缘特征序列分别与骨干网络上第2到4个C3K2模块的输出通过EIF模块实现融合,输出的结果分别作为骨干网络P3、P4、P5层输出。EIF模块首先在通道维度拼接来自各尺度的边缘特征,再通过1 × 1卷积实现边缘信息与原始骨干特征跨通道信息融合,随后采用3 × 3卷积增强局部空间细节提取能力,最终利用1 × 1卷积调整输出维度。通过上述过程,浅层边缘信息得以以多尺度方式注入骨干网络,从而提升模型对目标轮廓、边界与形状结构的捕获能力。
Figure 3. Global edge information transfer module and edge information fusion module
图3. 全局边缘信息传递模块与边缘信息融合模块
2.2.2. 检测头改进
在低光照环境下的车辆与行人检测任务中,算法不仅需要具备较高的检测精度,还需满足实时性要求。前文引入的边缘信息传递模块虽将目标轮廓信息融入骨干网络,但增加了额外的计算开销,从而对实时推理性能产生一定影响。此外,行人及两轮车等弱势交通参与者通常具有目标尺度小、样本数量有限、类别分布不均衡等特点,使得网络在训练阶段容易出现收敛困难及对困难样本学习不足的问题。为在保证检测精度的同时提升推理效率,并缓解样本不均衡导致的训练不稳定问题,本文受部分卷积(Partial Convolution, PConv) [14]与SlideLoss [17]的思想启发对检测头网络做出改进。
原始YOLO11检测头与本文改进的检测头结构图见图4。YOLO11的检测头采用解耦设计,分类与回归分支各包含独立的特征预处理模块,存在重复的特征提取操作。本文对检测头进行轻量化重构:多尺度特征首先依次通过PConv与标准卷积进行特征提取,PConv其只对部分通道执行卷积操作,减少计算冗余,随后将共享特征分别送入分类与回归分支。
在分类损失方面,本文将原始的二元交叉熵损失(Binary Cross-Entropy Loss, BCE)更换为基于SlideLoss改进的EMASlideLoss。SlideLoss以预测框与真实框的交并比(Intersection over Union, IoU)作为样本难度指标,为困难样本赋予更高权重:
(3)
为预测框与真实框的交并比,
为所有预测框与真实框之间交并比,困难样本权重更高。然后引入指数移动平均(EMA, Exponential Moving Average),它可以平滑损失值的趋势,最终使其更加关注困难目标的检测,从而增强对行人等弱势交通参与者的检测能力。
Figure 4. Structure diagram of YOLO11 detector head and improved YOLO11 detector head
图4. YOLO11检测头与改进YOLO11检测头结构图
3. 实验与分析
3.1. 数据集与图像处理
BDD100K (Berkeley DeepDrive 100K) [15]是目前自动驾驶领域最具代表性的公开数据集之一。为评估所提出方法在低光照条件下的目标检测性能,根据本文研究内容,选取其夜间条件下获取的共5954张图像作为实验数据,主要包括城市街道和高速路等交通场景,按照8:1:1的比例划分。将标注类别合并为汽车、行人、两轮车三类,这三类目标是夜间道路场景的主要交通参与者,但由于类别分布不均衡,汽车类别数量高于行人与两轮车。
Figure 5. Before and after low-light image enhancement using HVI-CIDNet
图5. 低光照图像使用HVI-CIDNet增强前后对比
本文使用HVI-CIDNet低光照图像增强算法对原始夜间图像进行预处理。图像增强前后的视觉效果对比如图5所示,可以观察到增强后图像在亮度、对比度以及目标轮廓清晰度方面均得到明显改善,能够为后续目标检测任务提供更多信息。
3.2. 实验环境与评价指标
本文所有实验均在Windows 10操作系统环境下完成,硬件平台配置为Intel (R) Core (TM) i9-10900K处理器,NVIDIA GeForce RTX 3090 Ti图形处理器。软件环境方面,采用Python 3.10编程语言,并基于PyTorch 2.2深度学习框架实现。
在模型训练阶段,设置训练轮数(Epoch)为300,批量大小(Batch Size)为32,优化器选用随机梯度下降(SGD)。输入图像的宽度统一调整为640,高度根据原始图像比例进行自适应缩放,并通过填充方式生成640 × 640的标准输入尺寸。同时,在训练的最后50个Epoch中关闭Mosaic数据增强,以提升模型在后期训练阶段的收敛稳定性。
使用的评价指标如下:(1) 平均精度均值(mean Average Precision, mAP):平均精度均值是目标检测任务中最常用的综合评价指标。本文采用mAP50作为主要评价指标,代表在IoU阈值为0.5时的平均精度均值,以评估模型在低光照复杂场景下的综合检测效果。(2) 精确率(Precision, P):预测为正样本的检测结果中真实为正样本的比例。该指标能够反映模型在低光照条件下对背景噪声和伪目标的抑制能力,精确率越高,说明模型误检率越低。(3) 召回率(Recall, R):真实目标中被模型成功检测出的比例。在低光照环境下,由于目标边缘模糊、对比度较低,行人与车辆易发生漏检,因此召回率能够有效评估模型对弱显著目标的感知能力。(4) 模型参数量(Parameters, Params):模型参数量用于衡量网络模型的规模大小,参数量越小,模型在存储开销与部署成本方面越具优势,更适合在车载设备或边缘计算平台等资源受限环境中应用。(5) 计算复杂度(Giga Floating Point Operations, GFLOPs):用于衡量模型在一次前向推理过程中所需的计算量。GFLOPs越低表明模型具有更高的推理效率,有利于满足低光照交通场景下对实时性的需求。
3.3. 改进YOLO11网络消融实验分析
为验证本文提出的两项改进策略对YOLO11模型性能的影响,本文在相同训练配置与数据集条件下开展消融实验,分别比较基准模型、仅进行骨干网络改进、仅进行检测头改进以及同时引入两项改进后的检测性能,实验结果如表1所示。
Table 1. Results of ablation experiments with different improvements
表1. 不同改进的消融实验结果
序号 |
骨干网络改进 |
检测头改进 |
P/% |
R/% |
mAP50/% |
Params/M |
GFLOPs/G |
1 |
× |
× |
57.01 |
45.72 |
48.95 |
2.58 |
6.3 |
2 |
√ |
× |
63.37 |
45.78 |
50.33 |
2.94 |
7.6 |
3 |
× |
√ |
61.01 |
45.30 |
48.61 |
2.32 |
5.0 |
4 |
√ |
√ |
63.15 |
46.39 |
50.45 |
2.68 |
6.3 |
从表1可以看出,仅在骨干网络中引入全局边缘信息传递模块后,模型精确率由57.01%提升至63.37%,mAP50提升至50.33%,说明浅层边缘信息的多尺度注入能够增强模型在低光照环境下对目标轮廓与结构特征的感知能力,从而有效降低误检率。然而,该改进在参数量与计算复杂度上有所增加,且召回率提升幅度相对有限,表明该模块对减少漏检的贡献仍存在一定局限。实验3仅对检测头进行改进,模型整体检测精度与基准模型基本持平,但参数量降低至2.32M,计算复杂度下降至5.0 GFLOPs,说明基于PConv的检测头重构能够在较低计算成本下维持稳定的检测性能,在提升推理效率方面具有明显优势。
实验4同时引入骨干网络改进与检测头改进后,模型在夜间检测任务中取得了更为均衡的性能表现。其精确率达到63.15%,召回率提升至46.39%,mAP50达到50.45%,均优于基准模型。与此同时,模型参数量与计算复杂度与原YOLO11n基本保持一致。上述结果表明,骨干网络中引入的边缘信息增强模块与改进检测头在低光照复杂成像条件下具有良好的互补性,能够在不显著增加计算开销的前提下提升整体检测性能。
图6展示了骨干网络改进前后部分特征图的可视化结果。其中,上排为改进前的特征图,下排为引入边缘信息融合后的特征图。从特征图中可以看出,改进后的网络对图像边缘的提取更加清晰,表明其对边缘信息的表征能力得到增强;此外,从最左侧一列可知改进后检测置信度更高,检测框位置更精准。
Figure 6. Comparison of backbone network feature map visualization before and after improvement
图6. 改进前后骨干网络部分特征图可视化对比结果
3.4. 改进YOLO11网络对比实验分析
为全面评估本文方法在低光照夜间车辆与行人检测任务中的综合性能,选取YOLOv5n、YOLOv8n、YOLO11n等多种主流轻量级目标检测算法进行对比实验。同时设置输入图像未经过HVI-CIDNet图像增强处理的YOLO11n w/o HVI-CIDNet用于分析图像增强模块的独立作用。为保证对比的公平性,除算法4外,其余模型均在相同的增强后夜间数据集上进行训练与测试。实验结果如表2所示。
Table 2. Comparison of experimental results of different lightweight algorithms
表2. 不同轻量级算法对比实验结果
序号 |
算法名称 |
P/% |
R/% |
mAP50/% |
Params/M |
GFLOPs/G |
1 |
YOLOv5n |
57.46 |
44.48 |
47.93 |
2.18 |
5.8 |
2 |
YOLOv8n |
57.99 |
45.55 |
48.96 |
2.68 |
6.8 |
3 |
YOLO11n |
57.01 |
45.72 |
48.95 |
2.58 |
6.3 |
4 |
YOLO11n w/o HVI-CIDNet |
60.26 |
43.36 |
47.62 |
2.58 |
6.3 |
5 |
Ours |
63.15 |
46.39 |
50.45 |
2.68 |
6.3 |
从表2可以看出,YOLOv5n具有最小的参数量和计算复杂度,但其mAP50仅为47.93%,在低光照夜间场景下对车辆与行人的检测性能较弱。YOLOv8n的mAP50提升至48.96%,召回率达到45.55%,但计算复杂度增加至6.8 GFLOPs。YOLO11n在保持2.58M参数量的同时,将计算复杂度控制在6.3GFLOPs,其mAP50达到48.95%,在检测精度与计算开销之间取得了更好的平衡,因此被选为本文的基础模型。
通过对比YOLO11n与YOLO11n w/o HVI-CIDNet可以发现,输入图像缺乏图像增强处理会导致召回率和mAP50明显下降,说明在夜间低光照场景中,图像增强能够有效改善输入质量,从而提升检测模型的整体性能。综合来看,本文提出的方法在所选轻量级检测算法中取得了最高的mAP50,较YOLO11n提高1.50个百分点,较输入图像为未经过图像增强的YOLO11n w/o HVI-CIDNet相比提高2.83个百分点,同时计算复杂度与YOLO11n相近,验证了所提出方法在检测精度与计算效率之间的综合优势。
3.5. 检测结果可视化分析
为更加直观地评估模型在真实夜间道路场景中的检测效果,本文选取多个具有代表性的低照度场景进行检测结果可视化对比,如图7所示。图中A列为真实标注,B列为YOLO11n原版模型的检测结果,C列为引入图像增强策略后的改进YOLO11模型检测结果。
场景1 (A1/B1/C1)受雨雾、路面反光及远处车灯眩光影响,整体可见度较低,由B1可见YOLO11虽能检测到部分车辆,但检测框数量明显少于真实标注,尤其对右侧近处阴影区域内的车辆出现漏检;而C1中改进模型能够成功检测到该阴影车辆,表明所提方法在低能见度条件下提升了对低光照环境弱特征目标的识别能力。场景2 (A2/B2/C2)为城市道路密集车辆场景,由于车辆密集、遮挡严重且夜间光照昏暗,原版模型在B2中对被遮挡且处于阴影区域的车辆存在漏检;而C2中经过图像增强后输入亮度得到提升,改进模型能够检测到原本漏检的被遮挡白车,说明增强策略有助于提高模型在复杂背景及遮挡情况下的检测精度。对于场景3 (A3/B3/C3)的含行人目标场景,行人通常尺度较小且光照不足,属于典型弱特征目标,B3中原版YOLO11虽然能够检测到部分车辆,但对右侧行人发生漏检,同时被遮挡车辆的检测置信度较低;而C3中改进模型不仅实现了对行人的有效识别,还提升了遮挡车辆的检测置信度,进一步表明图像增强能够提高模型在夜间复杂场景下对行人等难检测类别以及车辆目标的检测能力与稳定性。
Figure 7. Visualization of detection results
图7. 检测结果可视化
4. 结论
本文针对低光照场景中目标检测面临的图像质量退化、对边缘信息直接提取不足、样本不平衡等问题,提出了一种基于图像增强的改进YOLO11夜间目标检测方法。该方法通过在检测前引入HVI-CIDNet低光照图像增强算法,有效改善了夜间图像的亮度分布与细节可见性,为后续目标检测提供了更具判别力的输入。在目标检测阶段,本文以YOLO11n为基础框架,在骨干网络中引入全局边缘信息传输模块,通过Sobel卷积提取浅层网络中的边缘信息,并以多尺度形式将其注入骨干网络,从而增强模型对目标轮廓、边界及结构特征的感知能力。此外,通过对检测头结构进行轻量化重构,引入部分卷积以降低计算冗余,并结合EMASlideLoss损失函数缓解低光照场景下样本分布不均衡带来的训练不稳定问题,在保证检测精度的同时提升了模型的推理效率。通过消融实验也验证了各模块的有效性与互补性。对比实验结果显示,在与所选的几种主流轻量级检测模型相比的情况下,本文方法在保持较低计算开销的同时取得了更优的综合检测性能。相对于没有使用HVI-CIDNet增强的YOLO11模型,本文提出的改进模型精确率、召回率、mAP50分别提高2.89%、3.03%、2.83%。对于使用引入HVI-CIDNet增强但未进行结构改进的YOLO11精确率和召回率均有提升,mAP50提高1.5%,且改进YOLO11的参数量与计算量与原YOLO11算法基本保持一致。表明所提出的方法在夜间场景下在检测精度与计算复杂度之间取得了良好的平衡。
尽管本文方法在夜间目标检测任务中取得了较好的性能,但仍存在一定局限性。本文所提出方法主要针对夜间交通场景图像进行验证,其在其他复杂低光照成像条件下的泛化性有待进一步研究。未来工作将围绕增强与检测的一体化设计,以及多场景、多光照条件下的鲁棒性提升展开,以进一步增强方法的实际应用价值。
NOTES
*通讯作者。