1. 引言
暗光目标检测在低光环境下应用受限,因为光照不足和边缘平台算力受限导致目标识别精度下降,影响实时性和鲁棒性。虽然图像增强算法可用于提升暗光检测性能,但现有方法如直方图均衡化存在局限,如局部失真、伪影生成、噪声放大和鲁棒性不足等问题,限制了其普适性和实际应用价值。
随着深度学习技术的发展,Lore等人[1]首次将自编码器引入低光图像增强网络,奠定了深度模型在低光增强任务中的理论基础。Feng等人[2]提出的MVP-Net基于RAW数据实现了出色的暗光图像复原,但RAW图像的高存储和处理成本限制了其在边缘设备和工业环境中的应用。
随后,基于卷积神经网络(CNN)的增强方法分为两类:第一类直接使用CNN学习低光到正常光图像的映射关系,但忽略了人类视觉系统的色彩特性,缺乏可解释性和稳健性,实际应用受限;第二类基于Retinex理论,采用分阶段训练框架[3]-[5],通过多路CNN进行图像分解、去噪和亮度校正,但训练过程复杂,时间开销大。
近年来,Transformer模型为上述问题提供了新思路。Cai等人[6]结合Retinex理论和Transformer提出了Retinexformer模型,其性能优于PE-YOLO [7]和SCINet [8],但侧重于视觉质量提升,与人眼关注点存在差异,且模型复杂度高、参数量大,对算力要求苛刻,在边缘计算平台等高实时性任务中存在延迟高、计算负担重的问题。
针对这些问题,本文提出了一种改进的端到端网络RPC-YOLO,针对边缘设备的实时性需求,对网络进行了轻量化、提高检测效率和适配机器视觉特性的改进。改进后的模型在mAP上提升了23%,参数量减少12万,真实场景检测速度FPS达到44.65,满足边缘设备的实时性需求。
a) 提出了一种轻量化且实时性强的RPC-YOLO网络模型,专门用于暗光环境下机械臂的抓取任务。
b) 将传统Retinexformer轻量化为RetinexIGTNet,用1 × 1卷积层替换全连接层,并与Yolov5n融合,构建单阶段端到端网络,既保留暗光增强特性,又解决了多阶段处理的高计算量和时间成本问题,适合在边缘计算平台上部署以满足实时任务需求。
c) 用多阶段、多样化的部分卷积C3_Fasterblock替换原模型中的C3残差卷积,通过在不同通道间选择性卷积并传递特征,同时在不同网络深度使用不同大小的卷积,减少计算冗余并提高模型效率。
d) 引入级联注意力机制(CGA),通过分组特征并利用多通道提取特征后进行融合,增强模型对目标区域的特征表达和关注,从而提高检测精度。
2. 相关概念
2.1. 边缘计算平台
边缘计算平台[9]是一种在靠近数据源或用户终端的网络边缘侧进行计算、存储和网络功能部署的架构。它打破了传统云计算中数据必须传输到遥远数据中心处理的模式,使数据在产生源头附近就能被及时处理。
尽管边缘计算平台的算力相对有限,难以应对大规模复杂任务,但其在实时目标检测等任务中应用广泛。例如,在无人机搜救场景中,通过部署小型、精准且实时性强的模型,可快速检测幸存者并发送位置信息;在工业自动化中,小型、精准的AI模型可快速处理传感器数据,实现高效抓取动作,保障生产流程顺畅。因此,边缘计算平台通过适配小而精的模型,仍能在特定场景中发挥重要作用。
2.2. 目标检测
目标检测技术从早期依赖手工特征(如HOG和SIFT)的传统方法发展到基于卷积神经网络(CNN)的模型,如R-CNN [10]、Fast R-CNN [11]和Faster R-CNN [12],检测精度和效率不断提升。近年来,单阶段检测器如YOLO系列和SSD [13]逐渐成为主流,特别是YOLOv5 [14]引入轻量化架构和多种新颖的训练策略,显著提升了检测速度和模型适应性。然而,在暗光环境下,大多数目标检测模型性能大幅下降,难以满足实际部署需求。为此,研究者提出了多种改进方法,如PE-YOLO通过物理先验与数据驱动结合提升暗光检测性能;SCINet通过光照增强模块与深层特征提取网络提升检测精度;IAT [15]采用Transformer结构与光照自适应模块保证模型稳健性;Retinexformer通过照明先验估计和损坏修复模块实现优异表现。但这些方法存在参数量大、实时性差等问题,限制了在边缘设备和实时任务中的应用。因此,本文提出了RPC-YOLO,针对这些问题进行了全面优化。
3. 本文方法
3.1. 联合暗光增强检测网络RPC-YOLO
在实际环境中,机械臂抓取常受暗光等复杂光照条件影响,导致物体特征识别出现偏差或失败。为此,本文提出了一种联合增强检测框架(RPC-YOLO),由改进的暗光增强模型RetinexIGTNet和基于YOLOv5n的检测模型组成。如图1所示,输入640 × 640的RGB图像后,先经RetinexIGTNet模块进行亮度调整、对比度增强和去噪处理,输出改善后的清晰图像供检测网络使用。随后,图像进入检测网络的Backbone和Neck层,引入部分卷积(PConv)和级联注意力机制(CGA),优化特征提取与融合。RetinexIGTNet提升了暗光图像质量,解决了原模块计算量大、推理慢的问题,RPC-YOLO实现了暗光增强与目标检测的高效协同,为复杂光照环境下的边缘设备任务提供了可靠解决方案。
Figure 1. The network architecture of RPC-YOLO
图1. RPC-YOLO网络结构图
3.2. 暗光增强模块RetinexIGTNet
RetinexIGTNet基于单阶段Retinex框架(ORF)。ORF由一个光照估计器和一个损坏修复器组成。RetinexIGTNet的特点在于设计了一个光照引导Transformer (IGT)作为损坏修复器的核心组件。IGT的基本单元是光照引导注意力块(IGAB),其中包含两层归一化(LN)、轻量化特征提取模块(IG-LFE)以及前馈网络(FFN)。整体结构如图2。
One-stage Retinex-based Framework根据Retinex原理,低光图像
可以分解为反射率图像
和照明映射
,表示为:
                                       (1)
其中
表示逐元素乘法。该Retinex模型假设I无损坏,但这与真实的欠曝光场景不一致。因为其一:暗光场景中的高ISO值(感光度的标准)和长曝光时间不可避免地引入噪声和伪影;其二:图像增强过程会放大这些噪声和伪影,同时可能导致欠曝光或过曝光以及颜色失真。为了更准确地描述这些损坏,通过为
和
分别引入扰动项,对公式(1)进行重新定义:
                      (2)
其中
和
分别表示反射和光照的扰动项。我们将
视为一副良好曝光的图像。为了增强
,通过逐元素乘法将方程(2)两侧与光照增强图
相乘,使得
,得到:
                         (3)
其中
表示隐藏在暗场景中的噪声和伪影,被
放大;而
表示增强过程中引起的欠曝光、过曝光和颜色失真。将
设置为三通道RGB张量而不是单通道,以提高其在RGB通道间非线性模拟方面的表现能力,从而增强颜色效果。最终通过公式(3)中的
完成对
的增强。
IGT:IGT采用三尺度U型结构作为损坏修复模块,其输入使增强后的图像
在下采样分支中图像先通过一个3 × 3卷积(conv3 × 3)、一个光照引导注意力块(IGAB)、一个步幅为4的卷积层(conv4 × 4)进
行特征降维,然后经过两个IGAB块,再通过一个步幅为4的卷积层生成层级特征
(i = 0, 1, 2)。在最低层特征
中,还会通过两个IGAB块进行深度特征提取。随后,上采样分支采用对称结构,将特征逐步放大,并使用步幅为2的反卷积(deconv2 × 2)进行上采样。跳跃连接(Skip Connection)用于缓解下采样时信息丢失。上采样分支最终输出一个残差图像
,然后与输入图像
相加,得到最终增强后的图像
。
IG-LFE:IG-LFE的工作流程如下:输入特征图按通道细分后,经过多层1 × 1卷积进行特征提取。第一层实现通道混合和初步特征提取,第二层增强非线性表达能力,第三层完成特征融合与调整,用于计算区域相似性和重要性。同时,光照特征图通过1 × 1卷积提取特征并与值特征结合,帮助模型识别光照不足区域并提升权重。最终,整合后的特征输出用于恢复图像,改善暗部细节,减少噪声和伪影。通过单独处理特征图区域,模型保留了空间结构信息,避免模糊或失真,保持图像自然感;光照特征则引导模型更准确地识别暗光环境下物体的形状和结构。改进后的模型在确保图像空间结构信息的同时,显著降低了计算量。
Figure 2. Network architecture of RetinexIGTNet
图2. RetinexIGTNet网络结构
3.3. 高效的轻量化卷积PConv
为了优化计算成本,我们利用特征图的冗余性,采用部分卷积(PConv)。如图3所示,PConv通过掩码机制仅在有效区域进行计算,并动态更新掩码,增强了处理不完整或遮挡数据的鲁棒性。它仅对部分输入通道进行卷积操作以提取空间特征,其余通道则不处理。为了实现连续内存访问,我们选择前几个或后几个连续通道作为特征图的代表进行计算。假设输入和输出特征图通道数相同,PConv的计算量(FLOPs)可表示为:
                                      (4)
其中
和
分别表示特征图在空间维度上的高度和宽度,
表示卷积核的大小,
表示用于计算的部分通道数。在常见的部分比率
下,PConv的计算量仅为常规卷积的
。此外,PConv的内存访问量更小:
                              (5)
PConv仅使用部分通道进行空间特征提取,但不能直接删除剩余通道,否则会退化为少通道的常规卷积,违背减少冗余的目标。因此,我们保留未处理的通道,因为它们在后续逐点卷积层中仍然有用。在Backbone层中,卷积和下采样操作使特征图尺寸变小、通道数增加;在Neck层中,上采样又使特征图放大、通道数减少。我们在代码中将PConv贯穿整个网络,根据特征图和通道数的变化动态调整,避免初始层中信息丢失,确保特征信息在所有通道间流动。
Figure 3. Structure diagram of PConv
图3. PConv结构图
3.4. 级联注意力机制CGA
级联注意力(CGA)是针对视觉Transformer中多头自注意力机制(MHSA)的优化方法。它受分组卷积启发,将特征分片输入不同的注意力头,显式分解计算到各个头部,解决了传统MHSA中头部冗余导致的计算效率低下问题。具体而言,每个头只处理输入特征的部分分片
,利用不同的投影矩阵
计算自注意力。最后,通过线性层
将所有头部输出的特征拼接,并映射回原输入的维度。具体结构如图4。
为了进一步增强模型容量,CGA在级联结构中计算注意力:后一层头部的输入会叠加上一层头部的输出,表示为:
                                (6)
其中
表示第i组数据的第j个输入分割,
表示第i组数据中第
个头部的输出,
表示二者相加。这使得后续头部在自注意力计算时能够基于前层的输出逐步细化特征。CGA在Q投影后增加token交互层,联合捕获局部和全局关系,增强特征表示能力。其优势包括:特征分片增加注意力头多样性,减少计算量和参数量;级联结构加深网络提升容量,但不增加额外参数且延迟少。总体而言,CGA通过特征分片和级联设计,提升了自注意力的效率和表达能力,减少计算开销的同时提升性能。
Figure 4. Network architecture of Cascaded Group Attention (CGA)
图4. Cascaded Group Attention (CGA)网络结构图
4. 实验与结果分析
4.1. 实验条件
实验在配备NVIDIA GeForce RTX 3050 GPU的Windows 11系统上进行,支持CUDA 12.5和Python 3.9。测试平台为NVIDIA Jetson Xavier NX边缘计算平台,搭配AUBOi5机械臂和ZED2i双目相机。为确保公平对比与全面评估,所有检测模型均进行两轮训练:第一轮独立训练,不使用预训练权重;第二轮迭代训练,基于第一轮的最佳权重进一步优化。RPC-YOLO训练中采用随机剪裁和随机翻转等数据增强策略,输入图像尺寸为640 × 640,batch size为5,初始学习率为0.01,训练300个epochs。
4.2. 实验数据集
实验使用了两个真实场景下的弱光图像检测数据集:公开的ExDark [16]数据集和私有的“桶”数据集。ExDark包含7363张低光照图像,涵盖从极弱光到普通弱光的10种光照条件,拍摄场景包括室内、室外、人像、建筑物和道路等。实验中,ExDark数据集的80%用于训练,20%用于测试。私有“桶”数据集包含1000张图像,其中20%为正常光照,30%为逆光,50%为暗光,同样按照8:2的比例划分训练集和测试集。通过这两个数据集,实验确保了结果的全面性和公平性,并验证了模型在复杂弱光环境中的鲁棒性和实际应用性能。
4.3. 对比实验
为了验证RPC-YOLO在暗光环境下实时目标检测的有效性和优越性,我们进行了对比实验,将其与KinD、SCINet、SNR-Net、RetinexNet等主流框架进行比较。这些框架均采用先增强再检测的方式处理暗光图像。实验结果如表1所示,RPC-YOLO在ExDark数据集的12个类别中,有6个类别的检测性能领先,平均mAP也高于其他模型,证明了其优越性。
表2和图5展示了我们模型在Params (参数量)、Flops (计算量)和mAP (检测精度)等指标上的综合性能表现。实验结果表明,我们的模型在保证精准度的同时,显著降低了模型大小和对设备算力的依赖。在公开数据集(A)和私有数据集(B)的对比实验中,各项指标最高的结果以红色标注,第二高的结果以蓝色标注。我们的模型在综合性能上表现出色。
Table 1. Performance of different network models on the ExDark dataset
表1. 不同网络模型再ExDark数据集上各类的性能表现
 
  
    | Methods | Bicycle | Boat | Bottle | Bus | Car | Cat | Chair | Cup | Dog | Motor | People | Table | Mean | 
  
    | KinD [5] | 72.2 | 66.5 | 58.9 | 83.7 | 74.5 | 55.4 | 61.7 | 61.3 | 63.8 | 63.0 | 70.5 | 47.8 | 65.0 | 
  
    | SCINet [8] | 74.6 | 65.3 | 65.8 | 85.4 | 76.3 | 59.4 | 57.1 | 60.5 | 65.6 | 63.9 | 69.1 | 45.9 | 65.6 | 
  
    | SNR-Net [17] | 75.3 | 64.4 | 63.6 | 85.3 | 77.5 | 59.1 | 54.1 | 59.6 | 66.3 | 65.2 | 69.1 | 44.6 | 65.3 | 
  
    | RetinexNet [18] | 73.8 | 62.8 | 64.8 | 84.9 | 80.8 | 53.4 | 57.2 | 68.3 | 61.5 | 51.3 | 65.9 | 43.1 | 64.0 | 
  
    | Retinexformer | 67.0 | 66.7 | 70.8 | 84.7 | 77.6 | 61.2 | 53.5 | 60.7 | 67.5 | 63.4 | 69.5 | 46.0 | 67.5 | 
  
    | RPC-YOLO | 79.0 | 66.5 | 73.8 | 85.0 | 81.2 | 60.5 | 61.1 | 68.5 | 67.4 | 66.0 | 70.9 | 44.9 | 68.7 | 
 
Table 2. Comparison of different models in params, flops, and average mAP
表2. 不同模型在参数量,浮点运算量,平均mAP的对比
 
  
    | Model | Params (M) | FLOPs (G) | mAP@0.5 (%) | 
  
    | A | B | 
  
    | IAT + YOLOV3 [15] | 3.03 | 22.6 | 0.672 | 0.969 | 
  
    | SCINet + YOLOV5 [8] | 4.76 | 5.3 | 0.65 | 0.971 | 
  
    | Retinexformer + YOLOV5 | 4.82 | 28.4 | 0.68 | 0.972 | 
  
    | RPC-YOLO (ours) | 2.64 | 23 | 0.69 | 0.988 | 
 针对于暗光环境下的实时目标检测任务,满足实时性是必要条件,更高的FPS表示模型能更快地检测和标注目标,本文提出的模型FPS达到35.79,完全满足实时性任务。
4.4. 可视化分析
Figure 5. Comparison of FPS values for different models
图5. 不同模型的FPS值对比
为了更好地表现我们模型的进步和优势,我们从暗图增强后的效果图、置信度、热力图三方面进行可视化分析。
图6展示了在极端黑暗条件下本文模型的调光效果。第一行图像呈现的是数据集中极暗的原始图像,而第二行则展示了经过我们算法处理后的图像结果。可以清晰地观察到,无论是图像的清晰度,还是被检测目标的类别和轮廓特征,都得到了显著的改善。
Figure 6. Demonstration of model performance on public datasets
图6. 模型在公开数据集上的效果展示
在机器视觉领域,人眼对图像的关注点受主观情感和经验影响,而计算机则基于算法和数学模型,客观分析图像的数值特征。为了展示计算机对改进图像的关注度,我们引入热力图(如图7),通过颜色明亮度直观呈现其对特定目标的关注程度,帮助优化算法并提升性能。
Figure 7. Heatmap visualization of different stages in the network
图7. 网络各阶段的热力图展示
改进后的RetinexIGTNet与YOLO结合虽能满足人眼视觉需求,但热力图显示计算机关注点仍较分散。引入C3FasterBlock和CGA注意力机制后,热力图高亮部分逐渐聚焦于目标,表明模型在提升图像可视性的同时,实现了计算机视角下的精准目标识别和定位,验证了其在不同层面上的优良性能。
如图8所示,RPC-YOLO模型在置信度方面表现优异,减少了误报,并能在复杂场景中全面检测多个目标,无论大尺度还是小尺度目标均能精准识别,确保检测结果可靠且全面。
Figure 8. Detection results of different models on public datasets
图8. 不同模型在公开数据集上的检测结果
在实际应用测试中,图9展示了将我们的网络模型部署在机械臂上后对目标(如“桶”)的检测和定位结果。原YOLO模型在暗光环境下存在误检测和漏检测问题,导致无法将目标坐标信息准确传递给下位机,进而影响机械臂的抓取动作。而经过我们设计的模型检测后,物体框的位置和置信度信息准确,未出现漏检和误检,符合实际需求,证明了模型在暗光环境下的有效性和可靠性。
Figure 9. Detection results of RPC-YOLO on the private dataset
图9. RPC-YOLO在私有数据集上的检测效果
5. 总结
本文提出了新型的暗光环境下用于边缘计算平台的目标检测网络RPC-YOLO,该模型结合了表现优异的暗光调节模块RetinexIGTNet与主流YOLO网络,并引入轻量化部分卷积和级联注意力机制。实验结果表明,该方法在参数量、FLOPS、mAP、FPS上均取得了显著提升,完全适用于边缘计算平台,此外,本方法在极暗、复杂背景及各类大小目标的情况下均表现出色,证明了其良好的适用性和鲁棒性。