1. 引言
针对以M8螺丝、M6螺母为代表的工业常用紧固件的视觉抓取任务在智能制造领域具有重要意义,广泛应用于汽车装配[1]、航空航天[2]与重型机械制造[3]等工业场景。在这些应用场景中,视觉环境光照条件常常变化,特别是在大量堆叠的紧固件检测任务中,目标彼此遮挡、类内差异小以及实时性要求高等因素常,带来多重挑战,导致抓取任务失败。传统的视觉检测方法多依赖于边缘特征提取和模板匹配,但在堆叠遮挡和复杂光照变化下,特征区分能力有限,无法保证检测精度。文献[4]提出基于注意力机制的多尺度检测网络,通过引入通道–空间双重注意力模块,显著提升遮挡目标的识别能力。但该网络计算时间复杂度较高,单帧推理耗时3.8秒,无法满足工业生产线视频帧实时检测需求;文献[5]则创新性地融合Transformer与卷积架构,构建了FastenerFormer模型,在复杂工业场景中达到92.5%的检测精度。但该模型在非常规光照条件下的紧固件检测任务中性能不稳定,在过曝光场景下的误检率超过15%;文献[6]提出改进YOLOv8的工业紧固件检测算法,通过引入可变形卷积和自适应特征融合策略,有效提升堆叠场景中遮挡目标的检测精度。但在高度重叠情况下仍存在约18%的漏检率。
特征金字塔网络在堆叠目标检测任务中通常起到多尺度特征融合的作用;文献[7]提出动态特征金字塔DFPN,通过权重学习机制自适应融合多尺度特征,在复杂工业检测场景有一定性能提升。但是DFPN没有处理不同层次特征间的语义差异,直接融合会导致特征冲突,在一些紧固件数据集上的检测精度低;文献[8]提出基于注意力引导的特征融合AGFF,其能够根据特征重要性动态调整融合权重,相比常规FPN提升特征融合效果。然而AGFF模块因其复杂的注意力计算,导致推理速度下降20%,因此难以满足工业实时检测需求。
随着对比学习技术的发展,文献[9]提出轻量级特征提取网络LightNet,通过深度可分离卷积和通道 shuffle操作实现高效特征提取。LightNet参数量仅为ResNet-50的1/8,推理速度提升5倍,成为工业检测部署的参考架构。然而,LightNet模型在高度遮挡场景下的鲁棒性不足,对堆叠目标的区分度不够,造成检测性能下降。
针对堆叠目标检测难题,文献[10]设计解耦检测头网络DDH-Net,通过分类与回归任务分离和特征细化机制,将紧固件堆叠场景中的召回率提升至75.6%,但模型对光照变化的适应性仍有待提高。
尽管已有大量研究致力于提升工业场景背景下的目标检测任务的精度,但现有方法在堆叠目标检测特殊环境下表现依旧存在不足。针对以上问题,本文提出了一种基于YOLOv10n的改进算法YOLOv10n-WGM。该算法引入了加权梯度调制机制(WGM)和内容感知的空间通道注意力模块,在不影响模型轻量化的基础上,提升了堆叠紧固件环境的检测精度和召回率,显著增强了模型算法的鲁棒性。该算法为工业堆叠紧固件视觉检测提供了一种高效、可靠的解决方案。
2. YOLOv10n算法改进
2.1. YOLOv10简述与改进算法
YOLOv10是由清华大学研究团队于2024年5月发布的端到端目标检测算法[11],在检测精度、推理速度与计算效率方面较上一代均有显著提升。该模型引入跨阶段局部网络(CSPNet)并结合自适应通道分配机制,依据目标图像特征优化分支通道数以减少计算冗余;同时借助跨层特征跳跃连接与模型剪枝策略,将参数量压缩至YOLOv9的78%。YOLOv10根据目标设备性能考量划分为多个版本,其中YOLOv10n为轻量化版本,通过网络剪枝、降低参数量和计算复杂度,从而减小模型体积并提升推理速度。在NVIDIA T4 TensorRT平台测试中,YOLOv10n实现了1.56 ms/帧的推理速度,较YOLOv8n与YOLOv9n提升近7倍,尤其适用于资源受限环境下的实时检测任务。
尽管YOLOv10已具备优良性能,但在堆叠环境下的紧固件目标检测任务中,其检测精度与速度仍面临挑战。为此,本文以YOLOv10n为基准模型,提出一种适用于紧固件堆叠场景的改进模型YOLOv10n-WGM (结构如图1所示),旨在进一步提升模型的检测能力。
Figure 1. YOLOv10n-WGM model architecture
图1. YOLOv10n-WGM模型结构图
2.2. LEGM局部特征嵌入全局特征提取模块
本文实验所用数据集由于包含大量强光、阴影以及明暗交替等多种极端光照条件下的样本,即所谓高动态范围(HDR)图像,面临局部过曝或欠曝等干扰因素导致的细节丢失、伪影以及目标特征难以捕捉的问题。传统卷积网络(如ResNet、DarkNet)对于HDR图像的极端光照处理能力不足。而专门的HDR重建网络(如HDRNet、HDRfeat)存在预处理流程,不适用于实时目标检测。此外基于注意力机制的特征提取模块(如SENet、CBAM)未能考虑HDR图像的动态范围问题带来额外的计算复杂度。本文针对以上问题引入了一种称为局部增强与全局调制网络(LEGM) [12]的结构。该网络的整体架构如图2所示。
Figure 2. Schematic diagram of LEGM principle
图2. LEGM原理示意图
LEGM的核心由两个分支组成:1) 局部增强分支(Local Enhancement Branch, LEB):该分支专注于弥补HDR图像中因极端光照干扰而缺失的局部细节。它采用可学习的局部特征提取模块,结合可变形卷积(Deformable Convolution)和局部注意力机制,自适应聚焦于潜在目标区域,增强微小目标和遮挡目标的边缘及纹理特征表示;2) 全局调制分支(Global Modulation Branch, GMB):该分支捕捉图像的全局上下文信息,并调节特征表示以适应HDR场景中的广泛动态范围。它利用全局平均池化和频域变换(如傅里叶变换)提取全局特征,并融合了门控机制与局部特征,从而增强模型对复杂光照条件的鲁棒性。
LEGM特征图输入大小为C × H × W (其中C为通道维度,H和W分别为空间高度和宽度),首先在局部增强分支中进行细节恢复,输出增强后的特征;同时在全局调制分支中提取全局上下文信息。两个分支的特征通过自适应融合模块进行整合,最终输出优化后的特征图。
不同于以往模型依赖多曝光序列或复杂HDR重建,LEGM直接处理单张HDR图像(或SDR转HDR后的图像),在单一网络中通过双分支结构实现局部细节恢复和全局上下文调制,不需要额外的预处理步骤或复杂的合成操作,显著降低计算开销。此外,LEGM仅使用普通卷积和常见注意力机制,不依赖额外的CUDA算子,在各种深度学习框架(如PyTorch)中都能实现和部署,尤其适用于计算资源受限的移动端或嵌入式设备等边缘设备上的实时HDR图像目标检测任务。
2.3. CGA Fusion内容引导的注意力融合模块
在复杂工业场景的目标检测任务中,模型需要准确识别被遮挡或隐藏等因素干扰的多尺度目标。传统方法在处理此类场景时表现不佳:固定尺寸的卷积核难以自适应地聚焦于不同尺度目标的关键特征区域,直接扩大感受野又会带来计算复杂度急剧上升的问题。在目标密集堆叠的情况下,相邻目标的特征提取可能导致特征混淆和识别精度下降。零部件(如螺栓、螺母)往往以高密度方式堆积,存在严重的相互遮挡和部分可见情况。传统的卷积操作采用统一的处理方式,无法根据目标的空间分布和语义重要性进行差异化特征提取。特征金字塔网络(FPN, Feature Pyramid Network)采用垂直路径和横向连接的方式融合多尺度特征,但在密集遮挡下效果有限。路径聚合网络(PANet, Path Aggregation Network)在原有FPN的基础上将单向的垂直路径改为双向,进一步增强了特征融合,但仍未能实现内容自适应,缺少对特征语义重要性的考虑。
CGA Fusion (Content-Guided Attention Fusion) [13]创新性地提出了一种基于内容感知的特征优化机制,其核心在于通过一个轻量的子网络,动态生成与输入特征内容相关的空间与通道注意力权重,从而实现对关键特征的自适应增强与对背景干扰的有效抑制。该模块的整体架构如图3所示。
Figure 3. Schematic diagram of CGA Fusion principle
图3. CGA Fusion原理示意图
其核心运算过程可由以下公式组定义:
(1)
(2)
(3)
(4)
(5)
公式1中:
为给定输入特征图,公式(2)和公式(3)通过两个独立的1x1卷积层生成键(Key)和查询(Query)特征图。随后,公式(4)通过计算查询和键的相似性矩阵来获取全局上下文信息,生成初始的空间注意力蓝图
,其中Softmax沿矩阵行方向进行归一化,Reshape操作将特征图的空间维度展平。同时,公式(5)利用全局平均池化(GAP)捕获通道级统计信息,并通过包含全连接层和激活函数的门控机制生成通道注意力权重。最终的空间注意力权重图由初始蓝图
经过一个卷积层细化后,与通道权重
进行元素相乘,实现空间与通道的协同调制。
2.4. Wise-IoU损失函数
YOLOv10n中的回归损失函数CIoU考虑了边界框的中心距离、宽高比及交并比,在单个目标以及尺度较为统一的目标检测任务中性能稳定,但面对目标堆叠、遮挡、及类别不平衡等问题时漏检率高,效果大打折扣。CIoU中的宽高比惩罚项未能考虑数据集的样本质量问题,因此一些低质量样本可能影响优化方向。EIoU直接最小化宽高差,收敛速度和定位精度超过了CIoU,但其仍未完全解决低质量样本的梯度分配问题。Alpha-IoU尝试通过调整超参数来改变损失函数的形状,但对于不同数据集都需要进行反复调整,未能从根本上解决此类问题。
为解决以上问题,本文提出采用Wise-IoU (WIoU) [14]损失函数,WIoU从评估样本质量的角度看待样本宽高比不一致和梯度消失的问题。在WIoU中离群度(Outlierness)代表样本的质量等级,例如将扁平锚框等有着奇怪宽高比的样本视为高离群度样本,适当增加该类样本的梯度。而对于低离群度,也就是宽高比较为正常的样本则适当减少梯度。此设计不仅避免设置专门的宽高比惩罚项,而且保证梯度始终稳定有效。通过引入离群度聚焦机制,显著提升模型在堆叠场景下的检测性能。其通过评估边界框的质量来自适应调整梯度增益,使模型更加关注难以学习的样本(如严重遮挡的螺丝螺母),同时减少对简单样本的过度关注。Wise-IoU的计算公式如下:
(6)
(7)
(8)
公式(7)中
、
为预测框中心坐标,
、
为真实框坐标。
、
为最小外接矩形的宽和高,该公式通过区分预测框质量来为不同预测框分配不同权重。公式(8)中
和
分别表示预测框和真实框的区域,
计算基础的IoU损失项,
越趋近于0,代表预测框和真实框的重合程度越高,定位越精准。最后在公式(6)中为不同预测框的易学习程度进行动态加权并得到最终损失。
与传统的CIoU损失相比,WIoU损失在保持大尺寸零件检测性能的同时,显著提升了小尺寸螺母和部分遮挡螺丝的定位准确性。其动态调节机制特别适用于工业场景中常见的零件堆叠、相互遮挡等复杂情况,在提高检测精度的同时保持了模型的收敛稳定性,为紧固件的自动化检测提供了有效的解决方案。
3. 实验设计与结果分析
3.1. 数据集构建
实验基于Unity3D仿真引擎搭建了数据采集平台,以该平台为基础构建了面向紧固件检测的自制数据集。该平台模拟多种表面纹理(如布料、石料),并实时调节方向光源的位置与旋转,生成多张目标处于光照或阴影环境下的图像;光强参数随时间变化波动,以模拟强光与弱光等不同照明条件下的视觉干扰。实验以M6螺母和M8螺丝两类常见紧固件作为检测目标,每种型号分别提供黑色与银色两种外观。利用该平台,采集了M6和M8紧固件的单独图像(包含黑、银两种外观)各200张,此外还生成了200张包含多个螺母与螺丝混合堆叠场景的图像。图像生成过程中,目标在平台上方随机位置生成后,开启物理引擎模拟自由重力与碰撞,确保每次采集的图像在布局和遮挡状态上都具有差异性。最终共获得600张图像,将400张单独目标图像作为训练集,200张混合堆叠图像作为验证集。此划分策略旨在通过验证集专门评估不同模型在复杂堆叠场景中的目标识别与抗遮挡性能。数据集部分图像如图4所示。
3.2. 实验环境与评估指标
3.2.1. 实验环境
操作系统为Ubuntu 20.04 LTS,配备16 GB内存和RTX 3060 (12 GB显存)。深度学习框架为Pytorch 2.6.0,通过CUDA 12.6进行GPU加速。训练参数包含训练轮数400、图像长放缩到640,宽自动补全,输入尺寸为640 × 640、Batch Size 15、初始学习率0.01、动量大小0.937和权重衰减系数0.0005。
Figure 4. Schematic diagram of the self-created dataset
图4. 自制数据集示意图
3.2.2. 评估指标
为了评估模型的整体性能,本实验使用的评估指标为平均精度均值(mAP)、精度(Precision P)召回率(Recall R)、浮点运算数(Floating-point Operations Per Second)、模型大小和参数量。mAP计算公式为
(9)
公式(9)中,mAP反映了模型在所有类别中的检测精度和召回率之间的平衡(单位:%),mAP@0.5是指当IoU为0.5时的mAP值;
为第c类别的平均精度;n为类别总数。
3.3. 实验结果分析
3.3.1. 消融实验分析
为了进一步分析验证每一个改进对航拍图像检测性能的有效性,本文以YOLOv10n为基准模型进行一系列消融实验,实验结果如表1所示。
Table 1. Ablation experiment results
表1. 消融实验结果
基准模型 |
WIoU |
LEGM |
CGA Fusion |
mAP@0.5/% |
P/% |
R/% |
大小/MB |
Layer
/层数 |
参数量/MB |
浮点运算/GFlops |
YOLOv10n |
|
|
|
61.75 |
79.34 |
49.36 |
5.50 |
102 |
2.265 |
6.5 |
√ |
|
|
61.38 |
77.9 |
49.4 |
5.5 |
102 |
2.265 |
6.5 |
√ |
√ |
|
60.95 |
76.11 |
51.6 |
5.57 |
125 |
2.292 |
6.6 |
√ |
|
√ |
67.838 |
80.52 |
55.25 |
5.81 |
129 |
2.418 |
6.8 |
√ |
√ |
√ |
65.34 |
81.68 |
53.66 |
6.04 |
139 |
2.539 |
6.9 |
根据表1结果可知:首先,单独引入WIoU损失函数时,模型参数量和计算量保持不变,但mAP@0.5有略微下降,这表明直接替换损失函数未能带来性能增益,结合WIoU函数特点分析,数据集此时被判定为高质量样本即简单样本占比可能更多,由于损失函数特性反而削弱了重要学习信号,因此得出其需要与其他模块协同工作的结论;其次,当同时采用WIoU和LEGM模块时,mAP@0.5下降至60.95%,但召回率提升了2.24%,同时模型复杂度和计算开销仅有小幅增加,证明LEGM模块在不影响参数轻量化的同时增强了对困难样本的检测能力,LEGM作为特征提取模块为样本带来了更丰富、复杂的特征表示,弥补了原来的简单样本缺陷,这使得WIoU重新评估样本的质量等级;再次,当结合WIoU与CGA Fusion模块时,mAP@0.5显著提升6.088%,精确度和召回率分别提高1.18%和5.89%,以少量增加模型大小和计算量为代价,带来显著性能大幅度提升,表明CGA Fusion模块通过增强特征融合能力能极大克服堆叠目标样本带来的特征混淆问题,也进一步优化WIoU对于样本的权重分配策略,改善了模型性能;最后,当同时集成所有三个改进模块时,mAP@0.5达到65.34%,较基准提升3.59%,精确度和召回率分别提高2.34%和4.3%,而模型复杂度和计算开销控制在合理范围内。
上述消融实验表明,本文提出的各改进模块对紧固件堆叠目标检测各有独特贡献:WIoU损失函数为模型优化提供更好的回归准则;LEGM模块以较低的计算代价提升了对困难样本的敏感性;CGA Fusion模块通过高效的特征融合显著提升了检测精度。LEGM模块与CGA Fusion模块通过各自的特征增强策略加强了对原有样本的特征表示能力,避免WIoU损失函数过早丢失部分优质样本,对数据集的兼容性更好。三个模块在保持模型轻量化的同时,有效提升了模型的检测性能。
3.3.2. 对比实验分析
为验证本文提出改进算法的有效性,将本文算法与其他该领域的常见算法进行比对分析,结果如表2所示。
Table 2. Comparative experimental results of various detection models
表2. 各种检测模型对比实验结果
方法 |
mAP@0.5/% |
P% |
R% |
大小/MB |
参数量/MB |
浮点运算/GFlops |
YOLOv5n |
70.99 |
82.28 |
59.38 |
5.08 |
2.50 |
7.1 |
YOLOv6n |
70.56 |
77.28 |
60.96 |
8.30 |
4.233 |
11.7 |
YOLOv8n |
71.19 |
82.65 |
58.89 |
5.96 |
3.006 |
8.1 |
YOLOv8n_ghost |
57.91 |
74.11 |
53.17 |
3.59 |
1.714 |
5.0 |
YOLOv9t |
60.54 |
77.75 |
51.32 |
4.44 |
1.971 |
7.6 |
YOLOv10n |
61.75 |
79.34 |
49.36 |
5.50 |
2.266 |
6.5 |
YOLOv10n-WGM |
65.34 |
81.68 |
53.66 |
6.04 |
2.539 |
6.9 |
表2结果可知:YOLOv10n-WGM在mAP@0.5即综合性能上比YOLOv10n、YOLOv9t、YOLOv8-ghost等模型分别高出3.59%、4.8%、7.43%,排在对比模型中前列;YOLOv10n-WGM的精度P则比YOLOv6n、YOLOv8n-ghost、YOLOv9t、YOLOv10n等模型分别高出4.4%、7.57%、3.93%、2.34%。YOLOv10n-WGM在综合性能虽稍逊于YOLOv5n、YOLOv6n、YOLOv8n等模型,但其浮点运算量比这三种模型更低,模型参数量则比YOLOv6n、YOLOv8n更低,在边缘计算设备上更具优势。
3.3.3. 可视化对比分析
为验证本文算法(YOLOv10n-WGM)在实际背景中的性能,与基准模型YOLOv10n进行了可视化对比。实验选取了四组代表图像,涵盖明暗背景和直射光场景,每组包含YOLOv10n和YOLOv10n-WGM的预测结果,对比结果如图5所示。
Figure 5. Detection performance comparison between YOLOv10n-WGM and YOLOv10n
图5. YOLOv10n-WGM和YOLOv10n在4种不同场景中检测效果对比图
在一、三、四组图像对比中,无论是强烈明暗对比还是直射光下,YOLOv10n-WGM均能识别出图像中心被螺丝部分遮挡的白色M6螺母,有效减少漏检,尤其在目标与背景相似或纹理复杂时表现更佳,证明其在处理光照变化和背景干扰方面具有优势;在第二组图像对比中,面对右上角强烈直射光导致的过曝或左侧阴影过深部分,YOLOv10n-WGM能够识别到左侧的M8螺丝目标以及右上角的M6螺母识别置信度更高,依然保持高识别准确率;在三、四组图像对比中,右下角的M6螺母目标均被YOLOv10n误识别为Bolts,而反观YOLOv10n-WGM则能正确识别,有效减少误检,从而提升模型精度,凸显其在应对复杂光照环境方面的优越性;综合对比表明,本文算法YOLOv10n-WGM在明暗背景和直射光等复杂环境下,均显著优于基准模型YOLOv10n,提供了更准确、全面的目标识别结果,验证了其在实际应用中的有效性和鲁棒性。
此外,为了更直观地看到本文算法和基准模型的评估指标变化情况,图6~8依次展示了算法精度、召回率、mAP@0.5等模型收敛对比图,可以看到模型在400个epoch时趋近收敛。图9展示了模型收敛后的精度、召回率、mAP@0.5等数据的柱状对比图,可以看到本文算法模型精度、召回率、mAP@0.5均高于基准模型,验证本文的YOLOv10n-WGM具有明显的优势。
Figure 6. Comparison of accuracy metrics
图6. 精度指标对比图
Figure 7. Recall metric comparison
图7. 召回率指标对比图
Figure 8. Comparison of mAP@0.5
图8. mAP@0.5指标对比图
Figure 9. Bar chart comparison of accuracy, recall and mAP@0.5
图9. 精度、召回率、mAP@0.5柱状对比图
4. 结语
本文针对工业紧固件检测中的挑战,提出了一种改进的YOLOv10n-WGM检测算法。该算法在YOLOv10n基础上,通过引入Wise-IoU损失函数优化低质量样本处理,C2fCIB-LEGM结构增强局部特征与全局依赖建模,以及CGAFusion模块提升跨层级特征融合效率和抑制背景干扰。实验结果表明,YOLOv10n-WGM在自制数据集上,mAP50、mAP50:95、精确度与召回率均有显著提升,漏检率降低。该算法在复杂工业环境下展现出良好的检测精度与鲁棒性,为紧固件实时检测提供了高效可靠的解决方案。未来工作将继续优化模型推理速度,探索更轻量级的注意力机制和特征融合策略,并研究半监督或无监督学习方法,以提升算法在实际工业场景中的泛化能力和应用潜力。