摘要: 随着电子商务的发展,面向透明商品(比如玻璃瓶、塑料包装化妆品)的检测识别变得尤为重要。由于其特殊光学特性,传统目标检测模型YOLOv5在此类物体上常出现特征提取困难、定位不准和漏检率高等问题,严重制约了电商运营效率与用户体验。为解决这一难题,本研究提出了一种改进的YOLOv5目标检测模型。本文在YOLOv5s的主干与颈部网络结合一种混合的轻量级注意力机制:CLEAR-Attn (Channel-Linear External-SimAM Attention with Residuals),该注意力机制针对透明的电商物品进行改进,提升了针对电商物品检测的稳健性。该模型融合了外部注意力机制(External Attention, EA)与SimAM注意力机制,EA注意力机制能够以两层线性映射与双重归一化实现外部记忆建模,捕获长程依赖。在其输出后串接SimAM以强化边界与高光区域的响应,最后通过残差连接输出最后的特征,从而能够实现对透明电商商品的有效检测。在Trans10K透明商品数据集上进行实证,采用与基线一致的训练策略。结果显示,在增加少量参数情况下,本文模型在整体精度上取得稳定提升5个百分点,检测精度达到了96%。在进一步的应用分析表明,该技术可广泛应用于电商平台的图像搜索、智能货柜的商品识别、自动化仓库的包裹分拣及库存盘点等具体场景,有效提升识别准确率与作业自动化水平。
Abstract: With the growth of e-commerce, detecting transparent or highly reflective products (e.g., glass bottles and plastic-wrapped cosmetics) has become increasingly important. Due to their optical properties, conventional detectors such as YOLOv5 often struggle with feature extraction, precise localization, and miss rates on such objects, which constrains operational efficiency and user experience. To address this, we propose an improved YOLOv5 model. Built on YOLOv5s, we integrate a lightweight hybrid attention mechanism, CLEAR-Attn (Channel-Linear External-SimAM Attention with Residuals), into both the backbone and neck to enhance robustness for transparent product detection. CLEAR-Attn fuses External Attention (EA) and SimAM: EA models long-range dependencies via two linear projections with double normalization to form an external memory, while SimAM—placed after EA—amplifies responses along object boundaries and specular highlights. A residual connection is then applied to stabilize training and preserve information. We validate the approach on a Trans10K transparent-product subset under training protocols aligned with the baseline. Results show that, with only a small increase in parameters, our method yields a ~5 percentage-point improvement in mAP50 to reach 96% over the baseline YOLOv5s and is particularly stable in scenarios with strong reflections, low contrast, and small objects. The proposed technique can be readily applied to e-commerce image search, smart-cabinet product recognition, automated warehouse parcel sorting, and inventory auditing, thereby improving recognition accuracy and the level of operational automation.
1. 引言
随着人工智能的飞快发展,计算机视觉在电子商务中发挥着很大的作用。从基于内容的商品图像搜索、智能货柜的自动结算,到大型自动化仓库中的机器人分拣与库存盘点,高效、精准的目标检测算法在这些场景中扮演着至关重要的角色。与常规的商品不同,透明的商品(例如玻璃杯,化学试管)由于其独特的光学特性(如折射、反射和缺乏纹理),对于传统的计算机视觉任务造成了严重的挑战[1]。在计算机视觉任务中,此类物体的外观高度依赖于环境背景,其边缘和内部特征往往与背景融为一体,导致基于常规卷积神经网络(CNN)的检测模型(如YOLO、Faster R-CNN等)难以提取有效特征,普遍存在定位模糊、漏检率高等问题。
近年来随着深度学习的发展,出现了一系列的目标检测模型,其中YOLOv5模型有着精度与速度的优势[2]。然而YOLOv5的主要核心网络是卷积神经网络(CNN),在建模长距离的依赖关系以及全局上下文信息等方面存在局限性,而这正是准确感知和分割透明物体模糊边界所必需的能力,在处理透明物体模糊边界与高光伪影等问题时,传统的基于CNN的模型就难以发挥出作用。近年来,Transformer由于其全局建模能力受到广泛的应用,但是在电子商务的透明商品检测中,由于其计算复杂度以及显存开销等难以部署在实时的目标检测模型中。所以在电子商务平台中,一个实时、轻量的透明电商物品检测模型就十分重要。
近年来,许多人提出各种注意力机制,其中外部注意力(EA)通过两个共享的外部记忆矩阵以两层线性映射与双重归一化实现近似线性复杂度的全局建模。SimAM则基于能量函数的零参数空间注意力,能在不引入可学习参数的前提下增强像素级显著性。这些工作为在实时检测器中引入全局—局部互补提供了新的可能。
基于上述的方法,本文在YOLOv5框架上提出一种混合注意力检测网络,核心是新设计的CLEAR-Attn (Channel-Linear External-SimAM Attention with Residuals)模块。该模块以增强型外部注意力为骨干,通过两层线性映射与双重归一化引入外部可学习记忆,在近似1 × 1卷积的复杂度下聚合长程依赖[3]。其输出串接SimAM这一零参数空间注意力,显式放大边界与高光线索,提高模型对透明商品的局部感知能力[4],最后由通道注意力(SENet)进一步融合两种注意力机制,增强模型的表达能力。
本研究的核心贡献在于提出了一个名为CLEAR-Attn的混合注意力模块,旨在解决上述研究空白。在Trans10K透明商品数据集上[5],本文在保持训练策略与检测头、损失函数不变的前提下进行验证。实验结果显示,相比基线YOLOv5s,所提方法在电商透明商品目标场景下的平均精度mAP50均有稳定提升,满足电商业务对低时延、易部署的工程要求。
2. 文献综述
目标检测模型是计算机视觉领域的重要领域,近年来的目标检测模型主要分为单阶段与两阶段检测器。单阶段的目标检测器以YOLO为主要代表,其中YOLOv5以其精度与速度的优势在目标检测中成为一个经典的框架。两阶段检测器常常以Faster R-CNN为主要代表,这一类的检测器虽然精度高但是检测速度稍慢[6]。其中YOLOv5[7]在自动驾驶,安防监控、电子商务等方面都有着很多的作用,但是由于其主要的网络是CNN,能够获得商品局部的特征细节,但是在面对透明商品这样需要全局建模能力的场景时,往往会遇到检测不精准的问题,会有一定的局限性。
传统的CNN模型由于其只能提取局部特征,但建模全局依赖关系需要很深的网络结构,网络的结构过深时可能会面对梯度爆炸等问题。Transformer开始广泛应用于自然语言处理问题,但是其核心的自注意力(Self-Attention)机制能够直接计算序列中任意两个元素之间的关系,从而高效地捕获全局上下文信息[8]。现在Transformer也常常地应用于视觉领域,但是Transformer会带来更大的计算量,而且Transformer在一些小数据集上还会出现过拟合的问题,使得模型易在边界与伪影处产生误检与漏检[9]。近两年来虽然也出现了RT-DETR等实时目标检测模型[10],但是由于其依赖于Transfomer所以也存在着很大的计算开销。
学界围绕该问题开展了数据集与方法方面的探索:ClearGrasp 针对透明体三维形状与深度估计构建了RGB-D基准[11],同时ClearGrasp方法提出来一种大型的数据集,为后来的许多工作奠定了基础。由于透明物体的深度在检测时会存在失真等问题,所以目前的方法更多地聚焦于深度重建来恢复透明物体的深度[12],例如 Yingjie Tang提出一种自注意力多抗网络从原始RGB图中恢复深度图。同时针对透明物体的分割也有很多的研究,Trans10Kv2 [13]提出来一种基于Transformer的方法来实现对透明物体的分割,该方法利用了Transformer的全局建模能力来提高分割的精度。LingTong [14]提出一种针对透明物体的语义分割方法,该方法通过特征选择与特征增强来提高对透明物体的分割能力。这些方法充分说明了Transformer模型针对透明物体的优势,但是Transformer由于其二次计算复杂度,会增加很多的计算推理开销。方法层面,针对玻璃的分割、边缘与高光建模、折射恢复等议题均有进展。但就实时检测而言,如何在不明显增加推理开销的前提下,同时抑制反射诱发的背景误激活并强化弱边界,仍缺乏工程友好的通用方案。
Transformer能够在透明物体的图像分割中发挥出很大的作用核心就是它的自注意力机制,能够对物体进行全局建模,但是自注意力机制带来的计算复杂度难以实现轻量实时的透明物体检测。为了平衡性能和效率,一系列轻量级注意力变体被提出。CBAM (Convolutional Block Attention Module)是一种轻量级的注意力机制[15],能够在空间和通道上进行Attention操作,但是针对透明物体时还是难以实现全局建模的能力。SE (Squeeze-and-Excitatio)注意力机制[16],通过显式地建模出卷积特征通道之间的相互依赖性来提高网络的表示能力,但是也面临着CBAM同样的问题。外部注意力(External Attention)自 2021年提出, 利用两个共享的外部记忆单元替代了自注意力中的Key和Value矩阵[17],将计算复杂度从二次降为线性,并隐式地学习了数据集级别的全局先验,既保留了全局依赖,又显著降低资源消耗。另一方面无参注意力机制,如SimAM 基于神经科学中的显著性理论,无需任何可学习参数即可推导出3D注意力权重,实现了轻量化。这些工作为本研究设计高效、轻量科部署的混合注意力机制提供了基础。
综上所述,当前透明商品检测领域存在一个明显的研究空白:一方面,性能优异的Transformer模型因计算负担过重而难以落地实时应用;另一方面,现有的轻量级CNN检测器[18] (如YOLOv5)又缺乏对透明物体特有的全局光学属性和微弱边缘的有效感知能力。虽然已有多种注意力机制被提出,但如何将它们高效地融合,以兼顾全局依赖建模、局部显著性增强与轻量化部署,仍未得到充分探索。本文的研究工作正是为了填补这一空白。本研究的主要贡献在于:提出了一种名为CLEAR-Attn的混合注意力模块,创造性地将线性复杂度的EA机制与零参数的SimAM机制深度融合,使YOLOv5基线模型同时获得了强大的长程上下文建模能力和空间显著性感知能力。该方案并非简单的模块堆叠,而是通过精心的设计(包括通道注意力筛选与残差连接)实现了两种注意力的优势互补,最终显著提升了模型在复杂电商场景下对透明商品的检测精度与鲁棒性,为实时高效的透明商品检测提供了一个实用、可靠的解决方案。
3. 方法
3.1. 整体网络架构
本文提出一种基于混合注意力机制改进的yolov5s模型,整体框架以YOLOv5s为基础,其核心创新在于将External Attention (EA)模块与SimAM模块深度融合,构建了一个能够同时捕获全局上下文与局部显著性的高效检测器。我们的模型以Yolov5s为基线,其主干网络是CSPDarknet,颈部网络是特征金字塔网络[19]。本文改进的策略是:使用一个高效的CLEAR-Attn注意力模块放在主干网络和颈部网络C3层之后,本研究分别在主干网络的第3和第4个C3模块后加入了CLEAR-Attn注意力模块,在颈部网络中分别在第3、4个C3模块后加入了CLEAR-Attn注意力模块。这种放置策略确保了多尺度特征在生成和融合后都能得到增强,使模型能够从低层到高层、从局部到全局地关注透明物体的关键特征,这对于识别具有复杂光学特性的透明商品包装至关重要。
3.2. CLEAR-Attn注意力网络
本文提出CLEAR-Attn注意力模块结构如图1所示,首先将输入的RGB图像经过YOLOv5的C3模块,提取图像的特征(Feature) Fin,Project1x1代表着1 × 1卷积投影,将前面得到的特征投影到低维便于后续的注意力计算,将特征保持为B × C × H × W。B代表着batch,C代表着通道数,H,W代表着图像特征的尺寸。随后得到的特征首先经过EA模块,输入的特征经过卷积后得到了Query,Query通过查询外部记忆后,与外部key记忆Mk相乘生成了注意力图,Mk把通道特征“投影”为若干原型,这些原型对整个数据集共享,把每个空间位置的通道向量映射到K个记忆槽。随后K个记忆槽经过了归一化(Norm)后与外部value记忆Mv相乘,根据注意力图把K个槽的聚合结果回写为C维通道特征,得到了经过EA的特征Fea。EA外部注意力通过获得的数据集先验,能有效地增强模型对透明物体的全局建模能力,而且其线性时间复杂度远小于自注意力机制。
输入的特征Fea经过了SimAM模块。首先SimAM先基于能量函数在每个位置每个通道上生成空间权重,随后经过扩展(Expansion)将通道注意权重广播到空间维度,将输入的特征与扩展后的3-D权重进行了融合之后就得到了具有空间显著性的权重,SimAM注意力机制基于能量函数为每个像素生成显著性权重,强调边界与高光区域,抑制背景伪影。随后经过了一个通道注意力SENet筛选了与“透明”相关的通道,下一步经过了一个融合模块Fusion后,融合了空间显著性与通道注意力,得到了增强后的特征Fca,进一步增强了特征的表达。
Figure1. The CLEAR-Attn attention network architecture
图1. CLEAR-Attn注意力网络结构
最后经过了一个1 × 1的卷积(
与Batch Norm归一化确保了与输入特征的一致性,随后经过了Residual残差块连接了初始的一个特征,最后的输出见公式1:
(1)
其中Fout代表着最终的输出特征,ReLU是激活函数,BN代表着归一化,
是一个1 × 1的卷积,Fca是经过几个注意力机制增强后的特征,Fin代表着最开始的输入特征。最后的输出Fout就是CLEAR-Attn 模块的输出特征,用于后续的检测头。
经过上面的一个CLEAR-Attn注意力模块,一方面能够有效地增强对透明物体的全局建模能力,另一方面也没有带来很大的计算开销,实现了一个轻量、实时的透明物体检测的模块能够部署在电商平台的实时检测模型当中。
4. 实验
4.1. 实验数据集及指标
本研究采用Trans10K数据集,这是一个大型的透明物体数据集,由10,428张真实场景的图像组成,并带有仔细的手动注释,数据集中透明物体类别包括玻璃器皿、塑料瓶、窗户等,具有丰富的尺度、形状和背景变化。Trans10K数据集所有的图像均采集于日常生活中的常见透明物体,采用了5000、1000、4428张图像分别用于训练、验证、测试。
本研究基于Windows10,GPU选用RTX4070,12G显存,使用PyTorch2.3.0,CUDA12.1,Python3.8.2,输入图像尺寸为640 × 640,训练迭代次数为100轮,batchsize为16,采用SGD优化器,学习率0.01。
为了评估模型的效果,本研究采用目标检测领域通用指标:平均精度mAP50,为了评估模型的参数,本文还对每种模型的参数进行对比。
4.2. 消融实验
为了验证模型的有效性,我们在Trans10K数据集上进行了一系列的消融对比实验。首先模型1就是在YOLOv5s基线模型下进行实验,YOLOv5s + SimAM是在YOLOv5s在基线模型上加入SimAM空间注意力机制,YOLOv5s + EA是在基线模型上加入了EA注意力机制,YOLO5s + EA + SimAM是在基线模型上简单地串联加入了SimAM与EA注意力机制的模型,Ours模型就是本文所提出来的YOLOv5-CLEAR-Attn模型,Parameter代表着模型的参数大小。消融实验结果如表1所示,可以看出我们的模型比单独的各个模块精度更高,虽然参数量有所增加但是带来的精度提升是很有必要的。
Table 1. The results of the ablation study on the Trans10K dataset
表1. Trans10k数据集上消融实验的结果
Model |
EA |
SimAM |
mAP50 |
Parameter |
YOLOv5s |
× |
× |
0.91 |
7.2 M |
YOLOv5s + SimAM |
× |
√ |
0.92 |
7.2 M |
YOLOv5s + EA |
√ |
× |
0.94 |
7.6 M |
YOLOv5s + EA + SimAM |
√ |
√ |
0.95 |
7.7 M |
Ours |
√ |
√ |
0.96 |
7.8 M |
4.3. 对比实验
为了验证本研究的模型的效果,我们在Trans10K数据集上进行了一系列的对比实验。其中Yolov5-CBAM代表着加入CBAM注意力机制的YOLOv5s模型,RT-DETR是近年来效果比较好的实时目标检测模型,Ours代表着本文提出来的模型。分别在平均精度(mAP50),计算量(GFLOPs),推理速度(FPS),参数等指标上进行了对比。为了保证实验结果的客观性,几个模型都采用了4.1节的训练策略。对比实验结果如表2所示,可以看出本文提出的模型在精度和效率上取得了平衡。
Table 2. Comparative experimental results on the Trans10K dataset
表2. Trans10K数据集上对比实验结果
Model |
mAP50 |
GFLOPS |
FPS |
Parameter |
YOLOv5-CBAM |
0.93 |
17.0 |
203 |
7.4 M |
RT-DETR |
0.952 |
103.4 |
52.4 |
31.9 M |
Ours |
0.96 |
21.9 |
146 |
7.8 M |
4.4. 实验结果分析
从表1中可以看出我们提出的方法比原本的基线模型YOLOv5s提高了mAP50提高了5个百分点,相比于单独加入SimAM模块或者EA模块,我们所提出的融合了CLEAR-Attn注意力网络的模型也有着更优的性能。原始的YOLOv5s的模型参数为7M,本研究的模型的参数是7.8M,在尽可能减少了计算量的同时也提高了模型的性能。在4.3的对比实验可知,本研究提出的模型在增加少量参数的情况下模型的检测精度高于YOLOv5-CBAM,推理速度146低于YOLOv5-CBAM的203,这主要是因为参数量的增加带来了额外的计算量,但是带来的精度提升远超微小的速度损失,这样的结果是满足电商平台的实时检测需求的。对比于实时目标检测模型RT-DETR,本研究提出来YOLOv5-CLEAR-Attn模型在参数量和计算量均远小于RT-DETR的情况下,精度也更高。实验最终可视化的结果如图2所示。
Figure2. Visualization results
图2. 可视化结果
5. 结论
本研究面向电商场景中透明/高反射商品难检测的问题,本文在YOLOv5框架上提出了基于混合注意力的改进模型 CLEAR-Attn,将External Attention的长程依赖建模与SimAM的零参数空间显著性增强进行深度融合,并在网络关键尺度以即插即用方式部署,实现对多尺度全局–局部信息的协同强化。在Trans10K透明商品数据集的实证结果显示,在增加少量参数情况下,模型相较基线YOLOv5s的mAP50提升约5个百分点,在强反射、弱对比及小目标场景下表现更为稳定。方案由标准算子构成、易于导出与部署,能够直接服务于电商平台的上架审核、图像搜索、智能货柜识别与仓配分拣/盘点等实时业务,具有较好的工程落地价值。
同时,本研究仍存在局限:其一,电商环境中强背光、镜面高光、复杂环境反射以及低照度噪声会导致目标/背景对比度过低或出现高亮饱和区,影响EA的全局汇聚与SimAM的显著性评估;其二,电商环境中遮挡物体与不透明物体重叠或遮挡的情况下对透明目标的检测精度有一定下降;其三对折射率较高、曲面复杂的玻璃器皿,或者纹理极弱的透明薄塑料包装情况下,易变形的透明商品会对定位造成干扰。后续工作将从两个方面推进:(1) 在面对复杂的光照条件下,引入折射、反射先验的数据增强与仿真,在仿真环境中模拟更复杂光照、材质,提高在真实环境下的适配。(2) 针对复杂的遮挡情况,选择偏振光、红外、深度等信息来辅助实现感知,通过多模态感知方法来解决当RGB失效时的感知问题。
综上,本文所提出的混合注意力机制CLEAR-Attn 为电商透明商品检测提供了一种低改动、可部署、可扩展的结构化解法,可作为电商视觉系统的通用增强组件,并具备面向更广泛零售与供应链场景的推广潜力。一方面本研究所提出的方法可以在电商运营当中降低其成本,基于低成本RGB摄像头的计算机视觉技术,能胜任此前必须依赖人工目检或特殊传感器的透明商品识别任务。另一方面由于本研究的方法的高精度以及高推理速度优势,在电商运营环境中例如仓储物流的自动化分拣环节可以降低误检率提升电商仓库运营效率。最后精准的检测能力意味着更低的货损率和差错率。更重要的是,可靠的自动化流程减少了人工干预,降低了用工成本与管理成本。