1. 引言
随着城市化进程的加速,生活垃圾的产生量不断增加,给城市环境和资源管理带来了巨大挑战。与此同时,全球环保意识不断提升,政府、社会和公众对垃圾分类的关注度日益增加,许多国家通过实施分类运输、分类处理和资源化利用等方式,努力推动固体垃圾的回收及再利用,以解决“生活垃圾增多”问题。例如,韩国实施垃圾袋收费制度,其目的是通过计量收费的方式减少垃圾投放量,并最大程度保证可回收垃圾的分类投放。法国通过创新技术方法,逐步完善分类回收体系,扩大垃圾处理和再利用规模。泰国的部分地区则通过将垃圾转化为清洁电能来解决能源短缺和垃圾污染问题。此外,当下一些国家研制出了多款基于视觉的生活垃圾分拣机器人,如美国的CleanRobotics’ TrashBot [1]、日本的RoboBin [2]、芬兰的ZenRobotics [3]等。
中国政府高度重视垃圾分类工作,将其视为推动绿色发展、循环经济和生态文明建设的重要举措。在试点推广方面,政府主张在一些城市如上海、北京、广州等地先行先试,推广垃圾分类制度。在构建责任体系方面,中国政府建立了从政府到企业、社区、家庭和个人在内的责任体系,明确了各方在垃圾分类工作中的责任和义务。这一系列举措的实施标志着中国的垃圾分类工作进入了新的阶段。面对传统的人工垃圾分类方法效率低,成本高等缺点,如何将生活垃圾分类处理自动化成为了解决问题的关键。2020年,清华大学精密仪器系朱荣教授研究组在《科学机器人》(Science Robotics)发表研究论文[4],研究组研制出一种多功能感知触觉传感器,应用于机器手抓握感知,实现了对物品的形状、大小和材料等多属性识别,并成功应用于垃圾分类。其工作原理是使用分析收集到的图像数据,通过训练好的机器学习模型[5],识别不同类型的垃圾,根据识别结果,机器手决定如何进行垃圾分类。由此可见,垃圾种类的判断和垃圾在图像中的形态与位置是首要解决的问题。
深度学习凭借其强大的特征学习能力,可以从大量的图像数据中自动提取有用信息,实现高效、准确的分类。避免了传统人工分类方法的低效率和低准确率。近年来,许多研究者开始将深度学习应用于垃圾分类的相关研究。Chu等[6]提出了一个多层混合深度学习系统(MHS),采用基于卷积神经网络(CNN) [7]的算法提取图像特征,并使用多层感知器(MLP)方法整合图像特征和其他特征信息,可以将垃圾分类为可回收和其他类别。Alsubaei等[8]提出了一种基于深度学习的小目标检测和分类模型(DLSODC-GWM),旨在辅助智能废物管理系统,专注于检测和分类小型垃圾废物对象,最大准确率达到98.61%,但模型在计算资源有限的设备上运行效率不高,限制了模型在资源受限的环境中的应用。Ramsurrun等[9]使用了至少12种变体的卷积神经网络(CNN)算法,并在支持向量机(SVM)、Sigmoid和SoftMax上进行训练,使用SoftMax分类器的VGG19模型准确率约为88%。Qi等[10]提出了一种新的方法,结合上下文信息和多尺度学习来提高垃圾分类中小目标检测的性能,使小目标检测能够获得更高分辨率的更多特征信息,该方法在垃圾中小目标检测方面达到了高准确率。Kulkarni等[11]尝试了混合迁移学习进行分类,并使用Faster R-CNN [12]快速卷积神经网络来获取目标检测的区域提议,将垃圾图像中的不同废物片段分类为玻璃、塑料、纸张、垃圾、金属和纸板等类别,提出了一种使用生成对抗网络(GANs)创建拼贴画的架构,并提出了一种使用微调Faster R-CNN的目标检测模型。但使用Faster R-CNN网络进行目标检测,这是一个相对复杂的模型,可能需要大量的计算资源和训练时间。
在2016年,约瑟夫·雷德蒙(Joseph Redmon)首次提出YOLO算法[13]。YOLO是一种用于目标检测的深度学习算法。在初代YOLO之后,YOLO算法历经了YOLOv2 [14]、YOLOv3 [15]、YOLOv4 [16]、YOLOv6 [17]、YOLOv7 [18]、YOLOv9 [19]、YOLOv10 [20]多个版本,每一个版本都有不同程度的改进。Yuan等[21]提出了MRS-YOLO模型,该模型引入了Slide Loss-IOU技术来检测小目标,集成了Transformer机制中的RepViT,并设计了一种新的特征提取策略,用来提高垃圾分类的效率和精确度。Pan等[22]使用YOLOV8算法训练垃圾分类模型,将模型集成到OpenCV、TensorFlow等工具中进行实时检测或其他应用。Panmuang等[23]使用YOLO算法通过城市地区的CCTV摄像头图像检测垃圾,可以应用于开发移动或网络应用程序,通过与社区内安装的CCTV摄像头集成,监测垃圾溢出或垃圾箱外的垃圾,并通知相关机构或当地居民,以实现更快速高效的废物管理。Li等[24]通过引入新设计的CG-HGNetV2网络结构优化YOLOv8s的主干网络,并引入MSE-AKConv网络,该研究提高了模型的检测性能,该方法在固体废物检测的准确性、召回率和mAP@50 (50%的平均精度均值)方面取得了显著提升。Shroff等[25]在YOLOv8上使用WaRP数据集进行训练和评估,发现YOLOv8s在较小的数据集和较低的处理时间上提供了相对较好的结果,而YOLOv8l在相同数据集上达到了约59%的更高mAP@50值。
本文选择YOLOv11n作为生活垃圾检测与分类的基础模型,将生活垃圾分为有害垃圾、厨余垃圾、其他垃圾、可回收垃圾四类,在自制生活垃圾分类数据集上对主干网络进行训练,通过与SPPF-LSKA [26],WaveletPool [27],DynamicConv [28]等模块的关键优化策略,来改进YOLOv11n目标检测算法,达到垃圾分类系统更高的平均精度,用更高的轻量化实现生活垃圾的自动分类与检测。
2. YOLOv11n算法
YOLO (You Only Look Once)最初是由Joseph Redmon [13]和其他研究人员提出的,它已经成为目标检测中最重要的方法之一。该算法采用单阶段检测策略,可以从图像的单一前向传播中直接预测目标的边界框和类别概率。随着技术的不断进步,YOLO家族已经从最初的版本发展到最近的YOLOv11。YOLO家族最近的成就YOLOv11在检测速度、准确性、计算工作量和特征提取能力方面都有了极大的提高。该模型的关键元素由YOLOv11n架构突出显示,如图1(a)所示,它由三个主要部分组成:头部、颈部和主干。下面,我们将简要介绍每个部分,以及为改进整个体系结构而引入的特性方法。
主干网络是本研究中YOLOv11n体系结构的基本要素之一,它主要负责从输入的图像中提取多尺度的重要特征。如图1(b)所示,该骨干网络具有一个空间金字塔快速池化(SPPF)模块,可以有效地利用几个最大池化层从输入图像中提取多尺度特征。如图1(c)所示,主干网络的特征提取基于一系列卷积(Conv)块,每个块由Conv2D层、BatchNorm2D层和SiLU激活函数组成。此外,主干网络集成了一个具有压缩通道级部分自注意力机制(C2PSA)的跨阶段组件。如图1(d)所示,通过引入注意机制,C2PSA模块显著提高了模型的检测精度。YOLOv11n通过使用多个C3K2块进一步优化了主干结构,这取代了YOLOv8中使用的C2f块。C3K2块提供了更高效的跨阶段部分(CSP)实现。值得注意的是,C3K2块有两个结构变体,分别对应于c3k = false和c3k = true,如图1(e)和图1(f)所示,两者都旨在提高特征提取的有效性。
Figure 1. YOLOv11 network structure diagram
图1. YOLOv11网络结构图
作为YOLOv11n架构的关键组件,颈部组件作为头部块和主干网络[21]之间的桥梁。如图1所示,颈部结构由几个卷积(Conv)层、C3K2块、特征拼接(Concat)操作和上采样块组成,这些都继承了压缩通道级部分自注意力机制(C2PSA机制)的好处。颈部的设计目的是多尺度特征聚合,有效地整合来自不同主干网络尺度的特征信息,保证特征在传递到头部块之前得到充分的利用和改进。颈部的设计通过优化特征传递管道和提高模型在不同尺度上识别目标的能力,提高了检测框架的整体性能。
YOLOv11n体系结构的最后一个组件是头模块,它承担了生成最终预测的中心功能。头部被设计为准确识别物体,头部负责确定物体类别,计算客观性得分,并准确预测每个被识别物体的边界框。如图1所示,头部模块从颈部组件合成多尺度特征,通过一系列计算步骤输出最终的检测结果。该过程包括但不限于分类预测、边界框回归和客观性评分,确保了模型在目标检测任务中的高性能。
3. SWD-YOLO算法
为了提高生活垃圾检测与分类的精度,我们尝试结合先进的算法设计和多模块来改进YOLOv11n算法。同时,我们试图在提高识别精度的同时,减少计算量的增加。因此,我们淘汰了参数尺寸大、检测速度慢的模型,选择了YOLOv11n,使其完全能够在计算资源有限的边缘设备上部署时满足实时需求。因此,本研究引入了一种基于YOLOv11n的高精度生活垃圾分类算法SWD-YOLO,在外面标有红线的模块表示该模块已得到改进,如图2所示。
Figure 2. SWD-YOLO modeling framework
图2. SWD-YOLO模型框架
在本研究中,首先我们将大型可分离核注意力机制(LSKA机制)引入YOLOv11n主干网络的SPPF模块中。这一机制使网络能够忽略无关背景信息的干扰,更加专注于目标的有效特征信息,该改进以较低的计算成本实现了生活垃圾分类的高性能。其次我们提出了一种动态卷积(DynamicConv)方法,这是一种有效的轻量级卷积神经网络(CNN)设计策略。该策略在不显著增加计算负担的情况下,显著提高了模型的性能。动态卷积通过动态聚合多个卷积内核增强了模型表示,可以无缝集成到现有的CNN架构中,从而提高了网络的泛化能力。最后,我们引入WaveletPool模块,用小波池代替上下采样算子。利用小波变换对输入的特征图进行分解,提取高频和低频信息,然后利用下采样来完成池化过程。此改进在降低模型计算复杂度的同时保持了更高的模型识别精度。通过这些改进,焕然一新的YOLOv11n算法在生活垃圾分类目标检测的准确性和鲁棒性方面都有了显著的提高。
3.1. SPPF-LSKA模块
由于生活中垃圾的形态复杂多变,为了增强模型提取生活垃圾目标关键特征的能力,将大型可分离核注意力机制(LSKA)引入YOLOv11n主干网络的SPPF模块中。这一机制使网络能够忽略无关背景信息的干扰,更加专注于目标的有效特征信息。以往的注意机制,例如自注意力机制和大核注意力机制(LKA)存在许多不足之处。虽然自注意力机制具有较强的长阶段依赖性和适应性,但它却忽略了图像的二维结构。大核分离注意力机制(LSA)解决了自注意机制忽略了图像的二维结构的问题,但在处理较大尺度核的时候,它会产生较高的计算成本。引入的LSKA注意机制有效地解决了在处理大尺度核时与LSA注意力相关的高计算成本问题,以较低的计算成本实现了高性能。
LSKA是一种创新的大型可分离核注意力模块,它分解了大型卷积核的卷积操作,获取长期依赖性和适应性,并将得到的二维卷积核进一步分解为相互连接的一维卷积核,从而降低了计算复杂度和内存需求。工艺结构如图3所示。首先,将K×K卷积分解为(2d − 1) × (2d − 1)深度卷积、K/d × K/d深度扩张卷积和1 × 1卷积。其次,将二维深度卷积核和深度扩张卷积核进一步分解为一维水平卷积核和垂直卷积核,最后将分解后的卷积核按顺序连接,LSKA的分解过程如图4所示。改进后的SPPF-LSKA结构如图5所示。
Figure 3. LSKA structure diagram
图3. LSKA结构图
Figure 4. Diagram of the decomposition process of LSKA
图4. LSKA的分解过程图
Figure 5. Structure of SPPF-LSKA
图5. SPPF-LSKA结构图
3.2. DynamicConv模块
为了提高生活垃圾分类检测模型的特征选择性,从而提高整体网络的性能,我们引入了一种特定的动态感知器实现,即动态卷积,我们将YOLOv11n的C3k2进行融合。动态卷积符合给定的计算约束条件,如公式(3)所示。与动态感知器类似,动态卷积(见图6)由K个核大小以及输入输出维度组成。这些卷积核通过注意权值
进行聚合,形成最终的卷积输出。按照传统的卷积神经网络(CNNs)的设计,在批处理归一化和聚合卷积操作后,我们应用激活函数(如ReLU)来构建动态卷积层。值得注意的是,我们使用压缩和激励(SE)机制来计算卷积核的注意权重
,如图6所示。在压缩和激励机制中,首先通过全局平均池化(GAP)对全局空间信息进行压缩,生成包含全局上下文信息的压缩特征表示。随后,我们利用两个完全连接的层(在它们之间插入一个ReLU激活函数)和一个softmax函数来生成K个卷积核的归一化注意权值。第一个全连接的层将特征的尺寸减少了4个。与SENet中的注意力是在输出通道上计算的不同,我们的方法是在卷积核上计算的注意力。这种计算相对高效,因为它只涉及调整卷积核的权值,而不需要额外的复杂计算。因此,我们的动态卷积设计保持了计算效率,同时提高了模型对特征的选择性,从而提高了整体网络性能。
Figure 6. Dynamic convolutional module framework
图6. 动态卷积模块框架
为了处理
维度的输入特征图,我们计算了注意力的计算复杂度,注意力的计算复杂度如公式(1)所示。其注意力的运算优势是与卷积运算相比,这个计算成本大大降低。而卷积运算的计算复杂度的计算方法如公式(2)所示,其中
表示卷积核的大小,
表示输出通道的数量。可以看出,与卷积运算相比,注意机制可以在处理相同大小的输入特征图时更高效,所以此次改进使得生活垃圾检测在保持模型性能的同时也减少了计算资源的消耗。
(1)
(2)
(3)
3.3. WaveletPool模块
由于YOLOv11n模型上下采样算子模块参数量和计算量较大,识别准确率低。为了进一步降低冗余,我们引进了WaveletPool模块。它是一个基于小波变换的新型池化层,WaveletPool通过将输入数据分解为多个频率子带,提供了输入数据的更丰富的表示。WaveletPool层旨在替代CNN中的传统池化层。它使用一组预定义的小波滤波器将输入特征图分解为四个子带:低低(LL)、低高(LH)、高低(HL)和高高(HH),如图7所示。每个滤波器应用于输入特征图,并将结果沿着通道维度连接起来。WaveletPool层在PyTorch中实现为一个自定义的模型。滤波器被转换为PyTorch张量,并设置为层的参数,其中requires_grad设置为False,表示在训练过程中不更新滤波器。在前向传递过程中,使用步长为2的2D卷积和分组卷积将滤波器应用于输入特征图,以确保每个滤波器应用于相应的输入通道。我们引入WaveletPool模块进行优化,进一步降低了冗余,提升了模型的识别精度。因为对设备内存,推理速度要求不高,所以我们相信这一次的轻量化创新适用于生活垃圾识别任务。
Figure 7. WaveletPool module framework
图7. WaveletPool模块框架
4. 实验与结果分析
4.1. 实验平台
实验的操作系统是Windows 11专业版,处理器是15 vCPU Intel(R) Xeon(R) Platinum 8362 CPU @ 2.80 GHz,运行内存是24 GB,GPU模型是RTX 3090,实验是在PyTorch 1.11.0深度学习框架,Cuda 11.3架构,和Python版本是3.8。训练参数:batch_size设置为16,epoch设置为200,初始学习率为0.01,最终学习率为0.01,输入图像的大小自动缩放到640 × 640,不使用预训练权重值,其他参数为默认值。
4.2. 实验数据集
在SWD-YOLO训练模型之前,需要相应的数据集图像,由于检测到的目标在每个图像上的不同角度与位置,所以SWD-YOLO算法在训练时需要首先对图像的每一类目标进行标记。因此,我们选择在互联网上下载图片,使用labelImg制作标签,完成了自制数据集。根据国际上对生活垃圾的分类,我们把生活垃圾数据集进行四分类,包括有害垃圾,厨余垃圾,其他垃圾,可回收垃圾。图像总数为8811张。在制作数据集过程中,我们按8.5:1:0.5随机划分数据集,最后7369张图像为训练集图像,922张图像为验证集图像,520张图像为测试集图像,如图8所示。
Figure 8. Classification of data sets
图8. 数据集分类
4.3. 评价指标
选取参数量、计算量、精度、查全率和mean Average Precision(mAP@50)作为模型的评价指标。其中,mAP@50由精度P和查全率R计算得出。
精度P为:
(4)
查全率R为:
(5)
mAP@50为:
(6)
(7)
其中TP为判断正确的阳性样本数,FP为错误检测到的样本数,FN为遗漏的样本数,AP为由精度P和R组成的关于轴的曲线面积;mAP为所有AP的平均值,mAP@50中的i表示当前类别。当mAP@50较高时,这意味着模型被训练得更好。
4.4. 消融实验
本实验在原YOLOv11n模型和SWD-YOLO在训练过程中保持的超参数不变。从表1可以看出在主干网络进行SPPF-LSKA模块的改进之后,模型的参数量和FLOPS基本与原模型一致,mAP@50有1.3%的提升。在进行WaveletPool模块的改进之后,模型的参数量缩减了0.5M,FLOPS减少了1G,mAP@50有1.7%的提升。在进行完DynamicConv模块的改进之后,模型的参数量略有增长,计算量缩减了0.3G,mAP@50有1.3%的提升。本次实验的四个类别的部分数据集可视化示例如图9所示,模型改进前后检测效果图如图10所示。
Table 1. Ablation experiment
表1. 消融实验
YOLOv11n |
SPPF-LSKA |
|
√ |
|
|
√ |
√ |
WaveletPool |
|
|
√ |
|
√ |
√ |
DynamicConv |
|
|
|
√ |
|
√ |
Parameters/M |
2.6 |
2.8 |
2.1 |
3.1 |
2.4 |
3.3 |
FLOPs/G |
6.4 |
6.5 |
5.4 |
6.1 |
5.6 |
5.5 |
mAP@50/% |
85.3 |
86.6 |
87.0 |
86.6 |
87.5 |
87.7 |
P/% |
83.9 |
85.6 |
85.0 |
83.8 |
84.4 |
85.6 |
R/% |
78.6 |
79.9 |
80.9 |
81.9 |
79.7 |
81.0 |
Figure 9. Example of SWD-YOLO detection visualization
图9. SWD-YOLO检测可视化示例
Figure 10. Detection effect before and after improvement
图10. 改进前后检测效果
然后,在SPPF-LSKA模块改进的基础上,实验融合了WaveletPool模块用来改进模型主干和上下采样算子部分,模型的参数量缩减了0.2M,FLOPS缩减到原模型的0.8G,而且在模型显著的轻量级的基础上,与原模型相比,mAP@50有2.2%的提升。
在前两次改进的基础上,实验融合了DynamicConv模块来改进模型的上下采样算子,模型的参数量略有增加,FLOPS缩减了0.9G,进一步提升模型的轻量化程度,更加显著地降低了模型的参数量和计算量,且与原模型相比,mAP@50有2.4%的提升。此外模型的精确率,召回率,mAP@50都有不同程度的改善,如表1所示。
因此,本实验采用三次模块融合改进,达到了生活垃圾分类算法的显著轻量化的目标,并且改进后模型的mAP50也有显著的提升。所以,本文提出的轻量级,高精度的SWD-YOLO生活垃圾分类模型适用于垃圾分类任务。
4.5. 各类生活垃圾评价指标的详细对比实验
为了达到更全面的实验结果和评价,我们对四类生活垃圾的平均精度(mAP@50),精度(P)和查全率(R)一系列评价指标进行了详细的对比实验。
对于平均精度(mAP@50),在SPPF-LSKA,WaveletPool和DynamicConv三个模块逐渐添加到YOLOv11n网络的过程中,有害垃圾的平均识别精度从90.4%上升到92.7%,平均精度提高了2.3%。厨余垃圾的平均识别精度从80.4%上升到82.7,平均精度提高了2.3%。其他垃圾的平均识别精度从84.9%上升到了88.3%,平均精度提高了3.4%,是四类垃圾里面平均识别精度增长量最高的。可回收垃圾的平均识别精度从85.6%上升到86.9%,平均精度提高了1.3%,实验结果如表2所示。
Table 2. Comparison of average accuracy of four types of household waste before and after improvement
表2. 改进前后四类生活垃圾的平均精度对比
YOLOv11n |
SPPF-LSKA |
|
√ |
|
|
√ |
√ |
WaveletPool |
|
|
√ |
|
√ |
√ |
DynamicConv |
|
|
|
√ |
|
√ |
有害垃圾(AP/%) |
90.4 |
90.7 |
90.2 |
90.0 |
90.1 |
92.7 |
厨余垃圾(AP/%) |
80.4 |
81.6 |
81.8 |
80.0 |
81.7 |
82.7 |
其他垃圾(AP/%) |
84.9 |
88.4 |
89.7 |
87.6 |
91.4 |
88.3 |
可回收垃圾(AP/%) |
85.6 |
85.5 |
86.3 |
88.7 |
86.5 |
86.9 |
对于精度P,在SPPF-LSKA,WaveletPool和DynamicConv三个模块逐渐添加到YOLOv11n网络的过程中,有害垃圾的精度从89.5%上升到90.2%,精度提高了0.7%。厨余垃圾的精度从92.1%上升到94.3%,精度提高了2.2%。其他垃圾的精度从70.9%上升到了72.4%,精度提高了1.5%。可回收垃圾的精度从83.2%上升到85.5%,精度提高了2.3%,实验结果如表3所示。
Table 3. Comparison of accuracy rates for four types of household waste before and after improvement
表3. 改进前后四类生活垃圾的精度对比
YOLOv11n |
SPPF-LSKA |
|
√ |
|
|
√ |
√ |
WaveletPool |
|
|
√ |
|
√ |
√ |
DynamicConv |
|
|
|
√ |
|
√ |
有害垃圾(P/%) |
89.5 |
88.7 |
86.8 |
87.1 |
86.7 |
90.2 |
厨余垃圾(P/%) |
92.1 |
92.0 |
93.3 |
88.9 |
90.1 |
94.3 |
其他垃圾(P/%) |
70.9 |
77.5 |
77.2 |
75.8 |
77.1 |
72.4 |
可回收垃圾(P/%) |
83.2 |
84.2 |
82.5 |
83.4 |
83.8 |
85.5 |
对于查全率R,在SPPF-LSKA,WaveletPool和DynamicConv三个模块逐渐添加到YOLOv11n网络的过程中,有害垃圾的查全率从79.1%上升到85.6%,查全率提高了6.5%,是四类垃圾里面查全率增长量最高的。厨余垃圾的查全率从65.6%上升到67.5%,查全率提高了1.9%。其他垃圾的查全率从91.7%上升到了92.5%,查全率提高了0.8%。可回收垃圾的查全率从78.0%上升到78.3%,查全率提高了0.3%,实验结果如表4所示。
Table 4. Comparison of the four types of household waste checking rates before and after improvement
表4. 改进前后四类生活垃圾的查全率对比
YOLOv11n |
SPPF-LSKA |
|
√ |
|
|
√ |
√ |
WaveletPool |
|
|
√ |
|
√ |
√ |
DynamicConv |
|
|
|
√ |
|
√ |
有害垃圾(R/%) |
79.1 |
79.0 |
81.4 |
81.0 |
80.2 |
85.6 |
厨余垃圾(R/%) |
65.6 |
67.6 |
67.4 |
71.5 |
67.6 |
67.5 |
其他垃圾(R/%) |
91.7 |
94.2 |
94.2 |
92.5 |
94.2 |
92.5 |
可回收垃圾(R/%) |
78.0 |
78.9 |
80.5 |
82.5 |
76.7 |
78.3 |
通过各类生活垃圾评价指标的详细对比实验,不难发现本实验采用三次模块融合改进,在每一类生活垃圾的平均精度(mAP@50),精度(P)和查全率(R)一系列评价指标上都有着显著的改进成果。因此,本文提出的轻量级高精度的SWD-YOLO生活垃圾分类模型适用于垃圾分类任务。
4.6. 不同模型之间的对比试验
为了进一步探索算法的进步,保持数据集和超参数不变,将改进算法与其他算法相比。对比的主流算法为SSD,YOLOv3,YOLOv5s,YOLOv5m,YOLOv6n,YOLOv6s,YOLOv8n,YOLOv10m。目前以参数量和算术能力作为评价指标,比较结果如表2所示。
从表5中可以看出,YOLOv3的计算量和参数量是最大的,分别为87.5 GFLOPS和67.5M,YOLOv5s、YOLOv5m、YOLOv6n、YOLOv6s、YOLOv8n和YOLOv10m的参数量和计算量也同样是过于庞大,会导致模型推理的速度变慢。此外,SSD与之前的YOLO系列的平均精度都比较低,反观SWD-YOLO改进模型,参数优化到3.3M,计算量也优化到了5.5GFLOPS,平均精度高达87.7%。不难看出,我们的改进模型SWD-YOLO与其他模型相比平均精度优势明显,在参数量和算术能力的轻量级上有绝对优势,对部署设备要求不高。因此,本研究提出的算法模型适用于高精度且轻量级的生活垃圾分类检测任务。
Table 5. Comparative experiments with different algorithms
表5. 不同算法的对比实验
算法模型 |
Parameters/M |
FLOPs/G |
mAP@50/% |
SSD |
24.4 |
30.7 |
75.6 |
YOLOv3 |
67.5 |
87.5 |
78.9 |
YOLOv5s |
7.0 |
15.8 |
84.3 |
YOLOv5m |
21.5 |
49.7 |
85.9 |
YOLOv6n |
4.8 |
11.6 |
81.4 |
YOLOv6s |
17.2 |
44.1 |
83.8 |
YOLOv8n |
3.5 |
8.9 |
85.2 |
YOLOv10m |
15.7 |
59.8 |
84.8 |
SWD-YOLO |
3.3 |
5.5 |
87.7 |
5. 结论
本文基于YOLOv11n网络,改进了生活垃圾分类识别算法,达到了生活垃圾分类算法的高精度识别和显著轻量化,提高了生活垃圾识别的效果。首先,通过引进SPPF-LSKA模块,使改进后的YOLOv11n算法提高了特征表示的丰富性和计算效率,增强了对不同大小垃圾的识别效果;其次,我们引入了WaveletPool模块进行进一步优化,显著降低了模型参数量和计算量,提升了模型的识别精度;最后,我们引入DynamicConv模块进行优化,进一步降低了冗余,提升了模型的识别精度。结果表明,本次改进使模型在参数量和计算量显著降低的情况下,提高了平均精度值(mAP@50)。在未来,高精度的SWD-YOLO模型的应用将使得生活垃圾分类检测更加高效、便捷和经济。此外,SWD-YOLO模型在降低了硬件要求和计算成本的基础上,使得识别垃圾的平均精度更加准确,有助于提升垃圾分类处理的智能化水平,以保护生态环境。本算法还可以为多模态融合和端到端学习应用做出一定贡献。因硬件设备受限,我们改进的算法应该还有一定的平均精度提升空间,未来希望更多的研究者加入到我们的行动中。
NOTES
*通讯作者。