1. 引言
随着全球经济的迅猛推进,汽车行业作为国民经济架构中的关键支撑产业,持续面临着一系列新兴的挑战与前所未有的发展机遇。在这一背景下,汽车设计与制造领域的细分专业,特别是汽车轮毂的设计与制造环节,在科技进步的强力驱动下,正经历着一场深刻的转型与革新。汽车轮毂作为构成汽车整体的关键组件之一,其在提升车辆审美价值及优化行驶性能方面扮演着举足轻重的角色[1]。鉴于此,针对汽车轮毂的细致分类及其在生产流程中的质量检测技术研究,已成为当前工业实践中亟待深入探索的重要课题。这些研究不仅对于确保汽车轮毂的质量安全具有重要意义,同时也为汽车行业整体的技术进步与产业升级提供了坚实的基础支撑。
近年来,随着计算机视觉与深度学习技术的持续成熟及广泛应用,众多传统领域所面临的难题已获得了革命性的解决途径。特别是在汽车轮毂分类这一特定领域内,运用计算机视觉与深度学习技术来构建高效、智能的分类系统,已成为学术界与工业界共同关注的研究热点。这一研究方向旨在通过先进的算法模型,实现对汽车轮毂类型的精准识别与分类,从而为汽车制造、质量检测及库存管理等多个环节提供强有力的技术支持与智能化升级。
长久以来,汽车轮毂的分类问题一直是汽车工业领域的一个重要研究方向。鉴于汽车轮毂在形状、纹理等特征上的高度多样性,传统分类方法在处理复杂情境时往往展现出较低的准确度与鲁棒性,这在一定程度上限制了其在实际应用中的效果[2]。随着深度学习技术的蓬勃发展与不断突破,基于深度学习的目标检测算法逐渐崭露头角,成为应对复杂视觉挑战的有效工具,展现出强大的潜力和广泛的应用前景[3]。特别是YOLO系列中的最新成员——YOLOv8 [4]-[7],凭借其出色的性能表现与高效的实时处理能力,在学术界与工业界均引起了广泛的关注并获得了高度评价。
本研究的核心目标在于,利用YOLOv8算法构建一种智能化的汽车轮毂分类系统,以显著提升汽车轮毂分类的精确度和效率。该系统将充分利用YOLOv8在目标检测领域的先进特性,实现对汽车轮毂的精准识别与高效分类。此外,本研究还将通过一系列实际案例的验证,全面评估所构建系统在不同应用场景下的适用性与可靠性,以期为推动汽车工业智能化进程贡献力量。
2. 轮毂检测系统设计
2.1. 轮毂分类系统模型整体设计
基于YOLOv8的汽车轮毂识别系统的具体实现流程如图1所示。该流程首先对采集到的汽车轮毂X光图像进行一系列预处理步骤,以增强图像中轮毂的有效信息并有效抑制噪声干扰,从而提升后续识别过程的准确性。随后,本研究设计了一种经过优化的YOLOv8网络架构,并对其进行训练。此优化旨在保持网络高性能的同时,有效降低计算复杂度,提升处理效率。在训练阶段,预处理后的汽车轮毂X射线图像被用作输入数据,相应的轮毂型号信息被精确标注作为标签数据。通过多次迭代训练与参数优化,模型逐步学会从输入图像中自动提取关键特征,并准确判断轮毂的具体型号。最终,经过充分训练的模型能够实现对新输入的轮毂图像进行高效且准确地型号判定,为汽车轮毂的智能化识别与分类提供了有力的技术支持。
Figure 1. Specific steps of automobile wheel hub recognition based on YOLOv8
图1. 基于YOLOv8的汽车轮毂识别具体步骤
2.2. 轮毂图像预处理
在汽车轮毂的检测与识别流程中,汽车轮毂图像的预处理与增强环节占据着至关重要的地位。此环节的核心目标在于有效消除图像中存在的噪声及无关信息,同时显著提升图像的清晰度与对比度,从而为后续的特征提取、识别及处理步骤奠定坚实的基础。通过实施一系列精细的图像预处理与增强技术,可以极大地改善图像质量,使得轮毂的关键特征得以更加清晰地展现,进而促进识别精度的提升与处理效率的优化。
2.2.1. 去背景
在轮毂图像的预处理阶段,本文采用了阈值分割与形态学操作相结合的方法,以实现轮毂与背景的有效分离。首先运用阈值分割技术将图像划分为前景(即轮毂区域)与背景两部分。随后,针对前景部分,实施形态学操作,包括填充、膨胀及腐蚀等,进一步清除残留的背景信息并将背景区域明确标记为黑色。这一系列操作的目的在于优化图像,使轮毂区域更加突出,同时实现背景的彻底去除。轮毂图像经过去背景处理后的效果如图2所示,展示了该方法在实际应用中的有效性与可行性。
Figure2. Wheel image to remove the background
图2. 轮毂图像去背景
2.2.2. 滤波去噪
在去噪处理环节中,本研究选用了高斯滤波的方法作为图像去噪的主要手段。高斯滤波器通过对图像的每一个像素执行卷积操作来实现噪声的去除,其中,卷积核的设计基于二维高斯函数。具体而言,该高斯函数的中心与卷积核的中心重合,而其标准差则决定了高斯函数的宽度,进而影响了滤波器的平滑效果。高斯滤波器的二维数学表达式被详细列于公式(1)中,该公式为理解高斯滤波器的工作原理及其参数设置提供了坚实的理论基础。
(1)
在此处所描述的高斯滤波方法中,变量x和y分别代表图像中像素相对于中心像素在水平方向和垂直方向上的位移距离。而σ则代表高斯分布的标准差,它决定了高斯函数的分布宽度,进而影响滤波器的平滑强度。通过应用高斯滤波器对轮毂图像进行处理,可以有效减少图像噪声,增强图像质量。轮毂图像经过高斯滤波处理后的效果如图3所示,该图展示了高斯滤波在提升图像清晰度和平滑度方面的显著作用。
Figure 3. Gaussian filtering of the hub image
图3. 轮毂图像高斯滤波处理
2.3. YOLOv8算法及其改进
2.3.1. YOLOv8网络模型
YOLOv8是一种专为目标检测任务设计的深度学习网络模型,其网络架构主要由输入层、骨干网络、颈部网络、头部网络以及输出层五大部分构成。首先,输入层负责接收待检测的图像,并通过预处理步骤为后续的特征提取过程奠定坚实基础。随后,骨干网络采用了DarkNet-53结构,通过一系列连续的卷积操作,从输入图像中提取出深层次的特征信息。在YOLOv8中,C2f结构的引入是一个显著的创新点,它有效地丰富了模型的梯度流,显著提升了特征提取的效果与效率。颈部网络位于骨干网络之后,巧妙地融合了来自不同尺度的特征图,实现了多尺度特征的增强与聚合。这种设计策略使得模型能够更加精准地捕捉到图像中不同大小的目标,从而显著提高了目标检测的准确性。头部网络作为YOLOv8架构中的核心组件,承担着在颈部网络输出的特征图上进行目标检测的重任。值得一提的是,YOLOv8采用了Anchor-Free的检测头设计,这一创新直接预测了目标的位置与尺寸,极大地提升了模型的灵活性与通用性。头部网络内部,多个卷积层与全连接层紧密协作,共同预测目标的类别、位置以及尺寸等关键信息。最终,输出层负责将头部网络预测的结果进行解码与格式化处理,生成清晰、准确的检测结果。整个YOLOv8网络结构的布局与功能如图4所示,该图直观地展示了模型各组成部分之间的连接与交互,以及它们在目标检测任务中所扮演的关键角色。
Figure 4. YOLOV8 network structure
图4. YOLOV8网络结构
在轮毂分类任务中,YOLOv8算法凭借其复杂的网络结构,能够从输入的轮毂图像中逐层次地提取出多级特征,这些特征涵盖了轮毂的形态、纹理等关键鉴别信息,对于后续的轮毂分类任务至关重要。具体而言,算法通过RPN (Region Proposal Network)机制[8],基于特征图的信息生成了一系列候选区域,这些区域作为潜在的轮毂位置,为后续的分类和定位提供了重要的预测基础,有助于提高分类的准确性。对于每一个生成的候选区域,YOLOv8算法进一步利用卷积神经网络进行精细化特征提取,依据这些特征来确定轮毂的精确位置和尺寸。同时,模型还具备预测每个候选区域所属轮毂类别的能力,实现了对轮毂类型的精准判别。在训练阶段,YOLOv8采用了一种损失函数,该函数用于量化模型预测结果与真实标签之间的差异,从而准确评估模型的性能。通过反向传播算法,模型能够不断优化其网络参数,最小化损失函数值,进而提升分类的准确性。为了获得更为精确的轮毂分类和定位结果,算法还采用了非极大值抑制(Non-Maximum Suppression, NMS)算法,有效消除了冗余和重叠的预测结果,确保了最终输出结果的准确性和可靠性。这一系列步骤共同构成了YOLOv8在轮毂分类任务中的完整处理流程。
2.3.2. 针对轮毂分类的改进与优化
轮毂分类任务要求模型具备精确识别多种类型轮毂的能力,这包括但不限于不同品牌、尺寸、材质的轮毂辨识。鉴于轮毂种类繁多且形态各异,在实际应用中,模型还需应对各种复杂场景和多变的光照条件。因此,针对YOLOv8算法进行进一步的优化,以提升其泛化能力,确保分类的准确性,并降低误检、漏检的概率,是至关重要的。通过优化,模型应能够更好地适应轮毂类型和场景的变化,从而显著提高分类的稳定性和可靠性。为实现这一目标,本研究引入了Focal Loss函数[9]作为损失度量标准。Focal Loss通过动态调整各类样本的损失权重,使得模型在训练阶段能够更加聚焦于那些数量较少或难以正确分类的样本。当模型对某一类别的样本展现出良好的分类性能时,Focal Loss会相应地降低该类别样本的损失权重;反之,当模型对某一类别的样本分类效果不佳时,则会增加其损失权重。这种机制促使模型更加全面地学习各类轮毂的特征,特别是在处理特征模糊、存在遮挡或光照条件恶劣的图像时,能够显著提升分类的准确性和稳定性。Focal Loss函数的数学表达式为:
(2)
在此公式中,
表示模型对于每个样本属于某一类别的预测概率;
是一个超参数,代表不同类别的权重,用于调整模型对不同类别样本的关注程度;
则是一个可调整的参数,用于调控低概率预测样本对损失函数的贡献度。随着
值的增大,模型将愈发聚焦于那些难以正确分类的样本,即那些预测概率较低的样本。通过精细地调整
和
的值,Focal Loss函数能够动态地增大类别较少或分类难度较高样本的权重,同时调整易分类样本与困难分类样本之间的权重关系,从而引导模型更加专注于那些难以分类的样本,进而提升整体分类性能。这一机制在实现高精度轮毂分类任务中尤为重要,它有助于模型更好地应对类别不平衡和复杂多变的轮毂特征。图5展示了改进后的LOSS指标图,该图直观地反映了Focal Loss函数在实际应用中的效果,进一步验证了其在提升轮毂分类精度方面的有效性。
Figure 5. Improved LOSS indicator chart
图5. 改进后LOSS指标图
2.4. UI界面设计
为了提高基于YOLOv8汽车轮毂分类系统的易用性,本文采用PyCharm集成开发环境以及PyQt图形用户界面[10]精心设计了用户界面(UI),其核心功能涵盖模型选择、图片检测以及系统退出三大模块。用户借助直观的按钮和菜单等交互控件,能够便捷地执行预训练模型的加载操作、对汽车轮毂图片进行高效检测,并在必要时通过安全机制退出系统。图6直观展示了本系统UI界面的实际效果,充分验证了其设计的合理性和用户友好性。
Figure 6. System UI interface effect
图6. 系统UI的界面效果
3. 实验过程
3.1. 实验环境与参数设置
本文实验所使用的硬件条件主要为CPU (Intel (R) Core (TM) i7-10510U CPU @ 1.80GHz2.30GHz)和GPU (NVIDIA GeForce MX330)。软件环境为Windows 10环境下的Pytorch 1.13.1;CUDA 11.7;Python 3.8等。
3.2. 轮毂图像数据集构建
3.2.1. 轮毂X光图像获取
本研究系统性地收集了8种不同类别的比亚迪汽车轮毂X光图像,共计437张。为了扩充数据集规模并提升其多样性,我们采用了图像对比度增强和图像旋转等数据扩充技术,成功将原始图像集扩展至870张,确保了每一类别的图像数量均超过100张,从而构建了一个完整且均衡的原始数据库作为后续数据集制作的基础。这一举措不仅增强了模型的泛化能力,还有效避免了因数据不平衡导致的偏差。图7展示了这8种类型轮毂图像的样本实例,直观体现了数据集的多样性和代表性。
Figure 7. Examples of 8 types of hub samples
图7. 8种型号轮毂样本示例
3.2.2. Make Sense轮毂类别标注
本研究进行轮毂类别标注时,采用专业的图像标注工具——Make Sense,对采集的轮毂图像数据进行精确标注,明确轮毂在图像中的精确位置及其类别信息。我们首先确立了适用于YOLOv8模型的标注格式,即“<object-class-id> <x> <y> <width> <height>”,其中<object-class-id>代表目标物体的类别编号,<x>和<y>表示目标物体边界框左上角的坐标,<width>和<height>则分别代表边界框的宽度和高度。随后,我们将870张比亚迪汽车轮毂的X光图像上传至标注系统,并选择“图像识别”功能进行图像分类标注。在标注过程中,我们根据轮毂的具体类型,定义了从LG1至LG8的标签,以区分不同的轮毂类别。接着,利用矩形形状工具对图像中的轮毂进行精确标注,根据其类型分配相应的标签并进行分类。完成所有图像的标注后,我们将标注数据导出为YOLO格式的标签文件,以便后续进行模型训练或评估使用。图8展示了轮毂图像标注界面的具体样式。
Figure 8. Wheel image annotation interface
图8. 轮毂图像标注界面
3.2.3. 轮毂数据集划分
本系统采纳随机分配策略,对已标注的轮毂数据集进行划分,以构建训练集、验证集及测试集,其中,三者所占的比例设定为7:2:1。该数据集的详细分布信息参见表1。
Table 1. Hub image dataset distribution
表1. 轮毂图像数据集分布
网络模型 |
总数量 |
训练集 |
验证集 |
测试集 |
YOLOv8 |
870 |
522 |
261 |
87 |
3.3. 模型训练
Table 2. YOLOv8 model training parameters
表2. YOLOv8模型训练参数
参数名称 |
参数值 |
Model |
yolov8n.pt |
Data |
my_datasets.yaml |
Epochs |
100 |
Patience |
50 |
Batch |
16 |
Loss Function |
Focal Loss |
在训练YOLOv8模型的过程中,首先需从数据集中载入图像及其对应的标签数据。这些数据随后被输入至模型中,模型执行前向传播操作以生成预测结果。随后,将预测结果与真实标签进行对比,利用特定的损失函数来计算模型所产生的损失值。紧接着,采用反向传播算法,计算损失函数相对于模型参数的梯度,通过优化过程最小化该损失值。本系统实验中所采用的模型训练参数详情,请参阅表2。
4. 实验结果与分析
4.1. 实验结果
在完成YOLOv8网络模型的训练阶段后,我们利用测试集中的轮毂图像进行了模型验证。鉴于实际应用场景中轮毂图像可能遭受噪声干扰的问题,我们特别设计了一组实验,在多种噪声干扰的条件下对轮毂图像进行测试。实验对比了原始YOLOv8模型与经过改进后的YOLOv8模型在各类噪声干扰下的轮毂分类系统检测性能。相关检测效果的对比图示,请参见图9。
Figure 9. Detection effect of hub classification system under different noise interference
图9. 不同噪声干扰下轮毂分类系统检测效果
在该图示中,方框的左上方区域展示了汽车轮毂的类别名称,具体为“LG1-LG8”。位于标签右侧的数值则代表了模型针对该类别所给出的预测置信度,该数值量化了模型对于图像中存在该类别物体的确信程度。通常而言,该置信度数值的取值范围限定在0至1之间,其中0表示模型完全不确信,而1则表示模型完全确信。
4.2. 实验结果分析
通过对基于YOLOv8的汽车轮毂分类系统实施的一系列实验,我们在训练集上针对8种不同类型的轮毂进行了详尽的测试,系统地评估了模型在训练集、验证集以及测试集上的性能表现。
原始YOLOv8模型与经过改进后的YOLOv8模型在整体性能上的比较结果,已详细汇总并展示在表3中。
Table 3. Comparison of the overall evaluation results of different models
表3. 不同模型整体评估结果对比
网络名称 |
准确率(%) |
召回率(%) |
mAP50 (%) |
mAP50~95 (%) |
YOLOv8 |
96.5 |
97.78 |
99.5 |
98.2 |
改进后YOLOv8 |
98.43 |
98.99 |
99.5 |
99.5 |
根据表3的数据展示,采用Focal Loss函数作为损失函数改进后的YOLOv8模型,在多个核心评估指标上相较于原始的YOLOv8模型展现出了显著的性能提升。改进后的模型在准确率方面实现了从96.5%至98.43%的增长,这标志着其在预测目标类别时具有更高的精确性,有效地降低了误判的概率。同时,其召回率也从97.78%提升至98.99%,反映了改进模型能够更全面地检测到真实目标,增强了目标检测的完整性。在衡量目标检测模型综合性能的关键指标mAP (平均精度均值)方面,特别是在更宽泛的IoU (交并比)阈值范围(0.5至0.95)内,改进后的YOLOv8模型的mAP50~95达到了99.5%,相较于原始模型的98.2%有了明显的进步。这一结果揭示了改进模型在处理具有不同重叠程度的目标时,展现出更强的鲁棒性和准确性。
鉴于实际应用场景中轮毂检测常面临噪声干扰的问题,我们进一步在含有噪声干扰的条件下对轮毂图像进行了实验评估。原始YOLOv8模型与改进后的YOLOv8模型在不同噪声干扰下的轮毂分类系统评估结果,详细列于表4中。
Table 4. The overall evaluation results of different models under noise interference
表4. 噪声干扰下不同模型整体评估结果
网络名称 |
噪声干扰 |
准确率(%) |
召回率(%) |
mAP50 (%) |
mAP50~95 (%) |
YOLOv8 |
泊松噪声 |
94 |
98.7 |
99 |
75.6 |
高斯噪声 |
97.1 |
78.6 |
81.3 |
88.6 |
椒盐噪声 |
80.8 |
68.4 |
79.2 |
74.8 |
改进后的YOLOv8 |
泊松噪声 |
95 |
98.3 |
99.5 |
88.4 |
高斯噪声 |
97.1 |
84.8 |
90.8 |
89.8 |
椒盐噪声 |
87.9 |
89.8 |
95.4 |
84.3 |
根据表4的数据分析,改进后的YOLOv8模型在面临泊松噪声、高斯噪声以及椒盐噪声等多种噪声条件干扰时,其性能普遍超越了原始的YOLOv8模型。在泊松噪声环境下,改进模型不仅维持了高准确率,还显著提升了mAP50~95的分数,显示了其在复杂噪声条件下的稳定表现。在高斯噪声的影响下,改进模型的召回率以及mAP50、mAP50~95分数均有所增长,这进一步验证了其对噪声具有较强鲁棒性。值得一提的是,在椒盐噪声的严峻挑战下,改进模型在准确率、召回率、mAP50以及mAP50~95等所有关键评估指标上均实现了显著提升,这充分表明其在处理椒盐噪声方面进行了有效的算法优化。综合上述数据,可以得出结论:改进后的YOLOv8模型在应对多样化的噪声条件时,展现出了更为优越的目标检测性能和更强的鲁棒性。
实验结果表明,无论是在对汽车轮毂整体的评估,还是针对不同类型单个轮毂的细致评估中,改进后的YOLOv8模型在训练集上都取得了较高的分类准确率。同时,该模型在验证集和测试集上的表现同样优异,这充分证明了其强大的泛化能力。这些实验结果不仅验证了改进模型的有效性,也为后续的汽车轮毂分类系统研究提供了有力的支持。
5. 结论
本研究致力于开发一个基于YOLOv8架构的汽车轮毂分类系统,其核心目标在于实现对汽车轮毂的精确分类与识别。通过一系列的实验验证,我们得出了以下关键结论:
首先,我们以YOLOv8模型为基石,充分结合了汽车轮毂分类任务的独特需求,对模型进行了针对性的设计与优化。通过在大规模数据集上的充分训练,我们成功构建了一个在轮毂分类任务中展现出卓越性能的模型。
其次,我们对所设计的汽车轮毂分类系统进行了实验分析。实验结果显示,该系统在训练集、验证集以及测试集上均取得了显著的提升,具体表现为分类准确率高达98.43%,同时mAP (平均精度均值)值也达到了99.5%的优异水平。这些结果有力地验证了该系统在实际应用中的有效性和可行性。
此外,我们还对系统的实时性能进行了细致的评估。评估结果表明,该系统能够在实时环境下实现快速且准确的轮毂分类,充分满足了实际应用场景对于处理速度和准确性的双重要求。这一发现进一步证明了本研究所提出的基于YOLOv8的汽车轮毂分类系统在实际应用中的巨大潜力和价值。
基金项目
陕西省教育厅重点研究计划项目;陕西省大学生创新创业训练计划项目(项目编号:S202310723035);渭南师范学院教学改革项目(项目编号:JG202135)。