基于多头注意力机制与轻量化YOLOv8的钢材缺陷检测模型

doi:10.12677/airr.2025.143065

期刊菜单

基于多头注意力机制与轻量化YOLOv8的钢材缺陷检测模型
A Steel Defect Detection Model Based on Multi-Head Self-Attention and Lightweight YOLOv8

DOI: 10.12677/airr.2025.143065, PDF, HTML, XML,
作者: 岳庚, 冯涛, 尹俊凯, 李美玲：云南大学信息学院，云南昆明
关键词: 钢材缺陷检测；YOLOv8；多头注意力机制；C2f-RepGhost模块；小目标检测层；Steel Defect Detection； YOLOv8； Multi-Head Self-Attention； C2f-RepGhost Module； Small Object Detection Layer

摘要: 为了提升钢材表面细微复杂缺陷的检测效果，本文提出一种基于多头注意力机制与轻量化YOLOv8模型。首先，在基础检测网络中加入MHSA注意力模块，起到对干扰信息的抑制作用，并增强模型对钢材图像复杂空间关系的理解能力，实现复杂环境中模型的有效特征捕获。然后，针对钢材表面缺陷细微的问题，引入小目标检测层，有效提升模型特征提取能力，进一步提高钢材缺陷检测精度，并在原C2f模块中加入RepGhost网络形成改进轻量化主干网络，大幅度加快了检测速度。与原YOLOv8模型相比，改进后的模型性能更加优越，mAP50值提高了1.9%，P值提高了8.2%，mAP50-95值提高了0.4%，能够为钢材表面缺陷的检测提供一种有效的方案。

Abstract: In this paper, in order to improve the detection effect of subtle and complex defects on the steel surface, a model based on multi-head attention and lightweight YOLOv8 was proposed. Firstly, the MHSA attention module is added to the backbone detection network to suppress the interference information and enhance the model’s ability to understand the complex spatial relationship of steel images, so as to realize the effective feature capture of the model in complex environments. Then, in order to solve the problem of subtle defects on the surface of steel, a small target detection layer was introduced to enhance the feature extraction ability, and the accuracy of steel detection was further improved, and the RepGhost network was added to the C2f module to form a lightweight backbone network, which greatly accelerated the detection speed. Compared with the original YOLOv8 model, the performance of the improved model is superior, the mAP50 value is increased by 1.9%, the P value is increased by 8.2%, and the mAP50-95 value is increased by 0.4%, which can provide an effective solution for the detection of steel surface defects.

文章引用：岳庚, 冯涛, 尹俊凯, 李美玲. 基于多头注意力机制与轻量化YOLOv8的钢材缺陷检测模型[J]. 人工智能与机器人研究, 2025, 14(3): 659-669. https://doi.org/10.12677/airr.2025.143065

1. 引言

在当今高度工业化的世界中，钢铁作为最重要的工程材料之一，其质量直接影响到众多关键产业的稳定发展与安全运行。钢材在生产过程中，表面易出现划痕、裂纹、孔洞、氧化铁皮等各类缺陷，这些缺陷若未被及时检测与处理，可能会在后续的加工、使用过程中引发严重的质量安全问题，给制造业产业链以及广大终端用户带来巨大的经济损失与安全隐患。传统的钢材表面缺陷检测方法主要依赖人工目视检查或简单的光学检测手段，这些方法不仅效率低下、劳动强度大，而且受检测人员主观因素影响明显，难以满足现代钢铁工业大规模、高精度、自动化生产的需求。

随着计算机视觉技术、深度学习算法以及高性能计算硬件的飞速发展，基于人工智能的目标检测模型在工业缺陷检测领域展现出了巨大的应用潜力。YOLO系列作为目标检测领域的代表性算法，凭借其在实时性与检测精度方面的出色表现，为钢材缺陷检测提供了新的技术思路。例如，周孟然等人提出一种YOLOv5s-FCS的钢材表面缺陷检测算法，通过引入CBF卷积模块和坐标注意力机制来优化模型的计算量和参数量，然而该模型对于小目标的检测精度较低[1]。梁礼明等人利用多谱注意力机制，从频域维度减少特征信息缺失，以提升复杂缺陷的识别准确度[2]。徐莲蓉等人将CA注意力机制模块融合到原始的Backbone中，使模型能够更好地关注目标缺陷的特征信息[3]；冒浩杰等人通过在主干网络中引入SE注意力机制增强对小目标特征的关注度。采用动态蛇形卷积替换主干网络中的部分C3模块，有效提升了微弱特征的提取能力[4]。目前，钢材表面缺陷检测算法仍存在一些不足，主要体现在以下方面：对微小目标的特征提取能力不足，难以精准捕捉微小缺陷[5]；对复杂背景干扰的鲁棒性较差，容易受到纹理或噪声的干扰导致误检或漏检[6]；在多尺度特征处理上存在局限，难以同时有效提取微小和大尺度缺陷；对动态变化的适应能力不足，难以应对生产环境中的复杂变化；此外，计算复杂度与精度之间的权衡问题仍未解决，轻量化模型可能牺牲精度，而高精度模型又难以满足实时性需求。这些问题表明，现有算法在处理钢材表面细微复杂缺陷时，仍需进一步优化其特征提取能力和鲁棒性，以提升检测效果和实际应用能力。

针对上述问题，本文深入研究并提出了一种基于多头注意力机制与轻量化YOLOv8的钢材缺陷检测模型。在模型主干网络中引入多头自注意力机制(MHSA)，通过多组独立的注意力头并行计算[7]，使模型能够从多个不同的特征空间维度对钢材图像进行深度特征挖掘，有效抑制背景噪声等干扰信息，显著增强对复杂空间关系的理解能力，从而在钢材生产线上复杂的工况环境下，精准地捕获各类细微缺陷特征。同时，针对钢材表面缺陷目标尺寸较小且特征不明显的特点，创新性地引入小目标检测层，进一步强化模型对微小目标的特征提取与识别能力，并在YOLOv8的C2f模块中集成RepGhost网络，构建轻量化主干网络架构，大幅减少模型的参数量，从而提高训练和推理速度。本文提出的模型为推动钢铁工业智能化、自动化发展，提高钢材产品质量控制水平提供了一种高效、可靠的检测方案。

2. 模型改进

Figure 1. Improved steel defect detection model

图1. 改进钢材缺陷检测模型

本文提出了一种基于多头注意力机制与轻量化YOLOv8的钢材缺陷检测模型，如图1所示。首先，在基础检测网络中引入MHSA注意力模块，增强模型对钢材图像复杂空间关系的理解能力，实现复杂环境中模型的有效特征捕获。并在C2f模块中加入RepGhost网络形成轻量化主干网络，大幅度加快了检测速度。MHSA通过捕获全局上下文信息和多维度特征，增强了模型对复杂背景的适应能力和微小目标的检测精度，同时其并行计算能力优化了特征提取效率。RepGhost网络则凭借轻量化设计和高效特征提取能力，大幅降低了计算量和参数量，提升了模型对微小目标的敏感性和推理速度，同时增强了特征提取的稳定性。两者结合后，模型能够同时提取全局上下文信息和局部细节特征，优化计算效率，增强对微小目标的敏感性，并提升整体检测的鲁棒性。然后，针对钢材表面缺陷复杂细微的问题，引入小目标检测层，增强模型特征提取能力，进一步提高检测精度。

2.1. 多头注意力机制(MHSA)模块

2.1.1. 注意力模块

自注意力机制是深度学习中处理序列数据的关键技术，广泛用于自然语言处理和图像处理等领域[8]。其核心理念是通过输入向量间的相关性，动态调整每个输入的表示。假设输入是一组向量 $X = [x_{1}, x_{2}, \dots, x_{n}]$ ，其中每个 $x_{i}$ 是一个维向量[9]。对每个输入向量 $x_{i}$ 进行线性变换，生成查询(query)、键(key)和值(value)向量，并得到高度 $R_{h}$ 、宽度 $R_{w}$ ，其中： $q_{i} = W_{q} x_{i}$ ， $k_{i} = W_{k} x_{i}$ ， $v_{i} = W_{v} x_{i}$ 。其中， $W_{q}$ 、 $W_{k}$ 、 $W_{v}$ 是可训练的权重矩阵。通过查询向量和键向量之间的相似性得分，然后通过softmax函数归一化：

$s c o r e_{i j} = \frac{q_{i} \cdot k_{j}}{\sqrt{d_{k}}}$ (1)

其中， $d_{k}$ 是键向量的维度，用于缩放以防止数值过大。使用归一化后的分数对值向量进行加权求和，得到每个输入向量的输出表示：

$Attention (x_{i}) = \sum_{j = 1}^{n} softmax (s c o r e_{i j}) v_{j}$ (2)

Figure 2. Self-attention module

图2. 自注意力机制模块

自注意力机制通过上述步骤，使得模型能够关注输入序列中的重要部分，从而提升模型的表现。其并行化和捕获长距离依赖关系的能力，使其在现代深度学习模型中发挥了重要作用[10]。自注意力机制模块结构如图2所示。

2.1.2. MHSA模块

多头自注意力机制(Multi-Head Self-Attention, MHSA)是由多个自注意力机(Self-Attention)组合而成的，目的是为了让注意力更好地发挥作用。假设有多个注意力头，每个头都有独立的查询、键和值的线性变换：

$q_{i}^{h} = W_{q}^{h} x_{i}, k_{i}^{h} = W_{k}^{h} x_{i}, v_{i}^{h} = W_{v}^{h} x_{i}$ (3)

每个头部执行自注意力机制，得到输出：

$h e a d_{h} = \sum_{j = 1}^{n} softmax (\frac{q_{j}^{h} \cdot k_{j}^{h}}{\sqrt{d_{k}}}) v_{j}^{h}$ (4)

将所有头的输出拼接在一起，并进行线性变换，得到最终的输出：

$MultiHead (x_{i}) = W_{o} [h e a d_{1}, h e a d_{2}, \dots, h e a d_{h}]$ (5)

相对于自注意力机制，多头自注意力机制提取的特征更多，计算得出的结构精度更高[11]。多头自注意力机制通过引入多个并行的注意力头，能够从多个角度分析特征图，提升全局上下文的理解能力，同时增强特征提取的多样性。每个注意力头可以专注于特征图的不同维度，从而捕获更丰富的特征信息，同时通过多个注意力头的并行计算，模型能够同时关注特征图中的多个重要区域，避免单头注意力的局限性。这种机制使得模型在复杂场景中能够更好地处理目标检测任务，提升全局上下文的理解能力和局部细节的增强。多头自注意力机制模块结构如下图3所示。

Figure 3. Multi-head self-attention module

图3. 多头自注意力机制模块

2.2. 动态稀疏注意机制

RepGhost模块

本文引入了RepGhost模块的思想，RepGhost模块是一种用于特征图处理的轻量化模块，通过重复利用少量可学习参数处理特征图，以减少计算量和模型参数。下图4为RepGhost模块结构图，其中的1 × 1卷积和激活函数ReLU产生了输入通道数量减半的效果；引入SE层和1 × 1卷积提升模型对特征的识别性，同时使得通道能够与后续结构匹配；RepGhost模块中输出维度是输入的1倍[12]。整体RepGhost颈部模型在训练和推理上节约大量资源，结构重参数化的技术使得推理过程中仅仅含有2个分支，进而提升推理性能和节约内存成本。通过在C2f模块中集成RepGhost模块以替换传统的Bottleneck模块，该结构通过高效特征提取，能够生成更丰富的特征表示，使得模型在复杂任务中更具鲁棒性，模块的特征重用机制共享部分特征计算，避免了冗余的特征提取过程，能够显著降低计算复杂度，在加快模型推理速度的同时，减少了计算资源的消耗，从而实现改进模型更快的推理速度和更高的检测精度。改进C2f模块得到的C2f-RepGhost模块如图5所示。

Figure 4. RepGhost module

图4. RepGhost模块

Figure 5. C2f-RepGhost module

图5. C2f-RepGhost模块

2.3. 小目标检测层(SOD层)

在钢材表面缺陷检测任务中，由于缺陷样本数量有限且YOLOv8模型的下采样比例较大导致YOLOv8原有检测头对微小目标的检测能力不佳，网络在提取微小缺陷特征时面临显著挑战。为解决这一问题，本文提出了一种创新的多尺度特征增强方案。首先，在网络结构中新增了160 × 160高分辨率检测层如图6所示，该层通过融合深层语义信息和浅层定位特征，有效保留了钢材表面的细粒度缺陷特征，检测层包含的特别设计的低级特征检测头进一步强化了对微小瑕疵的识别能力。此外，在完成4次降采样后，采用自适应权值分配模块实现多尺度特征的智能融合，通过动态调整不同尺度特征的贡献度，显著提升了网络对缺陷特征的敏感度。实验结果表明，该方案不仅改善了模型对微小缺陷的检测性能，还在保持高召回率的同时有效降低了误检率，为工业质检领域的小目标检测问题提供了有效的解决方案。这种结合高分辨率检测层和自适应特征融合的网络设计，既克服了传统方法在下采样过程中的信息损失问题，又增强了对复杂背景下微小缺陷的判别能力。

Figure 6. Small object detection layer

图6. 小目标检测层

3. 实验结果及分析

3.1. 硬件条件及参数设置

3.1.1. 硬件配置

本实验的环境配置见下表1，对比实验的硬件配置与该环境的配置相同。

Table 1. Model operating environment

表1. 模型运行环境

CPU	RAM	GPU	操作系统	Cuda	Pytorch	Python	Miniconda
16 vCPU	24 GB	RTX4090	Windows 11	11.8	2.1.2	3.10	4.11.0

3.1.2. 数据集

本研究采用NEU-DET标准数据集进行模型训练与评估，该数据集是钢材表面缺陷检测领域广泛使用的基准数据集[13]。数据集包含六类典型的钢材表面缺陷，分别是轧制氧化皮(RS)、斑块(Pa)、开裂(Cr)、点蚀表面(PS)、内含物(In)和划痕(Sc)，每类缺陷各包含300张200 × 200像素的图像样本。为确保实验的可靠性和可重复性，本研究采用8:1:1的比例将数据集划分为训练集、验证集和测试集，其中训练集包含1428张图像，验证集和测试集各包含186张图像。这种划分方式既保证了模型训练的充分性，又能通过独立的验证集和测试集对模型性能进行客观评估。数据集中的各类缺陷样本数量均衡，有效避免了类别不平衡问题，为后续的对比实验提供了可靠的数据支持。所有实验均在相同的数据划分方案下进行，以确保不同模型间比较的公平性。

3.2. 评价指标

为了验证模型的实用性，我们将其应用于钢材缺陷检测任务，并进行了全面的评估和测试。主要目的是比较基于三个核心因素的钢材缺陷检测算法组合：检测的准确性、模型训练的效率以及计算资源的需求。

在项目实施过程中，我们选择了精确度(P)、召回率(R)以及平均精度均值(mAP)作为评估模型性能的主要指标。同时，为了更全面地评估轻量级模型的实际表现，我们还考虑了浮点运算量和检测速度这两个因素。系统的计算方式如下：

$P = \frac{T P}{T P + F P}$ (6)

$R = \frac{T P}{T P + F N}$ (7)

$AP = \int_{0}^{1} P (R) d R$ (8)

$mAP = \frac{1}{n} \sum_{i = 0}^{n} {AP}_{i}$ (9)

其中，TP (真正例)表示实际为阳性且被模型正确分类的样本数，FP (假正例)对应实际为阴性但被错误判定为阳性的样本数，而FN (假反例)则是实际为阳性却被误判为阴性的样本数。此外，n在此处代表数据集中所有类别的样本总数。

3.3. 实验结果

3.3.1. 注意力机制对比实验

Table 2. Comparative experiments with different attention mechanisms

表2. 不同注意力机制的对比实验

Models	P	R	mAP50	mAP50-95
base	71.6	76.3	78.4	48
+CBAM	72.5	71.6	77.8	48
+GAM	77.6	69.6	78.7	47.8
+BiFormer	73.1	71.0	77.3	47.7
+MHSA (ours)	78.6	69.3	78.4	48.5

为了检验MHSA注意力模块对模型特征提取能力的增强效果，本研究在原始网络架构中依次集成了CBAM、GAM、BiFormer和MHSA四种注意力机制。在保持实验数据集和软硬件条件一致的情况下，对各注意力模型的性能进行了系统测试与对比分析。实验数据如表2所示，实验结果表明，所有注意力机制的引入均能在不同程度上提升基准模型的性能指标，而MHSA模块表现尤为突出：其准确率P显著提高了7%，综合检测精度mAP50-95增长了0.5%，这两项关键指标在所有对比实验中均最高。

3.3.2. C2f模块改进对比实验

为了充分评估本文提出的改进型C2f模块的性能优势，我们在相同实验环境和数据集下，对多种C2f改进方案进行了对比测试。各模块的关键训练指标对比结果如表3所示。

Table 3. Comparative experiment of different convolution modified C2f modules

表3. 不同卷积改C2f模块对比实验

Models (加入小目标检测层)	P	R	mAP50	mAP50-95
Base	69	76.4	78.5	47.6
DCNv2	74.7	74.7	78.3	47.2
DySnakeConv	74	71.7	78.6	47.9
DCNv3	75.4	71.8	78.9	48.7
RepGhost (ours)	77.6	70.7	79.3	48

对比实验结果表明，相较于基准模型，各改进模块均展现出不同程度的性能提升。特别值得注意的是，本文提出的C2f-RepGhost模块取得了最优异的改进效果：准确率P显著提升8.6个百分点，目标检测精度mAP50提高0.8%，综合检测性能mAP50-95也实现了0.4%的增长，整体性能表现突出。

3.3.3. 消融实验

为了分析不同改进对模型性能提升的影响，本文通过设计相同软硬件条件及相同数据集下的消融实验来验证本文改进模型的有效性，下表4为消融实验各改进的客观性能指标。

Table 4. Ablation experiments

表4. 消融实验

Experiments	MHSA	C2f-RepGhost	小目标检测层	P	R	mAP50	mAP50-95
0				71.6	76.3	78.4	48
1	√			78.6	69.3	78.4	48.5
2		√		75	74.2	78.3	48.1
3			√	69	76.4	78.5	47.6
4	√	√		77.4	71.8	79.7	49.4
5	√	√	√	79.8	70.99	80.3	48.4

从表4中可以看出，在添加MHSA注意力模块后，相较于原网络结构，P值提升7%，mAP50-95值提升了0.5%；在此基础上，在C2f模块中引进可变形卷积RepGhost后，P值有所下降，其余指标均有明显提升；最后在模型中继续引入小目标检测层，R值及mAP50-95小幅度下降，P值提升2.4%，mAP50值提升0.6%。在本次消融实验中，本文整体改进后的YOLOv8模型，R值、mAP50值、mAP50-95值均衡表现最佳，性能提升效果显著。

3.3.4. 其他目标检测算法对比实验

为验证本文提出的基于多头注意力机制(MHSA)与轻量化YOLOv8的钢材缺陷检测模型的有效性，我们选取了当前目标检测领域的代表性算法进行全面的对比实验。实验选取的对比模型包括：YOLO系列中的经典模型YOLOv5、基准模型YOLOv8，以及最新发布的YOLOv10和YOLOv12。这些对比模型涵盖了从传统到前沿的不同技术路线，能够充分验证本文方法的性能优势。所有对比实验均在相同的硬件环境和数据集下进行，确保实验结果的公平性和可比性。通过对比mAP、推理速度、模型参数量等关键指标，可以全面评估各模型在钢材缺陷检测任务中的实际表现。下表5为各算法在本文自制数据集下训练的客观性能指标。

Table 5. Comparative experiment of object detection algorithm

表5. 目标检测算法对比实验

Models	P	R	mAP50	mAP50-95
YOLOv5	73.3	76.5	77.8	46.3
YOLOv8	71.6	76.3	78.4	48
YOLOv10	79.5	67.2	77.0	46.5
YOLOv12	71.6	76.2	78.0	46.9
ours	79.8	70.99	80.3	48.4

由表可知，本文提出的改进模型相较于目前的主流检测模型，在钢材缺陷检测上表现最佳，P值、mAP50值、mAP50-95值分别为79.8%、80.3%、48.4%，在对比实验中均为最高，相较于改进前各项指标均有提升，改进后模型性能提升显著。

3.3.5. 检测效果与分析

通过对比YOLOv8基准模型与改进模型的检测效果(如图7所示)可以发现，原始YOLOv8模型在钢材表面缺陷检测任务中存在明显的性能局限：首先，在细微缺陷识别方面，模型出现了显著的漏检现象，具体表现为(a) 斑块缺陷未检出、(b) 轧制氧化皮目标遗漏、(c) 划痕特征识别失败以及(d) 开裂缺陷漏检；其次，该模型还存在误检率较高、小目标检测精度不足等问题。相比之下，改进后的模型在这些关键性能指标上均有显著提升，不仅有效降低了漏检误检率，还大幅改善了小目标检测效果，整体检测准确率得到明显提高。

Figure 7. Comparison diagram of model detection results

图7. 模型检测效果对比图

4. 结论

针对传统检测算法在面对钢材表面复杂工况环境时存在漏检误检、检测精度不足、对细微缺陷特征提取能力有限的缺陷，本文基于自制钢材缺陷数据集对YOLOv8模型进行优化改进。通过在主干检测网络中引入多头自注意力机制(MHSA)模块，显著增强模型对钢材图像复杂空间关系的理解能力，有效抑制背景噪声等干扰信息，提升特征捕获精度。同时，在C2f模块中集成RepGhost网络，构建轻量化主干网络架构，大幅减少模型参数量与计算开销，显著提升检测速度。此外，引入小目标检测层，进一步强化模型对微小目标的特征提取与识别能力。实验数据证实，本研究提出的优化模型在钢材表面缺陷检测任务中展现出卓越的综合性能：首先，在复杂工业场景下，该模型能够稳定识别各类表面缺陷，包括传统方法难以检测的微小缺陷；其次，定量分析显示所有关键性能指标均获得显著改善。这种高效的检测方案不仅大幅提升了缺陷识别准确率，更为钢铁制造行业的智能化升级提供了可靠的技术支持。

参考文献

[1]	周孟然, 王昊男, 高立鹏, 等. 基于YOLOv5s-FCS的钢材表面缺陷检测[J]. 科学技术与工程, 2024, 24(14): 5901-5910.
[2]	梁礼明, 龙鹏威, 金家新, 等. 基于改进YOLOv8s的钢材表面缺陷检测算法[J]. 浙江大学学报(工学版), 2025, 59(3): 512-522.
[3]	徐莲蓉, 梁少华. 改进YOLOv8的钢材表面缺陷检测算法[J]. 现代电子技术, 2025, 48(4): 173-180.
[4]	冒浩杰, 巩永旺. 改进YOLOv5s的小目标钢材表面缺陷检测算法[J/OL]. 电子科技: 1-10. 2025-03-24.[CrossRef]
[5]	张航, 周毅, 邱宇峰. 融合HGnetv2和注意力机制的钢材表面缺陷检测方法[J/OL]. 电子测量与仪器学报: 1-16. http://kns.cnki.net/kcms/detail/11.2488.TN.20241227.0940.008.html, 2025-03-23.
[6]	Zhu, G., Qi, H. and Lv, K. (2025) DGYOLOv8: An Enhanced Model for Steel Surface Defect Detection Based on YOLOv8. Mathematics, 13, Article No. 831. [Google Scholar] [CrossRef]
[7]	郝用兴, 建文芳, 牛金星, 等. 基于YOLOv8-MHSA-DCN的水下垃圾识别研究[J]. 制造业自动化, 2025, 47(1): 96-102.
[8]	高佳杰, 司亚超. 基于YOLOv8的无人机图像目标检测算法[J]. 河北建筑工程学院学报, 2024, 42(4): 241-249.
[9]	刘文兵, 雷钰, 李广飞, 等. 基于Bi-LSTM和多头自注意力的空战目标意图识别模型[J]. 航空科学技术, 2024, 35(10): 86-94.
[10]	孙翠羽, 雷皓安, 范谦, 等. 基于视觉面部特征疲劳驾驶检测方法[J]. 交通科技与经济, 2025, 27(2): 57-65.
[11]	曹庆园, 朱建鸿. 基于改进残差网络的混凝土砂石骨料种类识别研究[J]. 计算机科学, 2024, 51(S2): 308-313.
[12]	孙毅, 张双德. 基于改进YOLOv5s的轻量化牛油果成熟度检测方法[J]. 信息技术与信息化, 2024(10): 103-107.
[13]	赵曙光, 易文, 陆小辰. 基于YOLOV7-Tiny的轻量化钢材表面缺陷检测方法[J/OL]. 东华大学学报(自然科学版): 1-11. 2025-03-23. [Google Scholar] [CrossRef]

为你推荐

友情链接