1. 引言
煤炭是我国的主体能源,其清洁高效利用对于国家能源安全与环境保护至关重要。传统的煤矸石分选工艺主要依赖人工手选和湿法分选。人工手选存在劳动强度大、分选效率低且误选率高的问题;而湿法分选虽然精度较高,但面临高耗水、高能耗、易造成水体污染以及煤泥后续处理难等瓶颈。随着绿色矿山建设的推进,开发基于机器视觉的智能干式分选技术,实现“无水、高效、低能耗”的煤矸分离,已成为行业发展的必然趋势。
近年来,计算机视觉技术在工业检测领域取得了显著进展。涵盖医疗诊断[1] [2]、农业监测[3] [4]、目标识别[5] [6]及工业制造[7] [8]等方面任务。早期的煤矸石识别主要依赖传统机器学习方法,通过提取灰度、纹理等特征结合SVM进行分类,但在复杂光照和煤粉干扰下鲁棒性较差。随着深度学习的兴起,基于卷积神经网络(CNN)的目标检测算法逐渐成为主流。然而,将其应用于实际煤矿生产线仍面临三大挑战:首先,样本分布极度不均衡。在实际生产中,传送带上的煤与矸石比例常高达20:1甚至更高,这种长尾分布导致模型训练严重偏向多数类(煤),造成对关键少数类(矸石)的漏检。其次,目标重叠与遮挡严重。传送带上的物料往往密集堆叠,煤矸石之间相互遮挡导致特征模糊,传统算法难以区分重叠边界,易出现漏选或误选。最后,算力与精度的矛盾。现有的高精度模型(如YOLOv8、YOLOv11s)通常参数量大、计算复杂度高,难以部署在算力受限的矿用嵌入式设备上;而轻量级模型虽然速度快,但往往以牺牲检测精度为代价。
为了克服这一局限,本研究以YOLOv11n为基线模型,构建了一种新的Ours-YOLOv11n架构。具体改进包括:采用轻量化的HGNetv2网络作为主干,在颈部网络部分集成BiFPN加权双向特征金字塔,并利用SlideLoss优化损失函数。此设计的核心目标是在不降低识别精度的前提下,最大化地提升检测速率与鲁棒性。实验结果证实,该模型的性能基本达到了预期设想。
2. YOLOv11算法
YOLOv11 [9]是Ultralytics公司推出的一个SOTA模型,相对于YOLOv8,采用CSPDarknet53作为骨干网络,通过五次下采样生成不同尺度的特征图,标记为P1至P5。YOLOv11的架构进行了多项优化。在主干网络中,C3K2模块取代了原有的C2f。网络的基础单元CBS模块由卷积、批量归一化和SiLU激活函数串联构成。为了丰富特征表达,骨干网络还集成了SPFF,用于将特征图池化到固定尺寸。同时,C2PSA模块通过其核心的PSA机制强化了特征提取,该机制作为SE注意力的多层次改进版,更善于处理多尺度特征。在颈部,模型采用了PAN结构,它通过增加一条自底向上的路径,强化了浅层位置信息与深层语义信息的融合,弥补了FPN在对象定位信息上的短板。具体的网络结构图如图1所示。
Figure 1. Automated transport lineYOLOv11n model architecture
图1. YOLOv11n模型结构
3. Ours-YOLOv11n
3.1. 问题分析
使用YOLOv11n对数据集图片进行检测,出现如下情况:
1) 源于工业现场的固有样本不均衡。该问题并非单纯的数据集特性,而是根植于煤炭生产的客观限制。在实际作业中,传送带上的煤矸比例本身就大幅失衡,且物料运送时间不固定,导致通过人工方式采集并标注均衡的数据集需耗费巨大的时间与人力成本。因此,采集到的数据集(如图2所示,煤与矸石比例高达1:22)是工业常态的真实反映。在这种长尾分布下,模型训练会严重偏向矸石,导致对煤的识别能力不足。因此,研发一种能在此类固有不均衡、数据获取受限的场景下高效学习的算法,是本研究的首要动机。
2) 原有网络轻量化设计会引发特征损失,压缩模型参数量会导致精度骤降,而保持精度则超出边缘设备算力限制,形成“精度–效率”优化瓶颈。
面对复杂背景与目标堆叠时,注意力机制聚焦偏差,重叠区域特征解耦不彻底,导致煤矸石分割边界模糊、类别归属误判,如图3所示,图中红色框选区域在重叠时会出现漏选和多选情况。
Figure 2. Distribution of target box sample numbers
图2. 目标框样本数量分布
Figure 3. YOLOv11n recognition map for coal gangue data
图3. YOLOv11n对煤矸石数据识别图
3) 针对煤矸石拍摄的图像中存在传送带上煤矸石图像与背景相似、样本分布不均匀、在多目标运动时存在重叠的现象,无法实现精准识别。同时由于网络结构的复杂性,对设备运行内存要求较高,需要降低模型的复杂程度,减少运行时的计算开销。基于对模型性能与资源消耗的权衡考量,本研究以YOLOv11n为基线模型,实施了如下所述的改进。
3.2. 方法设计
1) 为实现模型轻量化,本研究采用了改进的HGNetv2替换原有的主干网络。针对HGNet架构在融合多尺度特征时存在的信息冗余,本研究的解决方案是在4个HG-Stage中差异化地嵌入LCU模块。阶段1维持原始设计以保留基础特征提取能力;阶段2、3、4则分别配置1、2、1个LCU。该模块利用逐点卷积和线性瓶颈结构,通过通道降维与跨层特征拼接来优化网络。此设计严格遵循特征层级渐进增强的原则,即底层阶段侧重于语义完整性,高层阶段强化细节捕获,最终实现了层次化的视觉信息处理。为了在轻量化的前提下增强模型对空间特征的关注度,本研究提出了一种基于支持向量机(SVM)概率输出的改进型概率空间注意力(PSA)模块,以替代原有的C2PSA模块。传统PSA依赖复杂的双分支交叉计算,计算开销较大。改进后的模块引入了Platt Scaling机制。假设输入特征图为
,模块首先通过卷积操作提取空间特征,随后利用SVM决策函数
映射特征空间。为了将SVM的非概率输出转化为注意力权重,采用Platt Scaling进行概率化映射,公式如下:
(1)
其中,
和
为通过最大似然估计拟合的缩放参数。该概率输出
直接作为空间注意力权重图
,与输入特征
进行加权计算:
。该设计利用SVM在小样本分类中的优势,不仅提升了对煤矸石边缘特征的捕捉能力,还将核矩阵计算的时间复杂度由
优化至
,显著降低了计算量。
HGNetv2采用层级化架构构建了一个金字塔式的特征表达体系,该体系融合了从浅层细节到深层语义的信息,以适应多尺度目标的检测。其初始阶段的HGStem模块运用了双路径处理机制。在经过3 × 3卷积预处理后,特征被分为两路:一路是最大值池化,用于保留关键结构;另一路是2 × 2卷积降维,此支路通过通道压缩、尺寸填充和二次卷积将空间尺寸减半。两条路径的输出被拼接,再经过两级级联卷积来压缩特征维度,最终生成尺寸为输入1/4的特征图,从而有效降低了后续网络的计算复杂度。
2) 将双向特征金字塔网络BiFPN引入颈部部分。主干网络替换为轻量级架构后,不可避免地会带来一定程度的精度损失。为了弥补这一点,本研究引入了BiFPN。BiFPN通过学习不同特征图的权重,实现了高效的多尺度特征融合。其自上而下和自下而上的双向重复路径设计,能够更充分地利用上下文信息,从而增强模型的特征表达能力。此外,BiFPN在处理特征时计算资源消耗较少,兼顾了性能与效率。
3) 由于煤场开采过程具有差异性,容易造成样本不平衡,针对这个问题,引入SlideLoss损失函数,其主要作用是让模型更加关注困难样本,进而解决简单样本和困难样本之间的不平衡问题,改善模型在困难样本上的效果,有效地处理数据集中类别之间的样本数量差异,平衡不同类别的损失权重。SlideLoss可以自适应学习样本阈值参数与负样本阈值参数,引导模型提高对难样本的关注度。通过参数将样本分为正样本与负样本,再使用加权函数Slide对边界处样本强调。在附近设置较高的权重会增加难分类示例的相对损失,从而将更多注意力集中在难分类的错误示例上。公式如下:
(2)
在本研究中,设定
作为负样本阈值,设定
作为正样本阈值。当样本预测概率处于
这一模糊区间时,SlideLoss会赋予其更高的梯度权重,迫使模型集中资源优化这些难以区分的边界样本,从而有效提升了困难样本的召回率。针对决策边界附近样本分类模糊的问题,在训练时会有意地增大这类困难样本的损失权重。这种机制迫使模型集中资源优化分类边界,从而提升对困难样本的识别精度。此类样本数量比较少,因此,需要为困难样本分配更高的权重。首先使用参数将样本分为正样本和负样本,再使用加权函数Slide对边界样本进行强调。
最终的改进模型命名为Ours-YOLOv11n,模型整体框架图如图4所示。
Figure 4. Automated transport line Ours-YOLOv11n model architecture
图4. Ours-YOLOv11n模型结构图
4. 试验分析
4.1. 制作煤矸石数据集
图像数据采集地点位于黑龙江省鹤岗市富力煤矿。通过图片裁剪,旋转,剔除无效图像共获得图像3564张,共获得矸石(gan)标签文件23,046张,煤块(coal)标签文件823张。按照(训练集 + 验证集)∶测试集为8∶2的比例划分数据集。使用labelimg软件进行标注,图像坐标信息保存在xml文件中。
4.2. 试验环境及参数设置
本实验的硬件平台基于Windows 10 (64位)操作系统,配备了Intel Core i5-12400F处理器以及显存为8G的NVIDIA GeForce RTX 4060显卡。软件环境配置为Python 3.9.19、CUDA 11.3与Pytorch 1.11.0。在训练参数设置上,输入图像尺寸统一调整为640 × 640像素,初始学习率设定为0.01,工作线程设置为1,批次大小设置为8,训练轮次设置为300,早停次数设置为50,优化器为SGD,lr0 = 0.01,采用Mosaic进行数据增强。
4.3. 评价指标
为了评估所提出模型的检测性能,采用精度、召回率、mAP0.5、mAP0.5:0.95、模型参数量、模型大小、F1和FPS作为评价指标。
4.4. 消融试验
为了评估本文对YOLOv11n模型改进的实际效果,在确保数据集和试验参数统一的前提下,本研究设计了消融实验,具体结果见表1。
Table 1. Ablation experiment results comparison
表1. 消融实验结果对比
|
YOLOv11n |
P_Hgnetv2 |
Bifpn |
Slideloss |
P |
R |
F1 |
模型大小/M |
Parameters |
Glops |
1 |
√ |
|
|
|
0.895 |
0.834 |
0.863 |
5.24 |
2,582,543 |
6.6 |
2 |
√ |
√ |
|
|
0.908 |
0.875 |
0.891 |
4.95 |
2,410,378 |
6.6 |
3 |
√ |
|
√ |
|
0.923 |
0.886 |
0.904 |
5.43 |
2,670,538 |
7 |
4 |
√ |
|
|
√ |
0.929 |
0.869 |
0.897 |
5.24 |
2,582,543 |
6.6 |
5 |
√ |
√ |
√ |
|
0.916 |
0.893 |
0.903 |
4.58 |
2,197,590 |
6.5 |
6 |
√ |
|
√ |
√ |
0.924 |
0.862 |
0.892 |
5.43 |
2,670,538 |
7 |
7 |
√ |
√ |
|
√ |
0.919 |
0.873 |
0.895 |
4.95 |
2,410,378 |
6.6 |
8 |
√ |
√ |
√ |
√ |
0.926 |
0.879 |
0.901 |
4.58 |
2,197,590 |
6.5 |
根据表1的消融实验结果,各改进模块的贡献及最终模型的优势得到了清晰验证。基准YOLOv11n模型(实验1)的F1值为0.863,模型大小为5.24 M。当单独替换为P_Hgnetv2主干(实验2)时,F1值提升至0.891,同时模型大小压缩至4.95M,初步显示了轻量化与性能的双重优势。单独引入Bifpn (实验3)和Slideloss (实验4)均能提升性能,特别是Bifpn使F1达到0.904,而Slideloss在零成本下将查准率P提升至0.929。最关键的是,改进的最终模型(实验8)实现了最佳的整体平衡:不仅得到了最高的查准率P (0.926)和F1值(0.901),还将模型大小(4.58M)和计算量(6.5 Gflops)降至最低。这有力地证明了各项改进相辅相成,在显著提升检测精度的同时,也成功实现了模型的轻量化。
4.5. 对比试验
为了客观地评测本文所提出的Ours-YOLOv11n改进模型在煤矸数据集上的鉴别能力,本研究将其与多种经典模型进行了性能对比。为确保实验的公平性,所有试验均在统一的软硬件平台下进行,并使用了完全相同的煤矸训练集与测试集。试验结果如表2所示。由表2结果分析可知,YOLOv8s虽然在平均精度均值上优于YOLOv11s模型,但是计算量以及参数量比较大,不满足轻量化和实时性检测要求。本文改进的Ours-YOLOv11n模型的查准率均优于其他五个模型,且参数量相较于其他五个模型大幅度降低。本文改进的YOLOv11n模型在查准率、召回率和平均精度均值均优于YOLOv11s的同时,参数量减少76.7%。由此可知本文改进的YOLOv11n则在保持相对不错的检测精度的同时,具有最少的参数数量,在资源受限场景下可能具有更好的应用前景。
Table 2. Comparison of detection results from different models
表2. 不同模型检测结果对比
|
P |
R |
mAP0.5/% |
mAP0.5:0.95/% |
Parameters |
YOLOv3-tiny |
0.913 |
0.843 |
0.926 |
0.651 |
9,520,052 |
YOLOv5-P6 |
0.903 |
0.876 |
0.942 |
0.69 |
3,676,264 |
YOLOv6 |
0.866 |
0.881 |
0.924 |
0.671 |
4,155,222 |
YOLOv8s |
0.919 |
0.886 |
0.942 |
0.691 |
11,126,358 |
YOLO11s |
0.918 |
0.858 |
0.939 |
0.681 |
9,413,574 |
Ours-YOLOv11n |
0.926 |
0.879 |
0.932 |
0.675 |
2,197,590 |
5. 总结
针对现有模型在检测性能以及资源消耗之间难以平衡、识别重叠煤矸石效果不好以及样本不均匀的问题,本文提出了一种改进的YOLOv11煤矸石目标检测方法Ours-YOLOv11n。该模型在YOLOv11n的基础上进行优化,解决传统算法所存在的问题。
1) 使用P_Hgnetv2改进主干网络替换YOLOv11n原有主干网络,这一调整显著降低模型的参数量,从而提升检测速度。2) 在颈部结构中,融合BiFPN模块,增强网络对于物体的特征提取效果;3) 使用Slideloss作为分类损失函数,有效提升网络对于困难样本的关注度以及定位能力,加速模型收敛,进一步提升该算法综合检测能力。
实验数据表明,本文提出的改进模型在自建的煤矸石数据集上表现优异。与YOLOv11n基线相比,新模型在精度、平均精度(mAP)和召回率上分别取得了3.1%、4.5%和4.8%的增长,同时还实现了模型参数的压缩。这证实了所提方法能够高效满足传送带上煤矸石分拣的目标检测需求。未来的研究将着眼于解决复杂场景下目标遮挡及像素重叠所带来的挑战,并对此进行深入优化。
NOTES
*通讯作者。