1. 前言
1.1. 研究背景
随着全国各地产业园的大规模建设,大型的园区生产车间数量迅速增加,安全管理至关重要。传统人工监控存在易疲劳、漏检错检及成本高的问题,难以满足智能化管理需求。深度学习凭借强大的图像识别与数据处理能力,为生产车间安全管理带来新突破。本文基于此构建以YOLOv8为核心算法的智能管控系统,集成人员数量检测与跌倒检测功能,可实时统计人员数量并快速识别跌倒行为助力应急救援,为场馆安全运营提供技术保障,推动管理数字化转型。
1.2. 研究现状
近年来,随着深度学习技术的蓬勃发展,国内外学者在基于深度学习的生产车间智能管控领域展开了大量研究,并取得了一系列重要成果。
在目标检测领域,国内外研究呈现出百花齐放的态势。国外的研究学者率先将YOLO [1]、SSD [2]、Faster R-CNN [3]等经典目标检测算法引入生产车间场景。YOLO算法具有独特的端到端检测架构和高效的计算机制和快速检测目标的能力,被广泛应用于生产车间人员快速定位,实时对大量人员进行目标检测及跟踪。
国内研究在该领域也取得了显著进展,众多科研团队构建大规模、多样化的行为数据集,结合迁移学习等技术,训练出高精度的行为识别模型。部分研究还引入了多模态信息,从多个维度对人员行为进行判断,为生产车间安全管控提供了更加有力的支持。
基于深度学习的生产车间安全管控成果显著。国内外研究人员利用卷积神经网络,通过标注大量的车间生产图像样本,训练出可预警火灾、爆炸等突发事件的模型,其通过学习火焰颜色、烟雾浓度等特征实现火灾初期报警[4]。部分研究融合视频与环境传感器数据,提升了异常事件预警的准确性。现有的研究仍存在诸多不足,在光线不足、人群密度差异大、背景干扰多的复杂场景中出现检测准确率较低、目标漏检等情况;高精度算法计算量大,难以满足实时监控需求;且现有算法缺乏对人员流动规律的精准建模,复杂遮挡下个体区分能力弱,导致人数报警系统误报、漏报频发,影响智能管控有效性与可靠性。
2. 数据采集
在常见的公开数据集中广泛搜集相关图片训练数据。利用知名的图像COCO数据集[5]平台检索与生产车间人员场景相关的图像资源。同时,借助百度、Bing、搜狗等主流搜索引擎,通过设置多样化的关键词,如“生产车间工作场景”、“生产车间人员跌倒”、“人员目标检测”等,进行图片搜索。为确保构建的数据集能够高度契合人员数量检测和人员跌倒检测任务的复杂需求,对于从网络渠道广泛搜集而来的海量图片,我们依据一系列严苛且精细的标准展开筛选工作。经过多轮严格筛选与细致整理,最终成功构建的数据集包含2000张用于人员数量检测的图像样本和2000个人员跌倒事件的样本(如图1所示)。按照8:1:1的经典比例,将数据集划分为训练集、验证集和测试集。
Figure 1. Training sample
图1. 训练样本
3. 基于YOLOv8的检测网络构建
YOLO系列自诞生以来始终以高效性与准确性著称,历经多代技术的迭代,在结构设计与性能优化上不断突破,YOLOv8是YOLO系列算法的优秀代表,具有精度高、速度快的优点[6]。其具有的特殊骨干网络、颈部结构、头部网络及预测机制,是高效特征提取与精准目标检测的基础,为实现人员数量统计、跌倒行为检测等智能管控任务的实现打下了坚实的基础。
Figure 2. Comparison of C2f and C3 structures
图2. C2f与C3结构对比
1) 网络架构上,骨干网络用C2f模块替换常用的C3模块,轻量化的同时保留跨阶段局部连接(CSP: Cross Stage Partial)思想与快速空间金字塔池化(SPPF: Spatial Pyramid Pooling-Fast)模块,提升特征提取能力;颈部结构基于路径聚合网络–特征金字塔网络(PA-FPN: Path Aggregation Network-Feature Pyramid Network)优化,替换模块并简化上采样卷积,增强特征融合;检测头采用解耦头分离分类与检测任务,结合无锚点机制,提升检测灵活性与效率(如图2所示)。
2) YOLOv8目标检测模型的颈部网络位于骨干与头部网络间,是关键组成部分。其采用优化的PAN-FPN结构变体,通过自下而上与自上而下的路径聚合,融合骨干网络不同阶段特征图,让浅层位置细节与深层语义信息互补。同时集成SPPF模块,在多感受野下聚合信息,并可能采用深度可分离卷积、残差连接等设计,平衡性能与速度、缓解梯度消失。该网络能为头部精准提供适配特征,有效提升车间小物体的检测准确性(如图3所示)。
Figure 3. Neck structure diagram
图3. Neck结构图
3) YOLOv8的头部网络是目标检测最后一环,位于颈部网络之后,负责处理多尺度特征图以生成目标分类概率与边界框坐标。相比YOLOv5,其核心改动是采用解耦头与无锚框机制,将回归分支与预测分支分离,简化结构并提升泛化能力。回归分支采用分布式焦点损失(DFL: Distribution Focal Loss)策略的积分形式表示法,将坐标预测从确定性单值转为分布,而非传统的单值预测[5]。它通过卷积层处理特征输出结果,兼顾检测精度与速度,能满足生产车间智能管控的实时性需求,如快速处理特征、准确识别人员位置(如图4所示)。
Figure 4. Comparison of head structures between YOLOv8 and YOLOv5
图4. YOlOv8与YOLOv5 head结构对比
4. 模型训练与结果分析
围绕基于YOLOv8的生产车间人员数量与跌倒检测模型,系统展开实验验证与性能分析。实验用真实数据作为基础,构建了涵盖多视角和多场景的专用数据集,通过标准化标注流程完成数据预处理。系统选用YOLOv8轻量版作为基础模型,满足实时性与精度的双重需求,通过优化超参数配置,结合精确率、召回率、平均精度均值等核心评价指标,借助混淆矩阵与交并比分析,对模型训练过程与检测性能进行量化评估。
4.1. 总体训练过程
使用YOLOv8模型的训练是以之前采集的图片作为数据集进行的,这个过程也是不断循环迭代的,因为模型需要通过不断地训练和学习修正网络中各个参数以提高模型识别的精度(如图5所示)。
1) 划分数据集:针对人员数量检测与跌倒检测任务,收集生产车间、公共活动区域等场景的视频及图像数据构建原始数据集。先对其中一部分数据进行人工标注,标注时将人员类别、跌倒状态等信息按YOLOv8数据格式规范标记。快速扩充标注数据集,为后续训练提供充足样本。
2) 训练网络模型:基于YOLOv8框架,选择合适的模型结构,并确定超参数,包括训练轮数epoch、训练批次大小batch_size、学习率等。在训练过程中,利用反向传播算法计算损失函数梯度,结合自适应学习率优化算法更新模型参数,使模型逐步学习人员目标检测和跌倒行为识别的特征模式。
3) 使用验证集数据对模型进行测试:从原始数据集中划分出独立的验证集,将训练过程中的模型在验证集上进行测试。根据验证结果中的检测精度、召回率、平均精度均值(mAP)等指标,分析模型在人员数量统计和跌倒检测任务中的表现。若检测效果不佳,针对性调整超参数或优化模型结构。
Figure 5. Model training process
图5. 模型训练过程
4.2. 评价指标
YOLOv8中常用的模型评价指标包括精确率、召回率、准确率和平均精度均值。
1) 精确率指模型预测为正类的样本中实际为正类的比例,反映预测结果的可靠性。
2) 召回率指实际正类样本中被模型正确预测为正类的比例,体现模型对正类样本的捕捉能力。
3) 准确率指模型预测正确的样本占总样本的比例,衡量整体预测的正确性。
4) 平均精度均值(mAP)是多个类别平均精度的平均值,其中AP通过不同召回率水平下的精确率积分计算,mAP综合评估模型在多类别上的检测性能,是目标检测任务的核心指标。
这些指标从不同维度评估模型性能,通过分析可针对性优化模型,提升目标检测效果。
4.3. 实验结果分析
Figure 6. Variation of training parameters for person detection model
图6. 人员检测模型训练参数变化
人员检测训练:在整个训练过程中,随着使用的训练数据数量不断增加,模型的精度也在不断提高。精确率在训练初期波动较大,随后逐渐下降并趋于平稳。
metrics/mAP50 (B):在IoU阈值为0.5时的平均精度均值不断上升并趋于稳定,稳定在0.45左右,显示模型在相对宽松的IoU标准下,对各类目标的检测性能整体提升并趋于稳定。metrics/mAP50-95 (B):在IoU阈值从0.5到0.95范围内的平均精度均值同样上升并稳定在0.25左右,说明模型在不同严格程度的IoU标准下,综合检测性能也在提升并达到一定稳定状态(如图6所示)。
人员跌倒训练:无论是训练集上的边界框损失(train/box_loss)、类别损失(train/cls_loss)、分布焦距损失(train/dfl_loss),还是验证集上对应的val/box_loss、val/cls_loss、val/dfl_loss,均随着训练轮次的推进显著下降。这表明模型在训练过程中不断学习,对目标的定位、分类以及相关属性预测的能力持续提升,预测结果与真实值之间的差距逐渐缩小(如图7所示)。
Figure 7. Variation of training parameters for fall detection model
图7. 跌倒检测模型训练参数变化
总体而言,模型在训练过程中,各项损失不断降低,检测相关评价指标逐步提升并趋于稳定,显示出模型在目标检测任务上具备一定的学习和优化能力。
4.4. 实验结果展示
Figure 8. Production workshop person detection
图8. 车间作业人员检测
工作人员检测(如图8所示):系统通过摄像头实时检测可视范围的作业人员,当作业人员的数量突然出现高度的集中时就会发出警示。
工作跌倒检测(如图9所示):当检测到有人跌倒,系统会自动报警弹窗,显示有人摔倒!工作人员可以及时采取必要措施。
Figure 9. Person fall detection
图9. 人员跌倒检测
5. 总结
本设计围绕“基于深度学习的生产车间智能管控系统”展开,针对传统人工监控效率低、成本高、漏检率高等问题,引入深度学习技术实现智能化管控。研究构建含多张人员检测图像及多个跌倒样本的专用数据集,按不同比例划分并增强数据多样性。采用YOLOv8轻量版算法,分析其网络架构,实施模型训练。基于PyQT等技术开发交互界面,实现实时检测、报警及可视化。研究通过数据、模型与系统协同优化,提升了场馆管控智能化水平,设计并开发具备图片检测、视频检测、摄像头检测功能的交互界面,实现实时人员数量检测、跌倒报警及结果展示,为生产车间安全管理提供了可行的技术方案,具有应用与推广价值。
基金项目
江西省教育厅科技项目“基于深度学习的工业智能安全管控关键技术研究”,项目编号:GJJ210817。