1. 引言
行人检测是智能监控、交通管理和自动驾驶等领域的重要研究方向。然而,在密集场景下,由于行人间距较小、频繁遮挡以及复杂背景的干扰,检测任务变得极具挑战性。行人间的遮挡减少了可见区域特征,导致特征提取困难,同时背景干扰加剧,使得网络模型难以准确分类和定位,进而引发误检与漏检[1]。因此,优化行人检测算法,提升检测精度的同时保证实时性,是未来研究的核心方向。
Wang等[2]通过更换新的骨干网络并结合预训练模型,增强了目标检测的特征提取能力,从而提供了更丰富的特征信息。Bodla等[3]采用优化目标预测帧分数策略的方法,增加了检测帧的数量,从而提升了对遮挡目标的检测性能。然而,提升模型的泛化能力仍然是一个重要的研究课题。Xue等[4]提出了一种创新的实时行人检测算法——多模态注意力融合YOLO,该算法基于DarkNet53框架优化夜间行人检测性能。
为了解决上述问题,本文提出了一种改进型YOLOv5行人目标检测算法[5],该算法集成了Ghost模块和SE注意力机制,在提升特征提取能力的同时,保持模型的轻量化。并在INRIA数据集上进行了系统性实验分析。与FasterR-CNN、原始YOLOv5及其他YOLOv5改进方案相比,本方法在遮挡、小目标检测等复杂场景下表现更优,且计算成本较低,验证了所提算法的有效性和优越性。
2. 方法介绍
YOLOv5系列网络根据残差结构的宽度和深度分为YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x五类,结构相似但复杂度不同。表1展示了各模型在MS COCO数据集上的表现,分析表明YOLOv5在准确率与复杂度间实现了良好平衡。
Table 1. Performance of each model on the MS COCO dataset
表1. 各模型在MS COCO数据集上的表现
Method |
Image size |
mAP0.5 (%) |
mAP0.5:0.95 (%) |
FLOPs (G) |
YOLOv5n |
640 × 640 |
45.7 |
28.0 |
4.5 |
YOLOv5s |
640 × 640 |
56.8 |
37.4 |
16.5 |
YOLOv5m |
640 × 640 |
64.1 |
45.4 |
49.0 |
YOLOv5l |
640 × 640 |
67.3 |
49.0 |
109.1 |
YOLOv5x |
640 × 640 |
68.9 |
50.7 |
205.7 |
YOLOv5s由Backbone、Neck和Prediction三个主要组件组成[6],各模块的高效协作提升了模型性能。该网络引入了多项优化,如Mosaic数据增强和自适应锚框计算。Backbone采用Focus和CSP_X结构,Neck结合CSP2结构,以增强特征融合能力。此外,空间金字塔池化(SPP)用于融合不同感受野特征,边界框损失函数采用CIOU,NMS非极大值抑制优化了重叠目标检测。YOLOv5s的整体结构如图1所示。
Figure 1. YOLOv5 network structure
图1. YOLOv5网络结构
2.1. Ghost模块
本文引入了Ghost模块以优化模型的轻量化设计[7]。Ghost卷积通过将输入通道划分为两部分:一部分采用标准卷积运算,另一部分使用较小的核(如5 × 5)进行简化计算,以减少计算复杂度。该方法能有效降低模型的计算量和存储需求,同时保持良好的特征提取能力。此外,Ghost卷积利用组卷积机制,将输入通道划分为多个独立组,使每个组分别执行卷积计算,从而减少参数数量和计算开销,同时提升计算效率。Ghost卷积的示意图如图2和图3所示。
Figure 2. Ordinary convolution
图2. 普通卷积
Figure 3. Ghost convolution
图3. Ghost卷积
Ghost卷积的计算过程包括多个步骤。首先,对输入特征图
进行标准卷积操作,提取初步特征并生成较小的输出张量。随后,利用Ghost卷积生成额外的特征图,以扩展输出通道。最后,将Ghost卷积生成的特征与初始卷积输出沿通道维度拼接,得到最终的输出特征图
。在此过程中,标准卷积的计算量可表示为
。相比之下,在生成相同数量特征的情况下,Ghost卷积减少了冗余计算,有效降低了计算成本,并加速了推理过程。两者的计算速率关系可由公式(1)推导得出。
(1)
Ghost模块通过减少冗余计算,大幅降低计算成本并压缩模型大小。其核心思想是利用较小的标准卷积核d × d提取初步特征,并通过简单变换操作s生成额外特征,满足
。根据等式(1),Ghost模块的计算量相比标准卷积减少了1/s倍,从而有效提升计算效率。
2.2. 引入注意力机制模块
为了增强全局信息利用率,YOLOv5s在主干网络中引入了SE (Squeeze-and-Excitation)通道注意模块[8],其特征变换过程如图4所示。首先,SE模块通过变换算子
处理输入特征图
,生成输出
。其中,
作为卷积算子,包含滤波核集合
,用于提取关键特征,得到映射后的结果
。
Figure 4. SE channel attention mechanism
图4. SE通道注意力机制
(2)
其中,
代表卷积运算,滤波核
由参数矩阵
组成,而输入特征
包含通道集合
。其中,每个通道
对应于滤波核
,该滤波核是一个二维空间核。
随后,该特征图经过全局平均池化(
),将其空间维度H × W × C压缩为1 × 1 × C。接着,利用全连接层(FC)学习通道注意力,使特征保持相同维度但增强通道权重。最终,原始特征图与生成的1 × 1 × C注意力权重相乘,恢复H × W × C形态,同时强化通道信息。
2.3. 损失函数
YOLOv5网络[9]的总损失函数由三个部分组成:定位损失
、置信度损失
和分类损失
。损失函数如公式(3)~(6)所示:
(3)
(4)
(5)
(6)
其中,
表示总体损失平衡系数,l表示每一类样本的损失权重,
表示置信度得分。
3. 实验验证
本研究在CUDA 11.2版本的PyTorch深度学习框架下进行模型训练,硬件环境包括AMD Ryzen 7 5800H处理器和NVIDIA GeForce RTX 3060 GPU。本文采用INRIA数据集,该数据集包含标注的站立或行走行人图像,由NavneetDalal在研究图像和视频中直立行人检测时收集。INRIA数据集的训练集包括614张正样本图像(共包含1237个行人)和1218张负样本图像;测试集包含288张正样本图像(589个行人)和453张负样本图像。如图5所示,展示了INRIA数据集的部分样本。
Figure 5. Some samples of the INRIA dataset
图5. INRIA数据集的部分样本
为了从不同角度比较和分析不同检测模型的优缺点,本文使用精度P、召回率R、平均精度mAP作为所提算法的主要评价指标,见下式(7)~(10):
(7)
(8)
(9)
(10)
其中,TP表示预测正确的正样本数,FP表示预测错误的正样本数,FN表示预测错误的负样本数;n表示物体检测类别数。引入交集比,即预测帧与真实帧的交集与并集之比,本实验中设置为0.5。
为了验证改进算法的有效性,本研究进行了消融实验,分别是包含YOLOv5s、YOLOv5-Ghost与YOLOv5-Ghost-SE。如表2所示,展示了改进的YOLOv5s算法的消融实验结果。
Table 2. Comparison results of ablation experiments
表2. 消融实验对比结果
YOLOv5 |
Ghost |
SE |
P/% |
R/% |
mAP/% |
√ |
|
|
89.16 |
88.58 |
89.31 |
√ |
√ |
|
90.65 |
90.12 |
92.18 |
√ |
√ |
√ |
93.28 |
91.49 |
92.24 |
表2展示了消融实验的对比结果,以评估Ghost模块和SE (Squeeze-and-Excitation)注意力机制对YOLOv5行人检测性能的影响。基础YOLOv5模型的精确率(P)为89.16%,召回率(R)为88.58%,mAP (均值平均精度)为89.31%。当引入Ghost模块后,P、R和mAP分别提升至90.65%、90.12%和92.18%,表明Ghost模块有效降低计算成本的同时,增强了特征表达能力,提高了检测性能。在此基础上进一步加入SE注意力机制后,精确率、召回率和mAP进一步提升至93.28%、91.49%和92.24%。这表明SE机制能够有效增强网络对重要特征的关注,提高检测的准确性和鲁棒性。综合来看,Ghost模块和SE注意力机制的结合,使得YOLOv5的行人检测能力得到显著增强,优化了检测精度的同时,保持了模型的轻量化。
之后进一步对该改进的模型进行对比,实验选择了YOLOv5和Faster RCNN [10]进行对比实验。表3给出了这三个模型在测试集上的具体实验结果。
Table 3. Comparative experimental data
表3. 对比实验数据
模型 |
P/% |
R/% |
mAP0.5/% |
Faster RCNN |
87.89 |
86.94 |
87.39 |
YOLOv5 |
89.16 |
88.58 |
89.31 |
Ours |
93.28 |
91.49 |
92.24 |
表3展示了不同目标检测模型在行人检测任务上的性能对比,包括FasterR-CNN、YOLOv5以及本文提出的改进模型(Ours)。从实验数据来看,FasterR-CNN的精确率(P)为87.89%,召回率(R)为86.94%,mAP0.5为87.39%,说明其检测能力较为稳定,但由于其两阶段检测框架,可能在实时性方面存在一定的局限性。相比之下,YOLOv5作为单阶段检测模型,精确率、召回率和mAP分别提升至89.16%、88.58%和89.31%,在保证检测精度的同时,具有更高的计算效率。本文提出的改进模型(Ours)在YOLOv5的基础上进一步优化,P、R和mAP分别达到了93.28%、91.49%和92.24%,显著优于前两者。这表明,通过引入Ghost模块和SE注意力机制,模型的特征提取能力得到了增强,从而提高了检测精度和召回率,同时保持了较高的计算效率,使其在行人检测任务中表现更优。图6展示了不同的模型之间的性能对比。
Figure 6. Heat map display
图6. 热力图展示
图6展示了不同行人检测模型在精确率、召回率和mAP三项指标上的性能对比。横轴表示评价指标,纵轴代表FasterR-CNN、YOLOv5和改进模型。颜色从蓝色到红色变化,数值越高,颜色越偏向红色,数值较低则表现为蓝色。从实验结果来看,FasterR-CNN在所有指标上的数值最低,整体呈现较深的蓝色。YOLOv5在各项指标上相较FasterR-CNN略有提升,精确率、召回率和mAP分别达到89.16%、88.58%和89.31%,颜色也较浅,表明检测性能有所增强。相比之下,改进模型Ours在所有指标上均表现最佳,精确率达到93.28%,召回率为91.49%,mAP为92.24%,呈现最红的色块,直观地反映了其在实验范围内表现更优。
4. 结语
本研究提出了一种基于改进YOLOv5的行人目标检测系统,旨在提高行人检测的准确性和实时性。本实验对FasterRCNN、YOLOv5及改进模型在行人检测任务中的性能进行了系统对比。实验结果表明,相较于FasterRCNN,YOLOv5由于其单阶段检测架构,在检测精度与效率上均具备优势。进一步引入Ghost模块进行特征解耦重构,并结合SE注意力机制进行动态特征校准,使改进模型在保持实时推理能力的同时,实现93.28%的精确率、91.49%的召回率、92.24%的mAP0.5的提升。消融实验验证了轻量化特征提取和通道注意力机制的有效性。
基金项目
1) 2024-2025年重庆对外经贸学院《智能算法应用》课程教学改革(项目编号:KG2024067);
2) 2024-2025年重庆对外经贸学院科研项目:人工智能图像识别技术助力农产品品质分级与分拣(项目编号:KYZK2024028);
3) 2024-2025年重庆对外经贸学院科研项目:股票市场波动的统计特征分析与预测模型研究项(项目编号:KYZK2024042)。
NOTES
*通讯作者。