YOLOv8n-CCNet:一种具有渐进式卷积的轻量级人群计数网络
YOLOv8n-CCNet: A Lightweight Crowd Counting Network with Progressive Ghost Convolution
DOI: 10.12677/csa.2026.162042, PDF, HTML, XML,    科研立项经费支持
作者: 田雪晴, 张东明*, 郭亦涵, 赵文会, 陈立家:河南大学物理与电子学院,河南 开封
关键词: 人群计数YOLOv8n注意力机制轻量化网络Crowd Counting YOLOv8n Attention Mechanism Lightweight Network
摘要: 人群计数技术在公共安全、智慧城市和交通管理等领域具有重要应用价值。然而,现实场景中的群体图像存在尺度剧烈变化、遮挡严重以及背景复杂等挑战,导致现有方法难以兼顾准确性与效率。为应对这些问题,本文基于改进的YOLOv8n架构,提出一种人群计数网络YOLOv8n-CCNet。该网络通过三项核心创新实现性能提升:首先,在骨干网络中引入渐进式GhostConv替换策略,并设计轻量化特征提取模块,在保持多尺度感知能力的同时减少27.3%的参数数量;其次,在特征融合层加入通道与位置注意力机制,通过局部跨通道交互和方向感知的位置编码,增强对密集小目标的定位能力;最后,采用WIoUv3边界框回归损失函数,通过动态非单调聚焦机制优化梯度特性,提升遮挡场景下的回归稳定性。为验证所提方法的有效性,在包含1500张图像的高密度、多尺度人群自制数据集上进行了实验。结果表明,YOLOv8n-CCNet的mAP50达到65.3%,mAP50:95为35.6%,召回率为56.4%。相比基线模型,在计数精度和推理速度方面均有显著提升,证明了其在复杂现实场景中的有效性。
Abstract: Crowd counting has significant applications in public safety, smart cities, and traffic management. However, real-world crowd images present challenges such as drastic scale variations, severe occlusion, and complex backgrounds, making it difficult for existing methods to balance accuracy and efficiency. To address these challenges, this paper proposes a crowd counting network, YOLOv8n-CCNet, based on an improved YOLOv8n architecture. This network achieves performance improvements through three core innovations: First, a progressive GhostConv replacement strategy is introduced into the backbone network, and a lightweight feature extraction module is designed, reducing the number of parameters by 27.3% while maintaining multi-scale perception capabilities. Second, a channel and position attention mechanism (CPAM) is incorporated into the feature fusion layer, enhancing localization capabilities for dense small targets through local cross-channel interaction and orientation-aware position encoding. Finally, the WIoUv3 bounding box regression loss is adopted, and gradient characteristics are optimized through a dynamic non-monotonic focusing mechanism to improve regression stability in occluded scenarios. To verify the effectiveness of the proposed method, experiments were conducted on a self-made dataset of high-density, multi-scale crowds containing 1500 images. The results show that YOLOv8n-CCNet achieves an mAP50 of 65.3%, an mAP50:95 of 35.6%, and a recall of 56.4%. Compared with the baseline model, it demonstrates significant improvements in both counting accuracy and inference speed, proving its effectiveness in handling complex real-world scenarios.
文章引用:田雪晴, 张东明, 郭亦涵, 赵文会, 陈立家. YOLOv8n-CCNet:一种具有渐进式卷积的轻量级人群计数网络[J]. 计算机科学与应用, 2026, 16(2): 102-110. https://doi.org/10.12677/csa.2026.162042

1. 引言

随着城市化进程的加速,大型公共场所的人群聚集日益频繁,准确、实时的人群密度监测成为公共安全管理的关键需求。人群计数作为计算机视觉领域的一项重要任务,旨在从图像或视频中精确估计人数并识别个体位置,其技术挑战主要体现在目标尺度多样、遮挡严重以及背景干扰复杂等方面。

传统人群计数方法主要分为基于检测和基于回归两类。基于检测的方法通过检测每个人体进行计数,但在密集场景中因严重遮挡而效果受限;基于回归的方法则通过学习图像特征与人数间的映射关系来估计群体规模,但缺乏对个体的精确定位。近年来,基于卷积神经网络(CNN)的密度图估计方法已成为主流[1] [2],这类方法首先生成人群密度图,再通过积分运算得到计数结果。然而,现有技术仍面临尺度适应性有限、对背景噪声敏感及计算效率不高等问题,近年研究持续围绕轻量化与注意力机制等方面展开探索[3] [4]

针对上述挑战,本文提出一种基于改进版YOLOv8n的密集人群计数网络YOLOv8n-CCNet。本文的主要贡献包括:(1) 提出轻量化多尺度特征提取方案:设计渐进式GhostConv替换策略,在保持深层语义特征表达能力的同时,使骨干网络浅层参数减少27.3%,实现效率与性能的平衡;(2) 构建精准注意力增强机制:设计并引入通道与位置注意力模块,通过局部跨通道交互和方向感知的位置编码,同步增强关键特征通道与空间位置,提升密集小目标的检测精度;(3) 实现稳定边界框回归优化:采用WIoUv3损失函数,通过动态非单调聚焦机制优化梯度计算,有效缓解密集遮挡场景下的回归不稳定问题,显著提升定位准确性。

2. 相关工作

2.1. 基于YOLO的人群计数方法

YOLO系列算法凭借其卓越的实时检测性能,在人群计数领域得到广泛应用。早期的YOLO变体主要针对通用目标检测任务,针对人群计数的优化主要集中在网络结构调整与损失函数设计方面。YOLOv5通过引入自适应锚框和混合数据增强,在一定程度上提升了小目标检测能力,但在密集人群场景中仍存在漏检现象。YOLOv7 [5]采用扩展高效层聚合网络和模型重参数化技术,实现了精度与速度的平衡,但其参数量较大,不利于在边缘设备上部署。

在专门的人群计数研究中,基于YOLO的改进主要围绕多尺度特征增强、注意力机制融合和轻量化设计三个方向展开。部分研究在YOLO网络中引入变体特征金字塔结构,如BiFPN和ASFF,以更好地融合多尺度特征;另有工作将通道注意力或空间注意力融入检测头或特征提取层,增强对人群区域的关注;轻量化方向则主要采用深度可分离卷积、模型剪枝和知识蒸馏等技术以降低计算开销。

然而,现有基于YOLO的方法仍存在若干局限:首先,通用注意力模块(如SE [6]和CBAM [7])在密集人群场景中难以同步优化通道与空间信息;其次,轻量化设计往往以牺牲深层语义表征为代价;再者,边界框回归在严重遮挡场景下存在不稳定问题。本文提出的YOLOv8n-CCNet通过融合渐进式轻量化设计、专用注意力模块与优化损失函数,有效应对上述挑战,实现了精度与效率的更好平衡。

2.2. 轻量化网络设计

为满足实际部署需求,轻量化网络设计已成为重要研究方向。GhostNet [8]通过廉价操作生成“幻影”特征,在保证性能的同时显著降低计算成本;MobileNet系列采用深度可分离卷积有效减少参数量;EfficientNet [9]则通过复合缩放平衡网络的深度、宽度与分辨率。然而,现有轻量化方法在人群计数任务中常削弱多尺度感知能力。本文提出的渐进式GhostConv策略在浅层实施轻量化处理,同时保留深层完整结构,在效率与特征表征能力间取得更优平衡。类似混合轻量化设计已在EfficientNet-Ghost等最新架构中得到验证。

2.3. 注意力机制在人群计数中的应用

注意力机制在人群计数任务中展现出显著潜力,通过增强关键特征与抑制冗余信息来提升模型性能。SE模块利用通道注意力对特征响应进行重校准;CBAM融合了通道与空间注意力;CoordAttention [10]则将位置信息编码为方向感知的权重。然而,传统注意力模块[11]在密集人群场景中往往难以同时处理通道冗余与空间模糊性问题。本文提出的CPAM模块通过局部跨通道交互缓解信息损失,并结合方向感知的位置编码,使其在增强密集小目标特征方面更具针对性。最新的注意力融合网络研究也进一步验证了多尺度注意力机制在人群计数任务中的有效性。

3. 方法

针对前述人群计数任务中的难点,本文提出YOLOv8n‑CCNet模型。该模型设计基于三大核心准则:轻量化架构、精准定位与精细聚焦,依次引入轻量级GhostConv模块与高精度WIoU损失函数,并结合通道与位置注意力机制,构建了一套面向密集多尺度人群场景的优化检测体系。整体框架如图1所示。

Figure 1. Overall system block diagram

1. 整体系统框图

3.1. 基于GhostConv的轻量化骨干网络设计

为将模型部署至计算能力有限的边缘设备,网络需满足轻量化要求。本文采用GhostConv模块对YOLOv8n骨干网络进行重构。GhostConv利用特征图间的冗余特性,通过廉价的线性变换等操作生成部分“幻影”特征图,在保持模型表达能力的同时,显著降低了传统卷积所需的计算成本与参数量。

具体地,给定输入特征图 X c×h×w ,传统卷积会直接生成 n 个特征图,而GhostConv则分为两步:首先,通过一次常规卷积生成m个本征特征图( m<n );然后,对每个本征特征图应用一组廉价的线性操作(如深度卷积),生成s个幻影特征图;最后将本征与幻影特征图在通道维度拼接,得到最终的 n=m×s

个输出特征图。其计算量理论压缩比约为 n h w ckk m h w ckk+( s1 )m h w dd sc s+c1 ,其中 d 为廉价操作的卷积核尺寸。

考虑到人群计数任务中目标(人头)尺度变化极大,轻量化不能以牺牲多尺度特征提取能力为代价。因此,我们采用渐进式替换策略,仅在骨干网络(CSPDarknet)的前几个阶段(Stage 1~3)用GhostConv替换原有的C2f模块,而后面的深层阶段保留原C2f结构。这种策略在浅层捕捉丰富纹理和细节(适合小目标)时进行压缩,而在深层提取高层语义信息时保留更强的表征能力,实现了效率与性能的平衡。实验表明,此策略将模型参数量从原始的3.011 M降至2.184 M,计算量从8.1 GFLOPs降至5.8 GFLOPs,推理速度得到显著提升。

3.2. 基于CPAM的通道与位置注意力融合机制

针对人群场景中目标密集、背景复杂的特点,我们摒弃了通用注意力机制(如SE, CBAM),设计了一种通道与位置注意力融合机制(CPAM)。该机制专为“密集小目标”与“多尺度特征融合”场景设计,能够同时且高效地强化关键通道和精确空间位置。

通道注意力子模块(CA):CPAM的CA模块采用局部跨通道交互策略。它首先对输入特征图进行全

局平均池化,然后使用一个一维卷积(其卷积核大小k根据通道数自适应计算: k= | log 2 ( C )+b | γ )来捕获

相邻通道间的关系,最后通过Sigmoid生成通道权重 W c 。这种局部交互方式避免了全局降维带来的信息损失,更适合处理通道间关系复杂的人群特征。

W c =σ( Conv1D( GAP( X ) ) ) (1)

其中, σ 为Sigmoid函数, GAP 为全局平均池化。

位置注意力子模块(PA):PA模块采用坐标注意力的思想,分别沿高度(H)和宽度(W)两个方向进行全局池化,得到两个独立的方向感知特征图。接着将它们拼接并通过共享的1 × 1卷积进行变换,再拆分为H和W两个方向的特征向量,最后分别通过Sigmoid生成高度和宽度方向的位置权重。这种方式能够将位置信息编码为方向感知的注意力图,从而更精准地定位目标。

W h =σ( F h ( [ AvgPool h ( X ), AvgPool w ( X ) ] ) ) (2)

W w =σ( F w ( [ AvgPool h ( X ), AvgPool w ( X ) ] ) ) (3)

最终,输入特征图 X 经过CPAM模块处理后的输出为:

X out =X W c ( W h W w ) (4)

其中, 表示逐元素乘法, 表示外积,将一维的高度和宽度权重向量组合成二维空间权重图。

3.3. 基于WIoU的高精度边界框回归损失

边界框定位精度直接决定计数的准确性。在密集人群场景中,目标存在严重的相互遮挡和尺度变化,传统IoU系列损失(如CIoU)的梯度特性可能导致回归不稳定。

本文引入WIoU (Wise-IoU)损失函数,它通过引入动态非单调聚焦机制和构造梯度增益更合理的距离度量,有效解决了上述问题。WIoU v3 [12]版本定义如下:

WIoU v3 =r IoU ,r= β δ α βδ (5)

其中, IoU 为基础IoU损失, r 为动态权重因子, α,β,δ 分别为锚框与目标框的尺度因子。该权重由锚框与目标框的尺寸比 β δ 等共同决定。

4. 实验与结果分析

4.1. 实验设置

4.1.1. 实现细节

训练采用AdamW优化器,初始学习率为1e−3,权重衰减系数为0.05。学习率调度采用带热启动的余弦退火策略。数据增强方法包括马赛克增强、随机裁剪与色彩空间扰动。训练共进行300轮,批次大小为16,并采用混合精度训练以加速收敛。所有实验均在配备NVIDIA RTX 3060 GPU的工作站上完成。输入图像尺寸根据数据集进行调整,训练时使用预训练权重进行初始化。

4.1.2. 数据集处理

本次实验采用自建的大规模人群计数数据集进行模型训练与验证。该数据集通过系统整合网络公开监控视频与多个权威公开数据集构建而成,旨在覆盖高密度、多尺度变化及严重遮挡等复杂真实场景。具体而言,数据来源包括:(1) 从符合CC0协议的公开视频平台(如Pexels、Pixabay)采集的监控场景图像,筛选时遵循场景多样性、人群密度梯度、光照与遮挡条件及分辨率四项标准;(2) 融合多个广泛使用的人群计数公开数据集,包括ShanghaiTech、UCF-QNR、NWPU-Crowd,均已遵循相应许可协议。经去重与清洗后,数据集共包含1500张图像,标注人头实例超过15万个。所有标注均由专业标注人员进行边界框标注,并经过三轮交叉验证以确保标注质量。最后,将数据集按照8:2比例随机划分为训练集(1200张图像)与验证集(300张图像),划分过程中保持不同来源与场景的分布均衡。

4.1.3. 评估指标

我们选择使用召回率(Recall)和平均精度均值(Mean Average Precision, mAP)作为我们的指标来衡量计数精度和稳健性。其计算公式如下所示:

Recall= TP TP+FN (6)

mAP= 1 N i=1 N AP i ,AP= 0 1 p( r )dr (7)

其中平均精度AP是通过量化精确率–召回率曲线(P-R曲线)下的面积;TP,FN是混淆矩阵中的指标。

混淆矩阵通过对比实际标签与预测标签,将结果分为四类:真正例(TP,预测正确且为正类)、假正例(FP,预测错误且为正类)、真反例(TN,预测正确且为负类)、假反例(FN,预测错误且为负类)。

4.2. 实验结果

为直观对比模型性能,我们将改进前后的YOLOv8n在验证集上的mAP50、mAP50:95和Recall随训练轮次的变化曲线进行对比,结果如图2所示。

Figure 2. Comparison of mAP50, mAP50:95, and Recall curves of the model before and after the improvement on the validation set

2. 改进前后模型在验证集上的mAP50、mAP50:95和Recall曲线对比图

图2可以得出,改进后的YOLOv8n模型的mAP50和mAP50:95大约在20轮次后均高于原始模型,说明改进后的模型没有出现过拟合的情况,拥有更好的检测效果,目标检测精确度更高。

4.3. 对比实验

对于加入各模块之后的效果进行对比,并且分析各改进模块的贡献,包括GhostConv模块、CPAM模块以及WIoU损失函数等。具体结果如表1所示。

Table 1. Comparison of the effects of each module in the test

1. 各模块效果试验对比

检测模型

mAP50/%

mAP50:95/%

Recall/%

YOLOv8n

63.5

34

53.4

YOLOv8n + GhostConv

63.7 (↑0.2)

34.7 (↑0.7)

54.8 (↑1.4)

YOLOv8n + CPAM

63.2 (↓0.2)

34.4 (↑0.4)

52.9 (↓0.5)

YOLOv8n + WIoU

64 (↑0.5)

34.7 (↑0.7)

54.8 (↑1.4)

4.4. 消融实验

消融实验通过逐步验证各模块对模型性能的贡献,结合本文对比实验,量化不同改进策略对检测精度的影响。本次消融实验的设计如表2所示,其中“√”表示使用了该模块,空白则表示未使用。消融实验结果如表3所示。其中“↑”表示性能增加量,“↓”表示性能减少量。

Table 2. Ablation experiment design

2. 消融实验设计

Group

GhostConv

CPAM

WloU

Base

Group 1

Group 2

Group 3

Group 4

Group 5

Group 6

Group 7

Table 3. Ablation test results

3. 消融实验结果

Group

mAP50/%

mAP50:95/%

Recall/%

Base

63.5

34

53.4

Group 1

63.7 (↑0.2)

34.7 (↑0.7)

54.8 (↑1.4)

Group 2

63.2 (↓0.3)

34.4 (↑0.4)

52.9 (↓0.5)

Group 3

64 (↑0.5)

34.7 (↑0.7)

54.8 (↑1.4)

Group 4

63.2 (↓0.3)

34.7 (↑0.7)

53.8 (↑0.4)

Group 5

64.5 (↑1.0)

34.8 (↑0.8)

56.2 (↑2.8)

Group 6

65 (↑1.5)

35.3 (↑1.3)

56.2 (↑2.8)

Group 7

65.3 (↑1.8)

35.6 (↑1.6)

56.4 (↑3.0)

表3所示,Group 7检测精度全面优于其他Group,所以我们选择Group 7为最终模型。

4.5. 可视化分析

通过可视化密度图预测结果,直观展示YOLOv8n-CCNet在不同场景下的性能表现,包括密集区域、稀疏区域以及复杂背景场景。具体结果如图3所示。

Figure 3. Visualization of experimental results: the first row displays the original YOLOv8n results, while the second row presents the results of this experiment

3. 实验结果可视化:第一行为原始YOLOv8n结果,第二行为本实验结果

可以明显看出,在遮挡明显和小目标人群计数场景中,我们的模型相比于原始YOLOv8n有显著提升。

5. 结论

本文提出一种面向密集人群计数的高效检测网络YOLOv8n-CCNet。通过渐进式轻量化设计,在显著降低参数量的同时保留了模型对多尺度人头的检测能力;定制化的通道与位置注意力模块有效增强了网络在复杂背景下对密集小目标的聚焦与定位能力;配合动态优化的WIoUv3损失函数,大幅提升了遮挡场景下边界框回归的稳定性。实验全面验证了各模块的有效性与协同作用。

本研究为在资源受限的边缘设备上实现高精度、实时的人群计数提供了可行方案。未来工作将着重在极微小目标检测、无需密集标注的弱监督学习方法以及视频时序信息建模等方面展开探索,如近期研究[13]所示,以提升动态场景下的计数性能,进一步推动该技术在智慧城市管理与公共安全监测中的应用。

基金项目

河南省科技攻关项目(232102211037),河南大学科研实验室开放项目(20252304056)。

NOTES

*通讯作者。

参考文献

[1] Li, Y., Zhang, X. and Chen, D. (2018) CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-22 June 2018, 1091-1100. [Google Scholar] [CrossRef
[2] Gao, J., Wang, Q. and Yuan, Y. (2019) SCAR: Spatial-/Channel-Wise Attention Regression Networks for Crowd Counting. Neurocomputing, 363, 1-8. [Google Scholar] [CrossRef
[3] Jocher, G., Chaurasia, A. and Qiu, J. (2023) YOLOv8: A State-of-the-Art Object Detection Model. Ultralytics.
[4] Liu, S., Zhao, W. and Huang, G. (2024) EfficientNet-Ghost: A Hybrid Lightweight Architecture for Real-Time Detection on Mobile Devices. Proceedings of the AAAI Conference on Artificial Intelligence, 38, 6213-6221.
[5] Wang, C., Bochkovskiy, A. and Liao, H.M. (2023) YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 18-22 June 2023, 7464-7475. [Google Scholar] [CrossRef
[6] Hu, J., Shen, L. and Sun, G. (2018) Squeeze-and-Excitation Networks. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-22 June 2018, 7132-7141. [Google Scholar] [CrossRef
[7] Woo, S., Park, J., Lee, J. and Kweon, I.S. (2018) CBAM: Convolutional Block Attention Module. Proceedings of the European Conference on Computer Vision (ECCV), Munich, 8-14 September 2018, 3-19. [Google Scholar] [CrossRef
[8] Han, K., Wang, Y., Tian, Q., Guo, J., Xu, C. and Xu, C. (2020) Ghostnet: More Features from Cheap Operations. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 14-19 June 2020, 1580-1589. [Google Scholar] [CrossRef
[9] Tan, M. and Le, Q. (2019) EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. International Conference on Machine Learning. PMLR, Long Beach, 9-15 June 2019, 6105-6114.
[10] Hou, Q., Zhou, D. and Feng, J. (2021) Coordinate Attention for Efficient Mobile Network Design. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 19-25 June 2021, 13713-13722. [Google Scholar] [CrossRef
[11] Chen, X., Liu, Y. and Zhang, Q. (2024) Multi-Scale Attention Fusion Network for Crowd Counting in Complex Scenes. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Seattle, 16-22 June 2024, 88-97.
[12] Tong, Z., Chen, Y., Xu, Z., et al. (2023) Wise-IoU: Bounding Box Regression Loss with Dynamic Focusing Mechanism.
[13] Zhou, Y., Xu, T. and Chen, L. (2025) Video-Based Crowd Counting with Temporal Attention and Motion Modeling. IEEE Transactions on Circuits and Systems for Video Technology, 35, 321-335.