1. 引言
在现代科技的快速发展中,计算机视觉已在多个领域展示了其巨大的潜力和应用价值。自动化跟踪拍摄系统就是基于计算机视觉,解放用户双手,通过对足球比赛中球和球员的目标检测,利用检测结果来控制舵机,从而实现自动化跟踪拍摄。其中,足球本身作为关键目标之一,由于其尺寸小且变化大、形状不规则以及频繁被遮挡等特点,成为了检测任务中的一大挑战。
先前的研究工作中,Jacek Komorowski等人开发了FootAndBall [1]算法用于足球比赛的检测,但该方法存在特征融合不足的问题,加上数据集规模较小,影响了整体的检测效果。DeepBall [2]算法随后推出,虽然提高了检测准确率,但在处理小目标如足球时仍有一定局限性。最近,Konstantinos Moutselos等人利用SoccerNet_v3_H250 [3]数据集与YOLOv8n [4]模型,实现了mAP50为70.2%,mAP50-90为46.6%的整体类别检测成绩,而在球类检测方面,mAP50达到了42.6%,mAP50-90则为17.9%。
基于深度学习的目标检测技术主要分为两类:单阶段和双阶段检测方法。双阶段检测器,如R-CNN [5]系列,尽管具有较高的精度,但它们速度慢,难以有效应对小目标或严重遮挡的情况。相比之下,单阶段检测器,例如YOLO系列,通过直接从图像或视频中预测物体边界框,提供了更快的速度和良好的准确性。
本研究旨在改善足球比赛中的目标检测性能,特别针对YOLOv5n [6]进行了优化,提出了一种新的模型——ECABiF-Y5n。我们的贡献包括:
1、引入了一个名为ECASPPF的新模块,结合了ECA [7]注意力机制(TA)到空间金字塔池化层(SPPF),并且借鉴残差网络的思想,促进了不同阶段特征之间的融合,从而增强了特征表示并提升了模型精度。
2、加入了BiFPN [8]加权双向特征金字塔网络,有效地整合了来自不同层次的特征信息,使得模型更能适应目标尺度的变化,进而提高了检测的准确性。
2. 相关工作
YOLOv5
YOLOv5作为单阶段目标检测算法,其架构主要由三个关键部分组成:Backbone、Neck和Head。在数据预处理阶段,该模型采用了如mosaic [9]等先进的数据增强技术,通过组合多张图像来生成新的训练样本,从而显著增加了目标实例的多样性,增强了模型的泛化能力和鲁棒性。对于不同长宽比的输入图像,YOLOv5通过填充较小图像和缩放较大图像的方法,确保所有输入具有统一的尺寸,优化了检测效率。
Backbone的功能在于提取原始输入图像的多层次特征图,为后续的目标识别提供基础特征信息。Neck组件则结合了FPN [10]与PANet [11]结构。FPN采用自顶向下的架构传递高层语义信息,而PANet在此基础上引入了自底向上的路径,以补充低层的空间定位信息,改善了特征融合的效果,提高了对各种尺度目标的检测准确性。最终,Head模块负责整合来自不同层次的特征图,生成更为丰富和抽象的特征表示,以此来提升整体检测性能。这不仅提升了YOLOv5对复杂场景中目标的检测能力,还保证了实时处理的速度,使其成为广泛应用的目标检测解决方案之一。
Figure 1. The structure of ECABiF-Y5n
图1. ECABiF-Y5n结构
3. ECABiF-Y5n目标检测算法
如图1所示,ECABiF-Y5n在YOLOv5n的基础上,使用了ECASPPF模块连接Backbone与Neck,使用BiFPN [12]来处理不同大小和尺度的目标。
3.1. ECASPPF
如图2所展示,YOLOv5n的SPPF组件主要由三个连续的最大池化层构成。尽管此设计有助于简化运算和加快特征传递速度,但在足球赛事的目标识别任务中,它导致的空间信息损失问题变得更加突出。尤其在复杂场景下,例如运动员之间的遮挡、球员对球的遮蔽以及球的高速移动等情况下,这些干扰因素会大幅降低检测球员与足球等重要目标的准确性。为了加强模型对足球比赛关键目标特征的关注度,并减少因上述干扰造成的错误检测或遗漏检测情况,ECABiF-Y5n针对SPPF模块进行了特定的优化。通过调整模块结构,加入ECA注意力机制,并且借鉴残差网络的概念添加了残差路径,以此整合多级特征,增强了特征表达的丰富性,从而提高了目标识别的效果。
Figure 2. The structure of SPPF
图2. SPPF结构
Figure 3. The structure of ECASPPF
图3. ECASPPF结构
如图3所示,重新设计的ECASPPF模块在SPPF中引入ECA注意力机制,增强特征交互能力;再添加跳跃链接,既可以保留原始特征,又可以进一步提高模型的精度和鲁棒性,防止出现梯度消失和梯度爆炸现象的发生。
3.2. BiFPN
在该方法中,我们利用BiFPN (双向特征金字塔网络)来集成两种不同类型的特征。在足球赛事中,球与运动员各自表现出独特的特性,并且球在场地的不同位置也会显现出不同的特性,这些差异影响了识别的准确性。BiFPN的关键在于它能够将来自不同层次和深度的信息进行整合,产生更为强大的特征表示,从而改善检测的精确度。
最初的特征金字塔网络(FPN)设计,如图4(a)所示,通过一种从低到高的采样融合策略,将最基础层的特征上采样并与更高层次的特征相融合,以生成高分辨率并且富含语义信息的特征表达。然而,FPN
Figure 4. Networks with different feature pyramids
图4. 不同特征金字塔网络
的一个限制是它的底层特征无法直接影响高层特征。为了解决这一问题,PANet引入了一个自下而上的路径增强机制,使低级信息能更有效地传输到高级别,如图4(b)所展示。
尽管FPN和PANet运用了传统的方法来进行特征融合,但它们只是简单地叠加了特征映射,没有充分考虑各分辨率特征之间的权重差异。针对此问题,在BiFPN中,不同输入特征被分配了相应的权重,实现了更加有针对性的融合过程。
如图4(c)所示,在BiFPN架构中,向下箭头代表的是自顶向下的路径,负责传递高层次特征的语义信息;向上箭头则对应于自底向上的路径,用以传达低层次特征的空间信息。BiFPN的主要特点包括:移除了仅有单一输入连接的节点,提高了融合效率;对于同一层级的特征,BiFPN增加了原始输入和输出节点间的额外连接,这样可以在不大幅增加计算成本的前提下融合更多特征;此外,不同于PANet,BiFPN把每一个自顶向下和自底向上的路径看作一个独立的特征网络层,并通过重复应用相同的层来促进更深层次的特征融合。
BiFPN引入了加权特征融合策略,给每个特征分配了一个额外的权重。为了确保各权重的有效限制,它采用了快速归一化融合技术,该技术与Softmax类似,可以将权重值调整到[0,1]区间内。通过实施这种加权机制,BiFPN在不增加内容的前提下,提升了训练的速度和效率。快速归一化如公式(1)所示:
(1)
在公式(1)里,Ωi代表可学习的权重,通过应用ReLU激活函数保证每个Ωi非负。具体的计算步骤为:首先汇总所有Ωi的值;随后加上一个微小常数ε = 0.0001以防止数值不稳定;接着对这些权重执行归一化;最终,使用归一化后的权重对输入特征I进行加权组合,生成输出特征O。
以图4(c)中P6层为例,特征融合的计算公式为:
(2)
(3)
公式(2)和(3)中,Conv表示卷积操作,resize表示上采样或下采样操作,
、
和
分别对应第i级的输入特征、中间特征和输出特征。
BiFPN结合了语义信息与空间信息。以足球比赛为例,精确掌握球员和球的位置对于模型非常重要。通过引入权重机制,BiFPN可以增强对球员和球的关键特征的关注。这使得在特征融合过程中,依据特征的重要性给予不同的权重,其中与球员和球密切关联的特征会被赋予更大的权重。
此外,BiFPN的一个显著优点是其双向跨尺度特征融合能力。考虑到足球比赛中球员和球的运动特性具有多尺度属性——它们在不同时间和空间尺度上的表现各异,BiFPN能够有效整合这些不同尺度的特征,从而更完整地捕捉球员和球的动态。这种双向融合确保了模型可以从多个尺度综合球员和球的特征,进而提升位置检测的准确性、稳定性和可靠性。
4. 实验
4.1. 数据集
本文采用的数据集为SoccerNet_v3_H250,用于评估长镜头场景下球员和足球检测模型的性能。该数据集中人物边界框的高度限制在不超过250像素。“0”类别标识足球,“1”类别标识人物边界框。数据集划分成训练、验证和测试三个部分,各部分图像数量分别为:14,368张、2726张和2692张。此数据集可从以下链接获取:[SoccerNet_v3_H250] (https://github.com/kmouts/SoccerNet_v3_H250)。
4.2. 评价指标
1. 精确度(Precision, P)指的是模型预测为正类的实例中,实际真正为正类的比例。它衡量的是模型预测正类时的准确性。
2. 召回率(Recall, R)是指所有实际为正类的实例中,被模型正确识别为正类的比例。它反映了模型找出所有正类实例的能力。
3. mAP50 (mean Average Precision at IOU = 0.5)是在交并比(Intersection over Union, IoU)阈值设定为0.5的情况下计算的平均精度均值。这一指标用于评估目标检测模型在单一IoU阈值下的性能表现。
4. mAP50-95 (mean Average Precision from IOU = 0.5 to 0.95)是计算一系列IoU阈值(从0.5到0.95,通常以0.05为间隔)下的平均精度均值。该指标提供了一个更为严格和综合的模型性能评估标准,因为它考虑了不同严格程度下的检测结果。
4.3. 实验过程
4.3.1. 选定骨干网络
为了提高足球比赛中目标检测的精度,本实验首先选取了YOLOv5n、YOLOv8n和YOLOv10n [13]作为模型基线,并与ECABiF-Y5n进行对比实验。实验设置包括使用各模型对应的预训练权重(YOLOv5n.pt, YOLOv8n.pt, YOLOv10n.pt),进行200轮训练,同时保持默认输入分辨率为640 × 640。根据表1的数据结果,在球类目标分类以及总体分类上,YOLOv5n的表现均优于其他两种方法。具体来说,在“球”分类检测方面,与YOLOv8n相比,YOLOv5n实现了精确度提升5.7%,召回率增加5.9%,mAP50提升6.8%,mAP50-95提升2.6%;而相对于YOLOv10n,YOLOv5n则表现出更高的精确度提升了6.5%,召回率提高了2.2%,mAP50提升了2.2%,mAP50-95提升了0.7%。由于YOLOv5n在较难的球类检测任务中表现更为出色,因此选择它作为后续实验的骨干网络。加入了ECA注意力机制与BiFPN之后,“球”分类的精确度比YOLOv8n提升了0.4%,mAP50提升了0.8%,mAP50-95提升0.2%。
Table 1. Comparison experiment between YOLOv5n, YOLOv8n, YOLOv10n and ECABiF-Y5n
表1. YOLOv5n、YOLOv8n、YOLOv10n和ECABiF-Y5n的对比实验
类 |
模型 |
P |
R |
mAP50 |
mAP50-95 |
全部 |
YOLOv8n |
79.6% |
68.7% |
70.2% |
46.6% |
YOLOv10n |
79.8% |
70.4% |
72.6% |
46.6% |
YOLOv5n |
83.9% |
71.0% |
73.6% |
46.9% |
ECABiF-Y5n |
84.0% |
71.0% |
73.9% |
46.8% |
球 |
YOLOv8n |
66.2% |
41.1% |
42.6% |
17.9% |
YOLOv10n |
65.4% |
44.8% |
47.2% |
19.8% |
YOLOv5n |
71.9% |
47.0% |
49.4% |
20.5% |
ECABiF-Y5n |
72.3% |
47.0% |
50.2% |
20.7% |
人 |
YOLOv8n |
93.1% |
96.3% |
97.9% |
75.2% |
YOLOv10n |
94.2% |
95.9% |
98.0% |
75.4% |
YOLOv5n |
95.9% |
95.0% |
97.8% |
73.3% |
ECABiF-Y5n |
95.7% |
95.0% |
97.6% |
72.9% |
4.3.2. 消融实验
为了验证本文提出模型的各个模块对结果提升的贡献,进行逐步实验。结果如表2所示,ECABiF-Y5n在结合所有改进后,在各类别中均表现出最优的整体性能,特别是在小目标检测(如“球”)方面显著提升,而在大目标(如“人”)上也保持了高性能,证明了其架构优化的有效性和鲁棒性。
Table 2. Ablation experiment
表2. 消融实验
类 |
模型 |
P |
R |
mAP50 |
mAP50-95 |
全部 |
YOLOv5n |
83.9% |
71.0% |
73.6% |
46.9% |
Y5n_BiFPN |
82.7% |
69.8% |
72.3% |
45.8% |
Y5n_ECASPPF |
82.1% |
69.3% |
71.7% |
45.2% |
ECABiF-Y5n |
84.0% |
71.0% |
73.9% |
46.8% |
球 |
YOLOv5n |
71.9% |
47.0% |
49.4% |
20.5% |
Y5n_BiFPN |
69.8% |
45.7% |
48.1% |
19.6% |
Y5n_ECASPPF |
68.9% |
45.2% |
47.6% |
19.3% |
ECABiF-Y5n |
72.3% |
47.0% |
50.2% |
20.7% |
人 |
YOLOv5n |
95.9% |
95.0% |
97.8% |
73.3% |
Y5n_BiFPN |
94.6% |
93.7% |
96.6% |
71.7% |
Y5n_ECASPPF |
94.2% |
93.4% |
96.3% |
71.3% |
ECABiF-Y5n |
95.7% |
95.0% |
97.6% |
72.9% |
4.3.3. 不同注意力机制对比
为了评估ECA注意力机制对实验结果的影响,本研究将对比分析多种无参注意力机制,涵盖SE [14]、CBAM [15]、CoordAtt [16]、PfAAM [17]和ECA五种方法。通过比较这些不同的无参注意力机制(如表3所示),结果显示ECABiF-Y5n在所有类别以及“球”类别的检测中取得了最优成绩。
Table 3. Comparison experiment of different attention mechanisms
表3. 不同注意力机制对比实验
类 |
模型 |
P |
R |
mAP50 |
mAP50-95 |
全部 |
Y5n_BiFPN_SE |
83.3% |
71.7% |
73.4% |
46.3% |
Y5n_BiFPN_CBAM |
84.2% |
71.5% |
73.9% |
46.4% |
Y5n_BiFPN_CoordAtt |
82.2% |
71.4% |
73.2% |
46.2% |
Y5n_BiFPN_PfAAM |
83.9% |
70.6% |
73.3% |
46.1% |
ECABiF-Y5n |
84.0% |
71.0% |
73.9% |
46.8% |
球 |
Y5n_BiFPN_SE |
71.0% |
48.3% |
49.1% |
19.7% |
Y5n_BiFPN_CBAM |
72.9% |
47.9% |
50.2% |
20.0% |
Y5n_BiFPN_CoordAtt |
68.9% |
47.7% |
48.6% |
19.3% |
Y5n_BiFPN_PfAAM |
72.5% |
46.1% |
48.9% |
19.3% |
ECABiF-Y5n |
72.3% |
47.0% |
50.2% |
20.7% |
人 |
Y5n_BiFPN_SE |
95.5% |
95.1% |
97.7% |
72.9% |
Y5n_BiFPN_CBAM |
95.5% |
95.0% |
97.6% |
72.9% |
Y5n_BiFPN_CoordAtt |
95.5% |
95.2% |
97.8% |
73.0% |
Y5n_BiFPN_PfAAM |
95.4% |
95.1% |
97.6% |
72.9% |
ECABiF-Y5n |
95.7% |
95.0% |
97.6% |
72.9% |
4.3.4. 不同特征金字塔对比
为了评估不同特征金字塔对实验结果的影响,本研究将对比多种特征金字塔模块,包括PANet、AFPN [18]和BIFPN。如表4所示,在这些特征金字塔模块的比较中,ECABiF-Y5n在所有类别及“球”类别的检测中取得了最优成绩。
Table 4. Comparison experiment of different loss functions
表4. 不同损失函数对比实验
类 |
模型 |
P |
R |
mAP50 |
mAP50-95 |
全部 |
Y5n_ECASPPF_PANet |
83.2% |
68.7% |
72.4% |
45.3% |
Y5n_ECASPPF_AFPN |
82.1% |
68.3% |
71.8% |
44.2% |
ECABiF-Y5n |
84.0% |
71.0% |
73.9% |
46.8% |
球 |
Y5n_ECASPPF_PANet |
71.0% |
46.2% |
49.5% |
20.2% |
Y5n_ECASPPF_AFPN |
69.5% |
45.8% |
48.7% |
19.6% |
ECABiF-Y5n |
72.3% |
47.0% |
50.2% |
20.7% |
人 |
Y5n_ECASPPF_PANet |
94.8% |
93.7% |
96.8% |
71.8% |
Y5n_ECASPPF_AFPN |
94.2% |
93.3% |
96.4% |
71.2% |
ECABiF-Y5n |
95.7% |
95.0% |
97.6% |
72.9% |
4.3.5. 与先进小目标检测模型的性能对比
如表5所示,为了评估所提出的模型在足球比赛检测任务中的性能改进,作者将ECABiF-Y5n与两个专门为小目标检测优化的模型进行了对比实验。这两个模型分别是文献“HIC-YOLOv5: Improved YOLOv5 For Small Object Detection”中提出的HIC-YOLOv5 [19]和文献“SOD-YOLOv8-Enhancing YOLOv8 for Small Object Detection in Traffic Scenes”中介绍的SOD-YOLOv8 [20]。通过与这些先进模型的比较,可以更准确地衡量ECABiF-Y5n在SoccerNet_v3_H250数据集上的精度提升。此外,作者还将分析不同模型在计算资源消耗和处理速度方面的差异,以证明ECABiF-Y5n不仅在准确性上有所提升,而且在实际应用中也展现了高效的运行性能。
Table 5. Accuracy comparison with advanced small object detection models
表5. 与先进小目标检测模型的精度对比
类 |
模型 |
P |
R |
mAP50 |
mAP50-95 |
全部 |
ECABiF-Y5n |
84.0% |
71.0% |
73.9% |
46.8% |
HIC-YOLOv5n |
80.5% |
69.1% |
72.8% |
44.6% |
SOD-YOLOv8n |
82.4% |
71.5% |
75.3% |
46.8% |
球 |
ECABiF-Y5n |
72.3% |
47.0% |
50.2% |
20.7% |
HIC-YOLOv5n |
66.5% |
45.5% |
48.9% |
20.4% |
SOD-YOLOv8n |
69.5% |
47.4% |
52.5% |
22.0% |
人 |
ECABiF-Y5n |
96.1% |
94.7% |
97.6% |
72.0% |
HIC-YOLOv5n |
94.5% |
92.8% |
96.7% |
68.8% |
SOD-YOLOv8n |
95.7% |
95.0% |
97.6% |
72.9% |
表6所示,ECABiF-Y5n的综合检测效果与SOD-YOLOv8n大致持平,球类检测准度高于HIC-YOLOv5n,低于SOD-YOLOv8n,但ECABiF-Y5n的计算复杂度(GFLOPs),参数量,层数均明显低于另外两项。作者认为ECABiF-Y5n在资源受限或对实时性要求极高的应用场景中拥有独特的优势。
Table 6. Efficiency comparison with advanced small object detection models
表6. 与先进小目标检测模型的性能对比
模型 |
层数 |
参数量 |
计算复杂度(GFLOPS) |
ECABiF-Y5n |
173 |
1.93 M |
4.5 |
YOLOv8n |
225 |
3.16 M |
8.9 |
HIC-YOLOv5n |
285 |
2.34 M |
8.1 |
SOD-YOLOv8n |
326 |
3.24 M |
12.7 |
5. 结论
本文提出了一种ECABiF-Y5n模型。创新点包括:通过将YOLOv5n的SPPF模块进行改造,提出ECASPPF替换之,显著增强了其对局部细节的表征能力;使用加权双向特征金字塔替换掉原始的FPN,融合了不同尺度和深度的特征信息,使其能够更准确地捕捉特征;在数据集SoccerNet_v3_H250上与YOLOv8n模型的对比中,ECABiF-Y5n的全部分类的精确度提升4.4%,召回率提升2.3%,mAP50提升3.7%,mAP0-95提升0.2%。“球”分类的精确度提升6.1%,召回率提升5.9%,mAP50提升7.6%,mAP0-95提升2.8%。与其他多个模型对比中,ECABiF-Y5n也取得了出色的结果,这显示了ECABiF-Y5n模型在检测任务中优秀的泛化能力与鲁棒性。这项研究对于足球比赛中足球的追踪有一定的准确度提升,对于自动化跟拍系统有明确的应用效果。在未来的研究中,作者将继续在现有方法的基础上,探索更先进的算法和技术,以不断提升模型的性能和应用范围,使其能够在更多种体育比赛中展示效果。
基金项目
黑龙江省省属高等学校基本科研业务费科研项目(2021-KYYWF-0180)。
NOTES
*通讯作者。