利用ECABiF-Y5n提高足球比赛中的目标检测精度
Improving Object Detection Accuracy in Football Matches Using ECABiF-Y5n
DOI: 10.12677/csa.2025.152035, PDF, HTML, XML,    科研立项经费支持
作者: 于兆廷, 杨建柏*:哈尔滨师范大学计算机科学与信息技术学院,黑龙江 哈尔滨
关键词: 目标检测YOLOv5ECA注意力机制加权双向特征金字塔Object Detection YOLOv5 Efficient Channel Attention BiFPN
摘要: 在足球赛事中,对运动员和球实施目标识别,能够为自动化的跟踪与拍摄系统提供必要的算法支撑。针对传统技术在识别球员和足球方面准确度不足的情况,本文介绍了一种改进的检测方法,该方法结合了ECA注意力机制和BiFPN (即加权双向特征金字塔网络),简记为ECABiF-Y5n。此模型优化了ECASPPF组件,以增强局部特征表达,并改善小物体的识别效率;同时利用BiFPN来整合多层级的特征信息,生成更为有效的特征描述。实验在SoccerNet_v3_H250数据集上进行,结果表明,相较于原作者采用的YOLOv8n,整体类别的精度提升了4.4%,召回率增加了2.3%,mAP50增长了3.7%,而mAP0-95则提高了0.2%。特别是对于较难识别的“球”类别,精度提高了6.1%,召回率上升了5.9%,mAP50增进了7.6%,mAP0-95也有了2.8%的进步。这些实验对比结果证明,ECABiF-Y5n在提升检测准确性方面表现出色,特别增强了对足球赛事中小型目标的辨识能力。
Abstract: In football matches, implementing object recognition for athletes and the ball can provide essential algorithmic support for automated tracking and filming systems. To address the issue of insufficient accuracy in traditional techniques when identifying players and the football, this paper introduces an improved detection method that combines ECA attention mechanisms with BiFPN (weighted bidirectional feature pyramid network), abbreviated as ECABiF-Y5n. This model optimizes the ECASPPF component to enhance local feature representation and improve the efficiency of small object recognition; it also employs BiFPN to integrate multi-level feature information, generating more effective feature descriptions. Experiments were conducted on the SoccerNet_v3_H250 dataset, showing that compared to YOLOv8n used by the original authors, the overall category precision increased by 4.4%, recall rose by 2.3%, mAP50 grew by 3.7%, and mAP0-95 improved by 0.2%. Specifically, for the “ball” category, which is more challenging to detect, precision improved by 6.1%, recall increased by 5.9%, mAP50 by 7.6%, and mAP0-95 by 2.8%. These comparative experimental results demonstrate that ECABiF-Y5n excels in enhancing detection accuracy, particularly strengthening the identification capability for small objects in football games.
文章引用:于兆廷, 杨建柏. 利用ECABiF-Y5n提高足球比赛中的目标检测精度[J]. 计算机科学与应用, 2025, 15(2): 83-93. https://doi.org/10.12677/csa.2025.152035

1. 引言

在现代科技的快速发展中,计算机视觉已在多个领域展示了其巨大的潜力和应用价值。自动化跟踪拍摄系统就是基于计算机视觉,解放用户双手,通过对足球比赛中球和球员的目标检测,利用检测结果来控制舵机,从而实现自动化跟踪拍摄。其中,足球本身作为关键目标之一,由于其尺寸小且变化大、形状不规则以及频繁被遮挡等特点,成为了检测任务中的一大挑战。

先前的研究工作中,Jacek Komorowski等人开发了FootAndBall [1]算法用于足球比赛的检测,但该方法存在特征融合不足的问题,加上数据集规模较小,影响了整体的检测效果。DeepBall [2]算法随后推出,虽然提高了检测准确率,但在处理小目标如足球时仍有一定局限性。最近,Konstantinos Moutselos等人利用SoccerNet_v3_H250 [3]数据集与YOLOv8n [4]模型,实现了mAP50为70.2%,mAP50-90为46.6%的整体类别检测成绩,而在球类检测方面,mAP50达到了42.6%,mAP50-90则为17.9%。

基于深度学习的目标检测技术主要分为两类:单阶段和双阶段检测方法。双阶段检测器,如R-CNN [5]系列,尽管具有较高的精度,但它们速度慢,难以有效应对小目标或严重遮挡的情况。相比之下,单阶段检测器,例如YOLO系列,通过直接从图像或视频中预测物体边界框,提供了更快的速度和良好的准确性。

本研究旨在改善足球比赛中的目标检测性能,特别针对YOLOv5n [6]进行了优化,提出了一种新的模型——ECABiF-Y5n。我们的贡献包括:

1、引入了一个名为ECASPPF的新模块,结合了ECA [7]注意力机制(TA)到空间金字塔池化层(SPPF),并且借鉴残差网络的思想,促进了不同阶段特征之间的融合,从而增强了特征表示并提升了模型精度。

2、加入了BiFPN [8]加权双向特征金字塔网络,有效地整合了来自不同层次的特征信息,使得模型更能适应目标尺度的变化,进而提高了检测的准确性。

2. 相关工作

YOLOv5

YOLOv5作为单阶段目标检测算法,其架构主要由三个关键部分组成:Backbone、Neck和Head。在数据预处理阶段,该模型采用了如mosaic [9]等先进的数据增强技术,通过组合多张图像来生成新的训练样本,从而显著增加了目标实例的多样性,增强了模型的泛化能力和鲁棒性。对于不同长宽比的输入图像,YOLOv5通过填充较小图像和缩放较大图像的方法,确保所有输入具有统一的尺寸,优化了检测效率。

Backbone的功能在于提取原始输入图像的多层次特征图,为后续的目标识别提供基础特征信息。Neck组件则结合了FPN [10]与PANet [11]结构。FPN采用自顶向下的架构传递高层语义信息,而PANet在此基础上引入了自底向上的路径,以补充低层的空间定位信息,改善了特征融合的效果,提高了对各种尺度目标的检测准确性。最终,Head模块负责整合来自不同层次的特征图,生成更为丰富和抽象的特征表示,以此来提升整体检测性能。这不仅提升了YOLOv5对复杂场景中目标的检测能力,还保证了实时处理的速度,使其成为广泛应用的目标检测解决方案之一。

Figure 1. The structure of ECABiF-Y5n

1. ECABiF-Y5n结构

3. ECABiF-Y5n目标检测算法

图1所示,ECABiF-Y5n在YOLOv5n的基础上,使用了ECASPPF模块连接Backbone与Neck,使用BiFPN [12]来处理不同大小和尺度的目标。

3.1. ECASPPF

图2所展示,YOLOv5n的SPPF组件主要由三个连续的最大池化层构成。尽管此设计有助于简化运算和加快特征传递速度,但在足球赛事的目标识别任务中,它导致的空间信息损失问题变得更加突出。尤其在复杂场景下,例如运动员之间的遮挡、球员对球的遮蔽以及球的高速移动等情况下,这些干扰因素会大幅降低检测球员与足球等重要目标的准确性。为了加强模型对足球比赛关键目标特征的关注度,并减少因上述干扰造成的错误检测或遗漏检测情况,ECABiF-Y5n针对SPPF模块进行了特定的优化。通过调整模块结构,加入ECA注意力机制,并且借鉴残差网络的概念添加了残差路径,以此整合多级特征,增强了特征表达的丰富性,从而提高了目标识别的效果。

Figure 2. The structure of SPPF

2. SPPF结构

Figure 3. The structure of ECASPPF

3. ECASPPF结构

图3所示,重新设计的ECASPPF模块在SPPF中引入ECA注意力机制,增强特征交互能力;再添加跳跃链接,既可以保留原始特征,又可以进一步提高模型的精度和鲁棒性,防止出现梯度消失和梯度爆炸现象的发生。

3.2. BiFPN

在该方法中,我们利用BiFPN (双向特征金字塔网络)来集成两种不同类型的特征。在足球赛事中,球与运动员各自表现出独特的特性,并且球在场地的不同位置也会显现出不同的特性,这些差异影响了识别的准确性。BiFPN的关键在于它能够将来自不同层次和深度的信息进行整合,产生更为强大的特征表示,从而改善检测的精确度。

最初的特征金字塔网络(FPN)设计,如图4(a)所示,通过一种从低到高的采样融合策略,将最基础层的特征上采样并与更高层次的特征相融合,以生成高分辨率并且富含语义信息的特征表达。然而,FPN

Figure 4. Networks with different feature pyramids

4. 不同特征金字塔网络

的一个限制是它的底层特征无法直接影响高层特征。为了解决这一问题,PANet引入了一个自下而上的路径增强机制,使低级信息能更有效地传输到高级别,如图4(b)所展示。

尽管FPN和PANet运用了传统的方法来进行特征融合,但它们只是简单地叠加了特征映射,没有充分考虑各分辨率特征之间的权重差异。针对此问题,在BiFPN中,不同输入特征被分配了相应的权重,实现了更加有针对性的融合过程。

图4(c)所示,在BiFPN架构中,向下箭头代表的是自顶向下的路径,负责传递高层次特征的语义信息;向上箭头则对应于自底向上的路径,用以传达低层次特征的空间信息。BiFPN的主要特点包括:移除了仅有单一输入连接的节点,提高了融合效率;对于同一层级的特征,BiFPN增加了原始输入和输出节点间的额外连接,这样可以在不大幅增加计算成本的前提下融合更多特征;此外,不同于PANet,BiFPN把每一个自顶向下和自底向上的路径看作一个独立的特征网络层,并通过重复应用相同的层来促进更深层次的特征融合。

BiFPN引入了加权特征融合策略,给每个特征分配了一个额外的权重。为了确保各权重的有效限制,它采用了快速归一化融合技术,该技术与Softmax类似,可以将权重值调整到[0,1]区间内。通过实施这种加权机制,BiFPN在不增加内容的前提下,提升了训练的速度和效率。快速归一化如公式(1)所示:

O= i=0 Ω i / ( ε+ j=0 Ω j ) I i (1)

在公式(1)里,Ωi代表可学习的权重,通过应用ReLU激活函数保证每个Ωi非负。具体的计算步骤为:首先汇总所有Ωi的值;随后加上一个微小常数ε = 0.0001以防止数值不稳定;接着对这些权重执行归一化;最终,使用归一化后的权重对输入特征I进行加权组合,生成输出特征O

图4(c)中P6层为例,特征融合的计算公式为:

P 6 mid =Conv( w 1 × P 6 in + w 2 ×resize( P 7 in ) w 1 + w 2 +ε ) (2)

P 6 mid =Conv( w 1 × P 6 in + w 2 × P 6 mid + w 3 ×resize( P 5 out ) w 1 + w 2 + w 3 +ε ) (3)

公式(2)和(3)中,Conv表示卷积操作,resize表示上采样或下采样操作, P in i P mid i P out i 分别对应第i级的输入特征、中间特征和输出特征。

BiFPN结合了语义信息与空间信息。以足球比赛为例,精确掌握球员和球的位置对于模型非常重要。通过引入权重机制,BiFPN可以增强对球员和球的关键特征的关注。这使得在特征融合过程中,依据特征的重要性给予不同的权重,其中与球员和球密切关联的特征会被赋予更大的权重。

此外,BiFPN的一个显著优点是其双向跨尺度特征融合能力。考虑到足球比赛中球员和球的运动特性具有多尺度属性——它们在不同时间和空间尺度上的表现各异,BiFPN能够有效整合这些不同尺度的特征,从而更完整地捕捉球员和球的动态。这种双向融合确保了模型可以从多个尺度综合球员和球的特征,进而提升位置检测的准确性、稳定性和可靠性。

4. 实验

4.1. 数据集

本文采用的数据集为SoccerNet_v3_H250,用于评估长镜头场景下球员和足球检测模型的性能。该数据集中人物边界框的高度限制在不超过250像素。“0”类别标识足球,“1”类别标识人物边界框。数据集划分成训练、验证和测试三个部分,各部分图像数量分别为:14,368张、2726张和2692张。此数据集可从以下链接获取:[SoccerNet_v3_H250] (https://github.com/kmouts/SoccerNet_v3_H250)。

4.2. 评价指标

1. 精确度(Precision, P)指的是模型预测为正类的实例中,实际真正为正类的比例。它衡量的是模型预测正类时的准确性。

2. 召回率(Recall, R)是指所有实际为正类的实例中,被模型正确识别为正类的比例。它反映了模型找出所有正类实例的能力。

3. mAP50 (mean Average Precision at IOU = 0.5)是在交并比(Intersection over Union, IoU)阈值设定为0.5的情况下计算的平均精度均值。这一指标用于评估目标检测模型在单一IoU阈值下的性能表现。

4. mAP50-95 (mean Average Precision from IOU = 0.5 to 0.95)是计算一系列IoU阈值(从0.5到0.95,通常以0.05为间隔)下的平均精度均值。该指标提供了一个更为严格和综合的模型性能评估标准,因为它考虑了不同严格程度下的检测结果。

4.3. 实验过程

4.3.1. 选定骨干网络

为了提高足球比赛中目标检测的精度,本实验首先选取了YOLOv5n、YOLOv8n和YOLOv10n [13]作为模型基线,并与ECABiF-Y5n进行对比实验。实验设置包括使用各模型对应的预训练权重(YOLOv5n.pt, YOLOv8n.pt, YOLOv10n.pt),进行200轮训练,同时保持默认输入分辨率为640 × 640。根据表1的数据结果,在球类目标分类以及总体分类上,YOLOv5n的表现均优于其他两种方法。具体来说,在“球”分类检测方面,与YOLOv8n相比,YOLOv5n实现了精确度提升5.7%,召回率增加5.9%,mAP50提升6.8%,mAP50-95提升2.6%;而相对于YOLOv10n,YOLOv5n则表现出更高的精确度提升了6.5%,召回率提高了2.2%,mAP50提升了2.2%,mAP50-95提升了0.7%。由于YOLOv5n在较难的球类检测任务中表现更为出色,因此选择它作为后续实验的骨干网络。加入了ECA注意力机制与BiFPN之后,“球”分类的精确度比YOLOv8n提升了0.4%,mAP50提升了0.8%,mAP50-95提升0.2%。

Table 1. Comparison experiment between YOLOv5n, YOLOv8n, YOLOv10n and ECABiF-Y5n

1. YOLOv5n、YOLOv8n、YOLOv10n和ECABiF-Y5n的对比实验

模型

P

R

mAP50

mAP50-95

全部

YOLOv8n

79.6%

68.7%

70.2%

46.6%

YOLOv10n

79.8%

70.4%

72.6%

46.6%

YOLOv5n

83.9%

71.0%

73.6%

46.9%

ECABiF-Y5n

84.0%

71.0%

73.9%

46.8%

YOLOv8n

66.2%

41.1%

42.6%

17.9%

YOLOv10n

65.4%

44.8%

47.2%

19.8%

YOLOv5n

71.9%

47.0%

49.4%

20.5%

ECABiF-Y5n

72.3%

47.0%

50.2%

20.7%

YOLOv8n

93.1%

96.3%

97.9%

75.2%

YOLOv10n

94.2%

95.9%

98.0%

75.4%

YOLOv5n

95.9%

95.0%

97.8%

73.3%

ECABiF-Y5n

95.7%

95.0%

97.6%

72.9%

4.3.2. 消融实验

为了验证本文提出模型的各个模块对结果提升的贡献,进行逐步实验。结果如表2所示,ECABiF-Y5n在结合所有改进后,在各类别中均表现出最优的整体性能,特别是在小目标检测(如“球”)方面显著提升,而在大目标(如“人”)上也保持了高性能,证明了其架构优化的有效性和鲁棒性。

Table 2. Ablation experiment

2. 消融实验

模型

P

R

mAP50

mAP50-95

全部

YOLOv5n

83.9%

71.0%

73.6%

46.9%

Y5n_BiFPN

82.7%

69.8%

72.3%

45.8%

Y5n_ECASPPF

82.1%

69.3%

71.7%

45.2%

ECABiF-Y5n

84.0%

71.0%

73.9%

46.8%

YOLOv5n

71.9%

47.0%

49.4%

20.5%

Y5n_BiFPN

69.8%

45.7%

48.1%

19.6%

Y5n_ECASPPF

68.9%

45.2%

47.6%

19.3%

ECABiF-Y5n

72.3%

47.0%

50.2%

20.7%

YOLOv5n

95.9%

95.0%

97.8%

73.3%

Y5n_BiFPN

94.6%

93.7%

96.6%

71.7%

Y5n_ECASPPF

94.2%

93.4%

96.3%

71.3%

ECABiF-Y5n

95.7%

95.0%

97.6%

72.9%

4.3.3. 不同注意力机制对比

为了评估ECA注意力机制对实验结果的影响,本研究将对比分析多种无参注意力机制,涵盖SE [14]、CBAM [15]、CoordAtt [16]、PfAAM [17]和ECA五种方法。通过比较这些不同的无参注意力机制(如表3所示),结果显示ECABiF-Y5n在所有类别以及“球”类别的检测中取得了最优成绩。

Table 3. Comparison experiment of different attention mechanisms

3. 不同注意力机制对比实验

模型

P

R

mAP50

mAP50-95

全部

Y5n_BiFPN_SE

83.3%

71.7%

73.4%

46.3%

Y5n_BiFPN_CBAM

84.2%

71.5%

73.9%

46.4%

Y5n_BiFPN_CoordAtt

82.2%

71.4%

73.2%

46.2%

Y5n_BiFPN_PfAAM

83.9%

70.6%

73.3%

46.1%

ECABiF-Y5n

84.0%

71.0%

73.9%

46.8%

Y5n_BiFPN_SE

71.0%

48.3%

49.1%

19.7%

Y5n_BiFPN_CBAM

72.9%

47.9%

50.2%

20.0%

Y5n_BiFPN_CoordAtt

68.9%

47.7%

48.6%

19.3%

Y5n_BiFPN_PfAAM

72.5%

46.1%

48.9%

19.3%

ECABiF-Y5n

72.3%

47.0%

50.2%

20.7%

Y5n_BiFPN_SE

95.5%

95.1%

97.7%

72.9%

Y5n_BiFPN_CBAM

95.5%

95.0%

97.6%

72.9%

Y5n_BiFPN_CoordAtt

95.5%

95.2%

97.8%

73.0%

Y5n_BiFPN_PfAAM

95.4%

95.1%

97.6%

72.9%

ECABiF-Y5n

95.7%

95.0%

97.6%

72.9%

4.3.4. 不同特征金字塔对比

为了评估不同特征金字塔对实验结果的影响,本研究将对比多种特征金字塔模块,包括PANet、AFPN [18]和BIFPN。如表4所示,在这些特征金字塔模块的比较中,ECABiF-Y5n在所有类别及“球”类别的检测中取得了最优成绩。

Table 4. Comparison experiment of different loss functions

4. 不同损失函数对比实验

模型

P

R

mAP50

mAP50-95

全部

Y5n_ECASPPF_PANet

83.2%

68.7%

72.4%

45.3%

Y5n_ECASPPF_AFPN

82.1%

68.3%

71.8%

44.2%

ECABiF-Y5n

84.0%

71.0%

73.9%

46.8%

Y5n_ECASPPF_PANet

71.0%

46.2%

49.5%

20.2%

Y5n_ECASPPF_AFPN

69.5%

45.8%

48.7%

19.6%

ECABiF-Y5n

72.3%

47.0%

50.2%

20.7%

Y5n_ECASPPF_PANet

94.8%

93.7%

96.8%

71.8%

Y5n_ECASPPF_AFPN

94.2%

93.3%

96.4%

71.2%

ECABiF-Y5n

95.7%

95.0%

97.6%

72.9%

4.3.5. 与先进小目标检测模型的性能对比

表5所示,为了评估所提出的模型在足球比赛检测任务中的性能改进,作者将ECABiF-Y5n与两个专门为小目标检测优化的模型进行了对比实验。这两个模型分别是文献“HIC-YOLOv5: Improved YOLOv5 For Small Object Detection”中提出的HIC-YOLOv5 [19]和文献“SOD-YOLOv8-Enhancing YOLOv8 for Small Object Detection in Traffic Scenes”中介绍的SOD-YOLOv8 [20]。通过与这些先进模型的比较,可以更准确地衡量ECABiF-Y5n在SoccerNet_v3_H250数据集上的精度提升。此外,作者还将分析不同模型在计算资源消耗和处理速度方面的差异,以证明ECABiF-Y5n不仅在准确性上有所提升,而且在实际应用中也展现了高效的运行性能。

Table 5. Accuracy comparison with advanced small object detection models

5. 与先进小目标检测模型的精度对比

模型

P

R

mAP50

mAP50-95

全部

ECABiF-Y5n

84.0%

71.0%

73.9%

46.8%

HIC-YOLOv5n

80.5%

69.1%

72.8%

44.6%

SOD-YOLOv8n

82.4%

71.5%

75.3%

46.8%

ECABiF-Y5n

72.3%

47.0%

50.2%

20.7%

HIC-YOLOv5n

66.5%

45.5%

48.9%

20.4%

SOD-YOLOv8n

69.5%

47.4%

52.5%

22.0%

ECABiF-Y5n

96.1%

94.7%

97.6%

72.0%

HIC-YOLOv5n

94.5%

92.8%

96.7%

68.8%

SOD-YOLOv8n

95.7%

95.0%

97.6%

72.9%

表6所示,ECABiF-Y5n的综合检测效果与SOD-YOLOv8n大致持平,球类检测准度高于HIC-YOLOv5n,低于SOD-YOLOv8n,但ECABiF-Y5n的计算复杂度(GFLOPs),参数量,层数均明显低于另外两项。作者认为ECABiF-Y5n在资源受限或对实时性要求极高的应用场景中拥有独特的优势。

Table 6. Efficiency comparison with advanced small object detection models

6. 与先进小目标检测模型的性能对比

模型

层数

参数量

计算复杂度(GFLOPS)

ECABiF-Y5n

173

1.93 M

4.5

YOLOv8n

225

3.16 M

8.9

HIC-YOLOv5n

285

2.34 M

8.1

SOD-YOLOv8n

326

3.24 M

12.7

5. 结论

本文提出了一种ECABiF-Y5n模型。创新点包括:通过将YOLOv5n的SPPF模块进行改造,提出ECASPPF替换之,显著增强了其对局部细节的表征能力;使用加权双向特征金字塔替换掉原始的FPN,融合了不同尺度和深度的特征信息,使其能够更准确地捕捉特征;在数据集SoccerNet_v3_H250上与YOLOv8n模型的对比中,ECABiF-Y5n的全部分类的精确度提升4.4%,召回率提升2.3%,mAP50提升3.7%,mAP0-95提升0.2%。“球”分类的精确度提升6.1%,召回率提升5.9%,mAP50提升7.6%,mAP0-95提升2.8%。与其他多个模型对比中,ECABiF-Y5n也取得了出色的结果,这显示了ECABiF-Y5n模型在检测任务中优秀的泛化能力与鲁棒性。这项研究对于足球比赛中足球的追踪有一定的准确度提升,对于自动化跟拍系统有明确的应用效果。在未来的研究中,作者将继续在现有方法的基础上,探索更先进的算法和技术,以不断提升模型的性能和应用范围,使其能够在更多种体育比赛中展示效果。

基金项目

黑龙江省省属高等学校基本科研业务费科研项目(2021-KYYWF-0180)。

NOTES

*通讯作者。

参考文献

[1] Komorowski, J., Kurzejamski, G. and Sarwas, G. (2020) Footandball: Integrated Player and Ball Detector. arXiv: 1912.05445
https://doi.org/10.48550/arXiv.1912.05445
[2] Komorowski, J., Kurzejamski, G. and Sarwas, G. (2019) DeepBall: Deep Neural-Network Ball Detector. arXiv: 1902.07304
https://doi.org/10.48550/arXiv.1902.07304
[3] Moutselos, K. and Maglogiannis, I. (2023) Setting a Baseline for Long-Shot Real-Time Player and Ball Detection in Soccer Videos. 2023 14th International Conference on Information, Intelligence, Systems & Applications (IISA), Volos, 10-12 July 2023, 1-7.
https://doi.org/10.1109/iisa59645.2023.10345947
[4] Jocher, G., Chaurasia, A. and Qiu, J. (2023) Ultralytics YOLO (Version 8.0.0) [Computer Software].
https://github.com/ultralytics/ultralytics
[5] Girshick, R., Donahue, J., Darrell, T. and Malik, J. (2014) Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, 23-28 June 2014, 580-587.
https://doi.org/10.1109/cvpr.2014.81
[6] Jocher, G. (2020) YOLOv5 by Ultralytics (Version 6.0) [Computer Software].
https://doi.org/10.5281/zenodo.3908559
[7] Wang, Q., Wu, B., Zhu, P., Li, P., Zuo, W. and Hu, Q. (2020) ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 11531-11539.
https://doi.org/10.1109/cvpr42600.2020.01155
[8] Tan, M., Pang, R. and Le, Q.V. (2020) EfficientDet: Scalable and Efficient Object Detection. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 10778-10787.
https://doi.org/10.1109/cvpr42600.2020.01079
[9] Bochkovskiy, A., Wang, C.Y. and Liao, H.Y.M. (2020) YOLOv4: Optimal Speed and Accuracy of Object Detection. arXiv: 2004.10934
https://doi.org/10.48550/arXiv.2004.10934
[10] Lin, T., Dollar, P., Girshick, R., He, K., Hariharan, B. and Belongie, S. (2017) Feature Pyramid Networks for Object Detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 936-944.
https://doi.org/10.1109/cvpr.2017.106
[11] Liu, S., Qi, L., Qin, H., Shi, J. and Jia, J. (2018) Path Aggregation Network for Instance Segmentation. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 8759-8768.
https://doi.org/10.1109/cvpr.2018.00913
[12] He, K., Zhang, X., Ren, S. and Sun, J. (2015) Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37, 1904-1916.
https://doi.org/10.1109/tpami.2015.2389824
[13] Wang, A., Chen, H., Liu, L., et al. (2024) YOLOv10: Real-Time End-to-End Object Detection. arXiv: 2405.14458.
https://doi.org/10.48550/arXiv.2405.14458
[14] Hu, J., Shen, L. and Sun, G. (2018) Squeeze-and-Excitation Networks. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 7132-7141.
https://doi.org/10.1109/cvpr.2018.00745
[15] Woo, S., Park, J., Lee, J. and Kweon, I.S. (2018) CBAM: Convolutional Block Attention Module. Computer Vision—ECCV 2018, Munich, 8-14 September 2018, 3-19.
https://doi.org/10.1007/978-3-030-01234-2_1
[16] Hou, Q., Zhou, D. and Feng, J. (2021) Coordinate Attention for Efficient Mobile Network Design. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 20-25 June 2021, 13708-13717.
https://doi.org/10.1109/cvpr46437.2021.01350
[17] Körber, N. (2022) Parameter-Free Average Attention Improves Convolutional Neural Network Performance (Almost) Free of Charge. arXiv: 2210.07828
https://doi.org/10.48550/arXiv.2210.07828
[18] Yang, G., Lei, J., Zhu, Z., Cheng, S., Feng, Z. and Liang, R. (2023) AFPN: Asymptotic Feature Pyramid Network for Object Detection. 2023 IEEE International Conference on Systems, Man, and Cybernetics (SMC), Honolulu, 1-4 October 2023, 2184-2189.
https://doi.org/10.1109/smc53992.2023.10394415
[19] Tang, S., Zhang, S. and Fang, Y. (2024) HIC-YOLOv5: Improved YOLOv5 for Small Object Detection. 2024 IEEE International Conference on Robotics and Automation (ICRA), Yokohama, 13-17 May 2024, 6614-6619.
https://doi.org/10.1109/icra57147.2024.10610273
[20] Khalili, B. and Smyth, A.W. (2024) SOD-YOLOv8—Enhancing YOLOv8 for Small Object Detection in Aerial Imagery and Traffic Scenes. Sensors, 24, Article 6209.
https://doi.org/10.3390/s24196209