基于跨尺度动态特征金字塔的无人机图像车辆检测算法

doi:10.12677/mos.2025.142138

期刊菜单

基于跨尺度动态特征金字塔的无人机图像车辆检测算法
Vehicle Detection Algorithm in UAV Images Based on Cross-Scale Dynamic Feature Pyramid

DOI: 10.12677/mos.2025.142138, PDF, HTML, XML,
作者: 何佳桥, 李朝阳：上海理工大学光电信息与计算机工程学院，上海
关键词: 小目标检测；IOU；注意力机制；动态采样；Small Object Detection； IOU； Attention Mechanism； Dynamic Sampling

摘要: 近年来，无人机(UAV)在交通监控和智能停车等多个领域得到了广泛应用，其中车辆的实时监测和分类成为其关键任务之一。车辆检测面临多种挑战，尤其是在小型车辆和无人机飞行角度变化引起的目标尺度变化下，检测网络优化的难度加大。此外，高空航拍图像中的小目标使得可提取的特征有限，进一步影响检测精度。为了解决这些问题，本文基于YOLOv8算法提出了一种高效且实时的车辆检测网络，主要改进包括：1) 在网络的backbone部分引入CPCA注意力模块，以增强模型对小目标的关注能力，进而提升特征提取效果；2) 对YOLOv8的Neck结构进行改进，借鉴DAMO-YOLO中的GFPN思想，以较小的参数量显著提升了检测精度，同时将传统的双线性插值上采样替换为DySample动态上采样，使模型能更好地适应目标尺度变化，最终构建了Cross-Scale Dynamic Feature Pyramid Network (CS-DyFPN)网络；3) 提出了Inner-Focaler-IoU损失，结合了Inner-IoU与Focaler-IoU的优势，能够自适应地聚焦困难样本，相比CIOU提升了检测精度。实验结果表明，本文方法在VisDrone2019数据集上相较于原始YOLOv8算法，在实时性和准确性方面取得了显著提升，特别是在小目标检测任务中表现优异。

Abstract: In recent years, unmanned aerial vehicles (UAVs) have been widely applied in various fields, such as traffic monitoring and smart parking, where real-time vehicle detection and classification have become critical tasks. Vehicle detection faces several challenges, particularly due to target scale variations caused by small vehicles and changes in the flight angle of drones, which complicate network optimization. Additionally, small targets in aerial images limit the features that can be extracted, further affecting detection accuracy. To address these issues, this paper proposes an efficient and real-time vehicle detection network based on the YOLOv8 algorithm. The main improvements include: 1) Introducing the CPCA attention module into the backbone of the network to enhance the model’s focus on small targets, thereby improving feature extraction; 2) Modifying the Neck structure of YOLOv8, inspired by the GFPN concept from DAMO-YOLO, which significantly improves detection accuracy with fewer parameters. Additionally, the traditional bilinear interpolation upsampling is replaced by DySample dynamic upsampling to better adapt to target scale variations, resulting in the Cross-Scale Dynamic Feature Pyramid Network (CS-DyFPN); 3) Proposing the Inner-Focaler-IoU loss, which combines the advantages of Inner-IoU and Focaler-IoU, allowing the model to focus on difficult samples and improving detection accuracy compared to CIOU. Experimental results show that the proposed method significantly improves both real-time performance and accuracy on the VisDrone2019 dataset, particularly excelling in small target detection tasks compared to the original YOLOv8 algorithm.

文章引用：何佳桥, 李朝阳. 基于跨尺度动态特征金字塔的无人机图像车辆检测算法[J]. 建模与仿真, 2025, 14(2): 127-141. https://doi.org/10.12677/mos.2025.142138

1. 引言

近年来，无人机技术已从传统的军事用途逐步扩展到民用领域，广泛应用于林火救援、交通管理、智能巡检等多个领域。在交通管理方面，无人机能够提供高空视角的实时监控数据，尤其是在交通流量监测、车辆计数、事故检测等方面展现了巨大潜力。然而，在无人机拍摄的高空图像中，由于视角限制，交通车辆往往呈现出小目标特征，目标尺度变化大，且背景复杂，给交通车辆的精准检测带来了巨大的挑战[1]。

在交通领域，随着智能交通系统(ITS)的快速发展，涌现出了许多创新研究，尤其是车辆检测技术。车辆检测不仅是道路和城市交通监控的第一步，更是智慧交通系统中的关键环节。精准的车辆检测为后续的交通流量分析、道路拥堵预警及交通管理[2]提供了基础。然而，现有的目标检测算法多为针对自然场景设计的，直接应用于无人机航拍图像时，由于交通车辆在图像中的目标尺度变化大、目标遮挡严重，且受天气、光照等环境因素影响，导致检测精度大幅度下滑，特别是在小目标检测和复杂背景下，传统的目标检测算法难以满足实际需求。

随着计算机视觉技术的发展，卷积神经网络(CNN)在目标检测、跟踪等任务中取得了显著成果。基于深度学习的目标检测算法，凭借较高的检测精度和较快的处理速度，已成为交通监控和目标检测领域的主流方法。这些算法大致可以分为两类：两阶段目标检测算法和单阶段目标检测算法。典型的两阶段目标检测算法，如R-CNN [3]、Fast R-CNN [4]、Faster R-CNN [5]等，具有较高的检测精度，但计算速度相对较慢；而单阶段目标检测算法，如YOLO [6]-[10]、SSD [11]等，尽管检测精度稍逊，但在实时检测中具有明显的速度优势。

针对无人机图像中交通车辆检测的特有挑战，国内外学者已提出一系列改进措施。在无人机图像中进行小目标检测的研究中，多个方法已被提出以提升检测精度。邓等人[12]通过GsConv卷积增强特征融合，引入坐标注意力机制加速模型收敛，并采用期望交并比(EIOU)损失函数优化边缘预测，有效解决了复杂环境中小目标的漏检和误判问题。王等人[13]提出的多尺度通道空间注意力(MCSA)机制提高了小尺度目标的检测能力，并增强了对目标区域的关注。王等人[14]在YOLOv8中创新性地引入P2层作为小目标检测头，大幅提升小目标检测能力。P2层凭借更高分辨率特征图，留存更多小目标细节，有力解决复杂环境下小目标的漏检与误检难题，显著优化模型在小目标检测任务中的表现。程等人[15]改进了YOLOv8算法，通过多尺度注意力、动态非单调聚焦机制和WIoU损失函数提升了小目标检测精度，并提出了轻量级Bi-YOLOv8特征金字塔网络结构，使得mAP50提升了1.5%，参数量减少了42%。此外，王等人[16]引入BiFormer注意力机制优化骨干网络，并设计了FFNB特征处理模块，显著提升了航拍小物体检测性能，但也带来了检测速度的下降。

尽管现有方法在小目标检测中取得了显著进展，但在速度、计算复杂度和实时性方面仍面临挑战。特别是在无人驾驶车辆检测等实际应用中，检测精度与处理效率的平衡至关重要。基于跨尺度动态特征金字塔的无人机图像车辆检测算法需进一步优化，以兼顾高精度与高效率，解决复杂背景下的小目标漏检和误判问题，同时降低计算资源消耗，提升实时处理能力。

本研究基于YOLOv8模型，通过采集无人机在交通场景中的高分辨率图像，结合YOLOv8算法进行实时处理，旨在有效识别和定位图像中的交通车辆，提供精确的车辆计数、车速估算及交通流量分析等信息，为智能交通系统的建设和优化提供支持。核心挑战在于处理无人机图像中的复杂环境因素，如不同视角、光照变化及小目标检测问题，同时充分利用YOLOv8模型的优势，提高检测精度和实时性，是本研究的重点目标。

2. YOLOv8网络模型介绍

Figure 1. Structure diagram of the YOLOv8 network model

图1. YOLOv8网络模型结构图

目标检测方法主要分为单阶段和两阶段方法，其中两阶段方法的代表是R-CNN系列，而单阶段方法则以SSD和YOLO系列为主。YOLO系列自提出以来不断演进，YOLOv5由Ultralytics团队于2020年发布，基于YOLOv4改进，采用单阶段检测框架，兼具高效计算速度和良好检测精度，广泛应用于实时检测任务。YOLOv8作为YOLO系列的重要版本，进一步优化了特征提取网络、损失函数和数据增强策略，提升了复杂场景下的检测能力，尤其是在小目标和多尺度目标检测方面表现突出。YOLOv8包括多个模型版本(如YOLOv8n、YOLOv8s等)，以适应不同硬件和应用场景，并在精度与速度之间取得了更好平衡，在COCO、VOC等数据集中表现优异。

本文选择YOLOv8作为基础模型，旨在利用其先进的特征提取能力和高效检测性能，提升无人机图像中交通车辆检测的精度，特别是在复杂背景和尺度变化较大的场景中。YOLOv8于2023年1月由Ultralytics发布，基于YOLOv5优化，通过多项网络结构创新显著提升了检测精度和计算效率，在复杂背景和多尺度目标检测任务中表现尤为突出。

Input端包括Mosaic数据增强、图片尺寸处理和自适应锚框计算。Mosaic数据增强提升了小目标检测能力，适用于无人机航拍图像。

Backbone负责特征提取，包含卷积层、C2f模块和SPPF模块。C2f模块替代YOLOv5中的C3模块，优化梯度流设计，增强特征提取能力并减少计算量；SPPF模块通过串行池化扩大感受野，优化多尺度物体检测性能。

Head层采用解耦头结构，基于Anchor-Free策略分别处理分类和定位任务，提升检测精度，加速模型收敛，并减少对锚框的依赖。

YOLOv8的边框回归损失由CIOU Loss和DFL Loss组成。CIOU Loss的计算公式如公式1所示，其中，IOU为预测框与真实框之间的交并比，b和b_gt分别代表预测框和真实框的中心点坐标， $ρ (b, b_{g t})$ 为预测框中心与真实框中心之间的欧氏距离，c是预测框和真实框的最小外接矩形的对角线长度，w和h则分别是预测框的宽度和高度，w^gt和h^gt是真实框的宽和高。v是惩罚项，β是权重函数。

$\begin{matrix} L_{C I o U} = 1 - I o U + \frac{ρ^{2} (b, b_{g t})}{c^{2}} + β v \end{matrix}$ (1)

$\begin{matrix} v = \frac{4}{π^{2}} {(\arctan \frac{ω^{g t}}{h^{g t}} - \arctan \frac{ω}{h})}^{2} \end{matrix}$ (2)

$\begin{matrix} β = \frac{v}{(1 - I o u) + v} \end{matrix}$ (3)

DFL(Distractor-Free Localization)损失通过交叉熵的方式来优化与标签最接近的左右两侧位置的概率，从而更精确地识别并解析目标位置周围区域的分布情况。该损失函数的计算公式如下所示(公式4)。

$\begin{matrix} D F L (S_{i}, S_{i + 1}) = - ((y_{i + 1} - y) \log (S_{i}) + (y - y_{i}) \log (S_{i + 1})) \end{matrix}$ (4)

$\begin{matrix} S_{i} = \frac{y_{i + 1} - y}{y_{i + 1} - y_{i}} \end{matrix}$ (5)

$\begin{matrix} S_{i + 1} = \frac{y - y_{i}}{y_{i + 1} - y_{i}} \end{matrix}$ (6)

其中， $y$ 表示标签值， $y_{i}$ 和 $y_{i + 1}$ 为与标签值 $y$ 最接近的两个数值， $S_{i}$ 和 $S_{i + 1}$ 表示全局最小解。 $S_{i}$ 的计算公式如公式5所示，而 $S_{i + 1}$ 的计算公式则如公式6所示。

3. 改进YOLOv8以实现高效的实时航拍车辆检测

3.1. 改进思路

无人机航拍图像中的目标通常较小，且相机抖动可能导致图像模糊，使得小目标的特征难以充分提取，增加了检测难度。尽管YOLOv8在自然图像的目标检测中表现优异，但在处理无人机航拍图像时，尤其是小目标检测效果未达理想水平，主要原因是原始模型未能充分提取小目标的细节信息。为解决这一问题，常见方法包括调整损失函数、修改模型结构、引入注意力机制和优化锚框设计等。然而，轻量化模块的引入较少，因其在精度与计算速度之间难以平衡。针对这一挑战，本文提出对YOLOv8模型的改进方案，旨在更好地应对无人机航拍图像中的小目标检测问题，提升检测精度与效率。

(1) 在网络的backbone部分引入CPCA注意力模块，旨在提升模型对小目标的关注能力，从而增强特征提取效果。

(2) 为了充分提取小目标特征，本文改进了DAMO-yolo的GFPN，并采用较小的参数量实现了更大的精度提升。同时，替换传统双线性插值上采样为DySample动态上采样，增强了模型对不同尺度目标的适应性与检测精度，最终构建了Cross-Scale Dynamic Feature Pyramid Network (CS-DyFPN)网络。

(3) 提出的Inner-Focaler-IoU损失结合Inner-IoU与Focaler-IoU的优势，针对无人机图像中的交通车辆检测，相比CIOU，能更好地自适应聚焦困难样本，提高检测精度。

3.2. 通道先验卷积注意力(CPCA)模块

通道先验卷积注意力(Channel Prior Convolutional Attention, CPCA [17]是一种同时在通道和空间维度上分配权重的注意力机制。该机制通过多尺度深度卷积(depth-wise convolutions)和1 × 1条形卷积(strip convolution)来实现，能够在保持通道先验信息的同时，有效地捕捉空间关系。多尺度深度方向条带卷积核的使用，不仅确保了信息的有效提取，还能显著降低计算复杂度，从而提高模型的性能和效率。

CPCA模块包括通道注意力(CA) [18]和空间注意力(SA) [19]两部分。首先，通道注意力模块通过对输入特征图进行平均池化和最大池化，将结果求和后送入共享多层感知器(MLP)，生成通道注意力权重，并与输入特征逐元素相乘，得到加权后的特征图Fc。接着，空间注意力模块通过深度卷积处理Fc，捕捉空间位置关系，同时保留通道信息。为进一步增强空间特征提取，空间注意力模块采用多尺度结构，并使用1 × 1卷积生成精细的空间注意力图。最终，空间注意力图与Fc逐元素相乘，得到输出特征图，实现对通道和空间维度的高效注意力分配，提升特征提取精度。

相比于CBAM [19]，CPCA在空间注意力设计上具有明显优势。CBAM强制每个通道的空间注意力图一致，而CPCA动态分配通道和空间维度的注意力权重，避免通道间干扰。通过引入深度卷积和多尺度结构，CPCA更精细地捕捉空间特征，尤其在小目标检测中表现更优。因此，CPCA更适合复杂目标检测任务，如小目标检测，能有效提高模型的检测精度和鲁棒性。CPCA模块的详细结构如图2所示，其具体过程如下：

1) 通道注意力：通过池化操作和MLP生成通道权重，加权输入特征图，突出重要通道特征。公式如下：

$\begin{matrix} M_{c} = σ (MLP (AvgPool (X)) + MLP (MaxPool (X))) F_{c} = X ⊙ M_{c} \end{matrix}$ (7)

其中，X为输入特征图，AvgPool和MaxPool分别表示平均池化和最大池化，MLP是多层感知器，σ为Sigmoid激活函数，⊙表示逐元素相乘，M_c为通道注意力映射，F_c为加权后的特征图。

2) 空间注意力：通过深度卷积和多尺度结构生成空间注意力图，加权空间维度特征。公式如下：

$\begin{matrix} F_{c} = {Conv}_{1 \times 1} (\sum_{i = 0}^{3} {Branch}_{i} (DWConv (F))) \end{matrix}$ (8)

其中，DwConv表示深度卷积，Branchi， $i \in {0, 1, 2, 3}$ 表示第i个分支，Branch0是identity connection。

Figure 2. CPCA structure diagram

图2. CPCA结构图

3.3. Cross-Scale Dynamic Feature Pyramid Network (CS-DyFPN)网络构建

3.3.1. GFPN网络结构

FPN (Feature Pyramid Network) [20]作为深度神经网络中的核心组件，最初提出是为了应对CNN中分层特征融合的挑战。它在目标检测任务中展现了显著的优势，尤其在多尺度目标检测中，能够有效提取不同尺度的特征，并增强模型的检测能力。随后，PANet (Path Aggregation Network) [21]进一步强化了特征的传播能力，通过优化信息流的传递与重用，提升了特征金字塔的表示能力，显著提高了目标检测的精度。在YOLOv5和YOLOv8中，FPN与PANet被集成到网络的颈部部分，用于实现多尺度特征融合，从而极大增强了模型在不同尺寸目标检测中的表现，FPN、PANet结构如图3所示。

Figure 3. YOLO feature fusion network

图3. YOLO特征融合网络

这两者的主要区别体现在上采样阶段：YOLOv8通过引入C2f (快捷方式)模块，取代了YOLOv5中的C3模块，进一步提高了特征融合的效率和精度。具体来说，FPN通过从CNN中提取不同层次的特征图，结合上采样与粗粒度特征图，以自上而下的方式进行特征融合，从而增强各尺度特征的表达与关联，如图3(a)所示。而PANet则通过自下而上的特征融合方式，确保了空间信息的精确传递与保留。尽管这两种方法都有效，但在处理不相邻的特征层时，现有的网络架构通常会面临信息丢失的问题，这会影响最终的特征表达和模型性能。

为了解决这些问题，GFPN (Generalized-FPN) [22]应运而生，如图4所示。作为Efficient-RepGFPN的基础结构，GFPN旨在弥补FPN、PAFP [23]和BiFPN [24]的不足。传统的FPN结构仅关注不同分辨率特征图的融合，缺乏内部层间的有效连接。GFPN通过引入log2n-link调整最短梯度距离，构建深度网络，并采用“皇后融合”机制，融合当前层、前一层及后一层的特征图，突破传统局限，实现更全面的多层次特征融合。然而，RepGFPN虽能提供信息丰富的特征图，但其高计算需求限制了实时应用。

为此，本文在YOLOv8的颈部引入CS-GFPN结构，基于GFPN改进。CS-GFPN通过增加层次增强特征交互性，提升融合效果，不仅满足多层次特征融合需求，还解决了非相邻层直接交互可能导致的信息丢失问题，显著提高了特征融合精度和模型整体性能。CS-DyFPN-Yolo的具体结构如图5所示。

Figure 4. GFPN network structure

图4. GFPN网络结构

Figure 5. Structure diagram of CS-DyFPN-Yolo

图5. CS-DyFPN-Yolo结构图

3.3.2. 动态上采样器

在YOLOv8目标检测网络模型中，传统特征金字塔结构采用最近邻插值上采样方法，虽然计算简单，但未能充分利用深层特征信息，限制了模型在图像细节捕捉方面的能力，尤其是在高可解释性任务(如驾驶员异常识别)中表现不足。为提升模型的可解释性和特征提取能力，本文引入DySample [25] (如图6所示)，一种高效的动态上采样方法。与传统的插值或卷积方法不同，DySample通过点采样机制动态调整采样位置，更精确地捕捉图像关键信息。

DySample的主要优势在于它能够根据特定的图像特征(如驾驶员异常行为和复杂的背景环境)智能地选择采样点。这种方法避免了额外的计算负担，同时通过精确地采样保留了图像中的关键信息，从而显著提升了模型在异常识别任务中的准确性。在参数效率方面，DySample相比传统的CARAFE方法[26]取得了显著进展，仅使用3%的参数就实现了46%的性能提升，体现了计算效率的实质性提高。

DySample在CS-DyFPN中的工作流程如下：首先，将低分辨率特征图输入点采样模块，模块根据图像的特征动态选择采样点；接着，通过这些采样点重建特征图，最后将样本提升至所需的分辨率。与传统的网格采样方法相比，这一过程通过精确地采样和重建优化了图像质量，特别是在高可解释性应用场景(如道路交通安全)中，极大提升了模型的性能和可解释性。

网格采样过程中，给定大小为 $C \times H 1 \times W 1$ 的特征图X和大小为 $H 2 \times W 2 \times 2$ 的采样集S (其中第一个维度2表示x和y坐标)。网格采样函数使用采样集S中的位置，通过假设的双线性插值对X进行重采样，得到大小为 $C \times H 2 \times W 2$ 的输出特征图 $X^{'}$ 。这一过程中定义为：

$X^{'} = grid_sample (X, S)$ (9)

在深度学习领域，DySample提出了一种方法，能够在保持动态上采样优势的同时有效降低计算成本。通过简化上采样过程，该方法不仅减少了模型的复杂性，还保持了对图像特征的敏感性，从而满足了实时目标检测任务的需求。在无人机图像的交通车辆检测中，该方法具有重要意义，既能提升道路交通安全，又能降低检测系统对计算资源的需求，同时还能够增强模型的可解释性。

Figure 6. The Dysample structure

图6. Dysample结构图

本节介绍了CS-DyFPN结构的设计与实现，它是对GFPN (Generalized Feature Pyramid Network)进行改进后，与DySample动态上采样方法相结合的创新方案。通过增强特征融合的层次性，并引入动态上采样机制，CS-DyFPN不仅提升了多层次特征之间的交互性，避免了信息丢失，还显著提高了上采样过程的效率与精度。这些改进使得网络在处理多尺度目标时更加高效，特别是在实时目标检测任务中，显著降低了计算开销的同时增强了模型的可解释性。

3.4. 损失函数(Inner- Focaler-iou)

3.4.1. Inner-IOU

YOLOv8采用Complete IoU (CIoU)作为边界框损失函数，通过预测框与真实框的长宽比、中心点距离及重叠面积计算回归损失。尽管CIoU理论上具有较高精度，但其基于距离的计算涉及复杂除法运算，在边界框重叠较少时易引发梯度爆炸或消失问题。此外，CIoU对边界框距离变化高度敏感，训练初期损失值波动剧烈，可能导致回归过程不稳定甚至难以收敛，显著影响训练效率和模型性能。这一特性成为模型优化的关键瓶颈。

张等人[27]提出了Inner-IoU损失(如图7所示)，该损失函数继承了传统IoU损失的一些特性，同时具备了自身的独特优势。与IoU损失相同，Inner-IoU损失的取值范围为[0, 1]，且计算方式与IoU损失类似，主要区别在于辅助边框与实际边框之间存在尺度上的差异。为了解决现有IoU损失在不同检测任务中的弱泛化能力和慢收敛问题，Inner-IoU引入了一个比例因子ratio，该因子可以控制辅助边框的尺寸比例。通过使用不同尺度的辅助边框，Inner-IoU损失可以在不同的数据集和检测器上自适应调整，从而克服传统方法在任务泛化能力上的局限性，并加速边界框回归过程(见公式10-16)。

Figure 7. Description of Inner-IoU

图7. Inner-IoU描述图

$\begin{matrix} b_{l}^{g t} = x_{c}^{g t} - \frac{w^{g t} *ratio}{2}, b_{r}^{g t} = x_{c}^{g t} + \frac{w^{g t} *ratio}{2} \end{matrix}$ (10)

$\begin{matrix} b_{t}^{g t} = y_{c}^{g t} - \frac{h^{g t} *ratio}{2}, b_{b}^{g t} = y_{c}^{g t} + \frac{h^{g t} *ratio}{2} \end{matrix}$ (11)

$\begin{matrix} b_{l} = x_{c} - \frac{w *ratio}{2}, b_{r} = x_{c} + \frac{w *ratio}{2} \end{matrix}$ (12)

$\begin{matrix} b_{t} = y_{c} - \frac{h *ratio}{2}, b_{b} = y_{c} + \frac{h *ratio}{2} \end{matrix}$ (13)

$\begin{matrix} inter = (\min (b_{r}^{g t}, b_{r}) - \max (b_{l}^{g t}, b_{l})) * (\min (b_{b}^{g t}, b_{b}) - \max (b_{t}^{g t}, b_{t})) \end{matrix}$ (14)

$\begin{matrix} union = (w^{g t} * h^{g t}) * {(ratio)}^{2} + (w * h) * {(ratio)}^{2} - inter \end{matrix}$ (15)

$\begin{matrix} {IOU}^{Inner} = \frac{inter}{union} \end{matrix}$ (16)

“Ground truth (GT) box”和“anchor”分别记为Bg和B，如图1所示。GT盒和内GT盒的中心点分别用(xcgt, ycgt)表示，锚点和内锚点的中心点分别表示为(x_c, y_c)。GT盒的宽度和高度分别为wgt和hgt，锚点的宽度和高度分别为w和h。变量“ratio”表示比例因子。当ratio小于1时，辅助边框的尺寸小于实际边框，回归的有效范围也随之变小，这使得该损失函数的梯度绝对值大于IoU损失的梯度，从而加速了高IoU样本的收敛。相反，当ratio大于1时，辅助边框的尺寸增大，回归的有效范围也随之扩展，从而有助于低IoU样本的回归提升。通过这种方式，Inner-IoU损失不仅能够提高IoU样本的回归精度，还能够在低IoU样本上获得更好的性能表现。

3.4.2. Focaler-IoU

样本不均衡问题广泛存在于各类目标检测任务中，根据目标被检测的难易程度，可以将样本分为困难样本和简单样本。从目标的尺度来看，一般的检测目标可视为简单样本，而极小目标由于难以精准定位，则视为困难样本。在简单样本占主导的检测任务中，聚焦简单样本的边框回归有助于提升检测效果；而在困难样本占比较高的检测任务中，则应聚焦于困难样本的边框回归。为了在不同的检测任务中自适应地聚焦于不同类型的样本，Zhang [28]提出使用线性区间映射方法来重构IoU损失，从而提升边框回归的效果。公式如下：

${IOU}^{focaler} {\begin{array}{l} 0, Iou < d \\ \frac{Iou - d}{u - d}, d ≪ Iou ≪ u \\ 1, Iou > u \end{array}$ (17)

其中，IoU为重构后的Focaler-IoU，IoU为原始IoU值，且 $[d, u] \in [0, 1]$ 。通过调整d和u的值，可以使得IoU在边框回归过程中，聚焦于不同类型的回归样本。

本文结合Inner-IoU损失和Focaler-IoU损失，提出了Inner-Focaler-IoU损失函数。该方法通过引入线性区间映射和比例因子，能够根据不同检测任务的需求，灵活调整样本的聚焦程度。具体而言，Inner-IoU通过调整比例因子控制辅助边框尺寸，加速高IoU样本的收敛并提升低IoU样本的回归精度；Focaler-IoU则通过重构IoU公式，进一步增强损失函数对不同难度样本的自适应能力。与CIOU损失相比，Inner-Focaler-IoU展现出显著优势。CIOU通过计算边界框的中心点距离、宽高比和相对面积来优化回归任务，但其自适应能力较弱，尤其在处理困难样本时收敛速度较慢。Inner-Focaler-IoU通过动态调整对不同难易度样本的聚焦程度，特别在小目标和难检测目标上表现更优。在无人机图像中的交通车辆检测任务中，Inner-Focaler-IoU损失能够自适应地聚焦于困难样本或简单样本，从而提升模型在不同类型目标上的检测精度。实验结果表明，Inner-Focaler-IoU在提高检测精度的同时，解决了CIOU在样本泛化能力和收敛速度上的不足，使其在复杂场景中性能更佳。

${IOU}^{Inner-focaler} {\begin{array}{l} 0, Iou < d \\ \frac{{Iou}^{Inner} - d}{u - d}, d ≪ Iou ≪ u \\ 1, Iou > u \end{array}$ (18)

4. 模型训练

4.1. 数据集

本文使用的公开数据集为VisDrone2019和DroneVehicle，VisDrone2019数据集包含6471张训练图像、548张验证图像和1610张测试图像，共涵盖10个类别。为了专注于车辆检测，本文仅选取了其中的Car、Van、Bus和Truck四个类别进行网络训练和评估，且未对数据集中的图像进行任何删除处理。DroneVehicle数据集包含17990张训练图像、1469张测试图像，共有五个类别。用于本文的对比实验。

4.2. 实验环境

本实验所使用的软硬件环境如表1所示，训练参数如表2所示。

Table 1. Experiment environment configuration table

表1. 实验环境配置表

参数	配置
CPU	Xeon(R) Platinum 8255C @2.5Hz
GPU	3090
内存	24G
Pytorch	1.11.0
Ubuntu	20.04
CUDA	11.3

Table 2. Table of training parameters

表2. 训练参数表

参数	参数大小
权重衰减系数	0.0005
初始学习率	0.01
batch size	16
epoch	300

5. 实验结果与分析

5.1. 评估指标

本文使用的评估指标包括精确率(Precision)、召回率(Recall)和平均精确率(Mean Average Precision, mAP)。其中，TP (True Positive)表示模型正确识别为车辆的目标数量，FP (False Positive)表示模型错误识别为车辆的目标数量，FN (False Negative)表示模型遗漏的车辆目标数量。精确率反映了模型正确识别的车辆占所有被识别为车辆的目标的比例，召回率则表示模型正确识别的车辆占数据集中所有实际车辆的比例。N表示类别的总数，APi表示第i类在不同IoU (Intersection over Union)阈值下的平均精度。为了全面评估模型的准确性，本文采用mAP50和mAP95作为评估标准，分别对应在IoU阈值为0.5和0.95时的平均精度。

$\begin{matrix} P = \frac{TP}{TP + FP} \end{matrix}$ (19)

$\begin{matrix} R = \frac{TP}{TP + FN} \end{matrix}$ (20)

$\begin{matrix} mAP = \frac{1}{N} \sum_{i = 1}^{N} {AP}_{i} \end{matrix}$ (21)

5.2. 实验结果与分析

5.2.1. 消融实验

为验证改进算法的效果，所有模型超参数保持一致。改进后的模型通过引入CPCA、CS-DyFPN和IF-IoU模块，显著提升了检测性能，尤其在密集场景和小目标检测中表现突出。CPCA增强了特征通道交互，Recall提升1.6%，mAP@0.5提升1.2%；CS-DyFPN优化了多尺度检测，Recall提升12.1%，mAP@0.5提升11.1%；IF-IoU改进了边界框回归。改进模型在Car、Van、Bus和Truck类别的mAP@0.5分别提升10.7%、10.9%、19.8%和8.8%，其中Bus类别提升最显著。总体Precision达71.1%，Recall和mAP@0.5分别提升至53.3%和59.8%，较原始模型提高11.0%和12.5%。尽管GFLOPS从8.1增至41.0，计算复杂度增加，但性能提升显著，表明改进模型在复杂交通场景中具有更高的准确性和鲁棒性，同时保持了性能与计算开销的良好平衡。

Table 3. Table of the effects of different modifications on model accuracy

表3. 不同修改对模型精度的影响表

Model	Presicion	Recall	mAP@0.5	参数量/MiB	GFLOPS
Yolov8	0.661	0.423	0.473	3.0	8.1
Yolov8-CPCA	0.644	0.439	0.485	3.1	8.3
Yolov8-CS-DyFPN	0.670	0.544	0.584	3.3	40.8
Yolov8-CPCA-CS-DyFPN	0.687	0.536	0.591	3.4	41.0
Yolov8-IF-iou	0.658	0.426	0.476	3.0	8.1
Yolov8-CPCA-IF-iou	0.647	0.436	0.484	3.1	8.3
Yolov8- CS-DyFPN -IF-iou	0.683	0.533	0.582	3.3	40.8
Yolov8-CPCA-CS-DyFPN-IFiou	0.711	0.533	0.598	3.4	41.0

Table 4. Each category is in the mAP50 table on two models

表4. 每个类别在两个模型上的mAP50表

类别	Car	Van	Bus	Truck
YOLOv8	0.736	0.399	0.467	0.292
Ours	0.843	0.508	0.665	0.380

5.2.2. 对比实验

为验证改进模型的实际效果，本文以YOLOv8为基准，在DroneVehicle和VisDrone数据集上进行了对比实验。在VisDrone数据集上，改进模型的精确度(71.1%)、召回率(53.3%)和mAP@0.5 (59.8%)均优于YOLOv5s、YOLOv8n、YOLOv8s和YOLOv10s，展现了更强的检测能力。在DroneVehicle数据集上，改进模型的精确度(77.3%)略低于YOLOv5s (81.5%)，但召回率(74.1%)和mAP@0.5 (79.2%)表现更优，综合性能显著提升。具体结果见表5和表6，效果如图8和图9所示。实验结果表明，改进模型在复杂无人机图像和交通场景中具有更强的适应性和检测能力，尽管YOLOv8s和YOLOv10s在计算效率上占优，改进模型在关键指标上仍表现更出色。

Table 5. Test results of different models in the VisDrone dataset

表5. 不同模型在VisDrone数据集的测试结果

Model	Presicion	Recall	mAP@0.5	参数量/MiB	GFLOPS
Yolov5s	0.688	0.453	0.511	7.0	16.0
Yolov8n	0.661	0.423	0.473	3.0	8.1

续表

Yolov8s	0.685	0.487	0.546	11.1	28.4
Yolov10s	0.690	0.501	0.553	7.2	21.6
Ours	0.711	0.533	0.598	3.4	41.0

Table 6. Test results of different models on the DroneVehicle dataset

表6. 不同模型在DroneVehicle数据集的测试结果

Model	Presicion	Recall	mAP@0.5	参数量/MiB	GFLOPS
Yolov5s	0.815	0.733	0.789	7.0	16.0
Yolov8n	0.769	0.725	0.782	3.0	8.1
Yolov8s	0.780	0.749	0.795	11.1	28.4
Yolov10s	0.792	0.735	0.790	7.2	21.6
Ours	0.773	0.741	0.792	3.4	41.0

6. 结论

本文提出了一种改进的基于YOLOv8算法的车辆检测网络，通过引入CPCA注意力模块、优化Neck结构和设计Inner-Focaler-IoU损失函数，显著提升了小目标检测性能、适应性和检测精度。实验结果表明，该方法在VisDrone2019和DroneVehicle数据集上均表现优异，尤其在复杂背景下有效减少了误检和漏检问题，为无人机图像车辆检测提供了高效可靠的解决方案。通过图八和图九的对比，可以清晰看到，原始YOLOv8算法在复杂背景下存在较为明显的错误分类问题(图8)，而改进后的模型(图9)在检测精度和类别识别上表现更为精准，有效减少了误检和漏检情况，展现了更强的适应性和鲁棒性。

Figure 8. Original model renderings

图8. 原始模型效果图

Figure 9. Improved model renderings

图9. 改进模型效果图

参考文献

[1]	江波, 屈若锟, 李彦冬, 等. 基于深度学习的无人机航拍目标检测研究综述[J]. 航空学报, 2021, 42(4): 131-145.
[2]	Byun, S., Shin, I., Moon, J., Kang, J. and Choi, S. (2021) Road Traffic Monitoring from UAV Images Using Deep Learning Networks. Remote Sensing, 13, Article 4027. https://doi.org/10.3390/rs13204027
[3]	Girshick, R., Donahue, J., Darrell, T. and Malik, J. (2014) Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, 23-28 June 2014, 580-587. https://doi.org/10.1109/cvpr.2014.81
[4]	Girshick, R. (2015) Fast R-CNN. 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, 7-13 December 2015, 1440-1448. https://doi.org/10.1109/iccv.2015.169
[5]	Ren, S., He, K., Girshick, R. and Sun, J. (2017) Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39, 1137-1149. https://doi.org/10.1109/tpami.2016.2577031
[6]	Redmon, J., Divvala, S., Girshick, R. and Farhadi, A. (2016) You Only Look Once: Unified, Real-Time Object Detection. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 779-788. https://doi.org/10.1109/cvpr.2016.91
[7]	Redmon, J. and Farhadi, A. (2018) YOLOv3: An Incremental Improvement. arXiv: 1804.02767. https://arxiv.org/abs/1804.02767
[8]	Bochkovskiy, A., Wang, C. and Liao, H.M. (2020) YOLOv4: Optimal Speed and Accuracy of Object Detection. arXiv: 2004.10934. https://doi.org/10.48550/arXiv.2004.10934
[9]	Jocher, G., Stoken, A., Borovec, J., et al. (2020) Ultralytics/yolov5. https://github.com/ultralytics/yolov5
[10]	Reis, D., Kupec, J., Hong, J., et al. (2023) Real-Time Flying Object Detection with YOLOv8. arXiv: 2305.09972.
[11]	Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C., et al. (2016) SSD: Single Shot Multibox Detector. In: Leibe, B., Matas, J., Sebe, N. and Welling, M., Eds., Computer Vision—ECCV 2016, Springer, 21-37. https://doi.org/10.1007/978-3-319-46448-0_2
[12]	Deng, Z., et al. (2023) Improved YOLOv5 Helmet Wear Detection Algorithm for Small Targets. Computer Engineering and Applications, 60, 78-87.
[13]	Wang, H., Han, D., Cui, M. and Chen, C. (2023) NAS-YOLOX: A SAR Ship Detection Using Neural Architecture Search and Multi-Scale Attention. Connection Science, 35, 1-32. https://doi.org/10.1080/09540091.2023.2257399
[14]	Li, X., et al. (2023) Improved Target Detection Algorithm for UAV Aerial Images with YOLOv5. Computer Engineering and Applications, 23, 5786.
[15]	Cheng, H., et al. (2023) Target Detection Algorithm for UAV Aerial Images Based on Improved YOLOv8. Radiotehnika, 14, 1-10.
[16]	Wang, G., Chen, Y., An, P., Hong, H., Hu, J. and Huang, T. (2023) UAV-YOLOv8: A Small-Object-Detection Model Based on Improved YOLOv8 for UAV Aerial Photography Scenarios. Sensors, 23, Article 7190. https://doi.org/10.3390/s23167190
[17]	Huang, H., Chen, Z., Zou, Y., Lu, M., Chen, C., Song, Y., et al. (2024) Channel Prior Convolutional Attention for Medical Image Segmentation. Computers in Biology and Medicine, 178, Article ID: 108784. https://doi.org/10.1016/j.compbiomed.2024.108784
[18]	Hu, J., Shen, L. and Sun, G. (2018) Squeeze-and-Excitation Networks. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 7132-7141. https://doi.org/10.1109/cvpr.2018.00745
[19]	Woo, S., Park, J., Lee, J. and Kweon, I.S. (2018) CBAM: Convolutional Block Attention Module. In: Ferrari, V., Hebert, M., Sminchisescu, C. and Weiss, Y., Eds., Computer Vision—ECCV 2018, Springer, 3-19. https://doi.org/10.1007/978-3-030-01234-2_1
[20]	Lin, T., Dollar, P., Girshick, R., He, K., Hariharan, B. and Belongie, S. (2017) Feature Pyramid Networks for Object Detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 936-944. https://doi.org/10.1109/cvpr.2017.106
[21]	Liu, S., Qi, L., Qin, H.F., Shi, J.P. and Jia, J.Y. (2018) Path Aggregation Network for Instance Segmentation. arXiv: 1803.01534. https://doi.org/10.48550/arXiv.1803.01534
[22]	Jiang, Y., Tan, Z., Wang, J., Sun, X., Lin, M. and Li, H. (2022) Giraffe Det: A Heavy-Neck Paradigm for Object Detection. arXiv: 2202.04256.
[23]	Liu, S., Qi, L., Qin, H., Shi, J. and Jia, J. (2018) Path Aggregation Network for Instance Segmentation. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 8759-8768. https://doi.org/10.1109/cvpr.2018.00913
[24]	Tan, M., Pang, R. and Le, Q.V. (2020) EfficientDet: Scalable and Efficient Object Detection. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 10778-10787. https://doi.org/10.1109/cvpr42600.2020.01079
[25]	Liu, W., Lu, H., Fu, H. and Cao, Z. (2023) Learning to Upsample by Learning to Sample. 2023 IEEE/CVF International Conference on Computer Vision (ICCV), Paris, 1-6 October 2023, 6004-6014. https://doi.org/10.1109/iccv51070.2023.00554
[26]	Wang, J., Chen, K., Xu, R., Liu, Z., Loy, C.C. and Lin, D. (2019) CARAFE: Content-Aware Reassembly of Features. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 27 October-2 November 2019, 3007-3016. https://doi.org/10.1109/iccv.2019.00310
[27]	Zhang, H., Xu, C. and Zhang, S.J. (2023) Inner-IoU: More Effective Intersection over Union Loss with Auxiliary Bounding Box. arXiv: 2311.02877. https://arxiv.org/abs/2311.02877
[28]	Zhang, H. and Zhang, S.J. (2024) Focaler-IoU: More Focused Intersection over Union Loss. arXiv: 2401.10525. https://arxiv.org/abs/2401.10525

为你推荐

友情链接