面向3D目标检测任务的数据增强方法研究进展
Research Progress of Data Augmentation Methods for 3D Object Detection
DOI: 10.12677/airr.2024.132023, PDF, HTML, XML, 下载: 54  浏览: 95  科研立项经费支持
作者: 魏梦婷, 苗 军*:北京信息科技大学,计算机学院,北京;邓永强, 梁 浩, 李娟娟:北京万集科技股份有限公司,北京;齐洪钢:中国科学院大学,计算机科学与技术学院,北京;崔国勤:北京中星微电子有限公司,北京
关键词: 3D点云数据增强目标检测3D Point Cloud Data Augmentation Object Detection
摘要: 基于深度学习的3D点云目标检测技术在自动驾驶、智慧工业等领域快速发展的过程中起到了关键性及支撑性作用。然而,由于3D点云覆盖空间广阔、数据稀疏的特点,为了实现更高精度的目标检测,需要对原始点云数据进行数据增强操作。目前,针对2D图像数据增强方法的研究较为广泛,但是面向3D点云数据的增强方法研究仍处于早期阶段。因此,本文旨在针对3D目标检测数据增强方法研究进展进行综述,首先介绍了3D目标检测的基本技术和流程,然后介绍并分析了面向3D目标检测任务的数据增强方法,具体分为三个类别,包括基于2D图像衍化而来的3D点云数据增强方法、针对3D点云设计的增强方法以及混合与创新型数据增强方法。最后讨论了该领域存在的挑战以及未来的发展方向,为未来该领域的研究人员提供参考。
Abstract: Deep learning-based 3D point cloud object detection technologies have played a crucial and supportive role in the rapid development of fields such as autonomous driving and smart industry. However, due to the vast coverage and sparse nature of 3D point clouds, data augmentation operations are necessary to achieve higher precision in object detection. Currently, there is extensive research on data augmentation methods for 2D images, but the study of augmentation methods for 3D point cloud data is still in its early stages. Therefore, this paper aims to provide a comprehensive review of the progress in data augmentation methods for 3D object detection. It first introduces the basic techniques and processes of 3D object detection, then presents and analyzes data augmentation methods for 3D object detection tasks, which are divided into three categories: methods derived from 2D image augmentation applied to 3D point clouds, methods designed specifically for 3D point clouds, and hybrid and innovative data augmentation methods. Finally, the paper discusses the challenges in this field and future directions for development, offering a reference for researchers in this area moving forward.
文章引用:魏梦婷, 苗军, 邓永强, 梁浩, 李娟娟, 齐洪钢, 崔国勤. 面向3D目标检测任务的数据增强方法研究进展[J]. 人工智能与机器人研究, 2024, 13(2): 213-226. https://doi.org/10.12677/airr.2024.132023

1. 引言

在当今技术快速发展的背景下,3D目标检测已成为自动驾驶、机器人视觉、虚拟现实等领域的关键技术 [1] 。与传统的2D图像检测相比,3D目标检测通过分析点云数据,能够提供更加丰富的空间信息,从而实现对环境的深入理解。然而,3D目标检测技术的发展仍面临着一系列挑战。

3D目标检测任务的目标是从3D点云数据中识别并定位出各种物体 [2] 。点云数据通常由激光雷达(LiDAR)或者立体视觉系统采集而来,包含了物体的三维坐标信息 [3] 。尽管点云数据信息量丰富,但其无序性、稀疏性以及不规则性带来了一系列处理上的挑战。此外,实际应用中的点云数据往往受到传感器的限制,比如分辨率、噪声水平以及视野范围等。这些数据限制导致了3D目标检测算法在精度和鲁棒性上的局限性。

针对上述挑战,数据增强作为一种提升算法性能的有效手段,正在被越来越多的研究人员所关注。数据增强不仅可以扩充训练数据集,增加模型的泛化能力,还能通过模拟不同的环境条件,提高模型对于噪声和变化的鲁棒性。面向3D点云的数据增强手段包括但不限于几何变换、点云编辑、模拟传感器噪声等,这些技术能够有效地提高检测模型在真实世界复杂环境中的应用性能。

鉴于数据增强在3D目标检测中的重要性,本文旨在全面回顾和分析当前针对3D目标检测场景的数据增强技术。我们的研究动机源于以下两方面:一方面,现有的文献缺乏对3D点云数据增强技术的系统性总结;另一方面,随着3D检测技术的进步,传统的数据增强方法需要进一步的改进和创新。本文的主要贡献包括:1) 提供一份针对3D目标检测任务的数据增强技术的综合性评述;2) 分析和比较不同数据增强方法的优势和局限性;3) 展望未来数据增强技术的发展方向。

2. 3D目标检测技术概述

3D点云数据是一组在三维空间中分布的点的集合,这些点代表着物体表面的位置 [4] 。点云数据通常由激光雷达(LiDAR)、结构光扫描仪或立体视觉系统生成。与2D图像数据相比,3D点云具有无序性、不均匀性、不完整性和动态性等特性,而3D目标检测的目的便是从点云数据中识别出感兴趣的物体,并确定它们的位置和方向。

一个典型的3D目标检测流程包括预处理、推理和后处理等步骤,如图1所示。首先通过预处理来整理原始数据,主要包括数据增强、降噪、滤波和标准化等步骤。其中,TODO加数据增强在流程中的作用。

Figure 1. 3D object detection workflow

图1. 3D目标检测流程

接着进入推理阶段,进行特征提取,从处理过的点云中提取描述物体的特征,包括局部特征(例如点的曲率)以及全局特征(例如点云的直方图)。之后使用机器学习或深度学习方法,对提取的特征进行分类以及物体识别,其后进行位置估计,即确定物体在点云中的准确位置,例如边界框的生成或者关键点的定位。随着计算能力的提升和深度学习技术的发展,3D目标检测领域出现了多种有效的推理方法。基于传统机器学习的方法通常依赖于手工设计的特征,如随机森林 [5] 、支持向量机 [6] 、点特征直方图(PFH) [7] 、法线分布直方图(NDH) [8] 等,然后利用分类器进行物体识别。这些方法在深度学习出现之前是主流,但通常受限于特征的表达能力和泛化性。而基于深度学习的方法通常通过学习表示从原始点云数据中自动提取特征,显著提高了3D目标检测的性能。主要的深度学习方法包括直接体素化、多视图融合方法、基于点的方法和图卷积网络方法等几类。直接体素化方法将点云数据体素化后输入3D卷积神经网络进行特征学习,如VoxelNet [9] 。多视图融合方法将点云从多个角度投影到2D平面上,再用2D卷积神经网络处理,如MVCNN [10] 。基于点的方法直接在点云上操作,学习点级别的特征表示,如PointNet [11] 和PointNet++ [12] 。图卷积网络方法将点云视为图结构,利用图卷积网络提取特征,如DGCNN [13] 。

每种方法都有其优势和适用场景。例如,体素化方法易于使用标准的3D卷积网络,但可能因分辨率限制而丢失细节;多视图方法能够利用成熟的2D图像处理技术,但可能忽略了3D空间中的信息;基于点的方法能够更好地保留原始点云的几何结构,但计算复杂度较高;图卷积网络方法则在处理点云的非规则性方面表现优异。

最终进行后处理操作,通过非极大值抑制(NMS) [14] [15] 等操作提高检测结果的准确性和可靠性。

在实际应用中,研究者可能会根据具体任务的需求和计算资源的限制对整体流程进行调整,并设计合适的3D目标检测算法。随着技术的不断进步,新的算法和模型仍在不断地被提出,推动着3D目标检测技术的发展。

3. 面向3D目标检测任务的数据增强方法

目前,面向3D目标检测任务的数据增强方法能够分为三类,如图2所示,分别为:1) 基于2D图像衍化而来的3D点云增强方法;2) 针对3D点云设计的增强方法;3) 混合与创新型数据增强方法。2D图像是规则的像素数组,而3D点云是无序的点集,它们在空间布局和数据组织上有很大差异。最初的3D点云处理技术很多借鉴自2D图像处理,随着时间的发展,为了更好地利用3D点云数据的独特性,研究者开发了专门针对3D点云的处理和增强方法,同时,随着自动驾驶、智慧工业等技术的发展,对3D点云数据的处理需求日益增长,推动了专门针对3D点云的增强技术的发展。随着数据规模的逐渐扩大和任务场景复杂度逐渐升级,部分研究人员也逐渐进行混合与创新型数据增强的方法研究。在实际应用中,研究者通常会根据具体任务的需求和数据的特点,选择对应方法来提高3D目标检测的性能。

Figure 2. Summary diagram of data augmentation methods for 3D object detection tasks

图2. 面向3D目标检测任务的数据增强方法汇总图

3.1. 基于2D图像衍化而来的3D点云数据增强方法

在深度学习的背景下,2D图像增强技术已经成为提高图像识别、分类和检测任务性能的标准实践。这些技术通过引入视觉变化来扩展训练数据集,增强模型对新颖视角、光照条件和遮挡情况的泛化能力。主要的2D图像增强技术包括几何变换 [11] 、颜色变换 [16] 、随机遮挡 [17] 和噪声注入 [18] 等技术。其中,几何变换通过改变图像的空间布局来模拟摄像头角度和物体位置的变化,如旋转、翻转、缩放和平移。一些研究人员受2D图像几何变换方法启发,尝试将其迁移到3D目标检测场景中。例如,PointNet++ [12] 将几何旋转应用到了点云数据中,使得3D点云可以绕任意轴旋转,这对于模拟如自动驾驶中车辆周围环境的变化尤为重要。例如,绕z轴的旋转模拟车辆在水平面上的方向变化,而绕x轴和y轴的旋转则模拟不同的俯仰角和侧倾角。PointPillars [19] 将几何平移应用到了点云数据中,模拟了物体在三维空间中的移动,可以帮助模型学习在不同位置识别同一物体。这些变换也可以组合使用,例如,PointAugment [20] 将旋转、缩放等基础增强方法作为候选,对于不同的点云样本随机选取一种增强方法进行增强;RSN [21] 网络使用旋转和翻转来提升数据的多样性;基于Transformer [22] [23] 的SWFormer [24] 同时使用旋转、翻转以及缩放从而提升模型的鲁棒性。其中,几何缩放通过改变点云的尺度,可以模拟物体距离传感器远近的变化 [25] 。

但与此同时,也存在许多标准的2D目标检测数据增强方法不能扩展到3D点云数据上。因为将这些数据增强扩展到3D目标检测需要适应输入场景的3D几何形状并合成新的视图,并需要准确的场景深度信息,而这些信息通常难以获取。针对此问题,Sugirtha等进一步评估了现有的2D数据增强方法在3D场景中的适用性,并提出了新的3D目标检测增强方法E3D-Aug [26] ,该方法在KITTI数据集上表现出了优越的性能提升,同时不需要新的视图合成。

基于2D图像衍化而来的3D点云增强方法通常将经典的2D图像增强技术应用于3D点云数据。由于2D图像处理领域的技术相对成熟,这些方法旨在利用2D图像增强的理念和技术来改善3D点云的质量和多样性。2D图像增强技术有着长期的发展历史,因此这些技术的稳定性和有效性已经得到了广泛验证。同时,存在大量的开源算法和库可以直接应用于2D图像,这些工具可以相对容易地调整以适用于3D点云数据。通过将3D点云投影到2D平面上,可以使用2D图像增强技术,如旋转、缩放、色彩调整等,然后再将增强后的2D图像重新转换为3D点云。此外,使用类似于2D图像的深度图来表示3D信息,允许应用传统的2D图像增强技术,如滤波器 [27] 和噪声模型 [28] 。但同时,2D投影可能会导致3D点云中的空间信息丢失,特别是在遮挡和复杂结构的情况下。某些2D增强技术不能直接应用于3D数据,因为它们没有考虑到3D空间中点的深度信息和结构。未来的研究可以进一步探索更多的增强技术,以及其在复杂环境中的应用潜力。

3.2. 针对3D点云设计的增强方法

随着3D点云处理技术的发展,研究人员逐渐开始设计专门针对3D点云特性的数据增强方法。3D点云与2D图像在数据结构上有本质的不同,3D点云通常是无序的,且直接反映了物体的三维结构信息。因此,针对3D点云的数据增强方法会考虑到点云的空间结构特性。

随机下采样(Random Subsampling) [29] 。随机下采样方法会随机移除一定比例的点。例如,PointRCNN [30] 随机下采样对输入点云进行预处理,让模型可以学习到在点云密度变化时仍保持性能的能力,以自下而上的方式直接从点云中生成少量高质量的3D候选框,通过随机下采样,模型可以学习到在点云密度变化时仍保持性能的能力,随机下采样的过程增加了训练数据的多样性,有助于提高模型的泛化能力,同时下采样减少了点的数量,这可以减轻计算负担,提高网络的运行效率。然而,随机下采样得到的点云可能只会丢弃一些非关键点,这对模型训练来说是冗余的。针对这一问题,Ma等提出了一种新的面向3D点云的数据增强方法PointDrop [31] ,使用一个增强网络来提供稀疏样本,优化增强策略和检测器,随机丢掉一些关键点,然后锻炼检测器的鲁棒性。数据增强模块通过去掉原始样本中某些临界点的特征来学习生成硬稀疏样本。检测器通过与数据增强模块的竞争来学习对稀疏样本的鲁棒处理,增强器数据增强模块以检测器的损耗作为反馈,对生成的稀疏样本的复杂度进行调整。

自动驾驶数据集通常是倾斜的,特别是缺乏距离车辆较远的物体的训练数据。随着检测到的目标距离的增加,数据的不平衡会导致性能下降。因此,Jordan等提出了一种基于激光雷达特征对目标点云进行下采样的数据增强技术Pattern-Aware [32] ,能够对数据点进行下采样,来模拟物体变远的现象,模拟自然发散点模式的变化,发生的对象在深度模拟样本在更远的距离。因此,网络具有更多样化的训练样例,可以更有效地泛化到检测更远的目标。

远点抽样(Farthest Point Sampling, FPS) [33] 。远点抽样优先选择距离已选点最远的点,保持点云的覆盖范围。下采样的策略需要根据具体任务和数据集特性来确定,过度下采样可能会导致重要的几何细节丢失,而不足的下采样则可能无法显著减少计算量。针对这一局限性,Shi等在PointRCNN的基础上进行改进提出了一种新的三维目标检测方法PV-RCNN [34] ,将点云进行体素化处理,通过新颖的体素集和抽象模块将具有三维体素CNN的三维场景总结为一个小的关键点集,以节省后续计算并对具有代表性的场景特征进行编码。在这一过程中,PV-RCNN使用FPS进行关键点采样,以有效地编码点云数据,可以准确地估计目标的置信度和位置,并提升了3D目标检测的性能。

插值方法 [35] 。插值方法用于在点云中增加点,提高密度,如三角形插值、最近邻插值。例如,PointMixup [36] 会从训练集中随机选取两个点云样本,然后通过最短距离线性插值算法将两个样本进行混合,生成新的3D物体,用于模型学习。

点云的切割与拼接。点云的切割与拼接是将点云分割成多个部分,将不同的点云片段组合在一起 [37] 。这种方法可以模拟遮挡情况或生成新的、未见过的场景配置。3D目标检测模型可以使用切割和拼接来增强对遮挡物体的检测能力。例如,PolarMix [38] 通过两种交叉扫描增强策略,沿着扫描方向切割、编辑和混合点云,保持了点云的保真度,丰富了点云分布。其中,第一种策略是场景级交换,交换沿方位轴切割的两个激光雷达扫描的点云区域;第二种策略是实例级的旋转和粘贴,从一个激光雷达扫描中裁剪点实例,旋转多个角度,并将旋转的点实例粘贴到其他扫描中,从而在不同的场景中能够保持优异的性能。GT-sample [39] 在训练过程中将目标物体插入到不同激光雷达帧中,有效地提高了检测性能。然而,这些样本可能会被放置在不合理的区域,这使得模型在目标和背景之间学习到错误的上下文信息。为了解决这个问题,Hu等提出了一种上下文感知数据增强方法CA-aug [40] ,该方法通过计算激光雷达点云的“有效空间”来确保插入对象的合理放置。

针对3D点云设计的增强方法是专门为处理3D点云数据而开发的技术,这些方法充分考虑了点云数据的空间属性和结构特点。这些方法通常保留了点云的空间一致性,确保增强后的数据仍然反映真实世界的几何和拓扑结构。设计良好的3D点云增强方法可以在增强过程中保留或甚至强化点云的语义信息。这类方法通常更灵活,可以针对特定的应用和点云数据特性进行定制。但同时,3D点云处理通常比2D图像处理需要更多的计算资源,尤其是在处理大规模或高密度的点云数据时。针对3D点云设计的增强算法往往比2D图像增强算法更为复杂,需要更深入的专业知识来开发和调整。

3.3. 混合与创新型数据增强方法

在上述方法的基础上,研究人员尝试从不同的研究角度入手,对不同类型的方法进行混合与创新,提出了新的3D点云数据增强策略。

多模态融合。例如,将2D图像信息与3D点云数据进行多模态融合能够在一定程度上对模型的学习起到促进作用。这种方法通常涉及到将2D图像特征映射到3D点云中,或者将3D点云特征投影到2D平面上。通过这种方式,模型可以同时学习到2D图像的纹理、颜色信息以及3D点云的几何结构信息。例如,Chen等提出的多视图3D网络MV3D [41] 、Charles等提出的融合2D图像和3D点云数据的方法Frustum Pointnets [42] 在对点云预处理时综合使用了针对2D图像与3D点云的数据增强策略,从而有效地将2D图像的高分辨率特征与3D点云的空间信息结合起来,提升了数据质量和多样性,提高了最终检测的准确性。

分区域增强。通过雷达等设备采集到的点云数据通常覆盖范围较广、物体种类较多,因此有研究人员尝试对不同区域使用不同的增强策略来提升数据增强的有效性。Choi等提出了一种数据增强方法PA-AUG [43] ,该方法可以更好地利用三维标签的丰富信息来提高三维目标检测器的性能。PA-AUG将对象划分为多个分区,并对每个局部区域随机应用五种增强方法。PA-AUG提高了最先进的3D物体检测器对所有类别的KITTI数据集的性能,而且对损坏的数据具有鲁棒性。

对抗性数据增强。对抗性数据增强是一种通过对抗性训练来提高模型鲁棒性的方法。在这种方法中,生成对抗样本是为了欺骗模型,迫使模型在训练过程中学习到更加鲁棒的特征。对抗性训练通常通过添加微小的、专门设计的扰动到原始数据中,这些扰动足以使模型做出错误的预测。然后,模型需要调整参数以正确分类这些对抗性样本。Alexander等提出了一种新颖的数据增强方法通过3D-VField [44] ,通过以对抗方式学习的向量场来合理地变形对象,限制3D点沿着传感器视图光线滑动,同时既不添加也不删除任何点。得到的矢量是可转换的,与样本无关的,并且保持形状和遮挡,通过在训练过程中变形点云,大大提高了3D目标检测器对域外数据的泛化。

无监督增强。绝大多数的增强策略被设计为只利用标记数据,这限制了数据的多样性但实际上,伪标记和数据增强是互补的,因此Leng等提出了一种利用未标记的数据进行数据增强的方法PseudoAugment [45] ,以丰富训练数据,该方法设计了三种新的基于伪标签的数据增强策略来融合标记和伪标记的场景,包括伪帧、伪目标和伪背景,伪标记通过减少伪标记错误和生成多样化的融合训练场景而优于伪标记,表现出了优异的增强效果。

混合型增强。大多数最先进的3D目标检测器只使用一些简单的数据增强功能,与2D图像数据增强不同,3D数据增强需要考虑输入数据的不同表示,并且需要针对不同的模型进行定制,从而产生了巨大的开销。针对这一问题,Cheng等提出了自动设计用于3D目标检测的数据增强策略的方法PPBA [46] ,该算法通过缩小搜索空间并采用在之前迭代中发现的最佳参数来学习优化增强策略,该方法在KITTI数据集和Waymo开放数据集上的其他实验表明,PPBA可以将目标检测模型的数据效率提高10倍,表明3D检测模型可以在标记样本少得多的情况下获得具有竞争力的准确性。同时,Leng等提出了一种实用有效的三维目标检测数据增强策略LidarAugment [47] 。在之前的方法中,所有的增强策略都是在一个指数级大的搜索空间中进行调整的,而LidarAugment对每个数据增强的搜索空间进行分解和对齐,大大减少超参数数量,并显着降低了搜索复杂性。

混合与创新型数据增强方法结合了传统的2D图像处理技术和专门为3D点云数据开发的技术,创造出新的方法来提高点云数据的质量和多样性。这些方法充分利用了2D图像增强的成熟技术和3D点云增强的空间感知能力,以获得最佳的增强效果。通过创新的组合和应用,可以开发出新的增强方法,为3D点云分析带来更多可能性。混合方法可以生成更多样化的训练数据,提高模型对于不同条件下数据的鲁棒性。但同时,整合不同来源的技术可能会遇到兼容性和优化问题,需要跨学科的知识和技能。混合与创新型数据增强方法为3D点云处理提供了强大的工具,可以显著提高模型的性能和鲁棒性。随着这些技术的不断发展,它们在未来的计算机视觉任务中将扮演越来越重要的角色。

4. 数据增强方法的评估

4.1. 数据集

4.1.1. KITTI

KITTI [48] 数据集是由德国卡尔斯鲁厄理工学院和丰田工业大学芝加哥分校联合赞助的用于自动驾驶领域研究的数据集,收集了长达6个小时的真实交通环境,被广泛用于计算机视觉和自动驾驶研究,它所包含的3D目标检测数据通过雷达等设备收集,包括了大量的真实世界场景。KITTI数据集中的3D目标检测任务包含3712张训练样本以及3769张验证样本,目标物体类别包含车辆(Car)、行人(Pedestrian)以及骑车的人(Cyclist)等。

4.1.2. Waymo (Waymo Open Dataset)

Waymo [49] 数据集是谷歌母公司Alphabet旗下的自动驾驶公司在2019年公布的数据开放项目,该数据集是一个连续帧数据集,采集的是连续的视频片段和点云片段。数据收集使用五个LiDAR传感器和五个高分辨率针孔相机完成,包含2D视频和3D多帧点云两部分数据,且LiDAR和Camera经过同步和标定处理,对图像和激光雷达的限界框进行了仔细的标注,并在各帧之间使用了一致的标识符。针对3D点云目标检测任务,整个数据集包含约1200万个LiDAR注释,从而产生了约11万余个LiDAR物体轨迹,整个数据集包含1150个场景,训练集场景有798个,验证集场景有202个,测试集场景有150个,每个场景时长为20秒,每秒10帧,每个场景200帧左右,目标物体类别包含车辆(Vehicle)、行人(Pedestrian)和骑车的人(Cyclist),且针对每个类别又细分为L1和L2两个难度等级。Waymo数据集中的点云数据,常用于面向多帧点云的目标检测模型的性能评测。

4.1.3. nuScenes

nuScenes [50] 是由Motiona团队在2019年3月公布的一个大型数据集,由1000个场景组成,其中850个场景用于训练和验证,150个场景用于测试,每个场景约20秒。nuScenes数据集标注了23个类别的物体,目标物体类别包含车辆(Car)、卡车(Truck)、施工车辆(C.V.)、巴士(Bus)、拖车(Trailer)、障碍物(Bar)、摩托车(Mot)、自行车(Byc)、行人(Ped)和交通锥(T.C.)等。同时,nuScenes数据集适合于研究多帧点云目标检测,因为它提供了高频率的激光雷达数据,以及完整的场景动态信息,且由于其物体分类较多,能够进行更加细致的目标检测任务。

4.2. 评价指标

4.2.1. 精确率(Precision)、召回率(Recall)以及F1分数(F1 Score)

在目标检测任务中,精确率、召回率和F1分数是衡量模型性能的关键指标 [51] 。在计算时会用到四个变量:真阳性(TP)、假阳性(FP)、真阴性(TN)、假阴性(FN),其中TP (True Positives)表示正确识别为正样本的数量,FP (False Positives)表示错误识别为正样本的数量,TN (True Negatives)表示模型正确地将负样本预测为负样本数量,FN (False Negatives)表示未被模型检测到的正样本数量。精确率(Precision)反映了模型检测到的目标中有多少是正确的,如式(1)。召回率(Recall)衡量的是模型检测到的正样本数量占所有实际正样本数量的比例,如式(2)。F1分数(F1 Score)是精确率和召回率的调和平均,它试图在精确率和召回率之间找到一个平衡,如式(3)。

Precision = TP TP + FP (1)

Recall = TP TP + FN (2)

F 1 = 2 × ( Precision × Recall ) Precision + Recall (3)

4.2.2. 交并比(Intersection over Union, IoU)

交并比(Intersection over Union, IoU)是一种用于计算两个边界框重叠程度的评价标准,广泛应用于目标检测任务中 [52] [53] [54] 。IoU是一个介于0到1之间的值,用来衡量预测边界框(由目标检测模型生成)与真实边界框(标注数据)之间的重叠度。IoU的计算公式如公式(4),其中,“Area of Overlap”是指预测边界框和真实边界框相交区域的面积,“Area of Union”是指预测边界框和真实边界框的并集区域的面积,具体示意图见图3

IoU = AreaofOverlap AreaofUnion (4)

Figure 3. IoU schematic diagram

图3. IoU示意图

4.2.3. P-R曲线(Precision-Recall Curve)和平均精度均值(Mean Average Precision, mAP)

在目标检测任务中,P-R曲线(Precision-Recall Curve)是一个重要的工具,用于评估模型在不同置信度阈值下对正类(感兴趣的目标)的检测性能 [55] [56] 。P-R曲线通过绘制精确度(Precision)对召回率(Recall)的图形来展示模型性能的变化情况,在这个曲线上,理想的目标是同时达到高精确度和高召回率。AP是P-R曲线下的面积,它提供了一个单一的分数来总结模型在所有阈值下的性能,AP值越高,说明模型的性能越好 [57] [58] 。AP的计算可以通过数值积分方法得到,即对P-R曲线下的面积进行积分,计算公式如公式(5),其中p(r)是在召回率为r时的精确率。计算出每个类别的AP后,mAP就是所有类别AP值的平均值如公式(6),其中N表示类别数,APi是第i个类别的平均精度。

AP = 0 1 p ( r ) d r (5)

mAP = 1 N i = 1 N AP i (6)

5. 现有方法的性能评估

为了更好地展示各种检测方法的效果,我们分别在KITTI、Waymo和nuScenes数据集上对不同方法进行对比评估,同时,我们将所有的方法分为基于2D图像衍化而来的3D点云数据增强方法、针对3D点云设计的增强方法和混合与创新型数据增强方法等三个类别。由于目前大多数主流的面向目标检测场景的数据增强方法的研究仍然采用目标检测的指标进行评估,因此在本节中也采用这种方式来对比不同现有方法的性能。

首先在KITTI数据集上,我们分别列出了当IoU为0.7时Car的AP、当IoU为0.5时Pedestrian和Cyclist的AP以及整体mAP的结果。从表1可以看到,最初,研究人员尝试将目标检测任务中面向2D图像的数据增强方法迁移到3D点云数据上,并取得了一定的效果,如PointPillars方法的mAP能够达到59.20%。但由于3D点云数据完全区别于2D视频图像的某些特性,仅对2D图像的数据增强方法进行迁移并不能够取得非常优异的性能效果,因此,越来越多的研究人员开始针对3D点云的特性设计其独特的数据增强方法,并大大提升了模型的检测性能,如CA-aug方法的mAP能够达到75.28%,表现出了最佳的数据增强效果。同时,针对小目标物体(如Pedestrian)的目标检测往往会面临更大的挑战,因此对此类物体进行数据增强针对目标检测任务来说具有非常重要的意义,而PA-AUG方法在KIITI数据集上针对Pedestrian类别当IoU阈值为0.5时AP能够达到61.59%,超越了表中的其他所有方法,表现出了该方法的优越性所在。同时,在这一过程中,部分研究人员进行了混合与创新型数据增强方法的初步探索,如PPBA方法,该方法相比较之前的数据增强方法有一定的性能提升,但仍然存在较大的局限性,最终取得了63.11%的mAP。

Table 1. Comparison of experimental results of different methods on KITTI

表1. 各方法在KITTI数据集上的实验结果比较

KITTI数据集是一个中型数据集,随着目标检测任务的标准与要求的提高,逐渐涌现了数据规模更大的大型数据集Waymo和nuScenes数据集。针对Waymo数据集,我们列出了Vehicle和Pedestrian两个物体类别分别在L1和L2两个数据难度等级上的AP,以及所有类别分别在L1和L2两个数据难度等级上的mAP。从表2可以看到,针对较容易识别的大目标Vehicle类别,SWFormer方法L1和L2难度等级的AP分别为82.89%和75.02%,以及L1的mAP能够达到75.45%。同时,在大规模数据集上,研究人员针对混合与创新型数据增强方法探索越来越多,同时也取得了非常不错的效果,如LidarAugment方法在Waymo数据集上针对小目标Pedestrian类别的L1和L2难度等级的AP分别为84.40%和76.80%,同时L1的mAP能够达到82.65%,表现出了该增强方法的优越性。

Table 2. Comparison of experimental results of different methods on Waymo

表2. 各方法在Waymo数据集上的实验结果比较

在nuScenes数据集上,我们分别列出了所有类别的mAP以及NDS指标,NDS (nuScenes detection score)是nuScenes数据集的特有评价指标,它是一个综合评价指标,旨在全面评估3D目标检测的性能。它结合了多个方面的度量,包括目标检测的准确性、大小、速度、属性、检测到的目标类别数量等。从表3可以看到,LidarAugment方法在nuScenes数据集上同样表现出了非常不错的性能,其mAP能够达到46.70%,同时,PolarMix方法的NDS能够达到55.70%。

Table 3. Comparison of experimental results of different methods on nuScenes

表3. 各方法在nuScenes数据集上的实验结果比较

6. 总结与展望

数据增强是机器学习和深度学习领域中一个至关重要的研究主题,特别是在那些数据稀缺或数据收集成本高昂的应用中。通过数据增强,研究人员和实践者能够显著提高模型的泛化能力,减轻过拟合,增强模型对于新颖和未见数据的鲁棒性。3D目标检测是自动驾驶和机器人视觉领域的一个关键任务,数据增强在提升检测性能中扮演着至关重要的角色。本文针对3D目标检测任务中的数据增强方法进行了深入探讨,首先介绍了3D目标检测的基本技术和流程,接着分别详细讨论了基于2D图像衍化的3D点云增强方法、针对3D点云设计的增强方法和混合与创新型数据增强方法,然后介绍了数据集以及数据增强方法的评估标准,之后在三个数据集上进行了结果的汇总以及综合评估对比。

实验结果表明,随着数据规模的不断扩大以及针对数据增强的研究逐渐深入,研究人员的研究方向逐渐从基于2D图像衍化的3D点云增强方法研究转为针对3D点云设计的增强方法研究,针对点云的特性进行完全区别于2D图像的数据增强方法的设计,例如PointDrop方法通过随机采样进行3D点云的数据增强操作,同时混合与创新型数据增强方法也逐渐被探索出来,并表现出了非常不错的数据增强效果,如LidarAugment方法通过分解和对齐数据增强的搜索空间减少超参数数量,表现出来了优异的性能。同时,由于点云数据稀疏的特点,在这种数据模式下针对其中的小物体(如Pedestrian)类别的目标检测任务往往面临很大的挑战,而部分方法如PA-AUG能够对此类较难检测的物体实现比较好的数据增强效果。

尽管现有研究取得了非常不错的成果,但3D目标检测任务的数据增强方法仍有许多值得探索的方向。首先,随着传感器技术的进步,将来可能会出现新类型的传感器数据,这要求我们开发更为通用和适应性强的数据增强方法。例如,对于多模态传感器数据的融合增强技术将是一个重要的研究方向。其次,当前的数据增强方法大多依赖于启发式的设计,缺乏理论指导。未来的研究可以从理论层面深入探讨数据增强技术对模型性能的影响机制,从而指导开发更为高效的数据增强策略。此外,现有的点云增强方法通常在整个训练过程中使用固定的增强策略而忽略了模型本身的学习效果,导致为数据增强而付出的额外开销未能有效地帮助模型提升精度,在模型学习的过程中对数据增强策略进行动态调整可能是一个值得探索的方向。

本研究的贡献在于系统地分析了当前数据增强方法的优势和不足,并提出了新的增强策略,为未来的研究奠定了基础。我们相信,随着技术的进步和研究的深入,数据增强技术将继续推动3D目标检测任务向着更高的准确性、鲁棒性和实用性前进。我们也期待着本研究能激发更多的创新和探索,共同促进3D点云目标检测技术在自动驾驶、智慧工业等领域快速发展。

基金项目

北京万集科技有限公司–北京科技计划(资助号:Z201100003920003),天津市安监物联网技术企业重点实验室研究项目(资助号:VTJ-OT20230209-2),贵州省科技计划(资助号:黔科合基础-ZK[2022]-012)。

NOTES

*通讯作者。

参考文献

[1] Qian, R., Lai, X. and Li, X. (2022) 3D Object Detection for Autonomous Driving: A Survey. Pattern Recognition, 130, Article 108796.
https://doi.org/10.1016/j.patcog.2022.108796
[2] Simon, M., Milz, S., Amende, K., et al. (2018) Complex-YOLO: Real-Time 3D Object Detection on Point Clouds. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Long Beach, 16-17 June 2019, 1190-1199.
https://doi.org/10.1109/CVPRW.2019.00158
[3] Guo, Y., Wang, H., Hu, Q., et al. (2021) Deep Learning for 3D Point Clouds: A Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43, 4338-4364.
https://doi.org/10.1109/TPAMI.2020.3005434
[4] Hou, J., Dai, A. and Niessner, M. (2019) 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 4421-4425.
https://doi.org/10.1109/CVPR.2019.00455
[5] Fanelli, G., Dantone, M., Gall, J., et al. (2013) Random Forests for Real Time 3D Face Analysis. International Journal of Computer Vision, 101, 437-458.
https://doi.org/10.1007/s11263-012-0549-0
[6] Pontil, M. and Verri, A. (1998) Support Vector Machines for 3D Object Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20, 637-646.
https://doi.org/10.1109/34.683777
[7] Rusu, R.B., Blodow, N., Marton, Z.C., et al. (2008) Aligning Point Cloud Views Using Persistent Feature Histograms. 2008 IEEE/RSJ International Conference on Intelligent Robots and Systems, Nice, 22-26 September 2008, 3384-3391.
https://doi.org/10.1109/IROS.2008.4650967
[8] Zhou, Z., Zhao, C., Adolfsson, D., et al. (2021) NDT-Transformer: Large-Scale 3D Point Cloud Localisation Using the Normal Distribution Transform Representation. 2021 IEEE International Conference on Robotics and Automation (ICRA), Xi’an, 30 May-5 June 2021, 5654-5660.
https://doi.org/10.1109/ICRA48506.2021.9560932
[9] Zhou, Y. and Tuzel, O. (2018) VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 4490-4499.
https://doi.org/10.1109/CVPR.2018.00472
[10] Liang, G., Zhao, X., Zhao, J., et al. (2023) MVCNN: A Deep Learning-Based Ocean-Land Waveform Classification Network for Single-Wavelength LiDAR Bathymetry. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 16, 656-674.
https://doi.org/10.1109/JSTARS.2022.3229062
[11] Qi, C.R., Su, H., Mo, K., et al. (2017) PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 652-660.
[12] Qi, C.R., Yi, L., Su, H., et al. (2017) PointNet : Deep Hierarchical Feature Learning on Point Sets in a Metric Space. Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, 4-9 December, 2017, 5105-5114.
[13] Phan, A.V., Nguyen, M.L., Nguyen, Y.L.H., et al. (2018) DGCNN: A Convolutional Neural Network over Large-Scale Labeled Graphs. Neural Networks, 108, 533-543.
https://doi.org/10.1016/j.neunet.2018.09.001
[14] Bodla, N., Singh, B., Chellappa, R., et al. (2017) Soft-NMS—Improving Object Detection with one Line of Code. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 22-29 October 2017, 5562-5570.
https://doi.org/10.1109/ICCV.2017.593
[15] Hu, H., Gu, J., Zhang, Z., et al. (2018) Relation Networks for Object Detection. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 3588-3597.
https://doi.org/10.1109/CVPR.2018.00378
[16] Getreuer, P. (2012) Automatic Color Enhancement (ACE) and Its Fast Implementation. Image Processing on Line, 2, 266-277.
https://doi.org/10.5201/ipol.2012.g-ace
[17] Zhong, Z., Zheng, L., Kang, G., et al. (2020) Random Erasing Data Augmentation. Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 34, Vancouver, 20-27 February 2024, 13001-13008.
https://doi.org/10.1609/aaai.v34i07.7000
[18] Jakubovitz, D. and Giryes, R. (2018) Improving DNN Robustness to Adversarial Attacks Using Jacobian Regularization. Proceedings of the 15th European Conference on Computer Vision (ECCV), Munich, 8-14 September 2018, 525-541.
https://doi.org/10.1007/978-3-030-01258-8_32
[19] Lang, A.H., Vora, S., Caesar, H., et al. (2019) PointPillars: Fast Encoders for Object Detection from Point Clouds. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 12689-12697.
https://doi.org/10.1109/CVPR.2019.01298
[20] Li, R., Li, X., Heng, P.-A., et al. (2020) PointAugment: An Auto-Augmentation Framework for Point Cloud Classification. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 6377-6386.
https://doi.org/10.1109/CVPR42600.2020.00641
[21] Sun, P., Wang, W., Chai, Y., et al. (2021) RSN: Range Sparse Net for Efficient, Accurate LiDAR 3D Object Detection. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 20-25 June 2021, 5721-5730.
https://doi.org/10.1109/CVPR46437.2021.00567
[22] Dosovitskiy, A., Beyer, L., Kolesnikov, A., et al. (2021) An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale. Proceedings of the 9th International Conference on Learning Representations, Online, 3-7 May 2021, 1-21.
[23] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017) Attention Is All You Need. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, 4-9 December 2017, 1-11.
[24] Sun, P., Tan, M., Wang, W., et al. (2022) SWFormer: Sparse Window Transformer for 3D Object Detection in Point Clouds. Proceedings of the 17th European Conference on Computer Vision, Tel Aviv, 23-27 October 2022, 426-442.
https://doi.org/10.1007/978-3-031-20080-9_25
[25] Zeng, A., Song, S., Niessner, M., et al. (2017) 3DMatch: Learning Local Geometric Descriptors from RGB-D Reconstructions. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 1802-1811.
https://doi.org/10.1109/CVPR.2017.29
[26] Santhakumar, K., et al. (2021) Exploring 2D Data Augmentation for 3D Monocular Object Detection. arXiv:2104.10786
[27] Tomasi, C. and Manduchi, R. (1998) Bilateral Filtering for Gray and Color Images. Sixth International Conference on Computer Vision (IEEE Cat. No.98CH36271), 7 January 1998, Bombay, 839-846.
[28] Zhao, H.-K., Osher, S. and Fedkiw, R. (2001) Fast Surface Reconstruction Using the Level Set Method. Proceedings IEEE Workshop on Variational and Level Set Methods in Computer Vision, Vancouver, 13 July 2001, 194-201.
[29] Khoury, M., Zhou, Q.-Y. and Koltun, V. (2017) Learning Compact Geometric Features. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 22-29 October 2017, 153-161.
https://doi.org/10.1109/ICCV.2017.26
[30] Shi, S., Wang, X. and Li, H. (2019) PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 770-779.
https://doi.org/10.1109/CVPR.2019.00086
[31] Ma, W., Chen, J., Du, Q., et al. (2021) PointDrop: Improving Object Detection from Sparse Point Clouds via Adversarial Data Augmentation. 2020 25th International Conference on Pattern Recognition (ICPR), Milan, 10-15 January 2021, 10004-10009.
https://doi.org/10.1109/ICPR48806.2021.9412691
[32] Hu, J.S.K. and Waslander, S.L. (2021) Pattern-Aware Data Augmentation for LiDAR 3D Object Detection. 2021 IEEE International Intelligent Transportation Systems Conference (ITSC), Indianapolis, 19-22 September 2021, 2703-2710.
https://doi.org/10.1109/ITSC48978.2021.9564842
[33] Zhao, Y., Birdal, T., Deng, H., et al. (2019) 3D Point Capsule Networks. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 1009-1018.
https://doi.org/10.1109/CVPR.2019.00110
[34] Shi, S., Guo, C., Jiang, L., et al. (2020) PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 10526-10535.
https://doi.org/10.1109/CVPR42600.2020.01054
[35] Wang, Y. and Solomon, J.M. (2019) Deep Closest Point: Learning Representations for Point Cloud Registration. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 27 October-2 November 2019, 3522-3531.
https://doi.org/10.1109/ICCV.2019.00362
[36] Chen, Y., Hu, V.T., Gavves, E., et al. (2020) PointMixup: Augmentation for Point Clouds. Proceedings of the 16th European Conference on Computer Vision, Glasgow, 23-28 August 2020, 330-345.
https://doi.org/10.1007/978-3-030-58580-8_20
[37] Zhang, J., Chen, L., Ouyang, B., et al. (2022) PointCutMix: Regularization Strategy for Point Cloud Classification. Neurocomputing, 505, 58-67.
https://doi.org/10.1016/j.neucom.2022.07.049
[38] Xiao, A., Huang, J., Guan, D., et al. (2022) PolarMix: A General Data Augmentation Technique for LiDAR Point Clouds. arXiv:2208.00223
[39] Yan, Y., Mao, Y. and Li, B. (2018) SECOND: Sparsely Embedded Convolutional Detection. Sensors, 18, Article 3337.
https://doi.org/10.3390/s18103337
[40] Hu, X., Duan, Z., Huang, X., et al. (2023) Context-Aware Data Augmentation for LIDAR 3d Object Detection. 2023 IEEE International Conference on Image Processing (ICIP), Kuala Lumpur, 8-11 October 2023, 11-15.
https://doi.org/10.1109/ICIP49359.2023.10222773
[41] Chen, X., Ma, H., Wan, J., et al. (2017) Multi-View 3D Object Detection Network for Autonomous Driving. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 6526-6534.
https://doi.org/10.1109/CVPR.2017.691
[42] Qi, C.R., Liu, W., Wu, C., et al. (2018) Frustum PointNets for 3D Object Detection from RGB-D Data. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 918-927.
https://doi.org/10.1109/CVPR.2018.00102
[43] Choi, J., Song, Y. and Kwak, N. (2021) Part-Aware Data Augmentation for 3D Object Detection in Point Cloud. 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Prague, 27 September-1 October 2021, 3391-3397.
https://doi.org/10.1109/IROS51168.2021.9635887
[44] Lehner, A., Gasperini, S., Marcos-Ramiro, A., et al. (2022) 3D-VField: Adversarial Augmentation of Point Clouds for Domain Generalization in 3D Object Detection. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 17274-17283.
https://doi.org/10.1109/CVPR52688.2022.01678
[45] Leng, Z., Cheng, S., Caine, B., et al. (2022) PseudoAugment: Learning to Use Unlabeled Data for Data Augmentation in Point Clouds. Proceedings of the 17th European Conference on Computer Vision, Tel Aviv, 23-27 October 2022, 555-572.
https://doi.org/10.1007/978-3-031-19821-2_32
[46] Cheng, S., Leng, Z., Cubuk, E.D., et al. (2020) Improving 3D Object Detection through Progressive Population Based Augmentation. Proceedings of the 16th European Conference on Computer Vision, Glasgow, 23-28 August 2020, 279-294.
https://doi.org/10.1007/978-3-030-58589-1_17
[47] Leng, Z., Li, G., Liu, C., et al. (2023) Lidar Augment: Searching for Scalable 3D LiDAR Data Augmentations. 2023 IEEE International Conference on Robotics and Automation (ICRA), London, 29 May-2 June 2023, 7039-7045.
https://doi.org/10.1109/ICRA48891.2023.10161037
[48] Geiger, A., Lenz, P. and Urtasun, R. (2012) Are We Ready for Autonomous Driving? The KITTI Vision Benchmark Suite. 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, 16-21 June 2012, 3354-3361.
https://doi.org/10.1109/CVPR.2012.6248074
[49] Sun, P., Kretzschmar, H., Dotiwalla, X., et al. (2020) Scalability in Perception for Autonomous Driving: Waymo Open Dataset. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 2446-2454.
https://doi.org/10.1109/CVPR42600.2020.00252
[50] Caesar, H., Bankiti, V., Lang, A.H., et al. (2020) nuScenes: A Multimodal Dataset for Autonomous Driving. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 11618-11628.
https://doi.org/10.1109/CVPR42600.2020.01164
[51] Lewis, D.D. (1991) Evaluating Text Categorization. Proceedings of the Workshop on Speech and Natural Language, Pacific Grove, 19-22 February 1991, 312-318.
https://doi.org/10.3115/112405.112471
[52] Rezatofighi, H., Tsoi, N., Gwak, J., et al. (2019) Generalized Intersection over Union: A Metric and a Loss for Bounding Box Regression. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 658-666.
https://doi.org/10.1109/CVPR.2019.00075
[53] Girshick, R., Donahue, J., Darrell, T., et al. (2014) Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, 23-28 June 2014, 580-587.
https://doi.org/10.1109/CVPR.2014.81
[54] Ren, S., He, K., Girshick, R., et al. (2017) Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39, 1137-1149.
https://doi.org/10.1109/TPAMI.2016.2577031
[55] Padilla, R., Passos, W.L., Dias, T.L.B., et al. (2021) A Comparative Analysis of Object Detection Metrics with a Companion Open-Source Toolkit. Electronics, 10, Article 279.
https://doi.org/10.3390/electronics10030279
[56] Everingham, M., Van Gool, L., Williams, C.K.I., et al. (2010) The Pascal Visual Object Classes (VOC) Challenge. International Journal of Computer Vision, 88, 303-338.
https://doi.org/10.1007/s11263-009-0275-4
[57] Singh, B. and Davis, L.S. (2018) An Analysis of Scale Invariance in Object Detection-SNIP. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 3578-3587.
https://doi.org/10.1109/CVPR.2018.00377
[58] Lin, T.Y., Maire, M., Belongie, S., et al. (2014) Microsoft COCO: Common Objects in Context. Proceedings of the 13th European Conference on Computer Vision, Zurich, 6-12 September 2014, 740-755.
https://doi.org/10.1007/978-3-319-10602-1_48