海洋环境下具有原型的集成实例分割网络
Integrated Instance Segmentation Network with Prototypes in Marine Environment
DOI: 10.12677/mos.2024.132176, PDF, HTML, XML, 下载: 46  浏览: 106 
作者: 李盼龙, 胡 兴:上海理工大学光电信息与计算机工程学院,上海
关键词: 海洋场景原型学习实例分割开集场景Marine Environment Prototype Learning Instance Segmentation Open-Set Scene
摘要: 随着人类对海洋世界的探索活动日益增多,自动检测与识别海洋物体愈发重要。相对于仅仅获得目标大小与位置信息,海洋生物的实例分割更具价值,因为其可以进一步提供目标的形状信息。基于上述背景,本文提出了一种新的方法,通过整合原型模块到实例分割模型中,以获得更好的性能。原型模块由原型训练与原型区域两部分组成来保证原型的类代表性与边界稳定性。其中,我们通过随机挑选部分异类相似样本来训练原型区域模块,来更好地模拟类原型边界。最终,我们将原型模块融合到传统实例分割模型中,以实现更准确的海洋生物分割。实验结果表明,我们提出的原型整合方法在海洋数据集上取得了显著的精度提升,并能更好地区分异类相似样本,从而有效改善了实例分割模型的性能。
Abstract: The importance of automatically detecting and identifying marine objects has increased in tandem with the rise in human exploration activities in the maritime environment. Compared to obtaining only target size and position information, instance segmentation of marine organisms is more valuable as it can further provide shape information about the targets. This paper proposes a new method by integrating a prototype module into the instance segmentation model to achieve better performance. The prototype module consists of prototype training and prototype region to ensure the class representativeness and boundary stability of the prototypes. Specifically, we train the prototype region module by randomly selecting some dissimilar samples to better simulate the boundary of class prototypes. Ultimately, we integrate the prototype module into the traditional instance segmentation model to achieve more accurate segmentation of marine organisms. Experimental results demonstrate that our proposed prototype integration method achieves significant accuracy improvement on the marine dataset and better distinguishes dissimilar samples, effectively improving the performance of the instance segmentation model.
文章引用:李盼龙, 胡兴. 海洋环境下具有原型的集成实例分割网络[J]. 建模与仿真, 2024, 13(2): 1885-1894. https://doi.org/10.12677/mos.2024.132176

1. 引言

由于海洋占地表面积的70%以上,蕴含着大量生物种类与自然资源,人类对海洋的探索活动从未停止过。随着现代探索技术的发展,特别是水下机器人出现,人们对海洋的探索达到前所未有的高度。然后,由于海洋的浩瀚无边,人类对海洋的探索范围还极其有限。当前,在人工智能,特别是深度学习技术的赋能下,目标检测 [1] [2] [3] [4] 、语义分割 [5] [6] 和实例分割 [7] [8] [9] [10] 取得了显著的发展和进步,在海洋领域,如鱼类识别 [11] 、体长测量 [12] 、场景分割 [13] 、人员定位 [14] 等领域取得了巨大成功。与图像分类、目标检测以及语义分割相比,实例分割的准确性和鲁棒性明显滞后,这主要是因为训练分割模型需要昂贵的实例注释且对场景要求比较严苛。但是实例级别的分割不仅可以得到目标的大小和位置信息,同时可以得到目标的形状特征,在海洋复杂的场景和光照因素下有着十分重要的作用和意义。

在海洋环境中,不仅存在着各种自然生物,还有许多与工业相关的设施和设备,例如船只、海上风力发动机、海洋石油钻探平台等。实例分割模型是一种计算机视觉中的重要技术,它不仅可以识别和定位海洋中的生物,还可以识别和区分工业设备,从而在海洋资源开发、海洋环境保护等领域有着广泛的应用。然而在实际应用中,海洋生物和工业场景的实例分割仍面临如下一些问题:

1) 精度问题:由于海洋环境中目标多样性和复杂性的影响,传统的实例分割模型在识别过程中容易出现精度不高的情况,特别是在处理小尺寸、模糊或相似目标时。

2) 数据获取问题:由于光照、水质、生物活动等因素,使得收集到的海洋生物和工业设备的图像数据质量参差不齐,对实例分割模型的准确性造成巨大挑战。

针对以上问题,本文提出了一种具有原型的集成实例分割网络,它能改善传统模型遇见相似样本的错分类问题,以及提升模型的准确率。原型模块通过学习样本的原型来表示不同类别之间的关系,并通过原型与输入样本的相似度来进行分类判断,从而提升模型的性能和泛化能力。尤其是对于少样本和异类相似样本的判断有着极好的效果,这主要在于原型模块对每个类别的特征进行建模。在传统模型中,分类器直接将类别进行划分,容易导致相似样本和未知样本的错误归类,如图1所示。而原型网络通过相似度的对比将空间划分转换为类别边界建模。具体而言,本文将原型训练与原型区域作为原型模块的两个组成部分,原型训练模块将学习类别的最佳原型;原型区域模块通过对部分样本进行选择、训练,得到原型对比的边界。我们将其作为一个整体加入到传统模型Mask RCNN当中,在海洋数据集上进行训练,通过实验结果表明原型模块对于模型分类和分割有着积极作用。同时表明,使用原型的优点是它能够很好地增强闭集分类精度和开放世界识别问题 [13] ,加入原型使得未知对象被视为已知类的概率进一步降低。有利于改善海洋场景下传统模型的精度问题和安全问题。

为了检验我们方法的有效性和原型模块的实际效果,我们采用Trashcan [15] 和CH-DUTUSEG数据集来进行检测。根据Trashcan数据集的组成,我们将其分类为数据集-8 (无垃圾类)、数据集-14 (垃圾类)和数据集-22 (全部类)。根据模型在不同数据下的对比结果,我们发现加入原型模块的实例分割模型具有更好的准确性和鲁棒性。

本文的结构组织如下。首先,我们进行了相关工作的文献回顾(第2节)。接着,在第3节中,我们详细介绍了引入的原型学习模块。在第4节中,我们讨论了实验细节并展示了主要的实验结果。最后,在第5节中,我们对全文工作进行了总结。

Figure 1. Schematic diagram of data distribution and spatial division of different methods

图1. 数据分布及不同方法的空间划分示意图

2. 相关工作

深度学习在海洋目标分析中的应用:随着深度学习技术的快速发展,在海洋领域,许多学者已经积极开展了深度学习的研究。其中,2020年,Cht等人 [12] 使用了卷积神经网络(CNN)实现了针对鱼类体长的自动测量网络。Siddiqui等人 [11] 提出了一种基于深度学习技术的视觉方法,用于对鱼类进行细粒度分类。此外,Reus G等人 [13] 提出了一种机器学习方法,用于自动估计海草覆盖率,并采用CNN描述海草斑块和超像素。Ma等人 [14] 则通过融合算法对视频中的人脸图像资源进行采集和整合,并运用区域卷积神经网络(R-CNN)对船上的人脸数据进行训练,建立了船员人脸识别定位分析应用平台,成功实现了船上人员的定位。这些研究表明,深度学习模型在海洋领域的应用正趋于成熟。

实例分割模型:首先对图像中的对象进行检测,然后为每个检测到的实例生成一个分割掩码,这是两阶段实例分割模型的典型思想。其中,Mask-RCNN [7] 是由Faster-RCNN [4] 扩展而来,通过在目标检测网络中添加分割分支来预测检测结果的分割掩码。这使得Mask-RCNN能够依靠Faster-RCNN良好的性能,同时并行执行目标检测和实例分割两项任务。另一项重要的工作是PointRend [16] ,它将实例分割视为图像渲染问题,其分割结果相较于Mask-RCNN更为出色。此外,还有一类思想是先进行像素级别的语义分割,然后通过聚类等后处理手段进行分类,例如 [17] 。受单阶段目标检测研究的启发,近年来单阶段实例分割模型也得到了广泛关注。例如,YOLACT [18] 利用不同的层分别产生掩模系数和原型掩模,以保持空间一致性并实现接近实时的处理速度。然而在复杂多变、目标形状多样、采集数据质量较低的海洋场景下,上述模型不可避免的面临精度下降的问题,这主要是异类相似样本和样本不均衡等造成训练器分类准确度下降等原因造成的。

原型学习网络:使用原型的优点是它能够很好的增强闭集分类精度和开放世界识别问题 [19] 。Yang等人 [16] 首次将原型学习用于卷积网络,证明加入原型可以使闭集分类更加健壮,同时也为未知识别留下可能。Lu等人 [20] 提出了一个新的原型挖掘和学习框架,在考虑原型集的多属性后进行样本识别。原型学习在弱监督领域同时应用广泛,Li等人 [21] 提出了原型对比学习(PCL)综合对比学习和聚类学习的优点,在少样本迁移学习、半监督学习和目标检测三个任务上精度提升明显。我们的方法是对 [16] 的继承和发展,我们将其运用到实例分割这一领域,并将其在海洋场景下进行应用。具体而言,原型学习训练数据中的一组代表性样本,来代表一个类或则簇,进而通过相似度衡量样本属于各类别的概率分数。

3. 工作原理

3.1. 准备工作

我们的模型设计基于两个关键方面:1) 在现实的海洋场景中由于光照和水质的影响,采集的图像数据参差不齐,易造成不同样本之间的视觉混淆。2) 在复杂的环境中,传统模型面对目标样本时易出现精度下降和异类相似样本误分类的情况。因此我们旨在于提高模型的精度和鲁棒性,增强其在海洋场景中的适用性和实用性。同时希望模型能更好地应对异类相似样本和未知样本的情况。在数据方面,我们使用 D = { ( x , y ) , x X , y Y } 表示场景数据集,其中x表示为一个样本实例, y = { ( c , b , m ) } 表示此样本实例的类别c、检测框b和分割掩码m信息。为了尽量体现海洋场景的真实性和测试时遇到的复杂情况,我们使用 D t r a i n 数据集来训练我们的模型,其中 D t r a i n 包含K个已知类别,表示为 C K = { 1 , , K } 。使用 D t e s t 数据集来测试我们的模型,其中 D t e s t 包含训练类别信息及可能含有未知样本信息。在考虑包含未知样本的假定下,我们做了以下方面的准备工作:1) 在训练时尽量避免出现未知对象作为未标注的对象出现,确保训练时背景类 C B 的准确性。2) 我们在训练时将背景视为单独的一类,进而更好的区分背景类 C B 和未知类 C U

我们的目标是检测和分割海洋场景中的对象,考虑到两阶段实例分割网络有着较好的精度和鲁棒性,所以我们使用Mask-RCNN来作为我们的基线架构。同时将原型模块融入到基线模型中,以便来更好的实现类别分离。本文的主要工作是通过改进基线结构使得传统实例分割模型更好地适应海洋分割场景。图2显示了改进后的模型架构。

Figure 2. Model architecture diagram

图2. 模型架构图

3.2. 原型模块

在本节中,我们将介绍原型模块,其通过可学习的原型,使不同的类别更加分离,使相同的类别更加紧凑。如图3所示,我们根据来自不同原型的距离得分对特征进行分类。我们使用 m i 来表示原型,其中 i 1 , 2 , , K 表示与原型对应的已知类索引。定量地说,我们使用特征与不同原型之间的欧氏距离来测量概率分数。其中,欧氏距离为:

d ( f ( x ) , m i ) = f ( x ) m i 2 (1)

其中, f ( x ) 表示早期提取的特征, d ( f ( x ) , m i ) 表示样本特征到相应原型的欧氏距离。如图3所示,在训练过程中,特征应该尽可能接近相应的原型,因此我们将 l o s s d 定义为:

l o s s d = 1 2 N j = 1 N d ( f i , m i ) (2)

其中,N为样本特征的总数。同时,我们引入了分类损失来加强模型的鲁棒性,提高了原型的分离能力。特征在训练过程中的稳定性得助于分类损失,分类损失基于每个特征与原型之间的距离进行标签判断,如图3所示。计算每个特征和每个类别原型的欧氏距离,得到一个距离分布矩阵D:

D i j = d ( f j , m i ) (3)

其中, i 1 , 2 , , K j 1 , 2 , , N 。此外,在周围保留了一个背景类原型来过滤掉负样本。然后在D上应用交叉熵损失,损失为 l o s s 1

l o s s 1 = 1 N j = 1 N Y j * log ( exp ( D i ) i = 0 K exp ( D i ) ) (4)

我们还考虑了一些非典型性点的影响。图3表明了一些特征点可能与相关的原型相当远,这可能会导致样本的错误分类。因此,为了惩罚边界样本的错误分类,我们加入了一个原型区域模块。具体而言,随机选择一些低得分的前景和背景样本(弱样本的数量为M)来进行优化,其损失函数为:

l o s s 2 = 1 M j = 1 M Y j * log ( exp ( D i ) i = 0 K exp ( D i ) ) (5)

最后,我们将原型损失函数定义为:

l o s s p = σ 1 * l o s s d + l o s s 1 + σ 2 * l o s s 2 (6)

值得注意的是,在一个封闭集的检测环境中,我们只需要根据相应的距离来确定类别评分,如下:

s i ( x ) f ( x ) m i 2 (7)

Y x = i = 0 K arg max ( s i ( x ) ) (8)

上述 s i ( x ) 表示特征的得分, Y x 表示样本x测量的标签。我们根据模型测试的结果,将样本进行分类。

3.3. 整体优化

我们的方法可以进行端到端训练,但会有以下多任务损失:

Figure 3. Prototype module

图3. 原型模块

l o s s = l o s s r p n + l o s s p + l o s s m (9)

其中, l o s s r p n 表示RPN部分的损失函数, l o s s m 表示掩码分支的损失函数, l o s s 表示模型整体的损失函数。

4. 实验

4.1. 实验设置

数据集:为了评估该模型在现实海洋场景中的有效性,我们使用Trashcan和CH-DUTUSEG数据集进行评估实验。图4为数据集的场景描述。Trashcan数据集有6065个训练图像和1147个测试图像,其中包括8个非垃圾类和14个垃圾类。通过对数据集的分析,我们使用了8、14和22个类别来验证原型模块的功能。同时,我们从DUT-USEG数据集中选择了400张、包含1191个实例的图像作为CH-DUTUSEG数据集来验证样本较少、样本相似等情况下模型的性能。

基线方法:我们使用两阶段Mask RCNN网络作为比较的基线。同时,我们结合消融实验,选择特定的实验参数,以探讨不同模块对结果的影响。

验证指标:我们探讨的是在海洋场景下实例分割模型的性能问题,因此使用平均精度(mAP)来验证已知类的测试精度。mAP考虑了不同类别的检测结果,然后计算每个类别的平均精度。为我们提供一个综合评估目标检测模型性能的指标,更好地反映了模型的实际表现。另外在存在未知样本的测试中,使用Absolute Open-Set Error (AOSE)来计算模型将未知样本错误分类的数量。

设置细节:我们使用ResNet-50和特征金字塔网络(FPN)作为改进的模型和基线的骨干。对于超参数设置,我们将σ1设置为0.001,σ2设置为0.0001。对于优化器和学习率设置,我们使用了一个SGD优化器,其初始学习率为0.08,动量为0.9,权重衰减为0.0001。

4.2. 实验结果

首先为了检验原型模块的稳定性和鲁棒性,我们在Trashcan和CH-DUTUSEG数据集上进行验证。其中测试集均不包含未知样本的情况,旨在检测模型的分类和分割性能。结果如表1所示。

实验结果表明,添加一个原型模块有助于提高实例分割模型的检测与分割精度。由于Mask RCNN模型的分割精度依赖于检测与分类的结果,因此我们可以得出原型模块将有利于不同的类别特征更加分离,相同的类别更加紧凑,进而提升分类精度的结果。同时,我们考虑不同的维度对原型模块中原型训练的影响,在Trashcan-14数据上进行检验。结果如表2所示。根据表中结果我们选择100作为原型的初始化维度。

Figure 4. Datasets overview

图4. 数据集概述

Table 1. Accuracy comparison of different models

表1. 不同模型的精度比较

Table 2. Influence of potential layer dimension on accuracy

表2. 潜在层维度对精度的影响

通过上述结果,我们发现加入合适的可训练原型对于模型精度的提升具备积极意义。下面的图5显示了我们对Trashcan数据的预测结果。

Figure 5. Model test results

图5. 模型检测结果

4.3. 消融实验

在本节中,我们将探讨模型对于未知样本的拒绝能力。一般来说,模型对于未知样本的拒绝能力越强,其闭集分类的能力越强。我们使用Absolute Open-Set Error (AOSE)来衡量模型的拒绝能力,其数量越低,代表模型的分类能力越强。由于CH-DUTUSEG数据集的样本较少,我们使用WI作为测量度量。其中, W I = ( p k p k u 1 ) 用来测量未知对象被错误分类为已知类别的程度。结果如表3表4所示。

Table 3. Comparison results of the model on Trashcan datasets

表3. 模型在Trashcan数据集上的对比结果

Table 4. Comparison results of the model on CH-DUTUSEG dataset

表4. 模型在CH-DUTUSEG数据集上的对比结果

通过上述的消融实验,我们可以得出修改后的模型在拒绝未知样本的能力上要强于基线模型,其在一定程度上说明分类器的分类效果较之之前有所增强。同时,我们也可以看到模型对比开放世界检测模型来说其拒绝能力仍有待提高。如何进一步优化原型边界和未知样本空间是我们下一步研究的重点。

5. 总结

本文提出了一种在实例分割网络中集成原型的方法。我们通过添加一个可训练的原型模块,由原型训练与原型区域两部分组成,以确保原型的类代表性与边界稳定性。我们在Trashcan和CH-DUTUSEG数据集上进行了验证,实验结果表明,我们提出的原型整合方法在海洋数据集上取得了显著的精度提升,并且能够更好地区分异类相似样本,有效改善了实例分割模型的性能。同时,我们的方法在处理未知样本时表现出更好的拒绝能力。未来的工作重点是在确保模型精度的前提下,使其具备开放集检测的能力。

参考文献

[1] He, K., Zhang, X., Ren, S., et al. (2016) Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 770-778.
https://doi.org/10.1109/CVPR.2016.90
[2] Liu, Z., Lin, Y., Cao, Y., et al. (2021) Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 9992-10002.
https://doi.org/10.1109/ICCV48922.2021.00986
[3] Ge, Z., Liu, S., Wang, F., et al. (2021) YOLOX: Exceeding YOLO Series in 2021. arXiv: 2107.08430.
[4] Girshick, R. (2015) Fast R-CNN. 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, 7-13 December 2015, 1440-1448.
https://doi.org/10.1109/ICCV.2015.169
[5] Weng, W. and Zhu, X. (2021) INet: Convolutional Networks for Biomedical Image Segmentation. IEEE Access, 9, 16591-16603.
https://doi.org/10.1109/ACCESS.2021.3053408
[6] Ma, Y., Meng, J., Sun, L., et al. (2023) Oceanic Internal Wave Signature Extraction in the Sulu Sea by a Pixel Attention U-Net: PAU-Net. IEEE Geoscience and Remote Sensing Letters, 20, 1-5.
https://doi.org/10.1109/LGRS.2022.3230086
[7] He, K., Gkioxari, G., Dollar, P., et al. (2017) Mask R-CNN. International Conference on Computer Vision, Venice, 22-29 October 2017, 2980-2988.
https://doi.org/10.1109/ICCV.2017.322
[8] Xie, E., Sun, P., Song, X., et al. (2020) PolarMask: Single Shot Instance Segmentation with Polar Representation. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 12190-12199.
https://doi.org/10.1109/CVPR42600.2020.01221
[9] Wang, X., Kong, T., Shen, C., et al. (2020) SOLO: Segmenting Objects by Locations. In: Vedaldi, A., Bischof, H., Brox, T. and Frahm, JM., Eds., Computer Vision ECCV 2020, Springer, Cham.
https://doi.org/10.1007/978-3-030-58523-5_38
[10] Gu, Z., Chen, H., Xu, Z., et al. (2022) DiffusionInst: Diffusion Model for Instance Segmentation. arXiv: 2212.02773.
[11] Siddiqui, S.A., Salman, A., Malik, M.I., Shafait, F., Mian, A., Shortis, M.R. and Harvey, E.S. (2018) Automatic Fish Species Classification in Underwater Videos: Exploiting Pre-Trained Deep Neural Network Models to Compensate for Limited Labelled Data. ICES Journal of Marine Science, 75, 374-389.
https://doi.org/10.1093/icesjms/fsx109
[12] Tseng, C.-H., Hsieh, C.-L. and Kuo, Y.-F. (2020) Automatic Measurement of the Body Length of Harvested Fish Using Convolutional Neural Networks. Biosystems Engineering, 189, 36-47.
https://doi.org/10.1016/j.biosystemseng.2019.11.002
[13] Yang, H.M., Zhang, X.Y., Yin, F., et al. (2018) Robust Classification with Convolutional Prototype Learning. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 3474-3482.
https://doi.org/10.1109/CVPR.2018.00366
[14] Ma, C., Chen, L., Yang, C., et al. (2019) A Deep Learning Based Personnel Positioning System for Key Cabin of Ship. 2019 International Conference on Intelligent Computing, Automation and Systems (ICICAS), Chongqing, 6-8 December 2019, 492-496.
https://doi.org/10.1109/ICICAS48597.2019.00108
[15] Hong, J., Fulton, M. and Sattar, J. (2020) TrashCan: A Semantically-Segmented Dataset towards Visual Detection of Marine Debris.
[16] Kirillov, A., Wu, Y., He, K., et al. (2020) PointRend: Image Segmentation as Rendering. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 9796-9805.
https://doi.org/10.1109/CVPR42600.2020.00982
[17] Brabandere, B.D., Neven, D. and Gool, L.V. (2017) Semantic Instance Segmentation with a Discriminative Loss Function. arXiv: 1708.02551.
[18] Bolya, D., Zhou, C., Xiao, F., et al. (2019) YOLACT : Real-Time Instance Segmentation. arXiv: 1912.06218.
[19] Reus, G., Moller, T., Jager, J., et al. (2018) Looking for Seagrass: Deep Learning for Visual Coverage Estimation. 2018 OCEANS-MTS/IEEE Kobe Techno-Ocean (OTO), Kobe, 28-31 May 2018, 1-6.
https://doi.org/10.1109/OCEANSKOBE.2018.8559302
[20] Lu, J., Xu, Y., Li, H., et al. (2022) PMAL: Open Set Recognition via Robust Prototype Mining. Proceedings of the AAAI Conference on Artificial Intelligence, 36, 1872-1880.
https://doi.org/10.1609/aaai.v36i2.20081
[21] Li, J., Zhou, P., Xiong, C., et al. (2020) Prototypical Contrastive Learning of Unsupervised Representations. arXiv: 2005.04966.