基于KPConv的全局上下文感知点云语义分割方法
Global Context-Aware Point Cloud Semantic Segmentation Method Based on KPConv
DOI: 10.12677/aam.2026.154149, PDF, HTML, XML,    科研立项经费支持
作者: 余明珂:中国地质大学(武汉)数学与物理学院,湖北 武汉
关键词: 点云语义分割KPConv全局上下文感知特征融合Point Cloud Semantic Segmentation KPConv Global Context Awareness Feature Fusion
摘要: 针对KPConv网络在解码阶段对全局语义信息建模的局限性,提出了一种全局上下文感知点云语义分割模型(GCA-Net)。该模型在解码阶段逐层引入一种轻量化的全局–局部特征引导机制,使局部特征在上采样恢复过程中受到全局语义信息的约束,从而增强输出特征的语义一致性。具体而言,通过全局注意力池化获得全局语义特征表示,采用瓶颈结构增强特征通道间的依赖关系,融合输入点云的局部特征,据此增强全局与局部语义特征的协同表达能力。为了验证所提模型的有效性,在ISPRS数据集上进行了测试,相比于基准网络KPConv,所提GCA-Net的OA和F1分别提高了0.9%和2.7%。
Abstract: To address the limitation of KPConv in modeling global semantic information during the decoding stage, a global context-aware point cloud semantic segmentation model named GCA-Net is proposed. The model incorporates a lightweight global-local feature guidance mechanism into the decoder, enabling global semantic information to effectively constrain local feature recovery during upsampling and enhancing the semantic consistency of the output features. Global semantic representations are constructed through global attention pooling and refined by a bottleneck structure that strengthens inter-channel dependencies, and are subsequently fused with encoder features to improve the collaborative representation of global and local semantics. Experimental results on the ISPRS dataset show that, compared with the baseline KPConv network, GCA-Net achieves improvements of 0.9% in overall accuracy (OA) and 2.7% in F1 score.
文章引用:余明珂. 基于KPConv的全局上下文感知点云语义分割方法[J]. 应用数学进展, 2026, 15(4): 192-200. https://doi.org/10.12677/aam.2026.154149

1. 引言

随着三维感知技术的发展,激光雷达等高精度传感设备的广泛应用,点云数据的获取能力得到了显著提升[1]。点云语义分割旨在为点云数据中的每个点赋予正确的语义类别信息,然而,点云数据具有无序性、稀疏性和非结构性等固有属性[2],使得点云语义分割仍面临挑战。

目前,点云语义分割的方法可归纳为两类:基于传统的机器学习方法与基于深度学习的方法。传统机器学习方法其核心在于人工设计的特征提取方法。此类方法通常采用两阶段处理流程:首先通过几何特征算子构建局部描述符[3],然后采用支持向量机[4]、随机森林[5]等分类器实现逐点语义推断。然而,这些方法在局部几何表征时缺乏空间上下文关联,且难以捕捉复杂场景的语义一致性。

基于深度学习的方法采用端到端的训练模式,实现了特征表达的自动化与高效化,在整体性能上展现出明显优势。2017年,Qi等人提出的PointNet [2]首次将深度学习模型运用到原始点云数据,通过MLP逐点学习特征,并利用最大池化操作聚合全局特征。这种方法有效解决了点云的无序性问题,但是难以捕捉丰富的局部特征。同年,Qi等人提出改良后的深度学习网络PointNet++ [6],其采用最远点采样方法进行下采样,并多次利用PointNet层提取丰富的局部特征。尽管PointNet++通过分层采样与局部邻域建模提升了特征表达能力,但其仍主要依赖共享MLP进行局部特征提取,缺乏对点云几何结构的显式建模。针对此问题,KPConv [7]引入定义于连续空间的核点卷积,有效增强了局部几何结构的建模能力。

KPConv基于编码–解码架构,其解码器通过跳跃连接聚合编码器的多层特征,并借助最近邻插值逐步恢复空间细节。然而,这种依赖直接拼接的特征融合策略存在固有局限:首先,它仅实现了不同层级特征的简单堆叠,未能有效建立其间的深层语义联系,导致特征融合粗糙;其次,无论是编码器提供的特征还是最近邻插值恢复的细节,其感受野均局限于局部区域,缺乏能够指导整体语义理解的全局上下文信息,使得模型在面临复杂场景或大尺度目标时,容易产生结构歧义。对此,MCFN [8]在上采样层之间建立跨层特征交互,通过通道注意力自适应地融合多尺度语义信息,从而增强解码过程中深层次语义特征的一致性与判别性;RRDAN [9]在解码阶段引入全局和局部通道注意力,使得模型能够同时捕捉点云的全局上下文信息和局部细节。尽管上述方法均从解码阶段引入了上下文信息,但其多依赖显式的跨层交互或通道注意力机制,模型结构相对复杂。为此,本文提出一种更为简洁高效的全局上下文感知网络GCA-Net,以在保持较低计算开销的同时增强解码过程中的全局语义约束能力,并在ISPRS数据集上验证了GCA-Net的有效性。

2. GCA-Net方法介绍

GCA-Net以KPConv为基准架构,网络共5层,同层之间通过跳跃连接进行特征传递,其网络结构如图1所示。在编码阶段,输入点云首先通过网格下采样减少点数,再通过KPConv对点云进行特征提取。定义输入点云坐标为 P N×3 ,其特征为 F N×D ,其中N表示点的总数,D表示每个点所对应的特征通道数。以点x为中心点、r为半径构建球形邻域 B r 3 ,邻域内的所有邻居点定义为 N x ={ x i P| x i x r } 。在邻域 B r 3 内定义K个核点: { x ˜ k |k<K } B r 3 ,与每个核点对应的权重矩阵定义为 { W k |k<K } D in × D out 。定义核函数

G( x i x )= k<K h ( x i x, x ˜ k ) W k (1)

其中

h( x i x, x ˜ k )=max( 0,1 ( x i x ) x ˜ k σ ) (2)

刻画了邻居点到中心点之间的距离与 x ˜ k 之间的相关性, σ 表示影响因子,用于控制核点对邻居点的影响程度随距离变化的速率。利用核函数G对中心点x进行KPConv操作的过程可表示为

( FG )( x )= x i N x G ( x i x ) f i (3)

其中 f i 是每个邻居点 x i 所对应的特征。

Figure 1. GCA-Net network structure

1. GCA-Net网络结构图

在解码阶段,本文提出了一种全局–局部特征引导机制,利用全局注意力池化获取场景级语义信息,通过瓶颈结构建模通道间依赖关系,在降低计算开销的同时获得较强的全局特征表达;将全局特征与局部特征融合,使得全局语义信息能在解码过程中对局部细节恢复形成有效约束,进而提升模型的分割性能。所提方法的结构如图2所示,在全局注意力池化阶段,输入点云的语义特征 F in 通过一次1 × 1卷积和Softmax激活函数得到一个共享的全局注意力 F gatt N×1 ,此时每个点特征通道数由C压缩至1,代表性地表示每个点的语义特征;然后通过矩阵乘法得到全局特征 F G 1×C ,其结合了不同邻域之间的上下文关系,刻画了输入点云的场景级语义信息。随后的瓶颈结构包含两层1 × 1卷积、一层归一化和一层LeakyReLu激活函数,其中在进行归一化操作前通过第一层卷积压缩特征通道数,随后通过第二层卷积将通道数还原,以减少归一化操作的运算量。通过瓶颈结构对全局特征进行处理,模型能够自适应地强调与当前场景语义相关的特征通道,并抑制冗余或无关信息,从而提升全局特征在后续参与特征融合时的选择性与稳定性。将通过瓶颈结构处理的全局特征与输入特征 F in 进行融合,通过MLP处理后得到最终输出点云的语义特征 F out ,其同时包含了局部细节与场景级全局语义信息,具有较强的特征表达能力。

Figure 2. Global-local feature-guided structure graph

2. 全局–局部特征引导结构图

3. 实验设置及结果分析

3.1. ISPRS数据集介绍

Table 1. ISPRS dataset point distribution

1. ISPRS数据集点数分布

类别

训练集

测试集

电力线

546

600

低矮植被

180,850

98,690

不透水表面

193,723

101,986

汽车

4614

3708

围栏

12,070

7422

屋顶

152,045

109,048

立面

27,250

11,224

灌木

47,605

24,818

树木

135,173

54,226

总计

753,876

411,722

ISPRS数据集是国际摄影测量与遥感学会提供的一个公开的3D城市场景点云数据集,被广泛用于点云分类和语义分割任务[10]。该数据集通过航空激光雷达扫描获取,涵盖了9种地物类别,分别是电力线、低矮植被、不透水表面、汽车、围栏、屋顶、立面、灌木和树木。其中训练集包含753,876个点,测试集包含411,722个点,每个类别的点数如表1所示。

3.2. 实验设置与评测指标

网络的输入特征包括xyz、强度、回波数和回波次数,其中对xyz进行归一化处理,对强度、回波数和回波次数采用伽马变换[9]进行增强处理。所有实验均在NVIDIA GeForce RTX 4090 24-GB GPU上的Pytorch框架中部署并运行。在模型训练阶段,训练周期为50个轮次,批次数量设置为8,每个训练周期的步长设置为500;网络选取的优化器为随机梯度下降(SGD),初始学习率为0.001,学习率衰减因子为0.95,动量设置为0.98;核点个数设置为15,采样的球体半径设置为20米,5次下采样的网格大小分别设置为0.45、0.9、1.8、3.6、7.2米,每一层对应的核点卷积半径分别为1.125、2.25、4.5、9、18米,每一层单个核点的影响范围分别为0.54、1.08、2.16、4.32、8.64米。为缓解类不平衡对分割结果带来的影响,本文实验采用加权交叉熵损失函数,其中第i个类别的权重系数 w i 由所对应的点数决定,计算公式为

w i = 1 ln( n i / j=1 C n j +ε ) (4)

其中C表示类别总数, n i ( i=1,2,,C ) 表示第i个类别的点数, N= j=1 c n j ( j=1,2,,C ) 表示数据集的总点数, ε 是一个超参数,在这里设置为1.2。据此,本文的加权交叉熵损失函数可表示为

L WCE = i=1 C w i y i ln( y ^ i ) (5)

其中 y ^ i y i 分别是第i个类别的预测概率和真实标签。在模型测试阶段,步长调整为200,设置10次投票机制以取得较为稳定的分割结果。

实验的评测指标主要包括全局准确率(OA)和F1分数,其中OA用于衡量模型的整体预测准确性,F1用于综合评估模型在类别不平衡场景下的性能。它们的计算公式为

{ OA= TP+TN TP+TN+FP+FN Precision= TP TP+FP Recall= TP TP+FN F1=2× Precision×Recall Precision+Recall (6)

其中真正例(TP)表示被预测为正的正样本数,真负例(TN)表示被预测为负的负样本数,假正例(FP)表示被预测为正的负样本数,假负例(FN)表示被预测为负的正样本数。

3.3. 实验结果分析

所提GCA-Net在ISPRS数据集上的语义分割实验结果如表2所示。相比于其他方法,该模型在低矮植被、不透水表面、汽车、屋顶和树木五个类别上的mF1取得了最好的结果,OA达到了最高(85.4%),mF1达到了最高(73.9%)。GCA-Net在KPConv中引入全局–局部特征引导机制,通过全局注意力池化实现高效的全局语义建模,是一种兼具性能与效率优势的模型设计。表2还总结了部分语义分割方法在ISPRS数据集上的实验结果。从整体表现来看,基于KPConv的方法(包括KPConv,MCFN,DAKAG-Net和GCA-Net)实验结果均显著优于基于PointNet++的方法(包括PointNet++和BAFNet),表明在点云数据中有效建模局部几何结构对于提升语义分割精度至关重要。在OA与mF1方面,DAKAG-Net与GCA-Net表现较为突出,其OA分别达到85.2%和85.4%,mF1分别达到73.7%和73.9%。这些模型普遍融合了多尺度上下文建模、注意力机制或全局语义增强方法,使其能够更好地应对点云数据中类别密度不均、局部噪声强和场景结构复杂等挑战。

Table 2. Comparison results of different methods

2. 不同方法的对比结果

方法

电力线

低矮植被

不透水表面

汽车

围栏

屋顶

立面

灌木

树木

OA

mF1

PointNet++ [6]

57.9

79.6

90.6

66.1

31.5

91.6

54.3

41.6

77.0

81.2

65.6

KPConv [7]

73.4

83.0

91.9

76.3

31.7

94.7

62.6

45.2

82.4

84.5

71.2

MCFN [8]

74.5

82.3

91.8

79.0

37.5

94.7

61.7

48.7

83.3

84.4

72.6

DAKAG-Net [11]

71.7

83.1

91.7

81.2

43.1

94.9

64.1

50.0

83.9

85.2

73.7

BAFNet [12]

80.9

81.3

91.2

76.9

40.7

93.4

61.5

47.7

81.9

83.7

72.8

GCA-Net

72.9

83.7

92.2

84.7

40.2

94.9

62.5

49.8

84.0

85.4

73.9

从各个类别上看,相比于基准网络KPConv,GCA-Net在多个类别上均取得了不同程度的性能提升,其中汽车类别的提升较为明显,其F1分数由76.3%提升至84.7%。这一提升主要得益于全局上下文信息在特征恢复阶段的引导作用。在ISPRS数据集中,汽车这一类别的点数相对较少且分布较独立,在多次下采样与上采样过程中容易受到特征稀释或语义混淆的影响。GCA-Net通过在解码阶段引入全局–局部特征引导机制,使恢复的局部特征在上采样过程中持续受到全局语义信息的约束,从而增强了小尺度目标的语义一致性,减少了与邻近地物类别之间的误分类现象。类似的提升还出现在围栏这一类别上,其F1分数较KPConv提升了8.5%。部分类别的F1分数提升幅度较小(如不透水表面、屋顶等),是因为其几何结构特征较为稳定,局部邻域信息已能够支持较为准确的分类,故KPConv在这些类别上能够取得较好的性能表现,引入全局上下文信息后带来的性能提升相对有限。综上所述,GCA-Net不仅提升了整体精度,而且在具有明显场景上下文依赖或尺度较小的类别上表现出更显著的改进效果,进一步验证了全局–局部特征协同建模策略的有效性。

此外需要指出的是,尽管GCA-Net相较于KPConv在mF1上的提升幅度为2.7%,但该提升是在KPConv已具备较强局部几何建模能力和较高基准性能(mF1 = 71.2%)的基础上取得的,仍然具有实际意义。相比之下,BAFNet虽然在mF1上的提升幅度更大,但这主要源于PointNet++本身的基准性能较低(mF1 = 65.6%),其性能提升空间相对更大。因此,从公平比较的角度来看,GCA-Net在KPConv上的mF1提升更能体现其结构设计在增强全局语义建模方面的有效性。

图3展示了GCA-Net在ISPRS数据集上的语义分割结果(左)及对应的误差分布(右)。可以观察到,模型能够准确识别不透水表面、屋顶、植被、树木和汽车等主要地物类别,其中不透水表面和屋顶区域的预测结果较准确,与其在表2中取得的高F1分数相一致,进一步证明了GCA-Net在规则结构的几何特征提取方面具有显著优势。对于低矮植被、灌木和树木等类别,模型整体表现稳定,但在类别边界及局部结构复杂的区域仍存在一定程度的混淆。误差图进一步表明,误分类主要集中在不同植被类别的交界处,以及电力线、围栏等点密度稀疏或形态细长的类别,这些因素是导致分割误差的主要来源。总体而言,几何特征清晰、结构一致性强的类别更易被准确识别,而对于稀疏、小尺度或分布不均衡的类别仍是现有方法的主要挑战。

Figure 3. Visualization of experimental results and error plots

3. 实验结果可视化与误差图

Figure 4. Enlarged view of experimental results

4. 实验结果局部放大图

图4给出了不同网络在ISPRS数据集上的局部可视化对比结果。从图4可知,KPConv在类别交界和结构复杂区域仍存在一定的误分类现象,但所提GCA-Net能够更好地保持屋顶与立面的边界完整性,并减少灌木与围栏之间的局部混淆。由此可见,GCA-Net的性能提升并非全部来源于易分类类别的简单叠加,而是在KPConv已具备较高基准性能的前提下,对其在复杂场景下分割精度的进一步提升,这也定性验证了表2结果的合理性。

Table 3. Decoding stage ablation experiment results

3. 解码阶段消融实验结果

模型编号

解码层1

解码层2

解码层3

解码层4

OA (%)

F1 (%)

I

84.5

71.2

II

84.5

71.7

III

84.4

72.4

IV

84.8

73.5

V

85.4

73.9

为分析全局–局部特征引导机制在解码阶段不同放置策略对模型性能的影响,设计了在不同解码层引入该机制的消融实验,结果如表3所示。其中,解码层1至解码层4表示沿特征恢复路径依次排列的四个解码层。模型I为未引入该机制的基准KPConv网络,模型II~V则依次在各个解码层中逐步引入全局–局部特征引导机制。

从实验结果可以看出,当仅在最深的解码层引入该机制时(模型II),整体精度OA基本保持不变,但F1值由71.2%提升至71.7%,说明在语义层次较高的深层特征中引入全局上下文信息能够在一定程度上提升分割精度。然而,当该机制逐步向更浅层解码阶段扩展时(模型III与模型IV),F1指标持续提升,表明在多层解码过程中持续引入全局语义约束能够逐步增强特征恢复过程中的语义一致性。当该机制在所有解码层中逐层引入时(模型V,即GCA-Net),模型取得了最佳性能,其OA和F1分别达到85.4%和73.9%,相比基准模型均获得明显提升。这一结果表明,在解码阶段逐层引入全局–局部特征引导机制能够在不同尺度的特征恢复过程中持续提供全局语义信息,使得上采样过程中恢复的局部特征始终受到全局上下文的约束,从而有效缓解语义信息在解码过程中逐渐弱化的问题。同时,浅层解码阶段包含更多细粒度空间结构信息,在这些阶段引入全局语义引导有助于提升局部结构与整体语义之间的一致性。因此,在所有解码层中逐层引入该机制能够实现全局语义信息与局部细节特征的充分协同,从而获得更优的分割性能。

4. 总结

本文针对KPConv在点云语义分割任务中难以在解码阶段对全局语义信息进行有效建模的问题,提出了一种基于KPConv的轻量化全局上下文感知网络GCA-Net。所提网络通过在解码阶段利用全局语义信息对局部特征恢复进行引导,有效弥补了传统KPConv在全局上下文建模方面的不足。在ISPRS数据集上的实验结果表明,GCA-Net在多个类别中取得了较高的F1分数,OA和F1均达到所对比方法中的最高水平,验证了GCA-Net在全局上下文建模方面的有效性。然而,GCA-Net对于几何形态细长且点数较少的类别仍存在一定的分割误差,这表明由类别分布不平衡带来的分割稳定性问题尚未得到充分解决,在后续工作中需要进一步探索。

基金项目

智能地理信息处理湖北省重点实验室开放研究项目(KLIGIP-2023-002)。

参考文献

[1] 艾达, 张晓阳, 胥策, 等. 大规模点云深度学习语义分割方法新进展[J]. 激光与光电子学进展, 2024, 61(12): 43-60.
[2] Qi, C.R., Su, H., Mo, K., et al. (2017) PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, 21-26 July 2017, 652-660.
[3] Lin, C.H., Chen, J.Y., Su, P.L., et al. (2014) Eigen-Feature Analysis of Weighted Covariance Matrices for LiDAR Point Cloud Classification. ISPRS Journal of Photogrammetry and Remote Sensing, 94, 70-79. [Google Scholar] [CrossRef
[4] Zhang, J., Lin, X. and Ning, X. (2013) SVM-Based Classification of Segmented Airborne LiDAR Point Clouds in Urban Areas. Remote Sensing, 5, 3749-3775. [Google Scholar] [CrossRef
[5] Chehata, N., Guo, L. and Mallet, C. (2009) Airborne LiDAR Feature Selection for Urban Classification Using Random Forests. Laserscanning, Paris, 1-2 September 2009, 207-212.
[6] Qi, C.R., Yi, L., Su, H., et al. (2017) PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space. Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, 4-9 December 2017, 5105-5114.
[7] Thomas, H., Qi, C.R., Deschaud, J., Marcotegui, B., Goulette, F. and Guibas, L. (2019) KPConv: Flexible and Deformable Convolution for Point Clouds. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 27-28 October 2019, 6411-6420. [Google Scholar] [CrossRef
[8] Zeng, T., Luo, F., Guo, T., Gong, X., Xue, J. and Li, H. (2023) Multilevel Context Feature Fusion for Semantic Segmentation of ALS Point Cloud. IEEE Geoscience and Remote Sensing Letters, 20, Article ID: 5506605. [Google Scholar] [CrossRef
[9] Zeng, T., Luo, F., Guo, T., Gong, X., Xue, J. and Li, H. (2023) Recurrent Residual Dual Attention Network for Airborne Laser Scanning Point Cloud Semantic Segmentation. IEEE Transactions on Geoscience and Remote Sensing, 61, Article ID: 5702614. [Google Scholar] [CrossRef
[10] Rottensteiner, F., Sohn, G., Jung, J., Gerke, M., Baillard, C., Benitez, S., et al. (2012) The ISPRS Benchmark on Urban Object Classification and 3D Building Reconstruction. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 3, 293-298. [Google Scholar] [CrossRef
[11] Zhao, J., Zhou, H. and Pan, F. (2024) A Dual Attention KPConv Network Combined with Attention Gates for Semantic Segmentation of ALS Point Clouds. IEEE Transactions on Geoscience and Remote Sensing, 62, Article ID: 5107914. [Google Scholar] [CrossRef
[12] Liu, C., Liu, Z. and Wang, X. (2025) Bidirectional Feature Aggregation and Adaptive Fusion Network for ALS Point Cloud Semantic Segmentation. IEEE Geoscience and Remote Sensing Letters, 22, Article ID: 6500705. [Google Scholar] [CrossRef