基于Res-UNet高分辨率遥感影像建筑提取方法

doi:10.12677/csa.2024.149191

期刊菜单

基于Res-UNet高分辨率遥感影像建筑提取方法
Building Extraction Method for High-Resolution Remote Sensing Images Based on Res-UNet

DOI: 10.12677/csa.2024.149191, PDF, HTML, XML,
作者: 雷蓝坤, 钟浩, 杨锐, 高阳, 王海波^*：攀枝花学院土木与建筑工程学院，四川攀枝花
关键词: 深度学习；卷积神经网(CNN)遥感影像；影像分割；语义分割；Deep Learning； Convolutional Neural Network (CNN) Remote Sensing Image； Image Segmentation； Semantic Segmentation

摘要: 针对现有语义分割技术在处理复杂遥感影像时细节特征识别能力不足、信息丢失等问题，本研究提出了一种融合注意力机制的遥感影像语义分割网络模型。该模型以编码器–解码器架构的U-Net模型为基础，通过将残差结构嵌入主干网络以缓解梯度消失和网络退化问题。此外，模型还整合了通道和空间注意力模块，以兼顾影像的细节特征和提高模型的鲁棒性。在ISPRS Vaihingen数据集上的分析验证表明，引入CBAM模块的Res-UNet在去除“噪声”、地物边缘“平滑”、细窄地物“连续性”以及细小目标分割等方面，其语义分割精度显著优于传统网络模型。

Abstract: In view of problems of the existing semantic segmentation technology in processing complex remote sensing images, such as lack of detail feature recognition ability and information loss, this paper proposes a network segmentation model of remote sensing images that integrates attention mechanism. The model is based on the U-Net model of the encoder-decoder architecture, which alleviates the gradient vanishing and network degradation problems by embedding the residual structure into the backbone network. In addition, the model integrates the channel and spatial attention modules to balance the detailed characteristics of the image and improve the robustness of the model. Analysis and validation on the ISPRS Vaihingen dataset show that Res-UNet introduced into CBAM module is significantly better than traditional network models in removing “noise”, “smoothing”, “ground” “continuity”, and fine target segmentation.

文章引用：雷蓝坤, 钟浩, 杨锐, 高阳, 王海波. 基于Res-UNet高分辨率遥感影像建筑提取方法[J]. 计算机科学与应用, 2024, 14(9): 103-110. https://doi.org/10.12677/csa.2024.149191

1. 引言

近年来，遥感技术的持续进步极大地丰富了高分辨率对地观测影像，显著提升了其观测性、时效性、周期性等关键性能指标。这使得遥感影像在众多行业中的应用变得广泛。随着城市现代化步伐的加快，城市面貌日新月异，建筑物信息作为城市用地的主要内容，从某种程度上体现了地区的城市化水平[1]。遥感影像中建筑物信息的提取是一项关键任务，它致力于从影像中精确地识别和提取建筑物数据。建筑物作为城市和乡村发展的重要标志，其分布和结构的变化能够揭示人类活动的空间分布特征，对于城市规划、灾害评估等领域具有不可忽视的重要性。因此，如何高效地从遥感影像中提取建筑物信息，已成为遥感技术研究的一个关键领域。

人工目视解译提取建筑物信息的方法耗时且效率低下，难以在短时间内处理大范围、大规模的遥感影像数据。利用计算机技术进行建筑物信息提取已成为近年来遥感信息提取的重要研究方向。如何更快速、更准确地识别和提取建筑物信息，是当前遥感领域研究的热点之一[1]。

随着计算机视觉和机器学习技术的不断进步，深度学习因其卓越的特征提取能力，已经成为遥感图像解释的主流方法之一。卷积神经网络(CNN)能够自动地从浅层到深层提取图像的多层次特征，在遥感影像建筑物提取的研究中受到了越来越多的关注[1] [2]。

遥感影像数据量庞大、空间关系复杂、分辨率高，随着分辨率的提高和数据空间关系复杂性的增加，高分辨率遥感影像中更深层次的特征需要更深层次的神经网络来提取。然而，随着网络层数的增加，梯度消失和可靠性降低等问题也逐渐显现。尽管深度学习方法在一定程度上提高了建筑物提取的精度，但提取结果仍然存在漏提、误提、不完整等问题，这些问题直接影响了建筑物信息提取的效果[1]。

2. 基于Res-UNet高分辨率遥感影像建筑提取方法

2.1. 整体结构框架

针对采用编解码网络结构的U-Net网络在语义分割任务中保持边缘细节的同时能够很好地提取上下文信息的问题，本文选择了U-Net作为网络结构，同时在编码器中引入了残差块和通道空间注意力。该网络由三部分组成：特征提取编码器、特征提取增强解码器和低层信息与高层信息之间的跳转链接[3]，在此基础上将残差结构引入CBAM注意力模块，抑制网络的深度退化，提高网络特征的聚焦性。

U-Net是一种卷积神经网络(CNN)，最初被设计用于医学图像分割。U-Net网络由两部分组成：编码器和解码器。编码器通过连续的卷积层和池化层逐渐减小图像的空间维度，增加深度，捕获更高层次的特征。每个卷积层后面都跟着一个激活函数，如ReLU，用于引入非线性[4]。解码器则是编码器的逆过程，通过上采样(或反卷积)逐步恢复图像的空间维度，同时通过跳跃连接将收缩路径中的特征图与相应的扩展路径的特征图进行拼接，以此来保留更多的位置信息和边缘细节。为了实现有效的特征融合，U-Net还采用了跳跃连接(skip connections)，直接将收缩路径中的特征图与扩展路径中对应的上采样特征图相加，本质就是将下采样过程提取的特征融合到上采样中，从而在网络的不同深度上实现特征的整合。网络结构示意图，如图1所示。

Figure 1. The diagram of Res-UNet network structure

图1. Res-UNet网络结构图

2.2. Res-Net残差链接

Res-Net的主要功能在于引入残差连接(Residual Connections)或跳跃连接(Skip Connections)，这些机制显著解决了深度神经网络(DNNs)中普遍存在的梯度消失(Vanishing Gradient)问题。在传统的深层神经网络结构中，每一层通过将输入数据与权重矩阵进行线性变换，并随后应用激活函数进行非线性处理，从而生成输出。然而，随着网络深度的不断增加，梯度在反向传播过程中可能会逐渐减小，即出现梯度消失现象，这极大地阻碍了权重的有效更新。

为了克服这一难题，Res-Net巧妙地引入了残差连接，这些连接允许网络将输入数据直接“跳跃”到后续层，从而保持信息的流动性和梯度的稳定性。在Res-Net的架构中，每个残差块(Residual Block)的设计尤为关键，其输出是前一层的特征与当前层卷积操作结果之和，同时包含一个恒等映射(Identity Mapping)，即F(x) = x + H(x)，其中H(x)代表残差函数。这种设计确保了即使在网络深度增加时，梯度也能够有效传递，从而缓解了梯度消失问题。

在Res-Net的编码器(Encoder)与解码器(Decoder)模块之间，残差连接的引入进一步促进了信息的流动和整合。特别地是，当输入与输出的维度相匹配时，跳跃连接实际上执行了一次恒等变换，将输入数据直接复制到输出上，这有助于保持信息的完整性和网络的稳定性。

2.3. CBAM注意力模块

在遥感影像建筑提取任务中，CBAM能够有效地聚焦于图像中的建筑结构，提高提取的准确性和鲁棒性。例如，在处理遥感影像时，建筑物往往占据了图像的一部分区域，但并非所有区域都包含建筑物。通过CBAM，模型能够识别出这些关键区域，并赋予更高的权重，从而更准确地提取出建筑物的位置和形状。因此在结合残差结构的U-Net模型中融入CBAM模块用于强化地物的细节特征的提取。CBAM模块示意图，如图2所示。

Figure 2. The CBAM attention module

图2. CBAM注意力模块

CBAM是一个轻量级且高效的注意力模块，主要由通道注意力模块(Channal Attention Module, CAM)和空间注意力模块(Spatial Attention Module, SAM)组成，通过在CNN中引入通道注意力和空间注意力机制[5]，实现了对图像特征的自适应优化。CBAM的设计易于集成到任何的CNN架构中，几乎不增加计算开销，并且可以与基础CNN一起进行端到端的训练。

Figure 3. The CAM attention module

图3. CAM注意力模块

CAM利用每个输入特征图之间的通道关系，对输入特征图进行全局的平均池化(Average-Pooling)和最大池化(Max-Pooling)，得到两个通道特征的描述子，CAM模块示意图如图3所示。这两个描述子分别通过一个共享的多层感知器(Multi-Layer Perception, MLP)进行处理，并将输出的结果相加后通过Sigmoid激活函数得到通道注意力权重。然后，将注意力权重与原始特征图进行矩阵的点乘，得到通道注意力加权后的特征，表达式为式(1)：

$M_{C} (F) = σ (MLP (AvgPool (F)) + MLP (MaxPool (F)))$ (1)

Figure 4. The SAM attention module

图4. SAM注意力模块

SAM模块利用特征图的空间关系来生成空间特征图，SAM模块示意图如图4所示。在通道注意力加权后的特征图上，分别进行通道维度的最大池化和平均池化，得到两个二维空间描述子[1]。然后，将这两个描述子沿着通道维度拼接起来，并通过一个卷积层进行调整，得到空间注意力权重。最后，将注意力权重与原始特征图相乘，得到空间注意力加权后的特征图，表达式为式(2)：

$M s (F) = σ (\int_{}^{7 \times 7} ([AvgPool (F); MaxPool (F)]))$ (2)

3. 实验结果与分析

3.1. 数据集处理

本实验中使用的数据集是ISPRS的Vaihingen [6]数据集，用于进行实验分析。Vaihingen遥感数据集共包含33幅不同大小的遥感图像，每幅图像都是从一幅更大的顶部正射影像中提取的。图像选择过程避免了无数据可用的情况。遥感图像格式为8位TIFF文件，由近红外、红色和绿色3个波段组成[6]，其空间分辨率为9 cm，将每张影像划分为6类，分别是建筑物(绿色)、非渗透表面(白色)、低矮植被(黄色)、树木(蓝色)、汽车(橙色)以及背景(红色) [3]。本实验将其33幅图像切割为若干张512 × 512像素的图像，以7:2:1的比例划分训练集、验证集和测试集。

3.2. 实验平台

实验选用一台配置12^th Gen Intel (R) Core(TM) i7-12700F CPU，64 GB RAM和NVIDA GeForce RTX 4060Ti GPU的Windows系统计算机。

3.3. 模型训练

在训练过程中，为避免数据集类别不平衡而导致过拟合的问题，数据集需要进行数据增强处理，如随机旋转、裁剪和平移，以增加数据多样性和提高模型泛化能力。本实验专注于图像的分类任务，选择交叉熵损失函数(Cross Entropy Loss, CEloss)，表达式为：

$H (p, q) = - \sum_{i = 1}^{n} p (x_{i}) \log (q (x_{i}))$ (3)

实验设置epoch为100，初始学习率为0.0001，优化器为Adam优化器。由于模型特征提取网络引入残差结构，骨干网络使用Resnet50，拥有更深网络层以提取特征，使用Google的ImageNet预训练权重进行迁移学习。

3.4. 评价指标

为了客观且全面的定量分析，本文实验采用了以下评估指标，包括精确率(Precision)、召回率(Recall)、平均交并比(MIoU)和平均像素准确率(mPA)。各指标的数学表达式为式(4)~式(7)：

$Recall = \frac{TP}{TP + FN}$ (4)

$Precision = \frac{TP}{TP + FP}$ (5)

$MIoU = \frac{1}{k + 1} \sum_{i = 0}^{k} \frac{TP}{FN + FP + TP}$ (6)

$mPA = \frac{1}{k + 1} \sum_{i = 0}^{k} \frac{TP + TN}{TP + TN + FP + FN}$ (7)

在评估分类算法的效果时，一系列的关键指标被广泛应用以衡量其精准度。其中，TP，即真正例(True Positives)，它代表了模型正确地将属于正类的样本识别出来的数量；FP，即假正例(False Positives)，则是指模型错误地将本应属于负类的样本预测为正类的数量；FN，即假负例(False Negatives)，它描述的是模型未能正确识别出正类样本，错误地将其判定为负类的情况；TN，即真负例(True Negatives)，则是模型正确地将负类样本识别出来的数量[7]；k表示类别数。

3.5. 结果对比

U-Net、Res-UNet以及融入了CBAM注意力机制的Res-UNet网络模型在精确度、平均像素准确率、召回率以及平均交并比的值如表1所示，预测结果如图5所示。与其他模型相比，融入CBAM模块后，在各项指标上均有所提升。

Table 1. Predictive result evaluation metrics

表1. 预测结果评价指标

模型	Precision	mPA	Recall	MIoU	Accuracy
UNet	0.7433	0.7176	0.7176	0.6512	0.8870
Res-UNet	0.7331	0.7239	0.7239	0.6530	0.8997
Our model	0.7475	0.7335	0.7335	0.6712	0.9054

根据预测结果，可以观察到未集成CBAM模块的网络模型在处理边缘细节方面表现不佳，且更容易受到噪声的影响，从而导致分类错误。相比之下，集成CBAM模块的网络模型在边缘细节处理上有所提升，未集成模型产生的边缘呈现出“锯齿状”，而集成后的模型边缘变得更加连续和平滑，这提高了语义分割任务的准确性。

Figure 5. Prediction results show

图5. 预测结果展示

4. 结论

在本文中，详细探讨了一种先进的网络模型，即融合了通道空间注意力模块(CBAM)的Res-UNet网络。这种模型的核心设计理念在于采用了一个包含残差块的编码器架构，这种架构在深度学习领域被广泛认为能够有效缓解深度网络退化问题。具体来说，通过将CBAM模块巧妙地嵌入到残差块和主干网络中，该模型能够更加精准地提取出不同地物的特征信息，从而强化细节表现，显著提高遥感图像的语义分割精度。

为了验证该模型的有效性，本文在ISPRS提供的Vaihingen数据集上进行了详尽的验证分析。实验结果表明，通过引入CBAM模块，模型在细节特征提取方面表现出色，能够有效去除噪声，并改善边缘分割效果。这些改进提升了语义分割的精度，从而验证了本文所提出的研究方法的鲁棒性和科学性。

尽管如此，在地物提取的性能方面，该模型还有进一步优化的空间。未来的研究将致力于解决这些问题，以期达到更高的精度和更广泛的应用范围。

NOTES

^*通讯作者。

参考文献

[1]	张越, 程春泉, 杨书成, 等. 融合双注意力机制模型的遥感影像建筑物提取[J]. 测绘科学, 2022, 47(4): 129-136+174.
[2]	徐海洋, 徐金鸿. 基于Swin Transformer遥感影像的建筑物提取方法[J]. 测绘与空间地理信息, 2024, 47(7): 50-53+57
[3]	孙凌辉, 赵丽科, 李琛, 等. 融入CBAM的Res-UNet高分辨率遥感影像语义分割模型[J]. 地理空间信息, 2024, 22(2): 68-70.
[4]	胡媛, 华曦帆, 刘卫, 等. 应用卷积神经网络VGG16的星载GNSS-R海冰检测[J]. 遥感信息, 2024, 39(2): 28-35.
[5]	朱香元, 聂轰, 周旭. 基于TPH-YOLOv5和小样本学习的害虫识别方法[J]. 计算机科学, 2022, 49(12): 257-263.
[6]	吕舜尧. 结合超像素与Transformer的遥感影像语义分割方法研究[D]: [硕士学位论文]. 阜新: 辽宁工程技术大学, 2022.
[7]	杨科, 郑俊辉, 洪叶. 融合词性标注与协同过滤算法的口译顺句驱动研究[J]. 西南民族大学学报(自然科学版), 2023, 49(6): 661-670.

为你推荐

友情链接