1. 引言
1.1. 研究背景与意义
滨海湿地作为陆地与海洋生态系统的交汇带,具有极高的生物多样性和生态调节功能。碱蓬草(Suaeda salsa)作为我国滨海湿地典型的先锋盐生植物,在辽河口湿地生态系统中占据核心地位。其不仅能有效固碳护滩、净化水质,还在维持生物多样性及重金属富集等方面发挥着关键作用。特别是在辽河口地区,成片的碱蓬草群落构成了独特的“红海滩”自然景观,具有显著的生态旅游价值与社会经济意义[1]。
然而,近年来在气候变化与围填海造地、油田开发等人类活动的双重影响下,辽河口碱蓬草的生境面临严重退化风险[2]。由于受潮汐冲刷与地貌演变影响,碱蓬草分布逐渐呈现出斑块细碎、形状不规则以及与潮沟交错分布的特征[3]。这种复杂的空间特征导致传统监测手段难以实现对其分布范围的精准获取,因此,开展高精度的碱蓬草遥感提取研究,对于该区域的精准保护与生态修复具有重要的应用价值。
1.2. 遥感监测技术演进
在滨海湿地植被监测领域,传统的遥感提取方法主要依赖于光谱指数,如归一化植被指数(NDVI)等。虽然此类方法计算简便、应用广泛,但在潮滩环境下,受泥沙混浊水体、裸泥滩光谱特征干扰严重,极易产生“异物同谱”导致的漏判与误判现象[4]。随着高空间分辨率影像的普及,研究者开始尝试基于像元的分类方法或面向对象分类技术[5]。虽然在一定程度上提升了分类精度,但在面对破碎斑块边界及复杂背景干扰时,仍难以达到理想的精细化提取要求。
近年来,深度学习技术的兴起为遥感图像分割带来了革命性变革[6]。以U-Net为代表的卷积神经网络(CNN)通过对称的编码器–解码器结构,在捕获局部空间细节方面表现出色,已广泛应用于各类植被提取任务中[7]。然而,卷积运算本质上具有局部性,受限于固定大小的卷积核(感受野限制),CNN难以建立图像像素间的长距离上下文依赖关系。在辽河口这类具有大范围空间关联性的湿地场景中,局部感受野的局限性常导致模型对大尺度斑块的整体性理解不足,或在细碎斑块识别上出现断裂与粘连[8]。
1.3. TransUNet模型的引入与本文研究目标
为了克服纯CNN架构在全局建模能力上的局限,Transformer架构凭借其强大的自注意力机制(Self-Attention)在计算机视觉领域异军突起[9],并已在海岸带湿地的语义分割任务中展现出显著优势[10]。TransUNet模型创造性地将Transformer与U-Net进行深度融合:一方面利用CNN提取低层的局部几何细节特征,确保边界清晰;另一方面引入Transformer模块对特征图进行全局依赖建模,捕捉宏观的上下文语义信息。这种混合架构不仅保留了传统深度学习模型对细节的恢复优势,更显著增强了对复杂背景下目标群落的全局辨识力[11]。
本文以辽河口国家级自然保护区为研究对象,基于Sentinel-2多光谱卫星影像构建专题数据集,探讨TransUNet模型在碱蓬草精细化识别中的适用性与优越性[12]。通过与经典模型的对比实验,旨在实现该区域碱蓬草的高精度自动化制图,为辽河口湿地的动态监测及生态预警提供可靠的技术支撑。
2. 研究区与数据集
本文研究区位于辽河口国家级自然保护区(约E121˚35'~122˚00', N40˚45'~41˚05')。该区域拥有世界上面积最大的芦苇荡和典型的红海滩景观,是碱蓬草生长的核心区域。区内多为粉砂淤泥质潮滩,由于潮汐冲刷,潮沟密布,碱蓬草呈带状或斑块状分布,具有显著的“秋红”季相特征,“本研究选取辽河口湿地作为典型研究区(如图1所示)”。
选用2023年秋季(9~10月)生长旺盛期的Sentinel-2 L2A多光谱影像。选取云量低于10%且处于低潮位的影像,利用ArcGIS Pro进行裁剪和波段合成(B2, B3, B4, B8),重采样至10 m分辨率。
本研究通过对Sentinel-2原始影像进行预处理与人工标注,最终构建了包含1500张256 × 256像素切片的辽河口碱蓬草专题数据集。按照8:2的比例进行随机划分,其中训练集包含1200张切片,测试集包含300张切片。通过对训练集进行翻转、随机旋转等数据增强处理,确保了模型训练的充分性与泛化能力。
3. 研究方法
3.1. TransUNet模型结构
TransUNet是一种将Transformer的全局自注意力与U-Net的编码–解码结构结合起来用于语义分割的网络。它最早由Chen等(2021)提出,核心思想是:先用CNN提取局部细节与多尺度特征,再把特征图“打包”为一串token送入Vision Transformer (ViT)捕捉长距离依赖,最后用U-Net风格的解码器逐层上采样,并与浅层特征跳连融合,从而同时兼顾全局上下文与精细边界。实践表明这种“Transformer编码 + U-Net解码”的组合在多个分割任务上具有竞争力。这一思路延续了U-Net (Ronneberger等,2015)的“收缩路径捕捉上下文 + 对称膨胀路径精确定位”的优点,同时弥补了纯卷积对长程关系建模不足的问题。在遥感植被识别中同样具有较好的适用性。模型由编码器–Transformer–解码器三部分组成:
3.1.1. 编码器(Encoder)
利用卷积神经网络提取影像的多尺度局部特征。设输入影像为,编码器通过多层卷积与下采样得到特征映射:
其中
,
,
,d为通道数,s为下采样倍数。
3.1.2. Transformer模块
将二维特征映射展开为序列,输入至多层Transformer,捕捉全局依赖关系:
其中,Transformer的核心为自注意力机制(Self-Attention):
这里
,
,
,
,
,
为可学习参数。
3.1.3. 解码器(Decoder)
通过逐层上采样恢复空间分辨率,并与对应层编码器特征进行跳连融合,生成分割结果:
其中
,N为类别数(如碱蓬草和非碱蓬草)。
3.2. 评价指标
采用语义分割通用的评价指标:平均交并比(mIoU)、精确率(Precision)、召回率(Recall)和F1分数(F1-Score)来量化评估模型性能。
4. 实验结果与分析
4.1. 定量评估
实验环境基于PyTorch框架,在NVIDIA GPU上进行训练。训练采用Cross-Entropy Loss和Dice Loss的联合损失函数,优化器为AdamW。
在辽河口测试集上的评估结果如表1所示。TransUNet模型在各项指标上均表现优异,mIoU达到95.66%,说明模型预测区域与真实标签具有极高的重合度。较高的Recall (94.37%)表明模型能有效减少碱蓬草的漏检,较好地保留了破碎斑块。
Table 1. TransUNet model accuracy evaluation table
表1. TransUNet模型精度评价表
模型 |
mIoU (%) |
mPrecision (%) |
mRecall (%) |
mF1 (%) |
TransUNet |
95.66 |
95.25 |
94.37 |
94.82 |
4.2. 提取效果分析
可视化结果显示,TransUNet能够清晰地识别辽河口潮滩上的碱蓬草群落。
1) 主体识别:对于连片分布的“红海滩”区域,模型提取完整,内部空洞少。
2) 边界刻画:在潮沟边缘及水陆交界处,模型能够较好地贴合自然弯曲的边界。
3) 抗干扰能力:有效区分了光滩、水体与碱蓬草,在泥沙混浊背景下仍保持了较好的鲁棒性。了进一步验证模型的优势,本文选取了经典U-Net模型进行可视化对比(图2)。结果显示,相比于U-Net在复杂边界处出现的断裂与粘连现象(红框所示),TransUNet凭借全局注意力机制,能够更完整地恢复细小斑块与潮沟纹理,提取结果与人工标注更为一致。
Figure 1. Overview of the Suaeda salsa study area in the Liaohe River Delta
图1. 辽河口碱蓬草研究区概况图
Figure 2. Comparison of Suaeda salsa extraction results among different models
图2. 不同模型对碱蓬草提取效果的对比图
5. 结论
本文以辽河口湿地为研究对象,应用TransUNet深度学习模型开展碱蓬草遥感提取研究。实验表明,TransUNet凭借其全局上下文建模能力,在Sentinel-2影像上实现了高精度的碱蓬草识别(mIoU = 95.66%),有效解决了传统方法在复杂潮滩背景下提取精度低的问题。该方法可快速获取辽河口碱蓬草的空间分布信息,为湿地生态保护与恢复提供数据支持。