1. 引言
“模式”特指核心地理要素在空间分布中呈现的显著形态结构,具有可辨识性与可命名性,此类形态被定义为地图空间模式[1]。作为其重要组成部分,水系空间模式的研究涵盖两个关键方面:一是水系的结构化表示,旨在将复杂河网形态转化为有序的表达形式;二是在此基础上进行的模式识别,旨在通过算法挖掘其空间规律[2]-[4]。
水系结构化处理是模式识别的基础[5]-[7],目前主要存在两种路径:其一为基于河段的结构化方法,源于Horton、Strahler及Shreve等提出的河流形态学与分级理论[8]-[10],后经杜清运、毋河海等发展为河系树结构索引方法[11]-[13],广泛应用于水文分析;其二为基于河流实体的结构化方法,如郭庆胜等人通过主支流自动推理构建河系层次结构[14] [15],张园玉结合图论实现主流自动判定[16],张青年、谭笑及李成名等分别依据语义、多准则决策与stroke约束等方法构建河流实体[17]-[19],该类方法在地图制图综合中具有明确地理意义。
模式识别方法可分为基于栅格与矢量数据两类[20]-[22]。早期水系识别依赖定性视觉判断,随着计量方法与计算机技术的发展,逐渐转向定量分析,例如Strahler河网分级方法通过编码反映河段层次关系[23]。此后,研究者通过提取拓扑、几何及结构属性(如曲折度、汇入角、分叉比等)对河网进行分类。Mejia A和Argialas等人基于15种属性将河网划分为8类[24] [25];Ichoku从DEM中提取14种特征实现定量分类[26];Jung则利用汇入角分布参数并结合支持向量机进行分类[27] [28]。郭庆胜从多维度分析河网特征[15],杜清运提出基于空间统计特点的层次分类方法[29],逐步引入因子以实现系统区分。
近年来,图卷积神经网络(GCN)作为处理图结构数据的有力工具,被逐步引入地图模式识别领域[30] [31]。早期如王家耀等将人工神经网络用于海图水深综合[32],邵黎霞采用BP网络进行河段选取[33]。当前研究进一步拓展至建筑物与道路网识别[34],张康等利用GCN实现道路网自动选取[35],余华飞构建排水对偶图并从多尺度提取特征[36],刘程义等通过深度学习挖掘排水模式隐含特征[37],显著减少对人工经验与大量样本的依赖,提升了识别客观性与自动化水平。
2. 研究方法
2.1. 水系结构提取
从现实世界复杂网络到图结构数据的构建过程本质上是将非结构化的关系型信息转化为一种可供计算模型识别与处理的规范化数据形式的抽象与量化过程(图1),该过程以节点和边的提取与定义为起点:节点对应于网络中的基本单元或实体,边则用于表征这些实体间存在的特定关联或相互作用。在数据化表达阶段,图的拓扑结构通常以邻接矩阵或边列表等数学形式进行表示,其中邻接矩阵通过矩阵元素值反映节点间的连接关系,边列表则直接枚举图中存在的每一条边。为进一步增强图的语义表达能力,每个节点和边均可附带一系列属性特征,例如以特征向量的形式编码实体的内在状态或关系的强度与类型,这些属性信息为后续基于图的机器学习任务(如图神经网络训练、节点分类或链接预测)提供了关键的上下文支撑。此外,图结构数据的构建常与图嵌入技术紧密结合,该技术旨在通过线性或非线性映射将高维稀疏的图结构投影至低维稠密的向量空间,并在此过程中尽可能保持原图的拓扑性质(如节点间的结构相似性、社区结构或全局路径信息),从而实现对复杂图数据的降维、特征学习与关系推理。因此,通过系统化的图构建与嵌入处理,最终所得到的图结构数据不仅能够显式地表达节点间的连接模式,还可隐式地揭示网络中潜在的特征表示与宏观的图级属性,为深层图分析与知识发现奠定数据基础。
Figure 1. Schematic diagram of hydrological system structure extraction
图1. 水系结构提取示意图
2.2. 图神经网络
图神经网络(Graph Neural Networks, GNNs)是一类专用于处理图结构数据的深度学习模型,其核心理论基础在于通过迭代式信息传播与聚合机制实现对图中节点嵌入表示的学习;该机制允许每个节点经由消息传递接口与其一阶或多阶邻居进行特征交换,并借助可微聚合函数(如求和、均值或注意力加权等)整合邻近节点的状态以更新自身的表示,此类多层堆叠的信息传播步骤使节点能够逐步捕获并融合来自局部邻域乃至全图的拓扑与特征信息,从而有效学习具备结构感知能力的节点嵌入。图神经网络设计的关键集中于如何高效、可扩展地实现图中信息的传播与聚合策略,其中图卷积网络作为一类代表性架构,通过引入基于频谱或空间的图卷积操作,系统性地聚合中心节点与其邻居节点的特征,并借助多层非线性变换以提取高阶节点表示;与循环神经网络(RNNs)依赖于序列递归的计算模式不同,图卷积网络通常以多层前馈方式构建,每一层执行一次邻域特征卷积与变换,从而逐步增强节点表征的表达能力并有效支持节点分类、链接预测及图级别分类等多种下游任务。
对于一个图G (V, E)其中V是节点集合,E是边集合,图卷积神经网络的基本公式为:
(1)
其中
表示节点在i在第k层的特征,
即节点i的初始输入特征,
表示节点i的邻居节点集合,
和表示节点度,W是权重矩阵。
3. 数据来源及处理
3.1. 数据来源及预处理
本文的基础数据是OpenStreetMap库[38]和全国基础地理信息库中的河流数据。河流水系矢量数据依据流域单元进行分割时,需确保分割后的河流形态保留其典型水系模式的特征,进而可基于形态特征将水系划分为以下八类典型模式:树枝状水系以支流与干流之间以及各级支流之间通常以锐角相交为主要形态特征,整体呈树枝状分支结构;网状水系常见于地势平坦的冲积平原或宽广的三角洲区域,表现为河道错综交织、多级分流与汇合,形成高度密集的网络状格局;格子状水系受构造控制明显,其支流与干流多呈近似直角相交,并在空间上呈现规则网格状排列,常与垂直交叉的断裂或裂隙系统密切相关;羽状水系表现为干流两岸的支流发育程度相近、分布相对对称,且多数支流以接近直角的角度汇入干流,整体形态如羽毛;梳状水系则具有显著的非对称性特征,即支流集中发育于干流的一侧,呈密集平行排列,另一侧支流稀少甚至缺失,形似梳齿;扇状水系通常形成于冲积扇或三角洲前缘环境,其多条支流由一点或一区域向外辐射,并呈扇骨状汇入干流或主干河道;平行状水系由一系列空间上近乎平行的河流组成,常见于倾斜平原或平行岭谷地貌区,反映区域性一致的水流方向及坡向控制;辫状水系则以河道宽浅、多股水流不断分汊与交汇为主要特征,河道内沙洲发育、流路纷杂,常见于高泥沙含量的河流中下游或冲积扇区域。
3.2. 矢量数据的图结构表达
Figure 2. Graph structure representation
图2. 图结构表达
在以图结构表达水系(图2)时,可将河流源头、各级支流与主流交汇处以及河口抽象为节点,将节点间的河道段抽象为边,从而构建具有完整拓扑关系的河网图模型。在该模型中,节点与边均作为实体对象,各自承载一系列基础与形态属性:节点实体包含其唯一序号、所属水系标识符、相邻水系标识符集、高程值及以其为端点的河道段的方位角等信息(表1);边实体则包含标识符、起始节点与终止节点所属水系的标识符、河道段的实际长度、平均方位角、高程差以及起点至终点的水平跨度(表2)。通过这些实体及其属性的联合定义,不仅能够精确描述河网的连接关系与流向特征,还可支持对河网形态结构(如分支模式、河道坡度及空间展布)的量化分析与模式识别。
Table 1. Adjacency matrix
表1. 邻接关系表
序号 |
水系ID |
邻接水系ID |
长度 |
方位角 |
1 |
1 |
2 |
0.16828 |
112.3765 |
2 |
1 |
3 |
0.16828 |
112.3765 |
3 |
2 |
4 |
0.12476 |
146.8364 |
... |
... |
... |
... |
... |
Table 2. Entity attribute table
表2. 实体属性表
序号 |
起始水系ID |
结束水系ID |
S |
H |
1 |
1 |
3 |
0.18221 |
0.12526 |
2 |
1 |
3 |
0.15124 |
0.7251 |
3 |
2 |
4 |
0.13452 |
0.4165 |
... |
... |
... |
... |
... |
4. 河流模式识别模型
4.1. 初始样本训练
本研究采用了一个系统性的图机器学习框架,核心流程包含四个紧密衔接的组成部分,具体如下:
在样本收集与图表示阶段,研究将现实世界中的实体及其间复杂关系转化为结构化的图数据模型。具体而言,将每个水系样本建模为一个图结构
其中
表示节点特征矩阵,n为节点数量,d为原始特征维度;
为邻接矩阵,编码节点间的连接关系。该步骤确保拓扑与属性信息得以完整保留,并为后续特征学习提供基础。
在特征提取与组合实验阶段,本研究对原始节点属性进行了系统优化与增强。通过控制变量法,对不同特征组合(如节点度中心性、Betweenness中心性、聚类系数等图论指标)进行了实证比较,以筛选出最具判别力的特征集合,从而构建区分性更强的初始节点表示。该过程显著提升了输入特征的信息量与模型的可辨识性。
研究构建了一个基于图卷积网络(Graph Convolutional Network, GCN)的节点分类模型。该模型通过多层图卷积操作迭代地聚合节点的邻域信息,以学习融合局部与全局上下文的节点嵌入表示。每一层的传播规则可表述为:
(2)
为加入自环的邻接矩阵,
为其度矩阵,
为可训练权重矩阵,
为激活函数。
研究采用了严格的实验与分析流程:在训练集上基于反向传播进行参数学习,在验证集上进行超参数调优与特征组合选择,模型性能以分类准确率为评估指标。最终,验证集上表现最优的模型被保存并用于独立测试集评估。经完整训练后,GCN模型在初始样本上达到了78.06%的准确率,体现了该框架在水系图分类任务中的有效性。
4.2. 样本变换
为有效扩充河流水系模式识别任务的训练样本规模并提升模型泛化能力,本研究采用了一种基于几何变换的结构化数据增强策略;该方法在严格保持原始矢量水系数据拓扑一致性与地理真实性的前提下,以每一水系图形的几何中心为基准点,通过施加特定角度(如90˚、180˚、270˚)的旋转变换及其沿水平与垂直方向的镜像变换,系统性地生成了一系列在空间形态上呈现多样性、但拓扑结构完全等效的新型水系样本;所有生成样本均经过自动化拓扑关系校验与人工后处理,以排除无效几何及拓扑错误,最终构建了一个规模显著扩大、形态多样性增强且具有严格拓扑一致性的河流水系模式识别训练数据集,为后续基于深度学习的形态分类任务提供了重要数据支撑。
对矢量图形进行旋转或镜像变换时,方位角会发生变化,即矢量与参考方向(如正东或正北)的夹角会发生变化。假设方位角θ以度为单位,且变换后方位角归一化到[0˚, 360˚)范围,将矢量绕原点逆时针旋转角度φ (顺时针旋转时φ为负),旋转后的新方位角公式为:
(3)
其中mod运算确保结果在[0˚, 360˚)内。例如,若θ + φ < 0˚,则加360˚直到非负;若θ + φ ≥ 360˚,则减360˚直到小于360˚。
镜像后的公式为:
关于x轴镜像(α = 0˚):
(4)
关于y轴镜像(α = 90˚):
(5)
模型训练
在对初始样本及通过旋转与镜像变换生成的衍生样本进行模型训练时,我们分别以每组样本为输入,独立重复训练流程,并记录各模型在对应测试集上的分类准确率。全部样本经整合后,用于构建以图结构表示的数据集:每个水系样本被表示为一张图,其中实体(如河道节点、交汇点等)被抽象为图节点,实体间的连接关系则定义为边。每个节点配备一个标量特征,即该节点的度中心性,用以刻画其局部连接重要性。所有图结构均转换为PyTorch Geometric库所定义的Data对象,并统一存储于一个图样本列表中。为从每个图中提取全局表示,我们采用全局最大池化操作,将图中所有节点的度中心性特征聚合为一个单一、固定维度的全局特征向量。该向量随后输入至一个全连接层分类器,最终输出对应于不同水系形态类别的预测概率。
在数据集划分方面,采用分层抽样策略以确保训练集与测试集中均包含所有类别的水系样本,且每类至少有一个样本被包含其中,从而避免类别缺失带来的评估偏差。针对节点特征(即度中心性),我们实施标准化预处理:使用 StandardScaler仅基于训练集数据拟合均值和方差,并对整个数据集(包括训练集和测试集)进行相应转换,确保预处理过程无信息泄漏。
针对训练集中样本数量低于平均样本数0.3倍的稀有类别,我们实施了过采样策略,使其样本数量提升至训练集中最大类别对应的样本数,以缓解类别不平衡对模型训练带来的潜在误差。
模型训练采用Adam优化器与交叉熵损失函数,共进行1000个训练周期(epoch)。每完成10个周期,分别计算当前模型在训练集与测试集上的准确率,并持续跟踪测试性能。测试准确率最高的模型权重将被保存,用于最终评估与后续分析。
5. 结果与讨论
通过对初始水系样本系统性地施加旋转与镜像等几何变换,成功构建了包含初始组及其衍生变换样本在内的共计24组样本集合。在模型评估阶段,分别对各组样本进行独立测试,其分类准确率呈现近似正态分布,均值为78.2%,方差为0.14。为验证模型稳定性与数据集的无偏性,我们进行了多次随机划分训练集与测试集的重复实验,模型性能始终维持在相近的分布范围内,表明数据中不存在因采样偏差或结构特异性导致的系统性误差,同时确认初始样本与变换后样本严格满足独立同分布条件,具备统计一致性。
将全部24组样本合并后构成增强数据集,并在此统一集合上重新进行模型训练与评估,最终总体分类准确率提高至82.6%。该提升可归因于样本合并后带来的数据规模扩大与形态多样性增强,有效提升了模型对水系特征的表征能力和泛化性能。由于各组样本符合同一分布,合并操作在保持数据一致性的同时显著丰富了特征空间,有助于模型捕捉更具判别性的形态模式,从而改善分类效果。
在不同类型水系结构的分类中,辫状水系与网状水系统的识别性能最优,其准确率显著高于其他类别。辫状水系主要特征为河道内多股分支频繁交织、相互交汇与分离,形成明显的辫状纹理;网状水系则具有支流间以接近直角相交、形成规则网格结构的典型形态,这类结构在遥感影像中易于辨识,形态独特性高,分类混淆较少。识别性能处于第二梯队的包括梳状、扇状、羽毛状及树枝状水系。其中,树枝状水系作为自然界中最普遍的类型,却因其形态变异较大,局部常呈现出与梳状或羽毛状相似的特征,导致类间边界模糊,一定程度上影响分类一致性。准确率最低的类别为平行状与放射状水系,这些类型在真实环境中分布较为有限,通常与特定地质与地形背景(如平坦洪积区或火山锥)密切相关,其形态结构与其他类别之间存在重叠区域(如放射状与扇状水系均具有向外辐射的特征),加之样本稀缺性,共同导致其分类难度较大、模型识别能力较弱。
GCN在识别辫状与网状水系时,主要依赖于节点度中心性高、连接复杂的局部结构,模型能够有效捕捉河道交叉频繁、分支密集的拓扑特征。在平行状与放射状水系中,模型表现出明显的识别弱点,主要原因包括:平行状与放射状水系在局部结构上均呈现辐射或平行排列特征,模型难以从有限的邻域信息中区分其全局布局差异;稀有类别的训练样本不足,使得模型未能学习到其独有结构模式,反而过度依赖少数共性特征(如节点度数低、连接简单);GCN本身不具备方向感知能力,而放射状与扇状水系的区分往往依赖于水流方向与汇流模式,模型在此类语义信息上存在理解盲区。通过对混淆矩阵的分析发现,模型在分类过程中对节点度数、邻接密度、河道长度分布等结构性特征具有较强的依赖性,而在地形、高程变化等方向性与地形特征的利用上相对薄弱,这提示未来可在节点特征设计中进一步增强方向编码与地形上下文信息。
本研究采用的旋转与镜像变换策略在提升模型泛化能力方面成效显著,总体准确率由78.06%提升至82.6%,证明了其在拓扑结构稳定的水系模式识别任务中具有良好适用性。然而,该策略也存在一定局限性,尤其在处理具有强方向性或地理语义依赖的水系模式时表现不佳。数据增强仅改变了水系的几何形态,未能考虑其与地形、地质、植被等地理环境的关联,限制了模型在实际复杂地理场景中的泛化能力;尽管过采样与数据增强共同使用,但对于样本极少的类别(如放射状水系),生成的样本仍缺乏形态多样性,模型难以从中学习到具有判别性的特征。
基金项目
河北省高等学校科学技术研究项目资助(BJK2023088);邯郸市哲学社会科学规划研究课题(XW2024241)。
NOTES
*通讯作者。