1. 引言
实景三维中国作为真实、立体、时序化反映人类生产、生活、生态空间的时空信息,是数字中国整体框架构建的核心要素和重要内容。地理实体是现实世界中客观存在、具有空间位置、可以相互区分的地理对象,是实景三维数据的重要组成部分[1]-[3]。
虽然《实景三维中国建设技术大纲》(下文简称《技术大纲》)中规定了基于大比例尺地形要素转换生产基础地理实体数据的技术流程,但在实际生产中有许多实体无法直接转换,比如院落实体,道路实体,构筑物实体等,而且大比例尺地形要素的时效性较差,需要融合其他数据进行补充,以扩展属性,并提高时效性。比如,杨婷等[4]通过分析比较1:10,000、1:50,000基础地理信息数据和第三次全国国土变更调查数据,按照实景三维中国建设地理实体构建要求,提出了一种多源数据融合的自然资源地理实体构建方法。李新双等[5]提出一种基于地名地址匹配的数据融合方法,分别对含空间坐标和仅包含位置描述的两种不同类型政务数据进行匹配,提高了地名地址匹配的效率和准确度。叶芬等[6]提出融合1:10,000基础地理信息和第三次全国国土调查年度变更等多源数据,以地理实体编码为统一标识符,构建基于知识–规则的省级地理实体融合转换方法。因此,如何利用大量已有数据生产地理实体有待深入研究。
本文以江苏省某县级市为试验区,在《技术大纲》的基础上,结合获取的数据情况,探索融合多源数据的县级大比例尺地形数据转换生产地理实体的方法,为实现数字中国、数字政府、数字经济等国家战略提供有力支撑。
2. 融合多源数据的县级地理实体转换流程
融合多源数据的县级地理实体转化流程如图1所示。
1) 源数据收集分析:收集、整理大比例尺地形数据和各类专题数据,分析各数据的用途,用于生产基础地理实体数据。
2) 映射转换:制作大比例尺地形要素与基础地理实体的几何图形映射表和属性映射表,规范大比例尺地形要素与基础地理实体映射关系。依据大比例尺地形要素与基础地理实体映射表进行几何图形和属性映射,开展源数据的映射转换与编辑。
3) 源数据预处理:将收集到的源数据进行处理,包括数据清洗,格式转换,基准统一,数据结构一致化,线构面,数据提取等。
4) 数据融合:多源数据的几何融合和属性融合。
5) 语义化处理:按照《江苏省基础地理实体数据库规范》进行属性完善,并构建实体之间的关系。
6) 数据建库:按照《江苏省基础地理实体数据库规范》进行地理实体的检查入库。
Figure 1. Conversion flowchart
图1. 转换流程图
3. 关键技术研究
数据融合的技术流程如图2所示。
Figure 2. Fusion flowchart
图2. 融合流程图
3.1. 点数据融合的方法
点状数据的融合采用基于语义和位置信息进行匹配的方法[7]。语义相似度采用Jaccard distance方法,距离相似度采用欧式距离计算,基于语义和位置加权判断是否为新增点,若为已有点,则用于补充属性信息,填充缺失值。计算方法如下:
根据样本的特征设置距离相似度权重ωD和语义相似度权重ωL,两者权重值满足ωD + ωL = 1,最终计算公式为sim (A, B) = ωD · DA,B + ωL · LA,B。
3.2. 线数据融合的方法
线状数据的融合基于Hausdorff 距离开展[8] [9]。Hausdorff距离是衡量两个集合之间相似程度的一种方法。计算方法如下:
有集合A和集合B,H_upper表示从集合A到集合B的最大最小距离,即对于任意点a属于集合A,找到与之最近的点b在集合B中的距离,并记录所有这样的距离的最大值。H_lower表示从集合B到集合A的最大最小距离,两个集合之间的Hausdorff距离是其上半部和下半部中的最大值。计算公式为Hausdorff距离D = max {H_upper, H_lower}。
3.3. 面数据融合的方法
面状数据的融合与线状数据相似,先借助缓冲区分析筛选一定范围内的面要素,从而缩小查找范围,提高计算效率。再用Hausdorff距离对比相似性,方法与线状数据融合的方法相同[10] [11]。
3.4. 融合原则
针对每类数据,分析不同的数据源,确定每类数据的融合源目标,按点、线、面的几何类型分别选择融合方法,对数据进行一致化处理,以大比例尺地形数据为基础,其他数据源按照可靠度和重要度进行权重划分,融合中标记为相似的数据用于补充大比例尺地形数据的属性,对于冲突的属性字段选择可靠度高的数据源进行补充,对于唯一有值的属性字段则直接更新赋值;标记为不相似的数据则用于新增[12]-[16]。几何和属性特征都融合后,结合影像进行数据的校验,对于不合理的部分进行调整优化,保证数据融合后的正确性。
4. 具体实践
江苏省某县级市以大比例尺地形数据为主要数据源,融合多源数据进行转换生产基础地理实体,流程如下。
4.1. 源数据收集分析
本次实践收集到的数据有大比例尺地形数据,专题要素数据,地形图结合表数据,不动产登记数据,天地图成果数据,地名地址和兴趣点数据,第三次全国国土调查数据,土地利用年度变更调查数据,“十四五”省级基础测绘数据,自然村数据,三区三线数据,行政区划数据,2024年影像数据。
Table 1. Utilization of multi-source data
表1. 多源数据利用情况
序号 |
数据名称 |
图层名称 |
利用情况分析 |
1 |
政区数据 |
县、乡镇范围 |
生产县级行政区、乡(镇、街道)行政区实体 |
2 |
天地图数据 |
POI |
地名实体补充数据源 |
3 |
不动产数据 |
自然幢 |
生产自然幢数据 |
4 |
用地分类地块 |
LAND |
提取交通运输用地数据,作为道路范围面数据 |
5 |
建筑物 |
BUILDING |
补充大比例尺地形图中房屋面属性,包括用途类型、建筑结构、建筑层数、建筑高度 |
6 |
控保建筑和文保单位 |
PROTECT_BUILDING |
采集院落现状范围 |
7 |
公共厕所 |
TOILET |
生产厕所实体 |
8 |
固定垃圾 |
DUMP |
生产垃圾收集点实体 |
9 |
高压铁塔及其连线 |
HV_TOWER, HV_TOWER_LINE |
生产长输输电管线实体 |
10 |
桥梁 |
BRIDGE |
桥梁中心线,作为桥梁实体生产补充数据源,同时利用此数据补充大比例尺地形图中桥梁面属性 |
基于以上多种数据源,构建地名、国土空间规划、管线及设施、建(构)筑物及设施、交通、农林用地与其他土地、其他管理区域、其他管理实体、水利、山体、水体、行政区划单元、院落等13类实体。表1列出了部分数据的利用情况。
4.2. 映射转换
表2列出的是部分字段属性映射表。表3列出的是部分大比例尺地形要素与基础地理实体的几何图形映射和属性映射表。多种源数据按照映射表进行数据的归一化处理和提取。
Table 2. Field mapping table
表2. 字段映射表
映射字段 |
目标字段 |
目标字段类型 |
目标字段长度 |
ANGLE |
JD |
DOUBLE |
18.2 |
DWMC |
STMC/TYMC |
TEXT |
100 |
JZCS |
CS |
SHORT |
|
FWZH |
ZH |
TEXT |
20 |
JZJG |
FWJG |
TEXT |
20 |
LB |
LX |
TEXT |
50 |
LFKD |
KD |
DOUBLE |
18.2 |
MC |
STMC/TYMC |
TEXT |
100 |
Table 3. Mapping table of large-scale topographic elements and basic geographic entities
表3. 大比例尺地形要素与基础地理实体映射表
序号 |
大比例尺地形要素 |
基础地理实体要素 |
地物编码 |
符号名称 |
GIS图层名称 |
GB码 |
实体分类代码 |
几何特征 |
实体图层 |
1 |
141300 |
在建房屋 |
DLGJ_JMD_PY |
310302 |
230101 |
RG |
STJBB_FW |
2 |
141400 |
破坏房屋 |
DLGJ_JMD_PY |
310700 |
230110 |
RG |
STJBB_FW |
3 |
141500 |
棚房 |
DLGJ_JMD_PY |
310600 |
230102 |
RG |
STJBB_FW |
4 |
163210 |
等级公路路基线 |
DLGJ_JT_LN |
420000 |
220208 |
ML |
STJBB_DL |
5 |
163220 |
等级公路中心线 |
DLGJ_JT_LN_C |
420000 |
220208 |
ML |
STJBB_DL |
6 |
163300 |
等外公路路边线 |
DLGJ_JT_LN |
420400 |
220204 |
ML |
STJBB_DL |
7 |
163920 |
城市主干道边线 |
DLGJ_JT_LN |
430501 |
220302 |
ML |
STJBB_DL |
4.3. 源数据预处理
将所有数据统一为2000国家大地坐标系,进行数据清洗和提取,并按照《技术大纲》对数据进行一致性处理,所有数据层按照表4添加公有属性字段,部分数据层需要添加专有属性,比如道路层如表5,房屋层如表6。
Table 4. New public attributes of data layers
表4. 数据层新增公有属性
序号 |
字段名称 |
字段别名 |
字段类型 |
约束条件 |
1 |
TYID |
图元标识码 |
TEXT (26) |
M |
2 |
STID |
实体标识码 |
TEXT (50) |
M |
3 |
JHLY |
几何来源 |
TEXT (50) |
O |
4 |
SXLY |
属性来源 |
TEXT (100) |
O |
5 |
TYLX |
图元类型 |
TEXT (50) |
M |
6 |
XXLY |
信息来源 |
TEXT (100) |
O |
7 |
CJSJ |
采集时间 |
TEXT (8) |
M |
8 |
XWSJ |
消亡时间 |
TEXT (8) |
M |
9 |
XZQH |
行政区划 |
TEXT (100) |
M |
10 |
LX |
类型 |
TEXT (50) |
M |
11 |
GB |
国标分类码 |
LONG |
M |
12 |
TYMC |
图元名称 |
TEXT (100) |
O |
13 |
STMC |
实体名称 |
TEXT (100) |
O |
Table 5. New attributes of road layer
表5. 道路层新增属性
序号 |
字段名称 |
字段别名 |
字段类型 |
约束条件 |
1 |
QDMC |
起点名称 |
TEXT (50) |
O |
2 |
ZDMC |
终点名称 |
TEXT (50) |
O |
3 |
SXXFX |
上下行方向 |
TEXT (4) |
O |
Table 6. New attributes of building layer
表6. 房屋层新增属性
序号 |
字段名称 |
字段别名 |
字段类型 |
约束条件 |
1 |
CS |
层数 |
SHORT |
O |
2 |
ZH |
幢号 |
TEXT (20) |
O |
3 |
FWJG |
房屋结构 |
TEXT (20) |
O |
4 |
DZ |
地址 |
TEXT (255) |
O |
4.4. 数据融合
按照数据融合的流程进行多源数据融合,包括几何信息和属性信息。本实践中认为大比例尺地形数据是可靠度最高,重要度最高的数据源,补充新增数据后要进行标记,参照影像进行核对,若后期大比例尺数据此区域有更新时,便于快速查找定位并替换,以保证数据整体的精度。
4.5. 语义化处理
(1) 实体数据编码
本实践中实体标识码采用“6位行政区划码 + 6位实体分类代码 + 8位顺序码”的方式编码,同一个实体有一个唯一实体标识码,比如“北京西路”在几何图形上虽然分为3段,但每段的实体标识码都是相同的,且“北京西路”的面状图元和线状图元都共用同一个实体标识码。河流、桥梁、湖泊等有多种图元表达形式的实体都采用此方式编码。
(2) 图元数据编码
本实践中图元标识码采用“6位行政区划码 + 6位实体分类代码 + 2位几何类型代码 + 8位顺序码”的方式编码,每一个图元有一个唯一图元标识码,一个实体标识码可以对应一个图元标识码,也可以对应多个图元标识码。
(3) 实体关系构建
本实践中构建了如表7的实体关系,用于反映不同类型实体间的空间位置关系,并通过知识图谱的方式进行可视化表达,如图3。
Table 7. List of entity spatial relationships
表7. 实体空间关系列表
基础地理实体类别 |
相关实体类型 |
关系名称 |
一级类 |
二级类 |
三级类 |
院落 |
/ |
/ |
房屋 |
整部关系 |
交通 |
城际公路 |
/ |
交通附属设施(高速出入口、公交站点、收费站、加油气站、充电桩) |
依赖关系 |
交通连通交叉口 |
依赖关系 |
/ |
其他通道(桥梁、涵洞、隧道、匝道) |
连通关系 |
城市道路 |
/ |
交通附属设施(快速路出入口、公交站点) |
依赖关系 |
交通连通交叉口 |
依赖关系 |
/ |
其他通道(桥梁、涵洞、隧道、匝道) |
连通关系 |
乡村道路 |
/ |
其他通道(桥梁、涵洞) |
连通关系 |
轨道交通 |
/ |
交通附属设施(火车站入口) |
依赖关系 |
其他通道(桥梁、涵洞、隧道) |
连通关系 |
水系水利 |
湖泊 |
/ |
河、湖岛 |
依赖关系 |
交通附属设施(桥梁) |
依赖关系 |
有名称河流 |
连通关系 |
河流 |
/ |
水利附属设施(闸、坝) |
依赖关系 |
其他过水通道(涵洞、输水隧道) |
依赖关系 |
交通附属设施(桥梁) |
依赖关系 |
水库 |
/ |
闸、坝、溢洪道、出水口 |
依赖关系 |
沟渠 |
/ |
水利附属设施(泵站) |
依赖关系 |
政区 |
区县级行政区 |
/ |
乡镇级行政区 |
包含关系 |
Figure 3. Knowledge graph example of courtyard-house relationship
图3. 院落与房屋关系知识图谱示例
5. 结语
本文以县级市大比例尺地形数据为基础,结合多源专题数据,提出了一种基于位置和语义的多源数据融合方法,并结合PYTHON开发处理工具,实现数据融合转换的自动化操作。然而,当前研究仍面临数据异质性、计算资源需求和语义理解能力不足等问题。未来,会继续研究融合影像数据的方法,在数据更新中借助人工智能模型训练样本,用于识别变化区域,辅助检测已灭失或者变更的区域,从而提高矢量数据的时效性,进一步提升实际应用价值。