1. 引言
在数字经济蓬勃发展的时代背景下,数据价值不仅体现在量的积累,更侧重于应用价值的释放。自然资源部办公厅2019年印发《关于全面开展国土空间规划工作的通知》(自然资办发〔2019〕38号),要求全面开展国土空间规划“一张图”建设和市县国土空间开发保护现状评估工作[1]。当前,随着自然资源信息化建设的快速推进,数据聚集空间规划、国土调查、林草资源及三维模型等多领域,数据格式多样、坐标系不统一、多源异构、关系复杂[2],数据质量参差不齐,如何高效准确统筹各方数据,对数据资产有效梳理、整合并加以利用,建设自然资源和规划“一张图”数据库,已成为自然资源管理数字化转型中的关键挑战[3]。
本文结合典型案例,研究FME在自然资源和规划“一张图”数据库建设中的应用,提出一套结合FME软件的建库方案,并总结定制了数据批处理工具,高效准确地完成多源数据的格式转换、坐标系统一、数据清洗以及数据建库,解决了多源异构数据的整合难题,形成标准统一、数据完整的核心数据库,全面提升了自然资源各领域的数据质量和综合应用能力。
2. 研究方法
“一张图”数据库建设过程中,需要充分整合原国土、原规划、原林业以及其他专题数据,对各类数据进行全面梳理,建立数据资源目录体系[4]。在此基础上,对各类数据进行加工处理、整合建库,并对建库结果进行质量检查,最终形成“一张图”数据库,具体建库流程如图1所示:
Figure 1. Database construction process
图1. 数据库建设流程
由于自然资源领域数据来源多、体量庞大、质量参差不齐,数据处理工序复杂,工作量大,且处理完成后,质量检查也是极为重要的一步,依靠传统的作业方式和工具都无法满足要求,且效率低下。笔者通过大量尝试与实践,发现借助FME (Feature Manipulate Engine)可快速准确地完成这些工序。
FME是加拿大Safe Software公司推出的空间数据转换处理系统,实现超过300多种数据格式之间的转换。FME不仅支持多种空间数据格式的转换,还能将丰富的GIS数据处理功能结合在一起,提供图形化界面和可视化定义原始数据与目标数据之间的图形与属性的对应关系,为数据库建设与质量检查提供高效、可靠的手段[5] [6]。
2.1. 数据处理
在自然资源领域,数据资源普遍面临多源异构特性:空间数据格式涵盖DWG、SHP、MDB等十余种格式,坐标系存在CGCS2000、WGS84、地方独立坐标系等多重标准,数据版本更迭导致要素编码体系差异显著,且数据质量呈现碎片化特征。参照数据标准,对数据进行分析、比对和整合。对空间数据进行格式转换、坐标系统一以及数据清洗,尤其是大量数据成果以CAD (.DWG)格式存储,在图形属性一体化表达、地理要素编码方式和空间分析能力等方面存在不足[7],难以满足数据库建设需求,FME作为一种强大的空间数据转换处理系统,能够实现多种数据格式之间的转换,并结合丰富的GIS数据处理功能,可以实现CAD数据到GIS数据的无损转换[8]。对于非空间数据则进行空间化或保留源格式进行分类整理。
2.2. 数据建库
数据库的建立,需参照相关数据标准,建立标准数据库结构,将处理完成的数据进行读取分析,与标准结构建立映射关系,统一字段度量单位,规范数据组织形式,形成完整、一致的“一张图”核心数据库[9]。传统手工建库方式耗时耗力,且容易出错,借助FME进行数据库结构表制作、字段映射、几何类型映射、schema构建等,可实现自动化建库,并且可以动态输入运行参数,无需每次使用修改模板,大大提高了效率并减少了错误。
2.3. 质量检查
数据建库的质量直接影响数据的分析、挖掘和应用,因此数据入库完成后,为保证数据的完整性与准确性,需进行质量检查,主要包括完整性检查、空间数据基本型检查、属性数据标准性检查、图属一致性检查等[10]。借助FME制定质检工具,对数据进行质量检查,检查通过的数据则进行入库操作,未通过的反馈质检结果,进行数据纠错,直至检查通过后入库。通过构建质量检查方案,实现数据规范性、逻辑性、完整性、空间拓扑、数据精度等全面的质量检查,形成质量管理闭环。
3. 案例研究与结果
3.1. 数据概况及分析
经过对某市自然资源领域数据的调研分析,收集并汇总了基础地理、遥感影像、土地、矿产、林地、森林、湿地等各类自然资源数据和原规划管理部门数据城乡规划、专项规划等数据,数据中存在大量CAD数据,需要将这些数据转为GIS格式,完整地保留其数据结构、图形和属性信息,按照相应规范进行建库。
3.2. 数据处理
3.2.1. 格式转换
DWG格式的数据要素符号表达复杂多样,属性存储困难,与GIS数据交互不便,在转换过程中,需要兼顾图形信息和属性信息转换的正确性。我们转换的过程为数据获取、属性暴露、几何过滤、图属关联、要素提取。在FME Workbench中创建一个工作工程,通过读模块读取DWG数据,然后进行图形的预处理,再将所需的属性进行暴露,通过Geometry Filter工具进行几何过滤,分离出点、线、面和注记要素,在Attribute Manager中通过设置条件值,将不同要素分别与数据库标准图层进行对照映射。
3.2.2. 坐标系转换
收集到的数据存在多种坐标系,例如:Xian 1980、Beijing 1954、地方坐标系等,所有数据均需统一到2000国家大地坐标系。通过FME中的Affine Warper工具,实现数据仿射变换,借助Coordinate System Setter将数据定义为2000国家大地坐标系,实现坐标系的统一。
本次案例中,DWG数据大多非2000国家大地坐标系,因此将数据格式转换和坐标系转换两个模块融合到一个工具中,保存为fmw格式的文件(图2(a)),使用过程中可以按需选择所需转换的DWG数据和对应坐标系的转换参数文件(图2(b)),高效准确地完成格式转换及坐标统一。
(a) 模型 (b) 参数
Figure 2. Format conversion, coordinate conversion model and parameters
图2. 格式转换、坐标转换模型与参数
3.2.3. 其他处理
分幅CAD (如地形图)转换过程中会出现被图廓分割的要素,需按照一定规则进行接边合并。主要借助Intersector工具将面要素转为线要素,利用Spatial Filter进行空间关联选出与图廓相交的要素,对待合并的要素与图廓线做擦除处理,消除要素中的图廓线,再通过Area Builder进行面重构,以达到消除图廓线的目的(图3(a))。在接边过程中,需要通过大量的分析和尝试,设置合适的容差值(图3(b)),以确保接边完成度和准确性。
(a) 模型 (b) 参数
Figure 3. Element edge model and parameters
图3. 要素接边模型与参数
CAD数据对于注记,例如水系注记、道路注记等,每个字以独立的文本存储,不利于属性获取与图属关联,需要将独立的文字聚合成完整的名称。首先利用Vertex Creator注记转点,设置阈值,利用Area Amalgamator生成聚合范围,提取方向线,通过Test Filter将不同走向角度的注记分离开来,采用不同的聚合方式,最后通过List Duplicate Remover转换器单个面内注记去重,并进行图属关联(图4)。
(a) 模型 (b) 参数
Figure 4. Annotation extraction model and parameters
图4. 注记提取模型与参数
依次执行做好的转换及处理工具,选择“运行工作空间”,即可进行数据处理,单独或批量选择需要转换的DWG数据,根据数据情况配置所需的用户参数,然后设置好输出路径,点击确定,根据不同数据的实际情况,选择是否需要进行要素接边与注记提取。本文选取DWG样例数据,源数据、转换处理过程成果及最终成果如图5所示。
(a) DWG数据 (b) 格式转换后成果
(c) 最终成果
Figure 5. Comparison between source data and outcome data
图5. 源数据与成果数据对比
3.3. 数据建库
不同类型的数据标准不一,导致数据的图层名、编码和数据类型都不一致,在数据入库过程中需要参照相关数据标准,建立图层结构表,再根据结构表建立标准库结构,并确立数据源与标准库之间的映射关系,完成“一张图”数据库的建设。首先将原始excel表构建进行检查与标准化,通过Feature Reader读模块读标准的建库表,然后通过Feature Writer建立库结构,最后借助自定义转换器Relatalias关联别名,完成数据库结构的建设(图6)。图7(a)是一个控规数据的结构表,对其进行读取分析,生成标准库结构,包括属性字段(图7(b))及要素图层结构(图7(c)),再结合实际数据,建立映射关系,将数据导入进来,完成该数据的建设。
Figure 6. Data database building model
图6. 数据建库模型
(a) 数据结构表
(b) 属性字段建设成果 (c) 要素图层建设成果
Figure 7. Example of library structure construction
图7. 库结构建设实例
3.4. 质量检查
入库完成后,为保证数据的完整性与准确性,进行质量检查,制定数据相应检查细则,例如基础正确性检查、坐标系准确性检查、数据范围检查、自相交检查、拓扑检查、属性完整性检查、属性字段规范性检查、图属一致性检查等。质检项目繁多,数据量大,同样基于FME定制了质检工具(图8),对数据进行质量检查,检查通过的数据则进行入库操作,未通过的反馈质检结果,检查记录以excel的格式输出(图9),作业员参照检查记录对数据进行修改,直至检查通过。
Figure 8. Quality inspection tools
图8. 质检工具
Figure 9. Quality inspection records
图9. 质检记录
3.5. 性能评估
为定量评估本方法的优势,设计对比实验:选取某市100幅典型DWG数据,分别采用本文提出的FME自动化处理流程和传统人工处理方法进行处理、建库和质检。
为全面衡量方法效能,我们选取了三个核心维度进行量化对比:
(1) 处理效率:完成100幅数据全流程处理所需的总时间(小时)。
(2) 质量提升:通过自动化质检工具发现的错误数量与传统方法发现的错误数量对比,计算关键错误类型的减少率(%)。具体指标包括:拓扑错误减少率(如面缝隙、重叠)、属性缺失减少率(必填字段缺失)、图属一致性错误减少率。
(3) 人力成本:完成100幅DWG数据处理、建库和质检所需投入的人工时长(人天)。
对比指标及结果如下表1所示:
Table 1. Quantitative comparison of performance between FME automation method and traditional manual method
表1. FME自动化方法与传统人工方法性能量化对比表
评估维度 |
具体指标 |
FME自动化方法 |
传统人工方法 |
提升/降低效果 |
处理效率 |
总耗时 |
约5.2小时 |
约120小时 |
效率提升约95.7% |
质量提升 |
拓扑错误(条) |
324 |
1803 |
降低82% |
属性缺失(条) |
3 |
850 |
降低99.4% |
图属一致性错误(条) |
150 |
600 |
降低75% |
人力成本 |
所需人工投入 |
约0.6人天 |
约14人天 |
成本降低约95.7% |
实验结果表明,基于FME的全流程自动化建库方法在处理效率、数据质量和人力成本三个关键维度上均显著优于传统人工方法。该方法不仅大幅缩短了项目周期,显著提高了数据成果的准确性和规范性,还极大地节约了人力资源投入。
4. 讨论
本研究提出的基于FME的自动化建库方法在实践中取得了显著成效,其优势主要体现在高效性、高质量、灵活性、低成本。通过模块化、流程化的FME工作空间设计,实现了数据处理、建库、质检的批量自动化运行,极大提升了工作效率。严格的流程控制和定制化的质检工具,有效减少了人工操作引入的错误,确保了数据转换、整合和入库的准确性与规范性。FME强大的数据转换和处理能力,能够适应多源异构数据的整合需求,且工作空间易于根据具体项目标准和数据进行调整复用。自动化大幅降低了对专业GIS操作人员的持续高强度依赖,显著节约了人力成本和时间成本。
然而,本方法也存在一定的不足。对于DWG数据中极其复杂或非标准的符号化表达、块参照嵌套、自定义实体等,自动转换可能仍需一定人工干预进行后处理或规则优化。面对数据源中存在的严重逻辑错误、极度模糊的注记或破损的图形,自动化规则可能难以完美处理,仍需人工判断。接边容差、注记聚合阈值等关键参数需要根据数据实际情况进行经验性调优,存在一定的学习成本。
5. 结论
本文系统阐述了FME在自然资源和规划“一张图”数据库建设全流程中数据处理、建库实施及质量检查等核心环节的具体应用。结合实际案例,梳理了某市由源数据实现自然资源和规划“一张图”数据库建设的技术流程,并提炼了各环节数据处理的关键技术要点。深入研究了FME软件在数据库建设中的创新思路,给出了数据处理模型的构建方法和参数设置等技术细节,形成了包含数据格式转换、坐标系统一、数据处理、图属融合、规范建库、质量检查等功能的模块化工具集。实践表明,该方法有效解决了多源异构数据同化难、传统人工建库效率低、质量可控性差等行业痛点,显著提升了数据整合效率与成果质量,为同类“一张图”数据库建设项目提供了可复制的技术路径与管理经验,具有显著的推广应用价值。
尽管本方法取得了良好效果,但仍存在局限性:一是对DWG数据中极其复杂或非标准表达的自动化处理能力有待提升;二是对数据源中存在的严重逻辑错误或模糊信息的智能化处理不足;三是部分关键参数仍需经验性调优。未来研究将着重于:1) 探索结合人工智能技术(如计算机视觉、自然语言处理)增强对复杂表达和模糊信息的智能识别与处理能力;2) 深化自动化工具在三维数据、实时数据整合中的应用。这将进一步提升“一张图”数据库建设的自动化、智能化水平,为自然资源精细化管理提供更强大的数据底座。
项目基金
江苏省自然资源科技项目(编号:JSZRKJ202409)。
江苏省生态产品价值实现工程研究中心。