1. 引言
西南诸河位于我国的西南边陲,地貌类型气候条件复杂,水能资源丰富,开发条件优渥,而且涉及多条国际河流,包括雅鲁藏布江、怒江、伊洛瓦底江、澜沧江等国际河流。其流经地域广阔,使用传统的结构化数据及GIS分析愈来愈难以满足对流域立体化感知、监视、管理及指导开发利用的需求,对水利信息数据的感知、汇集、存储、管理及深度挖掘分析提出了更高的要求。
随着水文现代化建设逐步向监测站网立体化、监测手段自动化、信息采集自动化、数据处理智能化、服务产品多样化的“五化”要求水平提升。充分利用区块链、大数据、云计算、人工智能等先进技术,建设监测评价和趋势分析、预报预警智能化综合信息系统,不断推进水文现代化是水利行业发展的大势所趋。
水文数据体量庞大,结构复杂,形式多样化,在短时间内以常规手段难以获取、处理与分析,而大数据正是针对这一类数据衍生的一种新型数据处理技术。
2. 水利大数据应用现状
2.1. 水利大数据应用技术概况
随着社会经济的快速发展和人民生活水平的逐步提高,水资源、水生态、水环境、水旱灾害的问题也逐步凸显。根据习近平总书记提出的“节水优先、空间均衡、系统治理、两手发力”的十六字治水思路,以及网络强国、数字中国、智慧社会的智能化发展趋势。根据李国英部长提出的推动水利高质量发展的要求,要推进智慧水利建设,以数字化、网络化、智能化为主线,构建数字孪生流域,开展智慧化模拟,支撑精准化决策,全面推进算据、算法、算力建设,加快构建具有预报、预警、预演、预案功能的智慧水利体系。
2013年Nature提出利用大数据技术,实现水资源可持续发展目标 [1]。2019年智慧水利(Smart Water Conservancy)的概念也在我国水利行业逐步兴起。智慧水利是指应用云计算、物联网、大数据、移动互联网和人工智能等新一代信息技术,对水利对象,如:河流、湖泊、水库、水电站、水闸、监测站和取水口等,进行透彻感知、网络互联、广泛共享、智能分析和泛在服务,为水旱灾害防范与抵御、水资源开发与配置、水环境监管与保护、河湖生态监督与管理等水利业务提供现代化支撑的新型技术。智慧水利的发展使水利行业发展与大数据深度融合成为必然 [2]。2022年1月,水利部印发关于推进智慧水利建设的指导意见和实施方案。意见指出要建设水利智能业务应用体系,水利网络安全体系,智慧水利保障体系。
过去大数据平台一般使用基于集中式存储的虚拟化平台提供各系统的存储、计算、运行环境,存在重量大、启动慢、性能损耗较大等问题。西南地区地域广阔,近年来基于GIS、RS以及卫星影像等技术的非结构化数据积累日渐完善,过去基于集中式存储的扩展性、可靠性、性价比不再能满足水利大数据日益增长的存储、计算需求。
2.2. 水利大数据的定义
在维克托·迈尔–舍恩伯格编写的《大数据时代》 [3] 中,大数据指不用随机分析法这样的捷径,而采用所有数据进行分析处理。大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。大数据具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。常常包括结构化、半结构化和非结构化数据,非结构化数据构成了数据的主要部分。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
随着建设智慧水利方针的逐步落实,我国水利正在向着构建天空地一体化水利感知网方向努力。通过采用卫星、雷达、高清视频监控、无人机、遥控船、物联网通信等新型监测技术,水利数据已经达到了大数据量级 [4] [5] [6]。水利大数据具备一般大数据的基本特征,同时还具备水利领域特征,如广泛交互性、时空融合性、高效能性、深共情性 [7]。大数据创造价值的过程被不同的学者提炼成不同的价值链体系,有三环价值链体系 [8],四环价值链体系 [9],五环价值链体系 [10]。结合大数据五环价值链体系,蒋云钟等人将大数据价值链体系提炼成:数据采集、数据存贮、数据计算、数据分析、数据可视等环节。
2.3. 水利大数据的存储模式
水利数据结构多样化,包括了结构型,半结构性,非结构性数据。水利大数据的存贮模式主要包括:分布式文件系统、分布式数据库和关系型数据库,其中关系型数据库又包含了传统关系型数据库和分布式并行数据库。水利大数据系统中结构型数据主要存储于关系型数据库中,如实时雨水情数据、基础水文测验数据、水质分析数据等都属于结构型数据 [11]。关系型数据库是水利大数据存储结构的重要组成部分,且广泛服务于智慧水文的各个领域,如国家防汛抗旱指挥系统 [12],全国水利一张图系统等 [13]。半结构型和结构型数据主要采用分布式文件系统进行存储,其中HDFS分布式文件系统随着Hadoop一起出现并逐步发展成熟,因其可移植性、高容错性、可大规模水平扩展性 [14],HDFS作为开源分布式文件系统被各大数据领域广泛采用 [15]。
在设计大数据环境的存储模式时,吴飞将数据的存储分成了三层模式:操作数据存储层、数据仓库层、分析结果存储层 [16]。操作性存储层主要使用关系型数据库为数据仓库层提供数据源,保证仓库层的稳定,同时筛除不符合要求的数据。数据仓库层使用Hive进行存储,将汇总的数据按照不同数据类型进行分别存储。分析结果存储整合了关系型和非关系型数据库存储模式,为上层应用访问提供数据。
2.4. 水利大数据的计算、分析模式
根据水利大数据特征的不同,计算方式包括:流式计算、批量式计算、内存计算和图计算 [17]。水利领域的计算目前以MapReduce批量计算为主,该计算方式被广泛应用于卫星遥感数据处理、旱情分析、降雨等级预测等领域,流式计算包括Spark Streaming流计算 [18],Storm降雨径流预测计算等 [19]。
水利大数据分析是指采用相应的分析方法,如数据挖掘、统计分析和新兴分析等方法,利用大数据模型或专业模型提取大数据中隐藏的信息,作为水利事件提供决策、预测的参考依据。其中数据挖掘技术在水利分析中应用比较广泛,例如暴雨时空分布规律,需水量预测,流域水质空间评估等 [20]。数据挖掘还可实现对文本文件的挖掘,使半结构化和结构化水利数据中隐含的新的水利价值信息得以全面揭示。
3. 水利信息化综合管理平台开发
利用大数据技术相,开发一套可以实现西南诸河水利水资源数据共享、计算机自动作业、智能处理、服务产品丰富多样、服务手段便捷先进的水利信息综合管理平台是本次研究的重点。
3.1. 西南诸河水利大数据体系
西南诸河流域包含了雅鲁藏布江、伊洛瓦底江、澜沧江、怒江、藏南藏西诸河等水系,西南诸河流域水利大数据包含的数据类型多样,数据来源广泛,数据结构类型复杂。建立涵盖洪水、干旱、水利工程安全运行、水利工程建设、水资源开发利用、城乡供水、节水、江河湖泊、水土流失和水利监督等业务需求的水利大数据平台是水利信息化升级转型,实现智慧水利建设的总体目标。西南诸河流域水利大数据体系如图1所示:包含了水文水资源数据、水利工程数据、空间地理数据、气象数据、生态环境数据及其他非结构化,半结构化数据。在大量水利数据整合的基础上,根据国家、行业标准建立水利数据资源池,建立水利数据资源目录,形成数据资源汇聚体系,建立多层级的数据管理体系。

Figure 1. Southwest rivers big data system of water conservancy
图1. 西南诸河水利大数据体系
3.2. 西南诸河流域水利大数据运维管理体系
西南诸河流域水利大数据体系汇集了体量庞大,结构多样的各类水利数据,为了实现数据的有效管理利用和确保数据安全得以保障,需要加强对水利大数据的综合运维。传统的数据运维方式无法满足水利大数据的运维需求,需开发建立更加自动化、智能化、流程化的数据管理模式。
西南诸河流域水利大数据运维管理体系流程如图2所示。该体系根据分布式文件HDFS为依据,运用Hive、Presto、Kafka大数据插件优化水利数据管理体系的各项功能。水利大数据运维管理体系包含了数据集成层、数据存储层、数据计算层、数据应用层。
1) 数据集成层:水利大数据结构化多样,数据集成层能将数据运行监控平台、数据运维管理系统、ZABBIX系统中的各类数据进行清洗、检验、管理及规范化。Hive、Presto、Kafka、Flume数据插件实现各类实时结构化数据、非实时结构化数据、非结构化数据的集成。数据集成管理方便后期数据的应用及计算,可对数据质量进行判断,发现错误及异常值,并对数据进行优化调整。
2) 数据存储层:使用HDFS数据存储模式,该模式具有存储模式扩展性强、运行环境安全可靠、数据吞吐量大的优点。HDFS用于非结构化数据存储,能够对大型文件进行访问,并进行错误节点处理。数据仓储使用Hive做结构化数据存储媒介,可建立定向分析的数据集成化运行环境,便于进行决策性工作。使用Kafka插件可实现实时数据的提取与存储工作。
3) 数据计算层:数据计算层提供数据处理运行引擎及数据计算功能,对离线数据进行批量计算,对在线实时数据进行在线计算。
4) 数据应用层:该层包含了数据使用申请管理,数据访问管理,资源管理。资源管理需要对源数据及分析计算结果数据进行设置,数据访问管理可对账号进行授权管理。

Figure 2. Southwest rivers water conservancy big data operation and maintenance management system
图2. 西南诸河流域水利大数据运维管理体系
3.3. 西南诸河流域水利信息化综合管理平台体系架构
西南诸河流域水利信息化大数据综合管理平台以服务器作为硬件支撑部署数据接受、存贮、分析处理、应用等数据处理软件。平台体系架构如图3所示:
1) 数据资源池建立:数据接收汇聚包含了全流域水文、气象、环境等全方位监测数据,融合了水利、社会和其他相关数据,建立一套结构型、半结构型、非结构型数据综合存储模式,方便数据实时更新,数据安全有保障的数据资源池。
2) 数据分析计算与存储:从源数据池中对数据进行抽取、清洗、规范化处理、除重等程序,采用Hadoop分布式数据存储模式,利用Hadoop提供的分布式文件系统(HDFS)和非关系型数据库(HBASE)对源数据进行分布式调用,同时对数据进行筛选,使用Hive将汇总的数据按照不同数据类型进行分别存储,依托水利大数据数据源和数据分析工具,对数据进行挖掘分析。强化数据安全,提供数据安全隔离访问,暴露数据层的API接口,将应用层的直接读库需求,转为提供查询、分析结果为上层应用访问提供数据支持。
3) 平台支撑层:支撑层是本系统的基石,在该层中包含了搭建系统的所有基础要素。构建Ceph分布式存储系统提供整个系统的存储环境,提高存储层的横向扩展能力和容错能力。构建基于Kubernetes、Docker和OpenStack的分类混合管理平台,实现对虚拟机、容器的分类管理以及容器的统一编排,提供不同级别的隔离环境,提供对于上层应用层APPS的运行环境支持,提供敏捷的应用开发、测试、部署手段。构建基于软件定义存储、软件定义网络、网络安全探针以及应用防火墙等系统,提供对安全事件的实时侦测、管理、隔离的信息安全动态感知主动防御层,实现网络、系统以及数据安全的全面提升。在其上实现包括用户访问服务、权限管理服务、GIS服务、资源管理服务、关联分析、实现模型分析库集成如SWAT模型、TOPMODEL模型、SAC模型、新安江模型、SCLS模型、CRFPDP模型、水箱(Tank)模型等服务。在该系统中,把这些模块有机组织为

Figure 3. Southwest rivers architecture of water information integrated management platform
图3. 西南诸河流域水利信息化综合管理平台体系架构
一个体系,形成一套应用支撑平台,来支撑终端用户和业务系统搭建,为今后的水资源管理、河长制以及数字孪生流域提供弹性运行环境支撑。
4) 数据应用层:传统的数据应用层是静态单一化的,无法对水利数据进行动态的分析,科学预警。基于大数据的应用层是面向系统业务的子模块,这些子模块包含了本系统规划的所有业务功能。包括水利信息多维关系展示和水利业务应用。依靠大数据使水利决策从经验到科学过度,提高水利预测能力。结合大数据元数据信息,引入低代码平台,实现水文数据分析人员对于大数据综合运用的快速迭代开发、二次开发,提供海量数据动态分析的手段。为流域综合调度、水旱灾害预警、雨水情与工情分析预测、水生态保护预警、水资源监控等工作提供决策依据。通过对水资源量和质的动态分析,可分析研判水资源取用水变化趋势,水资源污染情况等,可指导水资源管理决策和助力河长制服务。
水利大数据技术实现了西南诸河水利数据多领域、全对象、多类型数据的汇集,形成了海量大数据的存储、管理与分析计算服务。水利大数据技术汇集调动了各级水利部门及不同行业之间水利数据的共享交互,全面提升了数据的质量和覆盖范围。
该平台有效的利用了大数据技术,实现多时空尺度、多数据类型、多方式的数据深度融合,在此基础上经过数据挖掘分析,形成有价值的多维水利信息,为水利决策提供依据。从而实现水利业务“网络化管理”,形成一整套规范统一的管理标准和流程,且使得管理步骤形成一个闭环,从而提升管理的能力和水平,将过去传统、被动、定性和分散的水利管理模式,转变为现代、主动、定量和系统的水利管理,使水利决策从经验到科学转变。
4. 存在的不足
1) 水利大数据运维管理系统有待提升:随着水利大数据体系的不断扩大,对水利数据的运维管理工作越来越受重视,面对数据体量庞大、结构多样的大数据体系,运维管理的自动化、智能化是目前大数据体系需要重点解决的问题。充分利用人工智能、机器学习、大数据技术进行智能化数据处理是未来发展的方向。
2) 数据安全保障有待提升:1、水利大数据的前提是感知,为了大数据分析的需要,有待引入物联网关、物联网服务器等技术进一步完善数据感知网络,进一步扩展水利数据收集的深度和广度。2、建立完善的大数据体系运维管理制度,建立基于AI的运维智能分析平台,通过大数据分析、机器学习等技术,洞察运行状态,准确进行故障风险预警,深入挖掘故障根源,建立故障自动恢复体系,全面掌握运维薄弱环节,提升自动化运维能力。
3) 模拟预测能力有待加强:水利大数据技术与专用模型整合,增加了不同时空尺度下复杂环境要素的模拟精度和预测速度,水利预测实现从被动到主动,风险识别和预报预警能力提升。但仍缺乏基于大数据技术的高精度存储、分析和集成模型,缺少更专业、更开放的大数据分析。还缺少适用于西南地区水质、蒸发、干旱时空分析及预测等的模型集成。要进一步完善水利模型库,建设机器认知库,增强大数据智能算法算力建设。
参考文献