1. 系统现状及问题剖析
岸基应急信息保障系统作为对海遇险信息接收和处理的“第一道关口”,主要由险情接收节点和险情处理单元组成,负责对遇险信息的接收、分析、处理和转发上报,保障遇险信息的安全和准确性,为后续救援决策和搜救协同提供数据支撑。
当前岸基应急信息保障系统为确保对海险情信息的可靠接收和存储,采用高性能的服务器作为核心数据处理设备,并增加备用服务器作为补充的方式进一步提升了对海险情信息的保障能力,但面对海上难以预估的突发事件,仍存在数据丢失及业务中断的风险,具体体现如下。
(1) 主备业务切换存在空白窗口,难以保障数据连续性
当前岸基应急信息保障系统主备服务器采用冷备份方式,在主服务器故障情况下,备用服务器需经过系统启动、环境初始化、数据加载等多环节完成应急接管任务,整个应急接管流程需一定的时间周期,在此期间数据业务传输易中断,造成关键数据破坏和丢失,无法确保海上险情数据的实时采集、处理和响应能力,难以实现对海险情信息的“快响应、准处理、稳存储”的保障需求,严重影响海上应急救援的整体效能。
(2) 本地数据保障孤立,缺乏远端协同容灾能力
当前岸基应急信息保障系统采用本地主从服务器实现数据进处理、业务切换和数据存储功能,未建立远程数据容灾备份保障机制;当本地服务器发生硬件故障、软件异常和网络瘫痪等突发状况时,易导致主从服务器的数据处理和存储能力故障;由于系统的数据接收、处理与存储完全依赖本地主从服务器,若本地系统整体故障与瘫痪,易造成历史险情数据永久丢失,破坏应急信息的可追溯。在海上紧急任务和遇险通信等关键场景中,本地系统瘫痪将导致应急信息决策和救援效能,严重威胁海上任务顺利进行和遇险人员的生命财产安全[1]。
2. 容灾备份必要性分析
随着海上遇险通信测试和海事人员训练任务的频繁增加,岸基系统需对多源通信数据和训练数据进行处理、分析、存储和评估,因此系统对应急数据的可备份、可存储、可追溯能力,是确保救援力量在紧急遇险情况下进行高效搜救和保障遇险单元生命安全的关键信息支撑,也是评估海事人员对应急事件处置应对能力的重要数据支撑;其数据容灾备份的必要性具体体现在以下几点。
(1) 数据备份必要性
数据备份能力可完整记录整个救援过程中的关键数据,包括遇险信息、遇险处理和搜救流程等,为数据追溯和复盘评估提供可靠依据。在海上应急救援结束后,对救援过程中的数据进行追溯和复盘评估是总结经验、提升救援能力的重要手段;同时,通过历史救援数据作为决策案例,可为后续类似的救援行动提供信息参考,确保救援方案的合理性。
(2) 应急接管必要性
应急接管能力是保障应急信息采集、数据处理和数据存储连续性的重要环节,通过容灾备份设备避免主服务器故障时造成海上险情信息响应中断,确保数据接力式衔接和业务高效连续。
(3) 数据恢复必要性
数据恢复能力是容灾备份体系的关键支撑,容灾备份设备可在系统故障时,将采集、存储和其他关键数据迅速恢复至备用服务器,保障遇险信息的实时响应、精准处理和救援工作的高效性[2]。
(4) 数据异地保护必要性
数据异地保护能力是本地系统集体瘫痪或的双重数据保障,远端容灾备份设备可对本地数据同步共享、备份存储和接管恢复能力,保障本地系统设备或网络出现严重瘫痪时,确保数据不丢失、业务不中断。
3. 容灾备份系统方案设计
3.1. 系统方案架构
本系统采用分层架构设计,分为设备层、链路层、数据层和应用层,各层相互协作,实现岸基应急救生数据的容灾备份能力和应急救生保障。
设备层是系统的硬件基础,为链路层、数据层和应用层提供物理支撑,实现对海上数据的实时接收、处理、呈现、存储、备份、接管和冗余恢复能力。链路层是设备层之间的各类数据传输和状态同步通道,作为系统内各设备间的连接载体,保障各设备间的数据可靠传输、状态实时共享、数据高效备份与恢复。数据层是系统的数据核心,存储着应急救生所需的各类历史和实时数据,作为遇险数据、状态数据的存储和备份载体,确保数据的可追溯和分析能力。应用层是系统的功能体现,通过调用设备层、链路层和数据层的资源,满足用户对各种应急信息的呈现、决策、管控与处理需求[3] [4],系统方案架构具体见图1。
3.2. 系统方案设计
3.2.1. 系统部署
一是部署2套主备的应急信息处理服务器,通过在Windows、Linux和麒麟平台下安装数据容灾备份客户端代理软件,实现应急信息的处理和共享;二是部署1套10~20 TB容量的本地数据容灾备份设备,可对数据、应用和操作系统全面进行保护;三是在异地部署1套30~60 TB容量的远端数据容灾备份设备,实现远端设备通过远程复制的方式进行本地业务监控和数据接管恢复能力,当本地系统出现数据业务故障时,可通过“一键接管”工具将数据业务切换到本地备用服务器或远端数据容灾设备,确保业务连续性。
3.2.2. 性能指标与技术实现
其系统性能指标及技术实现方式见表1。
Figure 1. Disaster recovery backup emergency information assurance system architecture diagram
图1. 容灾备份应急信息保障系统方架构图
Table 1. Comparison table of system performance indications and technical implementation methods
表1. 系统性能指标及技术实现方式对照表
序号 |
性能指标 |
技术实现 |
1 |
数据容灾备份设备内置大容量磁盘,可为服务器提供数据保护空间。 |
实时数据镜像保护技术可在数据存储损毁的极端情况下,通过数据镜像保护将全部磁盘数据写入后的镜像副本,实现最大化保护信息数据。 |
2 |
数据容灾备份设备支持多达1000个数据快照,实现对业务数据的数据快照保护。 |
智能自动连续快照技术可在较短时间间隔下保存各个时间点的历史数据版本。采用高密度的快照视图可保证将系统的RPO (动态及静态)降到最低范围。一旦发生任何类型和大小的数据丢失,均可在分钟内立即进行恢复。 |
3 |
数据容灾备份设备自带应急恢复平台,当业务系统出现故障,可通过一键切换工具快速恢复业务,业务系统恢复时间在5分钟以内。 |
创新写入操作保护技术可随意定义数据恢复实际点,实现过去数据定点复现。 |
3.2.3. 各层子单元主要功能
(一) 设备层
1) 本地数据容灾备份设备
该设备以服务器硬件作为载体,加载专用数据应急恢复软件组成数据应急恢复单元,通过与主从应急信息处理服务器互连,实现应急信息接管恢复和备份能力,功能详述如下。
a) 数据同步备份功能:支持实时监控服务器数据变化,若有数据更新,迅速启动数据增量备份机制,确保数据与服务器数同步;
b) 数据即时接管功能:支持7 × 24小时实时监控服务器工作状态、网络链路连通性及数据传输稳定性,若服务器链路异常或运行故障时,设备可接管数据并备份存储,确保数据不丢失、可追溯。
c) 数据快速恢复功能:设备可利用增量同步和快照技术,将备份数据递接至备选服务器完成数据的接管与恢复,最大限度保障数据业务连续性;
d) 异地容灾备份功能:远端数据容灾备份设备可实时获取本地备份数据并建立数据副本,并支持对本地系统运行状态进行实时监控,确保在本地系统瘫痪情况下实现数据异地接管和恢复能力,双重提升系统数据安全性[2]。
2) 应急信息处理服务器
a) 数据处理功能:采用高性能数据解析引擎,实时接收海况、船舶动态和洋流等多源海上数据,并进行标准化解析、甄别、清洗、处理和转发,为指挥决策和搜救调度提供实时、精准的数据支撑,保障应急救援工作高效开展;
b) 数据共享功能:支持将实时数据业务、设备运行状态等信息同步至数据容灾备份设备和数据可视化设备,实现数据的双重备份和故障预警能力。
3) 数据交换设备
该设备支持多种网络及数据接口,支持系统内各设备间的数据标准化转换和共享;并搭载网络流量分析模块,支持实时监测各链路的数据传输状态和网络情况,确保数据在高速可靠网络下高质量、低阻塞传输[5]。
4) 数据可视化设备
该设备可将应急信息处理服务器的实时数据生成图表、地图并呈现,同时支持操作者对数据进行查询和导出,并可对各设备的运行状态、链路状态和数据状态进行全局监管和可视化分析[6]。
5) 远端数据容灾备份设备
该设备支持本地数据实时备份、接管、恢复和状态监控能力,采用有线数据传输网络与本地数据容灾备份设备进行实时数据交互,实现本地系统瘫痪情况下对数据进行远程保护和业务接管。
(二) 链路层
1) 共享与备份数据传输:支持共享各设备的运行状态,并支持将服务器数据传输至本地容灾设备和远端容灾设备进行备份。
2) 接管与恢复数据传输:支持在设备故障情况下可通过高速线缆实现本地数据的本地及异地恢复传输及业务接管能力,保障数据高速传输和断点续传。
(三) 数据层
数据层具备数据存储和采集功能,能够实时采集海上各类单元发生的遇险相关的应急数据和各设备间的状态数据,同时可对各类数据进行分类存储和容灾备份。
(四) 应用层
应用层以设备层作为载体支撑,具备收发控制、数据备份、数据恢复、业务接管权限管理、全局管控、状态监测、远端交互功能,基于链路层的传输网络,实现对应急信息的收发控制、业务交互与呈现;同时采用全局监控机制实现对多源数据的恢复、备份情况及链路状态进行本地或异地监控。
3.2.4. 各层子单元之间关系
结合各层子单元功能描述,各个层级之间的关系见图2,首先,应急信息处理服务器产生的应急、状态等数据可实时分发到数据容灾备份设备中进行同步存储,同时数据可在可视化设备中以图表等形式呈现,在服务器发生故障时,数据容灾备份设备可迅速接管数据并存储,并采用标准的协议格式将数据转接至本地或远端备选数据容灾备份设备中,实现数据信息实时接管和安全恢复能力。
Figure 2. Diagram showing the connection relationship of the sub-units of the disaster recovery backup emergency information support system
图2. 容灾备份应急信息保障系统子单元连接关系示意图
4. 容灾备份系统方案对比
本方案下的数据容灾备份系统将操作系统兼容、应用数据处理、数据容灾和实时保护于一体,实时数据同步与高效率保护,可随时验证、演练的本地高效保护功能。最大限度地保护数据的实时性、完整性和一致性,提升信息化保护级别,降低信息化业务在各种意外故障发生时造成的数据丢失的损失,相较于出传统容灾备份设备,其核心优势主要体现以下几方面。
(1) 数据灾备全面应对
不同于传统备份方式,本系统以创新技术消除备份窗口,实时保护所有数据,按需对操作系统、应用数据、数据库数据等数据进行实时镜像、快照和CDP保护,实现关键数据零丢失,最大化数据保护。
(2) 最佳RPO/RTO
面对恶意的程序破坏、文件损毁、人为误删误改、操作系统宕机、硬件故障和网络拥塞等多种情况,本系统可最大程度的保证数据丢失最少(RPO),业务中断时间最短(RTO)。
(3) 数据瞬时接管及任意写入
当系统发送故障时,数据容灾备份设备可以瞬时接管业务,数据库和应用不停顿照常提供服务,实现存储层面的冗余,充分保证系统可用性和数据可靠性。同时基于数据写入操作记录技术,可将业务数据恢复到过去任意历史时间点,完全不同于传统体系的restore回存恢复机制,并且恢复的过程可在瞬间完成(instant recovery)。
(4) 易部署、易操作
本系统数据容灾备份设备接入无需数据迁移,无需改变现有系统结构,简化部署流程。面向恢复的易用图形化设计,界面简单,操作起来更快捷,降低管理容灾保护系统对技术人员水平的要求。
5. 容灾备份联动案例分析
5.1. 联动案例1:本地设备故障
在应急信息处理主服务器发生链路连接、磁盘阵列、存储介质等发送故障时[7],系统会自动触发本地容灾备份机制,通过数据同步镜像功能,实时将当前数据全部接管到容灾备份设备上,并将接管数据作为源数据,备用服务器硬盘作为目标盘,进行镜像恢复,具体流程见图3。
(1) 本地应急接管
本地数据容灾备份设备秒级获取将主服务器最后时刻的数据,实现完整数据的接管和安全存储,确保服务器故障情况下数据无丢失。
(2) 本地数据恢复
本地数据容灾备份设备将数据即时同步恢复到应急信息处理备用服务器,完成主服务器的应急信息业务实时接管工作,整个流程数据恢复无延迟,数据无丢失,有效保障了应急关键信息的安全性和业务连续性。
Figure 3. Emergency takeover and recovery process diagram for the main server failure
图3. 主服务器故障应急接管恢复流程图
5.2. 联动案例2:本地系统瘫痪
在本地应急保障系统整体故障瘫痪案例中,系统会自动触发远端容灾备份机制,具体流程见图4。
(1) 远端应急接管
远端数据容灾备份设备通过跨地域专用传输链路,通过“一键切换”工具,快速获取本地系统最后时刻应急数据,实现数据的无缝接管与安全存储。
(2) 远端数据恢复
远端数据容灾备份设备将接管的数据同步至远端数据存储模块,完成本地业务的异地接管工作;在该场景下,基于远程系统的容灾备份高效稳定传输、业务切换无感知能力,有效确保在本地系统瘫痪情况下的海上应急救生工作顺利开展。
Figure 4. Data process flowchart for local emergency information support system
图4. 本地应急信息保障系统瘫痪数据保护流程图
6. 结束语
本文针对传统岸基应急救生保障系统在数据保障方面的不足,提出了容灾备份应急救生保障系统设计思路,该系统方案通过本地和远端双重容灾备份设计和多层数据处理和数据备份恢复机制,可有效改善主从设备故障和本地数据保障模式全域瘫痪等导致关键数据丢失的问题,保障系统在应急情况下的数据安全性和业务连续性。
在实际应用中,该系统可根据不同的海上应急救援场景和需求进行灵活配置和扩展,为海上遇险人员生命安全保障和海事应急决策提供了有力的技术支撑。未来,可进一步研究基于人工智能的容灾备份策略优化和智能数据恢复技术,不断提升系统的智能化水平和应急保障能力。