1. 引言
《“十四五”国家应急体系规划》中提出推进自主可控核心技术的应用,建设新一代智能运维体系和信息网络安全体系。在国家政策和数字化转型浪潮的推动下,行业软件定义运维平台作为支撑数智经济发展的关键基础设施,正面临着前所未有的挑战和机遇[1]。当前网络运维智能化存在业务需求多变、场景分散建设、共性问题突出、智能化开放程度低、自研支撑能力差、网管体系匹配低等问题[2],严重制约网络运维的智能化水平和运维效率[3],增加运维成本,影响企业的数字化转型进程。因此迫切需要一个高质、智能的行业软件定义运维平台。
国内网络运维运营系统已经有二十多年的建设历程,为提升运维效率不断地优化迭代;而此过程中也存在架构缺少前瞻性、系统内部紧耦合、场景建设分散、系统开放性不高、智能化水平低、业务需求多变、自研支撑不足等问题;本研究以2 + 5 + N架构为依托,积累运维过程中的海量数据、业务系统能力,以平台化、体系化方式沉淀运维能力、流程、工具,结合AI技术,形成网络运维知识沉淀[4],并借助AI算法、自动化执行手段实现对网络的智能化运维和业务的敏捷化运营[5]。针对业务应用中常用的场景设计、业务感知、运维方案设计、方案验证、自动化实施和业务优化六类业务环节编排自动化运维流程[6],形成运维闭环管理,实现网络事件的端到端业务全流程控制[7]。从模型、能力、策略、流程和应用五大要素出发逐层搭建运维场景[8],提供低代码编排设计能力,降低运维支撑系统的开发门槛[9],减少开发成本,提高网络运维的自智等级。
2. 研究背景
通信网络作为支撑数智经济发展的关键基础设施,自身正处在云化、软件化的转型发展浪潮之中。通信网络的新技术与现代人工智能技术的两相契合带来了网络智能化技术的新发展[10],加速了以自动化、智能化为特征的自智网络的建设步伐[11]。目前,中国联通参考TM Forum自智网络框架,基于市场需求和技术发展,定义了中国联通自智网络目标架构。该架构以“单域自治、跨域协同”理念为指导,围绕“应用层–平台层–网络层”构建自动化、智能化能力,实现运营支撑系统规划与网络能力升级,牵引中国联通自智网络演进,支撑愿景目标实现。
自智网络以自动化与智能化为核心特征,以实现通信网络提质增效、赋能行业数智化升级为目标,是5G及未来通信网络与人工智能深度融合的显著发展趋势。通过构建网络全生命周期的自动化、智能化运维能力[12],为网络服务的客户提供“零等待、零故障、零接触”的极致业务体验为网络生产一线打造“自配置、自修复、自优化”的高效运维手段[13]。自智网络将AI技术与通信网络的硬件、软件、系统等深度融合[14],助力使能业务敏捷创新、网络运营智能、构建智慧内生网络[15]。
5G、NFV、SDN等网络技术以及运营支撑技术快速发展,网络协同错综复杂、业务需求日增月盛、运维保障质效并重等特点也逐渐显露;在网络运营支撑方面,智慧中台的理念与框架内的系统建设也日均完善[16];而如何用好中台所赋予的能力,让整个网络业务共同协作是当前面临的重大问题,也是跨域协同急需解决重点问题[17]。为降低运维转型的复杂度,实现中台能力面向运维工作的赋能[18],构建行业软件定义运维平台,是当前运维域迫切的需求。
3. 市场竞争力分析
传统设备厂商,比如华为的OWS,是华为自主研发基于微服务架构的云化运维Web服务,基于微服务的架构将IT和业务解耦,以开源、可编程的模式来实现覆盖ICT网络的实时、按需的运维管理。OWS主要包括ICT网络端到端的监控处理、大数据分析对接、基于DevOps模式的架构设计以及全球开发者生态的建立。OWS平台通过微服务架构和元数据驱动的机制,支持Low/No Coding的配置式开发,帮助运营商、企业无代码开发经验的运维人员,掌握华为OWS自动化/智能化云运维平台的APP开发技能。
IT行业软件与应用开发商,比如明道云、简道云等。平台集合了页面设计、业务规则定义、数据收集与分析三大核心能力,用户通过简单的拖拽、配置,即可完成业务应用的搭建。同时,平台还具备一次搭建双端适配、权限独立设置、定制消息提醒推送及海量信息存储等特性。
行业软件定义运维平台,充分发挥浪潮在运营商网络领域深耕二十多年的经验积累;以自身在2 + 5 + N网络架构下建设的业务能力、运维流程、自动化智能化实践为沉淀。满足运维场景下生产需求多变、用户自研场景增加等情况。
4. 平台相关技术
4.1. 平台技术架构设计
行业软件定义运维平台遵从“微服务架构组网、微服务管控平台统一管理,能力与应用解耦”的建设原则,基于微服务的技术架构、容器、CI/CD、DevOps等云原生技术手段,实现系统高并发、高可用、高性能、高智能。如图1所示,为该平台技术架构图。
4.1.1. 微服务架构
行业软件定义运维平台采用了微服务架构,旨在提高系统的可扩展性,容错能力,实现系统的高并发、高可用和高性能。微服务架构通过将大型复杂的系统分解成一系列更小、松散耦合的服务单元,使得每个服务都能够自主部署、伸缩和升级,从而提升系统的整体灵活性和维护便捷性。
4.1.2. 数据存储与处理
行业软件定义运维平台,运用时间处理机制解决数据乱序问题,提供面向多用户的分布式搜索引擎,解决了面对上亿规模数据时关系型数据库数据索引更新不及时、资源占用率高、数据操作超时等问题,能够快速高效处理大量实时数据,确保数据处理的及时性、准确性和完整性,支撑智能运维的数据基础。
Figure 1. Platform technical architecture diagram
图1. 平台技术架构图
(1) Kafka消息中间件
本平台使用kafka作为分布式消息队列,实现大数据量实时处理能力,采用Kafka进行不同系统组件之间以及系统内部消息转发。
(2) Flink实时流式处理集群
随着数据的不断增长,人们逐渐意识到对实时数据处理的重要性。相对传统数据处理模式,流式数据处理有着更高的处理效率和成本控制要求。所以,本平台采用Flink流式处理框架来构建业务处理引擎,结合Flink的高容错、高并发、高吞吐量等框架特性建设Flink告警流处理,实现业务处理的实时性、准确性、完整性等要求。
鉴于本平台处理的数据具有低延迟的特性,同时由于并发系统的自身特点,很多数据都是乱序的,Flink能够利用特有的时间处理和watermark机制解决数据乱序问题;在对告警处理中间过程、临时计算结果的存储问题中,Flink通过自身的状态保存机制进行解决;Flink通过时间窗机制为实时数据处理提供灵活的窗口函数,使告警关联和统计等逻辑可以通过时间窗的方式进行有效处理,而其Exactly-once状态一致性保证和checkpoint机制则确保数据处理的准确性和可靠性,从而为告警系统的准确性提供坚实的基础。综上所述,本平台采用Flink流式处理对数据进行实时处理。
4.2. 平台产品架构设计
行业软件定义运维平台基于2 + 5能力中心,构建设计态、运行态分离的平台化产品,支持业务场景的自定义,快速拉通已有业务平台的能力,支撑运营商客户业务级的自研、低代码及无代码的自研,实现自动化场景的规模化复制。如图2所示,为该平台产品架构图。
4.3. 智能运维技术
浪潮通信信息突破对智能运维领域的可视化流程编排、业务隐患识别、自定义运维、网络故障诊断等技术,推出浪潮行业软件定义运维平台。该平台通过提升中台能力、推动运维知识化,解决了运营商网络多种运维场景难以快速实施和智能问题处理的挑战。使中台能力能够为运维工作提供支持,全面推动自智网络等级的快速提升。
Figure 2. Platform product architecture diagram
图2. 平台产品架构图
4.3.1. 可视化流程编排技术
传统流程编排中,经常面临平台技术支持度不足、流程控制不清晰、业务流程变化频繁等问题,不仅降低了工作效率,还增加了项目风险。
本平台突破可视化流程编排技术,采用双层定向无环图、特定节点多层嵌套技术搭建低代码编排平台;业务流程采用由左向右的定向结构,业务处理流程清晰可见,避免出现循环情况;采用可关联数据链技术实现数据的跨节点传递共享关联过滤,实现前向节点的数据可见;避免层层传递造成的接口数据负担。运维策略全过程可视化编排,采用低代码、零代码方式实现运维业务流程的设计;通过编辑节点、连线的逻辑关系控制运维流程走向,有效解决业务需求多变问题。运用在线设计、在线编排的能力,面向故障自动化、智能化场景的建设提供先进的技术手段。可视化流程编排技术如图3所示。
Figure 3. Visual workflow orchestration technology
图3. 可视化流程编排技术
4.3.2. 业务隐患识别技术
传统的业务隐患识别是通过指标是否越限进行判定,用户设定固定的门限值,固定门限的设定为一刀切式判定,不会区分客户的差异性,因此会造成空闲类业务异常发现不了,忙碌类业务经常异常的情况。
平台借助深度学习、机器学习等AI手段,发现网络、业务运行中存在关联性,提前发现网络中存在隐患。以设备性能、业务性能数据为触发,结合拓扑、告警、日志及拨测等数据,建立业务的特征信息;算法上融合CBLOF、LOF、孤立森林、OneClassSVM、随机森林、LightGBM、支持向量机等多种异常检测及分类算法,建立投票模型识别业务劣化。并利用现网中大量的运维数据进行评估调优。解决了单算法对业务支持度有限、业务更新导致的算法失真问题;隐患识别技术实现流程如图4所示。
Figure 4. Hidden danger identification technology implementation process
图4. 隐患识别技术实现流程
4.3.3. 自定义运维机器人技术
传统人工坐席式调度方式运维效率低,难以应对复杂多变的业务挑战,同时无法提供实时支持全天候服务,且缺乏自动化和智能化支持。为克服这些限制,生产中常常要按需定制机器人,如:信息播报机器人、巡检机器人、任务提醒机器人、设备运行状态机器人等;解决场景杂、专业强、重复高、系统多等问题。平台通过引入多种机器人,满足不同场景、不同人员的需求,提升工作效率。机器人工厂使用编排定义交互操作,使用方案编排定义供应能力;实现通过平台拉通各个应用系统能力,提升系统信息的通透性。自定义运维机器人技术实现流程如图5所示。
4.3.4. 网络故障诊断预测技术
业务故障发生时,由于网络间的设备是互相影响的、而网元设备发生的故障也是互相影响的。所以在故障诊断过程中需要基于网元设备的拓扑结构数据构建影响的局部区域子网的网络片段。但是故障是随着网络结构变化或业务承载情况而不断变化的,固化的诊断方案在定位时会存在较大误差。
平台引入基于知识图谱逐级融合与多决策整合的网络故障诊断策略和基于知识图谱实时演化和多任务学习的网络故障预测策略。通过融合多源数据,提取多维度特征,逐级构建知识图谱,利用逐级融合的知识图谱进行不同维度的故障诊断决策,并通过多决策整合形成最终故障诊断结论,实现网络故障诊断的智能化和自动化,大幅提升故障诊断的准确性,增强系统适应性。
Figure 5. Customized operations and maintenance robot technology implementation process
图5. 自定义运维机器人技术实现流程
5. 平台实现与应用场景
业界率先提出软件定义运维的理念(SDO),实现理念的产品化;为运维人员提供意图设计的能力,构建运维工作从WHAT到HOW到DO的引擎平台,降低运维转型的复杂度,实现中台能力面向运维工作的赋能事件监控,聚合多维数据,软件定义运维过程;支撑事件监控、一键容灾、智能运维等运维场景。
行业软件定义运维平台面对不同的运营商、政企客户,为运维软件的设计、开发、部署、验证和保障提供平台化的产品。通过平台化的产品打造意图引擎,充分使用中台提供的能力,支撑运营商网络“规、建、维、营、优”的业务场景快速落地,通过运维全要素的知识化驱动,支撑未来算网全业务运营和全流程保障。平台打造SDO智能工厂,引领软件定义运维运维新模式,打造运维场景端到端编排设计能力;结合运维场景编排设计实现原子能力抽取、沉淀、开放,不断沉淀运维资产,增强智能工厂平台价值;实现故障识别、故障定界、健康度评估、隐患识别等典型AN L4能力,提高运维智能化水平。
平台从场景设计、业务感知、意图设计、方案验证、自动化实施和业务优化六类业务环境编排自动化运维流程,形成运维闭环管理,实现网络事件的端到端业务全流程控制。面向运维工作,平台具备了大量的场景和能力,如:事件监控、隐患识别、故障处理、自动备份、一键容灾、智能运维、自动值守、自动部署等;面向运维人员,提供了机器人工厂,为运维人员定义自己的运维机器人提供生产车间。
平台从模型、能力、策略、流程和应用五大要素出发逐层搭建运维场景,提供低代码编排设计能力,降低运维支撑系统的开发门槛,减少开发成本,提高网络运维的自智等级。
5.1. 网络事件监控
行业软件定义运维平台以网络事件为对象,以可视化网络拓扑为载体,有效关联告警、性能、资源、投诉、工程操作等多维监控数据,通过固化专家经验和应用AI算法,实现故障的自动识别、定界,业务影响的自动判断,提升网络的自动驾驶等级。
5.2. 机器人工厂
机器人工厂以“人–机”协同沟通平台为中心,通过设备巡检、故障处理、专业装维等各类机器人类脑思考和AI算法,对接后台各种运维服务,仅通过孵化机器人、创建团队、加入团队三个环节就可以完成智能运维机器人从研发到投入生产。
行业软件定义运维平台可对家宽业务装机问题、IPTV故障、宽带故障、OTT故障、数据配置等问题进行智能回复与处理,支撑家客装维、故障处理、运维巡检、汛期保障等多种运维场景。
5.3. 一键容灾
5G核心网相比传统移动通信核心网,有大容量、高度集成的特点,一旦核心网设备发生故障,会对网络服务质量带来很大影响,实时检测核心网设备运行状态,对核心网严重故障及时做容灾倒换是保证业务稳定运行的重要手段。行业软件定义运维平台搭建一键容灾应用,提高执行容灾操作的效率,助力自智网络等级快速提升。
6. 实际应用与效益分析
6.1. 应用场景介绍
行业软件定义运维平台已在北京、山东、江苏、湖南、重庆、海外等多个运营商的网络运维中应用,支撑实际的业务生产。例如北京移动故障能力层项目,平台底层接入能开多维能力,通过运维流程编排、场景事件监控、调度流程可视串通故障业务处理全流程,实现故障运维场景端到端全生命周期的自动化、智能化的网络运维能力。通过平台部署,北京移动实现了分钟级故障根因、故障网元和影响范围的快速定位,缩短故障定位处理时长,减少线下人工查询的操作环节,提升运维效率。平台在重庆移动核心网项目中,将5G业务端到端诊断过程的能力进行抽象,通过平台编排生成诊断业务流程,满足物联网、互联网电视等场景下的诊断分析,建设基于APN/客户维度监测手段,形成故障主动监控预警的能力,实现物联网故障预警和响应、定位,提升了客户满意度。本平台在事件监控、机器人工厂、物联网业务端到端诊断、一键容灾、一键备份等多个场景已成功应用,并在其中展现强劲的技术实力,进一步体现平台的优势和实际效益,突显平台在多样化场景中的灵活性和适用性。
6.2. 效益分析
本平台在北京、山东、湖南、重庆等地运营商客户的网络运维中应用,运维效率提升50%以上,市区域级网络通信故障定位时长由2~3个小时缩短至5分钟以内,帮助客户大幅降本增效。客户的运维专家可深度参与网络运维能力建设,运维平台的自研率可提高至40%,差异化满足不同客户的需求,具备较强的普适性,从而可应用于多行业,为广大政企客户的网络运维提供强有力的技术支持。
围绕自动驾驶网络、业务应用自研、客户自服务等业务需求,提供行业软件定义运维平台,适配运营商运维业务,解决用户自研、低代码开发、业务快速上线迭代等需求,除了支撑运营商运维外,还可以拓展至专业公司、能源、交通、科教、制造、特种等行业市场。帮助行业做到业务沉淀,提高生产效率和质量,推动产业升级。
7. 结论与展望
本研究通过构建和应用行业软件定义运维平台,见证了平台在提升运维效率、降低成本、增强系统可靠性和安全性、支持业务决策、促进数字化转型、提升客户体验以及适应复杂环境等方面的巨大潜力。平台在多个运营商和运维场景的成功运用表明,智能运维平台正成为企业数字化转型的关键驱动力。
未来,浪潮将继续围绕网络智能化加强技术创新,帮助更多政企客户构建更加高质、智能、绿色的网络,助推新质生产力发展,为数字经济高质量发展贡献浪潮力量。
基金项目
泰山产业领军人才项目(tscx202312006);山东省博士后创新项目(SDCX-ZG-202400307)。
NOTES
*通讯作者。