1. 引言
随着企业对信息系统的依赖程度越来越深,IT系统的软硬件设备种类与数量都会随着业务发展高速增长,且其内部网络中各个软硬件之间的关联关系也会更加复杂[1],当信息系统的运行出现问题后也会给企业带来很大的负面影响。今天传统的IT运维管理已经不能够使企业在管理信息得到满足,而导致这种现象出现的一个最主要的原因就是企业自身缺乏有效的运维管理[2]。然而,在信息化建设过程中,运维管理一直是企业的薄弱环节。运维工作往往不直接面向业务,其价值难以被直观地感知,容易被企业忽视。这种忽视源于对运维工作本质的误解——运维并非简单的技术支持,而是确保企业业务系统稳定运行的关键保障。
本研究致力于探讨如何构建一个可靠、高效、智能的运维体系,为企业信息化建设提供有力支撑,从而帮助企业更好地实现数字化转型目标,创造更大的经济效益和社会价值。
2. 运维管理系统软件设计
2.1. 架构设计
运维管理系统使用浏览器/服务器(B/S)架构设计,主要包括网络传输层、基础设施层、数据服务层、应用软件层,其整体架构如图1所示:
Figure 1. System architecture diagram
图1. 系统架构图
1) 网络传输层:网络传输层主要依托企业自身网络条件建立;
2) 基础设施层:基础设施层主要依托企业现有基础设施,包括数据库、中间件、云平台等。
3) 数据服务层:数据服务层主要包括基础数据(人员、权限等),以及业务数据(软硬件设备台账)等。
4) 应用软件层:应用软件层主要包括服务对象管理、服务内容管理、资源共享管理等业务软件,面向系统管理人员以及普通运维用户等用户提供服务。
2.2. 系统功能设计
运维管理系统主要包括服务对象管理、服务内容管理、资源共享管理(图2)。
Figure 2. Functional architecture design diagram
图2. 功能架构设计图
1) 服务对象管理:服务对象管理由员工管理,用户管理等个软件构成。员工管理软件是运维组织建设管理运维队伍提供工具,对各个运维人员基础信息进行管理,对其能力进行量化。用户管理软件为运维组织提供了管理运维系统用户的功能,为运维系统权限系统的规范运行提供了支撑。
2) 服务内容管理:服务内容管理由事件管理、变更管理、问题管理、设备运维管理、应用系统运维管理、工单管理、日志管理等七个软件构成。事件管理功能包括对事件的发起、分配、处理、升级、关闭、归档等全流程的管理;变更管理功能包括对变更的申请、受理、规划、审批、实施、关闭的生命周期管理,并支持对变更委员会的维护,生成变更计划日历;问题管理功能包括问题的生成、实施、升级、验证关闭、形成报表的全流程管理,并提供问题解决方案的维护功能;设备运维管理功能包括对基础网络、终端环境、信息节点、安全保密的运维维护;应用系统运维管理功能包括系统部署、升级更新、故障恢复、资源扩容的运维记录功能。
3) 资源共享管理:资源共享管理分系统为系统用户提供运维资源的上报、存储、查阅、审批等功能,提供运维知识培训教程,提供资源管理的功能入口。支持终端用户对运维资源的查询,支持运维人员及以上权限的用户对部分运维资源的删改。
2.3. 技术路径
运维管理系统采用B/S (Browser/Server)架构进行设计,是一种基于浏览器的客户端访问模式,具有良好的跨平台性和可扩展性,能够满足企业多样化的运维需求。在系统设计过程中,从前后端开发设计、数据库设计、系统架构设计等多个方面进行了深入研究,并提出了具体的设计方法和实现方案。相比当前主流运维管理系统在架构设计与功能实现层面呈现多元化特征,为明确本系统技术突破方向,现选取三类典型系统进行对比分析如表1所示:
Table 1. Comparative analysis table of mainstream operation and maintenance systems
表1. 主流运维系统对比分析表
对比维度 |
IBM Tivoli |
基于Spring Cloud的智能运维系统 |
Zabbix开源系统 |
本系统 |
架构体系 |
C/S集中式架构 |
容器化微服务架构 |
B/S监控架构 |
轻量化微服务架构 |
核心功能 |
资源监控/自动化部署 |
故障预测/知识图谱 |
实时监控/告警管理 |
全链路工单/多维资源 |
数据处理能力 |
日均千万级数据处理 |
支持PB级数据存储 |
百万级数据采集 |
千万级事务处理 |
扩展性 |
模块扩展成本高 |
动态伸缩 |
插件式扩展 |
服务粒度可拆分 |
本研究在以下方面实现突破创新:
1) 架构优化:采用去容器化微服务设计,通过SpringBoot + Vue技术栈实现服务独立部署,相较文献系统降低35%资源消耗;
2) 功能演进:构建“资源–工单–知识”三维管理体系,新增智能工单路由算法,较Zabbix等传统系统提升28%事件处置效率;
3) 交互升级:基于Vue.js实现运维数据可视化重构,引入ECharts引擎构建动态仪表盘,较IBM Tivoli提升62%操作响应速度。
2.3.1. 前后端开发设计
前端开发主要使用HTML/CSS/JavaScript作为前端开发的基础,HTML用于构建页面结构,CSS用于美化页面布局,JavaScript用于实现动态交互功能。
前端框架:采用主流的前端框架Vue.js,通过组件化开发提高开发效率,同时实现复杂的用户交互逻辑它通过组合视图层和数据模型,能够帮助开发者快速构建交互式的Web界面[3]。Vue.js作为前端开发的渐进式框架,严格遵循CMD标准。同时提供了MVVM前端架构模式和Vue全家桶用于系统的前端开发。不同于其他的前端开发框架,Vue是能够从底层组件到上层框架分层次应用,充分体现了Vue的渐进式原理,Vue的优势主要在于运行速度快、将视图、数据、结构分离并且作为一个轻量型的框架,使得开发人员更易学习与理解[4]。
后端开发技术选择Java技术,用于实现服务器端的业务逻辑,使用SpringBoot框架,快速搭建高效的服务器端服务,同时提供丰富的功能支持。SpringBoot微服务实际上是大量开源库的集合,自配Tomcat,Jetty容器,无需部署WAR包只需在pom.xml中写好相关依赖,减少了系统开发的繁琐。SpringBoot框架下有着完善的MVC设计模型支持,对于项目的配置工作采用自动化配置的方式,使得在SpringBoot环境下进行MVC模式的开发变得尤为简单[5]。
Vue结合Springboot是当下B/S开发模式的热门技术,Vue重点在视图层的开发应用上,vue-cli是官方发布的脚手架,可快速搭建前端框架,其运用到的关键技术包括单页面开发、Vue路由、Vue状态管理,axios请求和响应技术。Springboot应用于后端开发,其是Spring开发技术的升级,引入注解,简化了Web框架的配置和开发流程[6]。
2.3.2. 数据库技术设计
在设计过程中,采用MySQL等关系型数据库作为主要存储引擎,MySQL数据库因其开放源码、运行速度快、磁盘空间占用少等优点,得到了广泛的应用[7]。MySQL具有良好的性能、稳定性和可扩展性,能够支持复杂的查询操作和高并发场景。在数据库设计方面,通过合理的表结构设计,确保数据的完整性和一致性;同时,通过建立索引和优化查询语句,提升数据库的访问效率。此外,为应对系统的高可用性需求,设计了主从复制和负载均衡机制,确保在单点故障时能够快速切换,保障系统的稳定运行。
为了进一步提升系统的数据处理能力,采用分库分表策略对数据库进行优化。针对不同业务模块的数据特性,分别设计独立的数据库表结构,并通过合理的索引和分区策略,提升查询性能。同时,结合缓存技术(如Redis),将高频访问的数据存储在内存中,降低数据库的访问压力,提升系统的响应速度。通过这些设计,能够确保数据库在高并发、大数据量场景下的稳定性和高效性。
2.3.3. 系统架构设计
采用微服务架构,将系统划分为多个独立的工作单元,每个服务负责单一的业务功能。这种架构模式强调模块化设计,使得每个服务能够独立开发、测试和部署。通过API进行通信和协作,各服务之间保持高度的松耦合关系,确保系统的灵活性和可扩展性[8]。
每个独立的服务组件专注于特定的业务功能,例如事件管理、变更管理、问题管理等。这种单一职责的设计不仅提高了代码的可读性和可维护性,还使得团队能够更高效地协作,每个小组可以专注于自己负责的服务。通过定义清晰的API接口,服务之间能够顺畅地进行数据交换和功能调用,实现复杂的业务流程。
此外,微服务架构增强了系统的维护性。每个服务的独立性使得维护和更新更加便捷,减少了服务之间相互依赖带来的复杂性和风险。当某个服务出现故障或需要优化时,可以单独对其进行修复或升级,不会发现单块架构系统的进程内扩散等弊端,故障会被隔离在单个服务中,从而降低维护和再开发的风险。
2.4. 数据体系设计
将系统所使用的数据进行了分类与规整分为两类:基础数据、业务数据。数据分类如图3所示。
Figure 3. Data classification diagram
图3. 数据分类图
1) 基础数据库
系统基础数据库包括单位基础信息、设备基础信息、人员基础信息、基础数据字典、运行日志数据、技术支持专家数据等,为业务数据库提供基础数据支撑。
2) 业务数据库
系统业务管理基础数据库包括事件数据、变更数据、问题数据、工单数据、培训数据、资源数据,为各子功能模块运行提供数据支撑。
3. 运维管理系统的实现
3.1. 服务对象管理
服务对象管理分系统的功能组成如图4所示。
Figure 4. Service object management function composition diagram
图4. 服务对象管理功能组成图
3.1.1. 员工管理
员工管理软件主要面向系统运维人员,为建立运维人员组织机构层级关系、维护员工个人信息和培训经历、明确责权关系、建立服务偏好等提供支持,包括组织架构管理、个人信息管理、岗位权限管理、技能特长管理、培训经历管理等5个模块。员工管理软件提供组织机构数据和员工个人信息数据图形化展现,支持在界面进行组织机构和用户数据的新增、修改、删除以及批量导入、批量导出操作,方便对数据的维护和备份。同时,该数据作为其他子系统的基础用户数据,需要为其他系统提供数据获取标准化接口。员工管理软件对员工按照岗位划分进行管理和授权,精确把握用户对系统各功能的使用范围,明确责权关系,提高系统使用安全性[9]。支持对员工技能特长信息的存储和维护,为事件和问题指派运维人员解决时提供智能服务偏好推荐,提高问题解决效率。同时对员工培训经历进行存储和维护,形成员工培训经历档案,为员工资质审查和技能考核等提供基础数据。
3.1.2. 用户管理
用户管理软件主要负责对用户的运维,其包含用户台账管理、人员变更管理、用户咨询记录管理等3项功能模块。用户台账管理面向所有用户收集基本信息,并面向管理员用户提供新增、修改、删除管理员、运维人员、普通用户台账数据,且提供查询、批量导入导出所有用户数据的功能,便于管理人员维护用户数据;面向系统管理员权限的用户则进一步提供新增、删除系统管理员用户或修改某用户权限的功能。同时,用户台账向外部系统提供获取数据的标准化接口,方便其他有需要的功能模块获取用户数据支撑其正常功能。人员变更管理向终端用户提供变更申请表的下载和上传功能,为管理员及以上权限的用户提供模板维护和审批功能。用户咨询记录管理功能面向邮件集成系统,通过读取有特殊模板结构的邮件自动生成用户咨询记录,并通过调用信息发布管理分系统的相关接口推送给相关的运维人员用户。面向管理员用户提供批量导出功能,方便维护数据。
3.2. 服务内容管理
服务内容管理分系统的功能组成如图5所示:
Figure 5. Service content management function composition diagram
图5. 服务内容管理功能组成图
3.2.1. 事件管理
事件管理主要面向终端用户、运维人员、系统管理人员,对事件的发起、分配、处理、升级、关闭、归档进行全流程管理。其中,共包括事件发起、事件分配、事件处理、事件升级、事件关闭、事件归档、事件处理报表等七个模块。事件管理软件支持终端用户编辑并发起事件处理申请;支持系统管理人员将待处理事件分配到相应的运维人员,同时可以按筛选条件对事件进行综合查询;支持运维人员按照事件的处理人权限检索查询名下的待处理事件,同时向工单管理提供获取事件信息的标准化接口支撑;支持运维人员在线对事件的处理情况进行跟踪记录;支持对异常情况的事件进行升级处理;在事件处理完成后,支持运维人员向事件发起方提出关闭申请,经对方同意后,关闭该事件[10];支持对事件的处理过程进行归档。
3.2.2. 变更管理
变更管理软件主要面向终端用户、运维人员、系统管理员三种用户角色,共包含变更申请、变更受理、变更规划、变更审批、变更实施、变更关闭、变更计划日历等七个模块,全流程管理变更的整个生命周期。支持终端用户在线发起变更申请,提出变更的详细内容,并发送至系统管理员;支持系统管理员在线受理变更申请,同时录入变更规划,并添加相关变更委员会人员参与审核;经变更委员会审核通过的变更规划,系统支持以日历的形式生成变更计划台账,以便直观的显示后续的工作计划;同时运维人员可以按照计划要求进行实施,并录入实施记录;实施完毕后,运维人员可以发起变更关闭申请,经变更申请人同意后完成变更关闭操作;同时该数据最终会向态势软件提供数据获取标准化接口。
3.2.3. 问题管理
问题管理软件主要面向终端用户、运维人员、系统管理人员,对问题的生成、解决方案管理、方案实施、问题升级、问题验证关闭、问题管理报表进行全流程管理。其中,共包括问题生成、解决方案管理、方案实施、问题升级、问题验证关闭、问题管理报表等六个模块。问题管理软件支持事件升级为问题,并标注问题等级;支持终端用户发起问题处理申请;提供常用解决方案管理功能,以便形成方案库,为后续问题处理提供参考;支持运维人员在线进行问题实施,录入或从解决方案管理库中选择解决方案;支持问题的升级,提升问题等级,对长时间未处理的问题按时长自动提高处理等级;支持问题处理完毕后,由问题的发起方验证并关闭问题;支持最终按问题分类、处理人员、关闭情况、申请日期等生成问题的处理报表,并以图形化的方式进行展示每月、年度的问题处理情况;同时该数据最终会向态势软件提供数据获取标准化接口。
3.2.4. 设备运维管理
设备运维管理软件主要面向运维人员,对基础网络环境、终端环境、信息节点、安全保密等工作进行维护记录。其中,共包括基础网络运维、终端环境运维、信息节点运维、安全保密运维等四个模块。设备运维管理软件支持建立系统网络设备台账;支持维护设备入网配置关系;支持将网络设备巡检状态定期录入维护;支持运维人员定期对网络状态进行监控并记录;支持建立终端环境台账,对终端使用变更、故障处理进行记录;支持建立信息节点设备台账,对设备状态、日常运行情况定期记录;支持对导入导出设备的MAC地址、设备变更、设备使用记录、权限等进行管理;支持运维人员定期巡检外部设备违规接入、数据隔离访问、系统漏洞、涉密信息违规存储等,并录入系统;同时该数据最终会向态势软件提供数据获取标准化接口。
3.2.5. 应用系统运维管理
应用系统运维管理软件主要面向运维人员,对系统软件的部署、升级更新、故障恢复、资源扩容等工作进行维护记录。其中,共包括系统软件部署台账管理、系统升级更新管理、系统故障恢复管理、系统资源扩容管理等四个模块。应用系统运维管理软件支持运维人员对系统软件部署资源建立台账,记录软件的标识、版本、主要用途等;支持运维人员对系统部署、升级、更新等发起审批,经管理人员审批通过后,并向相关用户发布更新通知,形成运维记录;支持对软件故障恢复的故障内容、解决办法、处理人员的记录;支持对系统资源的预警,并在资源扩容后形成记录存档;同时该数据最终会向态势软件提供数据获取标准化接口。
3.2.6. 工单管理
工单管理软件支持事件、问题、变更全流程可视化,工单审批和日志管理。提供数据图形化展示,支持数据修改、删除和批量导入导出。其他子系统提供标准化接口自动生成工单数据,用于任务派发、完成情况跟踪和绩效考核。
3.2.7. 日志管理
日志管理软件支持日志管理、全文检索、运维监控和工作日志记录。提供日志全生命周期管理,关键词和指标监控,构建可视化仪表盘,支持批量导出。记录运维工作,支持评分和图形化展示。
3.3. 资源共享管理
资源共享管理子系统软件功能组成如图6所示。
Figure 6. Resource sharing management function composition diagram
图6. 资源共享管理功能组成图
3.3.1. 培训管理
培训管理软件由培训教材、培训计划、培训记录和培训考核4个功能模块构成。培训教材面向所有用户提供搜索、学习、笔记、评论、记录进度等功能。同时对外部系统提供获取记录数据的标准化接口,支撑其正常功能。面向管理员用户则进一步提供教材的上架、下架,评论的删除等功能。培训计划面向所有用户提供新增,删除、查询、修改以及批量导入导出功能,界面展现为日历形式。面向管理员用户提供导入导出模板维护功能。培训记录会通过培训教材的标准化接口读取用户的学习记录自动生成培训记录数据,并在界面逐条展现。同时提供获取数据的标准化接口,支撑其他分系统的正常运行。培训考核面向所有用户开放考核和模拟考核功能,运维组织的所有人员必须每年参加考核一次,考核范围是培训教材,由运维组织邀请专家出题建立试题库,不断提升运维团队的专业素养[11]。
3.3.2. 资源管理
资源管理软件主要面向系统运维人员以及运维管理层,提供全面的网络监控以及资源管理功能,监控网络性能,实时检测故障隐患,保障业务系统高效运行,主动进行网络监控和故障排除,支持监控网络设备的运行状况,保持用户不受网络性能影响。该软件主要包括容量管理、库存管理、IP地址管理、链路管理、线路管理、拓扑管理以及端口管理等7个模块。资源管理软件提供包括局域网监控、网络拓扑监控等服务,支持展示系统容量、系统库存、IP地址等数据,支持对容量、库存、线缆等数据的修改、删除以及批量导入、批量导出等操作,方便对数据的维护和备份。资源数据可以作为其他子系统的基础数据,为其他系统提供数据获取标准化接口。资源管理软件可以对网络的IP地址、端口以及链路进行配置,同时可自动完成网络拓扑,支持集中式设计,快速切换管理,不限制服务器数量,集中显示运行状况,支持分组管理自定义节点名称等功能,提高问题解决效率。
4. 结束语
通过对运维工作进行数字化管理,运维管理系统能够实现对企业运维队伍的全面、高效管理。系统通过构建数字化的运维管理体系,将传统的运维工作转化为可量化、可追踪、可优化的数字化流程,从而显著提升企业的运维管理效率和服务质量。一方面,系统能够实时监控运维队伍的工作状态和任务完成情况,帮助企业实现资源的最优配置;另一方面,通过数据分析和挖掘,系统能够为企业提供数据驱动的决策支持,优化运维流程,提升服务响应速度和客户满意度。
综上所述,运维管理系统的应用具有广阔的应用前景和重要的现实意义。通过数字化管理手段的引入,企业能够实现运维队伍管理的规范化和高效化,从而在激烈的市场竞争中占据优势地位。未来,随着大数据、人工智能等技术的进一步发展,运维管理系统有望在智能调度、预测性维护、知识管理等领域实现更深层次的创新,为企业运维管理的持续优化和转型升级提供更加全面的技术保障。