1. 引言
企业IT运维管理往往面对着企业复杂的业务模型与管理功能驱动下的多功能集成的需求,所生成的应用软件系统的结构复杂且灵活性较差,无法适应企业业务流程的快速变化与需求的动态变更,其滞后性往往需要通过软件产品定制升级或系统补丁的方式来解决 [1]。特别是在网络与大数据环境下,企业决策越来越依赖于信息系统,信息系统发生故障所带来的负面影响也越来越大 [2],缺乏有效的IT运维管理已成为保障信息系统应用效果的关键因素,如何快速、及时地针对企业管理系统中出现的故障和问题进行有效地分析以及方案解决已成为企业迫切的管理需求。
信息技术基础架构库(ITIL, Information Technology Infrastructure Library)最早由英国CCTA (中央计算机与电信管理中心)在20世纪80年代提出,并经过多年的改进与优化而逐步形成的一套IT服务管理标准和规范 [3]。本文针对陕西省烟草商业企业工作的实际需求,通过梳理IT资源类别和运维管理工作流程,运用ITIL方法建立面向烟草商业企业的IT运维管理平台,并通过该平台的应用显著改善信息中心IT运维工作现状,简化工作流程、降低工作强度,实现IT运维信息化、标准化和痕迹化的有效管理。
2. IT资源以及ITIL管理的核心逻辑
定义1:IT资源是指为支持管理决策业务所涉及到的各种与信息化管理相关的资源要素,这些资源要素主要包括了:软件、硬件、网络以及人力等四个方面的核心资源,可形式化地表示为:
(1)
其中,SA是企业中所有软件资源所形成的集合,即
,且
表示属于第ki个分类下的第n个软件资源,且软件资源的主要分类包括:驱动软件、补丁软件、应用软件和系统软件这四种主要类型,同时,利用不同类型的软件资源所生成的数据也同步形成了企业的核心资产,同时,这些涉及到企业业务过程的大数据资源,也是IT运维管理过程中核心的管理对象。
HW是指企业中所有IT硬件资源所形成的集合,即
,且
表示第Ti个分类下的第m个硬件资源。一般地,企业硬件资源主要分为:移动终端、主机和服务器三大类,且不同类型的硬件资源不仅为企业软件资源提供了必要的基础载体;此外,硬件资源还包括了相关的配件资源,这些资源构成了企业的核心固定资产资源,并成为了IT运维管理所涉及的核心业务对象。
NW是指企业中所有的网络资源所形成的集合,即
,且
表示第Wi个分类下的第F个网络资源。一般地,网络资源主要包括:无线设备、网线以及交换设备(如交换机和路由器)等三大类,从而利用这些网络资源将硬件与软件资源有机地整合到了一起,为企业的IT运维提供了基础的运行环境保障。
PW是指企业中与IT运维业务中所涉及的人力资源所形成的集合,即
,且
表示第Ri个分类下的第u个人才资源。一般地,人才资源的主要也可以分为:企业用户、IT运维人员、IT管理员这三大类,考虑到不同类型的人员所具有的不同的职责与权限,可以实现或区分他们对不同IT资源的使用能力与状态,并从操作过程中获得所存在的问题或者异常事件,从而进一步来触发IT事件的管理与管理过程的动态交互。
为了有效地将IT资源进行协同管理,ITIL从事件出发,将运维全过程分解为:服务支撑以及服务提供两个方面。其中,服务提供过程的核心在于定义服务质量的水平(SLA),从而确定需要达成的服务目标;而服务支撑则是为了达到服务质量的目标,通过服务台(Service Desk)所获取的各类用户事件来驱动整个IT运维过程的管理。例如,在问题管理的过程中,一方面,利用已有的服务资源对问题进行总结以及解决方案的呈现;另一方面,通过在问题的基础上进行变更控制,同时进行系统更新与问题解决,从而实现系统版本的统一升级。这种基于事件驱动的问题处理方式中,解决方案库的完备性与业务过程的管理规范程度将直接决定了服务的质量与效果,ITIL整体服务框架如图1所示。

Figure 1. The support process of ITIL service
图1. ITIL服务支持过程示意图
3. 基于ITIL的应用元模型
ITIL模型本质上是将IT资源在业务过程中进行管理优化的一个动态策略和过程,即在优化IT资源的基础上,达成IT服务水平的提升。因此,结合IT资源的形式化概念,本文提出了一个ITIL元模型的基础概念:
定义2:ITIL元模型是由运维管理资源模型、运维过程模型以及运维服务模型三个子模型构成的企业应用体系结构模型。它可用
三元组来形式化表示。其中R、P、S分别表示运维管理的资源模型、运维过程模型和运维服务模型,且运维管理的资源模型R如定义1所描述。
定义3:过程模型(Process Model)通过对IT运维业务过程的进一步抽象,形成了以服务台为中心,以配置管理为基础的事件触发、问题识别、需求变更和版本发布的一个完整的业务过程管理体系。
其中,事件触发是指用户针对IT系统运行过程中突然出现的服务质量下降或是服务中断等的突发事故进行报告,并触发的事件记录与响应过程。在用户个人信用的保障前题下,通过对故障事件进行初步分析调查,抽取出相关的问题,并针对问题进一步利用知识库中的知识项来辅助进行故障问题的诊断、解决处理和故障恢复,最终实现对用户所确认的故障事件进行完整的修复为止,整个事件处理流程在不同类型的人员协作下,在服务水平协议SLA的要求下,在尽可能的最短时间内解来决并恢复中断的服务,并提高系统的可靠性水平以及用户的满意度水平。
由于用户现场所暴露出来的各种事件,具有突发性和表面性,可能隐藏着背后的根源。因此,针对事件中的核心问题抽取和识别,则是问题管理功能中需要解决的关键性问题,即从事件发生的现象到对事件发生的问题根源的挖掘,结合知识库来形成针对性的解决方案。因此,整个过程往往从问题的识别开始,经过对问题的分类和诊断,一方面与知识库建立连接,从中直接获取相应的解决方案;一方面在知识库无法有效提供方案时,可以进一步与专家资源进行在线请求与沟通,实现问题的解决,同时将解决方案进一步优化到知识库中,从而对整个IT服务提供闭环的管理与支持能力。
由于基于知识库的问题发现以及解决方案匹配为IT运维服务过程的优化与变更提供了新的机制,为适应硬件环境和系统软件变化所引发一些新的故障或问题,往往也会需要对IT运维管理过程中所涉及到的设备性能检测与调优进行管理,其中包括了:软件的启动项、资源服务项以及软件系统的安装和卸载等管理过程中的局部特征的修改与优化。这也为整个IT运维系统的管理升级提出了新任务,因此,变更

Figure 2. The core structures and interactive relationship of ITIL meta-model
图2. ITIL元模型的基本结构与内部交互关系示意图
管理是在问题管理的基础上,针对从事件中所发现的问题导致原来服务内容进行变更记录与任务的分派,通过对变更项的更新与迭代,实现系统的自我更新与优化,所完成变更的新版本通过版本管理过程来进行发布与记录,从而提升了IT运维的基准能力与服务的持续改进能力。
定义4:服务模型(Service Model)是指根据企业IT运维过程管理以及服务水平的设计要求,来建设IT运维的核心知识库、配置库以及资源库,从而形成了企业运维全过程的服务支撑体系,另外,资源库与IT资源模型相关联,一方面对IT资源的分类进行管理,另一方面为知识库提供了主题分类的客观依据,因此,一旦当故障或事件发生时,基层管理员的应急保障能力对日常运维工作是否高效至关重要,除了针对应用系统做适应性维护外,通过对主题内容的识别,提高内容检索的效率与质量。
因此,ITIL元模型中通过三个子模型之间相互关联、相互影响,形成了一个能够持续互动与协同的优化系统。如图2显示了整个ITIL元模型的基本结构与内部的核心交互机制。
4. 基于ITIL的企业运维服务优化策略
4.1. 基于IT过程的资源分配策略
由于企业用户根据不同的权限可以操作和使用不同类型的IT资源,其中包括:软件、硬件或网络资源,因此,在实际的运维过程中,当用户进行咨询或者提出问题时,主要还是针对其个人具体可以授权操作的这些IT资源,因此,需要对每一个用户与相应的IT资源进行关联和分类管理,当用户提出一个明确的问题时,则可以快速地获取该用户所具有的IT资源信息的详细情况,形成用户–资源轮廓模型。
其次,在IT资源中存一个特殊的资源,即专家资源,这些专家具有不同类型IT资源的专业服务能力,并能够提供针对性的咨询与问题解决服务,即需要针对这些专家进行分类,并在事件或者问题发生后,在系统服务与支持能力不足时,能够提供有效的个性化的专业服务。
第三,在整个过程的管理中,一旦事件或问题等到解决,则对软件资源的版本进行了更新,这同时意味着对系统中的IT资源进行了新的更新,例如:增加了新的补丁,或者新的驱动,甚至是全新版本的软件、硬件或者是网络的相关资源。因此,IT资源模型与过程模型之间存在着相互的影响,且过程模型为IT资源模型的更新提供有效的驱动力。
4.2. 基于IT服务的资源主题分类策略
由于IT资源的配置与版本数据不仅需要存储在配置数据库中,而且也需要存储到资源库中,为了提供高效检索机制,这些IT资源则以不同的分类策略来进行存储,实验表明:以资源主题来进行分类的策略往往具有更佳的效果,并且该策略主要包括以下三个方面的核心任务:
任务一:完成对所有IT资源主题的建模以及数据的分类存储,即根据定义1中的资源类型以及经常出现问题的类型进行统一建模,形成对整个企业IT资源的分类管理。
任务二:利用IT资源主题对知识库中的内容进行重新分类管理,即知识库中的“问答对”将会以主题的方式来进行存储,即知识库中的前件(IF条件语句)以及后件(Then操作执行语句)所形成的知识规则对通过主题分类的方式存储来提高分析与知识推理的过程。而针对特定领域下的知识库构建可采用基于规则的决策树模型来实现。
任务三:利用专家资源对已有的知识库以及知识推理过程进行评价,从而获得一个利用专家来进行知识库持续优化的机制。
4.3. 基于IT过程的服务主题分类策略
在用户发生故障并启动一个事件时,可以根据事件的主题类型从知识库中快速地检索,由于知识库的建立采用了基于主题规则的决策树模型,因此,可以根据决策树中的条件进行快速地决策判断。同时,一旦知识库中的知识规则无法满足用户的实际需求时,系统则通过两种辅助方法来保障用户问题的解决:
方法一:根据所发生的故障或者是事件的主题分类,系统自动推荐相关领域中的专家资源,从而可以获得专家对事件的服务支持。
方法二:用户也可以将所发生的故障或事件发布中系统提供的企业互动空间,从而利用社交网络中全部用户的群体智能来进行协助问题解决。
在此基础上,将专家提供的问题解答,以及在社会化交流网络中所获取的最优方案,重新组织并形成一个新的知识,通过对系统知识库的动态更新来实现知识的扩充与服务能力的提升。
综上,通过将企业内部与外部的IT资源、运维过程以及服务能力的动态集成与持续优化,形成了一种统一的资源集成策略,从而降低了在系统运维管理过程中的复杂程度,并提高了IT运维管理的可扩展性与效率。
5. 基于ITIL元模型和多策略融合的烟草行业智能运维一体化管理平台
5.1. 基于ITIL元模型的运维一体化平台需求框架
在上述IT元模型的基础上,结合陕西烟草公司运维管理业务过程的实际需求,本文在采用B/S分布式系统环境构的基础上,建了一个面向烟草行业IT运维一体化管理的智能服务平台,通过将运维系统中的相关硬件资源与设备、软件资源和各种系统以及网络环境等IT核心资源进行分类,并建立起一个利用IT服务台提供非接触式服务的一个远程运维的管理体系,从而实现网络事件与故障的及时响应与处理、系统运维过程中的问题与知识库中的知识的匹配、配置管理与版本变更管理等功能的具体实现。其中,整个系统的核心的功能如下:
①软件资源的运维管理功能:其中主要包括了省级卷烟营销平台、资金监管系统、OA系统、财务NC系统、V6系统以及其他业务应用系统的运维管理功能。同时,还包括了不同功能的自动还原,以及控件调优与开启兼容模式等操作功能。
② 硬件资源的运维管理功能:为不同类型的硬件设备资源提供的自助式的驱动工具平台服务。并对利用设备的不同属性信息可以进行快速的组合式查询以及设备状态信息的自动采集,例如,可以按品牌、型号、选择操作系统类型的查询,来实现驱动资源的自动匹配与下载安装服务。
③ IT服务台(Service Desk)管理功能:为所有终端用户提供IT服务与技术支持的统一接口,它不仅可以降低对IT运维管理人员的依赖,同时,可以将IT运维服务过程进行扁平化,建立面向用户需求与问题快速影响的IT服务台,从而为解决IT运维过程中存在的问题提供有效的服务入口与功能保障。
④ 基于内网的IT远程服务:针对内网用户对软件补丁的自动修复的需求,通过将软件自动分发功能来实现软件补丁自动可以分发到分布式网络环境下的上百台计算机上,从而提升IT运维的效率与质量。
⑤ 系统故障与异常事件登记功能:针对企业内部的网络环境以及硬件资源存在的故障以及异常事件进行登记,并可以通过对故障问题与异常事件发生的时间、地点、人员操作情况等特征进行快速的查询与管理。同时,系统可以自动测算出不同类别的故障与事件的平均恢复时间,形成有效的服务水平模板(SLA),实现在故障以及事件的分级管理能力。
⑥ IT运维知识库管理功能:建立帮助文档知识库便于用户针对故障和问题进行知识查阅与快速的问题解决。同时,针对西安烟草的IT运维管理人员,提供相应的知识储备资源,例如提供IBM POWER小型机和各类服务器做系统管理员的AIX、windows server等系统平台、磁盘阵列与RAID技术、网络存储的备份/容灾以及数据库做性能调优的相关资源,从而为提高IT运维服务能力提供基础。
综上,在ITIL元模型的基本结构与交互机制的基础上,结合陕西省烟草公司的核心需求,本文设计了一个一体化IT运维智能服务平台的完整框架,整个框架如图3所示。

Figure 3. The Requirement Framework of Union Platform about IT Service
图3. IT运维一体化平台的整体需求框架
5.2. 一体化IT运维智能服务平台的实现
该平台基于J2EE开发环境,采用了经典的B/S架构模式,对企业中的硬件设备资源、软件系统资源以及网络资源等核心的IT运维管理资源进行分类管理,并根据IT运维的整体流程形成了一个完成的功能体系,其中,包括软件、硬件以及网络故障的运维管理、IT服务台务与配置管理以及企业知识库等功能。不仅利用企业IT服务台实现了运维过程的精简与扁平化处理,提升了整个服务质量;同时,也使得平台的兼容性、可扩展性和个性化服务能力得到了进一步的增强。一体化IT运维智能服务平台的实现界面如图4所示。
(a) 交互问答以及问题分类库界面示意
(b) 运维问题中心界面示意
(c) IT服务知识库界面示意
Figure 4. System Pages about the Platform of Union IT Intelligence Service
图4. 一体化IT运维智能服务平台的实现界面示意
6. 相关工作
由于IT服务的水平与质量直接关系到企业发展的系统保障能力与异常风险的控制能力,迫切需要对企业的传统IT运维的管理模式进行改进与支撑技术升级 [4]。由于传统的IT运维过程与企业的业务过程无直接关系,一旦出现问题和异常,往往采用救火式与被动式管理来实现故障与问题的解决,文献 [5] 提出了针对IT运维的绩效评价与成熟度的评估的策略,并指出ITIL通过流程的方式将业务过程与IT运维进行了整合,从而为IT运维的一体化提供了新的思路;文献 [6] 则提出了一个基于ITIL可验证的ITIL实施项目模型(ITIL-IPM),将ITIL的实施过程与服务过程相结合,并通过项目管理的方式来促进基于ITIL的服务管理实现。另外,在传统的ITSM的实施基础上,人们在利用自然语言处理、机器学习以及人工智能的基础上,进一步探索采用自动问答(QA)的方式来进一步提高ITSM的工作质量与效率,但是由于自然语言的灵活性以及样本数据和短问句文本中抽取关键语义词的技术尚不完善,因此对现有的工作提出了一些新的挑战 [7],这也为IT服务的未来研究开辟了新的工作要求 [8]。
7. 结论
在ITIL流程建模的基础上,本文提出了一个ITIL元模型的基础框架,并结合烟草企业在IT运维管理过程中,存在的现实业务中的实际需求以及迫切需要改进的管理机制,建立并研发了一个一体化的IT运维智能服务平台,以适应动态业务管理需求。该平台主要完成了基于ITIL全过程的事件触发、问题抽取与匹配、版本变更与配置统一管理以及知识库管理等核心功能,并利用ITIL元模型实现了核心功能之间的信息融合,从而为异常事件以及故障问题的自动记录、分析挖掘、跟踪处理以及智能预警等功能提供了基础保障。实际应用表明:该平台能够实现对不同类型的IT资源进行全生命周期的统一调度与管理。
另外,在IT服务台的设计过程中,为了提高服务的准确性以及质量,传统的方式均采用人工服务,例如各种呼叫中心或者服务台,这种方式不仅需要对人工进行长期的培训以及系统服务能力的配合,同时,由于面对大量的常见问题而使得人员长期无暇顾及到关键与核心问题的梳理与解决,特别是新技术所引起的新问题。因此,未来进一步采用基于人工智能的自然语言处理方法,通过对内容语义的理解与内容生成,来自动地识别用户意图,并提供或生成针对用户问题的相关解决方案,这将是本文下一步进行深入研究与优化的方向,在此基础上,不断提升IT运维服务平台的智能化水平。
致谢
本文研发项目得到了陕西烟草公司科技攻关项目(ST2017-R011)。