1. 引言
武器系统作战指挥数据主要包括各级指挥员对所属部(分)队的武器装备在作战中的指挥、控制与使用过程中产生、需要或关联的数据 [1] 。
大数据背景下的武器系统作战指挥过程产生的数据具有数据规模大、多样化、高速化和价值密度低等特点 [2] 。目前部(分)队对积累的大量的某型火炮武器系统作战指挥数据的处理还停留在简单的人工记录、查询、统计和备份阶段,不能充分发挥这些数据的使用价值。解决这些问题首先就是要对大量的作战指挥数据进行系统分析、分类梳理、建立模型,以便为后续利用计算机等自动化设备进行数据处理和运用奠定基础。
2. 某型火炮武器系统作战指挥数据分类
作战指挥数据的分类应坚持源于作战,服务于作战的原则,同时应满足及时性、准确性、完整性、一致性、易理解性等要求,便于部(分)队指挥员在实际作战过程中的操作使用。该型火炮武器系统作战指挥数据主要包括装备数据、作战数据、环境数据、资料文档四个大类 [3] [4] [5] [6] [7] 。
1) 装备数据。作战需要装备功能的发挥做支撑,装备数据包括装备基本信息、装备性能数据等两个二级分类;
2) 作战数据。从广义理解,作战数据是指对作战指挥、日常战备、非战争军事行动等具有影响和制约作用,且可以用人工方式或者用自动化装置进行通信、翻译转换和加工处理的各种数据。从狭义理解,作战数据是用于保障作战指挥和部队重要行动顺利进行的各种数据。包括军事想定数据、作战规则数据、编制编配数据、装备作战运用数据、作战保障数据、外军数据等六个二级分类;
3) 环境数据。环境因素对该型武器系统的实际作战效果影响较大。环境数据包括地理信息数据、气象水文数据、电磁环境数据、战场建设数据、核生化环境数据、人文环境数据等六个二级分类;
4) 资料数据。作为指挥员在实际作战过程中参考或参阅的重要依据,资料数据是不可缺少的一部分。资料数据包括条令条例、研究报告、标准规范、作战运用资料等四个二级分类。
3. 某型火炮武器系统作战指挥数据应用大数据平台建设方案
大数据平台可分为如下几个子系统进行构建,如图1。

Figure 1. Composition of large data platform for operational command data application
图1. 作战指挥数据应用大数据平台组成
1) 数据存储子系统建设
① 概述
数据存储子系统主要是对平台数据进行统一存储和管理 [8] [9] [10] [11] 。
首先,通过数据加载服务接口将预处理后的数据进行加载数据库操作;其次,根据数据类型建立多个库,保证数据的分类存储;同时,通过提供统一资源总线为上层各个子系统提供数据访问和检索接口,满足业务需求,实现对存储数据的统一管理,也为高效检索、智能分析等任务提供数据依据和性能保障。
② 数据流程
数据存储子系统的数据流程图如图2。

Figure 2. Data flow chart of storage subsystem
图2. 存储子系统数据流程图
如上图所示,当数据通过数据处理子系统进行预处理后,会进行数据分类,分为结果数据、日志数据、文本数据、图数据、文件、属性标记类数据和配置数据,即预处理数据分类后会产生七种数据类别;数据存储子系统会通过数据加载服务接口辨别数据类别,根据类别的不同将其存储到相应的数据库中,进行多类型数据的统一管理。其中,选用NoSQL就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题 [12] 。
③ 系统建设
为了实现数据存储子系统的所有功能,针对大数据平台中存储子系统的功能模块,在系统建设时,应用多种技术,每个功能模块及其对应的技术点如图3。

Figure 3. Logical architecture of data storage subsystem
图3. 数据存储子系统逻辑架构图
2) 数据处理子系统建设
① 概述
数据处理子系统一方面对接入平台的数据源进行预处理,预处理后的数据存入数据处理子系统;另一方面对存储在子系统的各种数据进行处理分析,并将处理结果通过子系统的数据处理服务总线提供给应用层,供业务系统调用展示。
② 系统架构
中心新建大数据平台的数据处理子系统的逻辑架构图设计如图4。
上述逻辑架构图中主要涉及数据处理子系统、数据存储子系统两个子系统。其中数据处理子系统主要包含数据处理服务总线、数据分析、数据检索、计算框架、用户自定义、消息队列、流处理七个大模块。
➢ 数据处理服务总线主要包括服务资源目录和统一服务接口两部分。其中,服务资源目录提供数据处理子系统各模块的资源信息,以服务资源总线为核心,建设标准化、模块化、插件式的服务资源服务;统一服务接口是为其他子系统提供各类服务的接口,并对其进行统一管理和权限控制,保证服务的正常执行。

Figure 4. Logical architecture of data processing subsystem
图4. 数据处理子系统的逻辑架构图
➢ 数据分析主要提供基于数据的分析挖掘功能,包括算法调度引擎和数据挖掘、机器学习、数据统计、文本分析、图处理等各种封装的分析算法,以及用户通过标准封装规范自定义的算法。
➢ 数据检索模块提供数据检索功能,包括SQL检索、全文检索两大类以及数据检索的调度引擎。其中SQL检索对外提供各种基于SQL查询语言的数据检索功能;全文检索对外提供基于文件内容的数据检索功能。
➢ 计算框架包含分布式并行计算的各种计算框架,如Spark、MapReduce等,也包含单机程序,以满足某些程序单机处理效率高的业务应用。
➢ 用户自定义模块主要为用户提供自定义服务,用户可通过用户自定义模块实现特殊程序的自定义服务。
➢ 消息队列模块主要是对该子系统内以及与其他子系统间的保存消息的容器,对消息数据进行统一的队列管理和调度。
➢ 流处理模块主要对流数据的预处理,包括对流数据的简单加工、修改标签、添加标注、指定类数据的预统计、指定场景下关键词预检索等。
③ 数据流程
数据流程主要是对数据处理子系统的任务数据处理流向的分析,主要分为源数据处理流程和业务应用平台中任务数据处理流程。
➢ 源数据处理流程
大数据平台主要接入的数据源有配置数据、结果数据、日志类数据、属性标记类数据、文本类数据、图数据、文件类七大类。该平台的数据处理子系统对各种源数据的数据处理流程图如图5。

Figure 5. Source data processing flow chart
图5. 源数据处理流程图
平台通过对每一类源数据进行相应的数据加载对接到平台数据处理子系统中,然后通过该子系统的流处理模块将加载的数据进行预处理;数据预处理后的结果通过消息队列送入资源目录模块,在资源目录模块中经过资源申请和资源编目后将数据通过消息队列存入数据存储子系统中。
➢ 任务数据处理流程
数据处理子系统中对业务应用平台下发的任务数据的数据处理流程图如图6。

Figure 6. Task data processing flow chart
图6. 任务数据处理流程图
数据处理子系统对业务应用平台中各应用系统下发的数据查询、数据检索等任务数据发送到数据接口模块,然后通过消息队列传到资源目录中,从数据资源目录的资源编目和数据字典中返回所需的数据存储位置等信息,然后通过消息队列返回到计算框架中,对任务数据进行分析,选用合适的计算框架(Spark、MapReduce分布式计算框架、单机程序等)和分析算子,然后对任务数据进行数据分析或数据检索,之后将分析结果通过数据结构最终返回给业务应用平台中各业务应用系统。
➢ 跨集群数据处理流程
大数据平台中各集群之间的源数据处理流程和任务数据处理流程和集中部署时的处理流程基本完全相同,唯一不同的地方是需要进行数据交互的数据传输是通过集群间专有网络进行的,交互数据视平台物理架构的部署方式而定,如图7。

Figure 7. Cross-cluster data processing flow chart
图7. 跨集群数据处理流程图
④ 数据分析模块
数据分析模块对存储处理子系统中存储的数据进行智能分析,主要分为调度引擎和分析算法两大部分。数据分析模块对外提供统一的分析算法调度引擎,对该模块的各种数据分析算法进行统一的算法调度和算法封装管理等。数据分析模块提供的主要分析算法有为文本分析、分类聚类分析、统计分析、关联规则挖掘、预测回归等,如图8。
➢ 文本分析
基于文本数据的主要技术有分词、汉语词法分析、新语自动发现、文本内容去重、文本分类过滤、文本聚类、文本摘要、网页正文提取、全文搜索、文档关键字提取等。
• 分词
分词组件采用先进可行的层叠隐马尔可夫模型(Hierarchical Hidden Markov Model),将汉语词法分析的所有环节都统一到了一个完整的理论框架中。分词组件可拆卸组装,有GB2312和BIG5版本,分别处理简繁体中文,支持当前广泛承认的分词和词类标准。
• 汉语词法分析
汉语词法分析组件对采用采用条件随机场(Conditional Random Field,简称CRF)模型对汉语语言进行智能拆分处理,同时能对词性进行自动标记、而且可智能挖掘隐含在汉语中的人名地名机构名等词语,是中文信息处理的核心组件,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
• 新语自动发现
数据分析模块采用基于语义的统计语言模型,所处理的文档不受行业领域限制,能够有效地挖掘出新出现的特征词汇,所输出的词汇可以配以权重。该中间件具有速度快、处理精准、精准排序、开放式接口等特点。
新词发现组件可以应用于文本挖掘、知识管理、词典编辑、舆情监测等多种应用中。
• 文本内容去重中间件
文本内容去重中间件能够对文本进行查重处理,同时还能找出所有的重复文件。能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录。数据分析模块采用高效的文章指纹算法,能够在极短的时间内与历史指纹库进行对比,从而发现重复记录。
• 文本分类过滤
文本分类中间件能够根据文件内容进行类别的划分,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。
文本过滤功能能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。
数据分析模块采用基于内容的文本自动分类过滤和基于规则的文本分类过滤两种方式,并支持两种方式的混合分类。能够进行多级分类,分类速度每秒100篇以上,平均准确率90%以上,能够进行中英文分类和中英文的混合分类。用户可以灵活、方便的更换模板,来实现对不同的主题的分类过滤。
• 文本聚类
文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。
数据分析模块基于文章集合核心语义理解技术,不仅聚类速度快,而且准确率高,并能自动得到类别间的演化趋势。
• 文本摘要
自动文本摘要中间件能够实现文本内容的精简提炼,从长篇文章中自动提取关键句和关键段落,构成摘要内容,方便用户快速浏览文本内容,提高工作效率。
自动摘要中间件不仅可以针对一篇文档生成连贯流程的摘要,还能够将具有相同主题的多篇文档去除冗余、并生成一篇简明扼要的摘要;用户可以自由设定摘要的长度、百分比等参数;处理速度达到每秒钟20篇。
• 全文搜索
全文搜索中间件内核经过精心设计,具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。
同时,全文搜索中间件可以无缝地与现有数据库系统融合,实现全文搜索与相关的数据库管理应用系统。
• 文档关键词提取
文章关键词提取中间件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。
采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。
➢ 统计分析
统计分析是指运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动。运用统计方法、定量与定性的结合是统计分析的重要特征。数据分析模块采用的统计分析技术主要有多项式回归、多元线性回归分析、协方差分析、多元方差分析、相关性检验、显著性检验等。
➢ 分类算法
数据分析提供多种分类算法,将行测试的数据分为训练数据和测试数据两部分,通过对训练数据进行特征提取和分类建模,生成分类器;然后通过分类训练后的分类器模型对新数据进行分类处理,最终输出预测模型的预测结果,如图9。
分析模块用到的主要分类算法有朴素贝叶斯、神经网络、SVM、Boosting、Addbost、决策树、逻辑回归等。
➢ 聚类算法
对于没有明显类别特征的数据,数据分析模块对测试数据采用多种聚类算法进行聚类分析,按照数据的特征划分为多类数据,然后对实际数据采用聚类模型进行聚类分析,从而计算出每个数据最有可能所属的类别。
分析模块所采用的聚类算法主要有以下几类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。
➢ 预测回归
在许多实际问题中,变量之间的关系并不都是线性的。通常我们会碰到某些现象的被解释变量与解释变量之间呈现某种曲线关系。数据分析模块对这类特征的数据采用非线性回归模型和非参数回归模型进行数据分析,简捷方便,精确度高。对于模型中参数的出现是非线性的问题,采用非线性回归模型进行数据分析;对于回归函数不确定的问题,采用非参数回归模型进行数据分析。
➢ 关联规则挖掘
数据挖掘技术中的关联规则挖掘是通过计算机自动从一大堆真实数据中发现这样的关联规则出来。对于计算机而言,它需要知道所有的事情发生情况,并且把相应的事情合并成一个事务,通过对各个事务的扫描,来确定事情的关联规则。
3)平台资源管理子系统建设
① 概述
平台资源管理子系统采用大数据平台资源管理系统iManager,主要是对集群及集群内部的监控管理和资源调度分配,实现对多个集群的监控,可以查看各集群间的资源分布概况、各集群下内节点运行概况、所有节点硬件资源占用概况、当前运行任务概况、集群告警信息概况以及监控服务运行的概况等。
② 系统架构
架构设计主要从群集管理、服务管理、主机管理、资源调度管理、统一访问服务权限管理五个模块进行详细设计说明,如图10。

Figure 10. Platform resource management subsystem architecture
图10. 平台资源管理子系统架构
③ 系统建设
系统分为五大模块,对集群进行全方位部署、监控和管理,下面对系统建设进行一一介绍。
➢ 群集管理
如图11。
群集管理模块是对集群服务状态、集群硬件使用情况等进行统一展示。系统支持对多个集群的监控,点选后查看不同集群的监控结果,对集群包含的所有逐一列举,用不同颜色表示服务的当前运行状态。
➢ 服务管理
如图12。
服务管理模块可以对集群内所有服务进行整体管理与监控,对集群内所包含的组件运行状况信息汇总并展示,包括:Hdfs、Yarn、Hbase、Hive、Oozie、Flume、Sqoop、Zookeeper、Spark、Sentry、Hue组件;可以进行添加服务,可以对单一服务进行启动、停止等操作,支持向该集群添加新的服务。
➢ 主机管理
如图13。
主机管理是对指定集群的所有主机信息,包括主机名称、IP地址等进行监控,监控采集信息的频度大约为1分钟,我们可以选择不同时间跨度来查看监控信息。支持30分钟、1小时、2小时、6小时、12小时和1天六种时间跨度。设置时间跨度后,进行不同可视化展示。根据时间跨度对主机的磁盘总容量/使用量、CPU使用率内存总量/使用量、网络IO、磁盘IO进行全方位的监控和管理,并可对这些主机进行重启所有组件、删除等操作,也可以向指定集群添加一个新的主机。
➢ 资源管理
集群资源调度管理主要对平台资源使用量和资源池的管理,实现某些业务系统在资源高峰时可以动态获取处于空闲状态业务系统的资源,达到资源的按需动态分配的效果。集群分布式资源管理用YARN作为分布式资源管理框架,为集群内节点任务调度提供了稳定基础。
YARN的调度引擎支持多个资源池的管理与调度,并支持多个资源池之间的资源调度,也可以增加资源池,更快、更高效的运行任务,比如:在一个单位构建一个大数据管理和计算平台,可以根据部门数据处理任务的负载,为每个部门划分一个资源池,部门的任务都会在本部门资源池中运行,且每个资源池都会有一部分弹性资源,当该资源池空闲时,其弹性资源可以被其它资源池调用,保证资源的充分利用。
iManager节点资源调度如图14。

Figure 14. iManager node resource scheduling (resource isolation is complete, resource utilization is high)
图14. iManager节点资源调度(资源隔离彻底,资源利用率高)
➢ 统一访问权限管理
如图15。
统一访问服务权限管理主要是针对申请服务权限和资源需求两方面进行服务管理,首先用户提出服务申请,我们需要判断用户是申请服务权限还是资源需求,如果满足服务条件可以直接开通,如果不满足则需要管理员根据系统目前现有资源分布状况,给用户进行授权,合理分配资源,其次资源申请后,判断是否有访问权限,如果没有则进行申请,其中分配资源过程中包括对服务接口测试和服务接口运行监控,方便用户更快速、更合理、更安全的分配和利用资源。
➢ 用户管理
用户管理是对用户信息和权限进行管理,包括:用户名、用户所在部门、邮箱、联系电话、用户状态(启用、禁用或者此类用户不可登陆);可以在用户列表页面批量删除,逐个删除功能(根据业务需求添加不同的用户管理界面功能)。

Figure 15. Unified access service privilege management process
图15. 统一访问服务权限管理流程
➢ 对外服务接口管理
平台可以实现对多个集群进行监控,通过分集群安装部署客户端,可以对分集群组件情况进行获取,可设置策略,通过多种方式进行系统状态的定时反馈;并且,也可按照策略通过多种方式进行异常情况的告警。
建成之后的大数据应用平台能够实现五大功能,即基础数据管理、演习结果分析预测、质量评估、知识库、系统管理等。
4. 结论与说明
1) 本文对某型火炮武器系统的作战指挥数据进行了分类、细化和整理;
2) 针对大数据背景下某型火炮武器系统作战指挥数据的如何应用问题,从数据存储子系统建设、数据处理子系统建设、平台资源管理子系统建设等三个方面探讨了该型火炮武器系统作战指挥数据应用大数据平台的建设问题,并给出了初步的建设方案。
大数据环境下的武器系统作战指挥数据资源建设首先需要解决大量数据带来的数据项重复问题以及海量数据中如何挖掘有意义数据以备进一步开发利用的问题。随着后续演习、训练、作战等军事活动的日益展开,作战指挥数据资料库将越来越丰富,数据的应用也越发完善,必将对促进部(分)队指挥员进一步熟练掌握和运用该型火炮武器系统提供有力支撑。