1. 引言
贝叶斯网络是由途径研究(因果推理链)、因果推断等慢慢衍生而来的。1982年,Pearl等人将贝叶斯网络的概率推理应用于人工智能当中,此后,专家系统中的不确定性表示和推断更多地开始使用贝叶斯网络。和其他人工智能的算法比较,贝叶斯网络因为将图形解释和计算与概率论完美地结合在一起,所以在处理不确定的问题上有比较大的优势。这些优势表现在灵活的依赖性拓扑结构;易于理解和解释,有明显的语义强大的不确定性问题处理能力;能有效地进行多源信息融合。随着对贝叶斯网络的不断研究,其逐渐成为数据挖掘、人工智能等领域解决不确定性问题的关键方法之一,是这些年的一个研究热点 [1]。
基于此,这篇文章用web of science的核心数据库为数据源,借助CiteSpace工具的文献计量方法对收集到的文献进行统计分析并绘制出知识图谱,解决下面的三个研究问题:
(1) 国内外近10年来在贝叶斯网络领域的主要国家和研究机构有哪些?
(2) 国内外近10年来贝叶斯网络领域的研究热点有哪些?
(3) 国内外贝叶斯网络领域的研究方向的发展有什么趋势?
本文的具体工作如下:首先阐述了数据来源与研究方法,然后对贝叶斯网络分析研究进行描述,得到该领域的主要研究机构及国家、最佳的研究热点以及大致的发展趋势。最后对分析所得到的结果进行总结,希望能用客观以及可视化数据的展示将国内外对于贝叶斯网络研究的现状和大致趋势呈现出来,为我国贝叶斯网络领域的研究人员提供较为清晰的参考。
2. 数据来源和研究方法
2.1. 数据来源
文献来源于Thomson Reuters公司开发的Web of Science信息检索平台。1) 采用的文献检索方法为TS = ((data “Bayesian network”) or (data “probabilistic network”))。2) 时间跨度 = 2008~2018。3) 索引数据库 = (SCI-EXPANDED),文献类型 = (PROCEEDINGS PAPER OR ARTICLE),共得到文献2930篇。经过对比和筛选,删去了与贝叶斯网络无关的文献,最终获得1613条文献题录。这些文献题录包括作者、标题、关键词、摘要、作者地址、引用的参考文献、被引频次、出版日期等属性,供可视化分析。
2.2. 研究方法说明
本文的基本流程如图1所示。
在信息化社会飞速发展的今天,大多数学者选择用数据信息绘制知识图谱对学科知识进行可视化。与其它软件相比,Citespace软件是一款着眼于分析科学分析中蕴含的潜在知识,并在科学计量学、数据和信息可视化背景下逐渐发展起来的一款引文可视化分析软件,由于是通过可视化的手段来呈现科学知识的结构、规律和分布情况,因此也将通过此类方法分析得到的可视化图形称为“科学知识图谱”,本文以贝叶斯网络的文献数据为基础,分析贝叶斯网络的研究热点、未来趋势等,为相关研究提供依据 [2]。
3. 研究概况
首先使用Carrot2聚类分析工具,对文章题目与摘要中出现的短语运用TF-IDF算法进行词频统计处理得到每篇文章的重点词,接下来运用Lingo算法对提取出来的重点词进行聚类处理,得到图2。以求初步了解在贝叶斯网络的研究过程中都涉及到了哪些领域,并通过气泡大小初步判定哪些分支较为热门哪些分支研究较少。

Figure 2. Keyword clustering bubble chart
图2. 重点词聚类气泡图
将图2中的结果,对比相关领域资料,对每一个领域进行归纳统计,得到贝叶斯方法在具体研究和工程应用中涉及的运用方向分支表如表1所示。

Table 1. Use direction branch table
表1. 运用方向分支表
3.1. 主要研究国家与机构分析
通过对国家和机构进行分析,可以帮助了解相关国家或机构对贝叶斯网络领域的研究程度以及它们之间的合作情况。图3为设定工具阈值和相关系数后,绘制的国家及机构图谱,圆形节点代表国家,直线分支上的小节点代表机构,节点大小代表发文量多少;节点间的连线代表对应的两个国家或机构之间有合作关系;连线的粗细程度代表两者之间合作的紧密程度 [3]。
通过对研究机构聚类分析,得到知识图谱图3。分析图3和表2可以发现,发文量Top15的研究机构隶属于9个国家:中国3所,美国3所,西班牙3所,韩国、法国、荷兰、丹麦、比利时和巴西各1所。其中,丹麦和比利时的国家发文量排名不在国家发文量排名的Top15中,而这两个国家的研究机构的发文量排名却在机构发文量Top15中,对比该机构和国家发文数量可以发现,这两个国家发表的文献几乎全由丹麦奥尔堡大学、比利时鲁汶大学贡献。英格兰、德国、加拿大、意大利和日本,虽然这些国家的发文量排在前列,但其国家的研究机构发文量却不在机构发文排名前列,说明这些研究机构的分布相对分散。

Figure 3. Country and institution knowledge chart
图3. 国家及机构知识图谱

Table 2. Top 15 research institutions and countries by number of publications
表2. 按文献发表数量排名Top15的研究机构和国家
中心性是用来表示一个节点和其他节点的关联包括其节点在整个网络中的重要程度。中心性越高的研究机构影响力越大。从中心性的角度看许多国家的中心性是0,这表示他们对其他的国家对于贝叶斯网络的研究没有产生影响。中心性大于0的总共有28个国家,其中美国中心性最高,英国和法国在中心性上并列第二,德国排第四,中国排第五。总体来说,美国在国际上的贝叶斯网络研究领域上占着主导的地位,并具有很强的影响力。日本、巴西两国虽然发文量在Top15,但其中心性却都为0,说明日本和巴西对于贝叶斯网络的研究较为封闭,并且对于其他国家的研究并没有产生较为大的影响。
3.2. 作者分析
作者的发文量间接反映了作者在某一领域的影响力。据统计,检索的1613篇文献中,共得到作者1723位。根据普莱斯定律来确定贝叶斯网络研究领域的高产作者,其计算公式为
,其中Nmax为该研究领域发文量最多的作者所发表的论文篇数,M为核心作者发文篇数下限,从表2中易知Nmax = 26,计算M = 3.819,取整为4,即发表论文4篇及4篇以上的作者为贝叶斯网络研究领域的核心作者,共计48名。
从表3可知大多数作者发文量都在10及10以下,该表列出的首次出现年份是基于本文的研究文献。其中Ji Q第一(26篇),Ji Q教授主要的研究兴趣是和人工智能应用相关,包括人工神经网络(主要是基于无监督学习),多智能体系统和混合人工智能,专门解决在计算机网络安全领域的问题 [4];Leray P教授(19篇)的研究兴趣主要集中在贝叶斯网络的构建,特别关注于探索性投影寻踪、自组织映射和核方法 [5]。从首次发文年份上看,集中分布在2008年至2012年,说明2008年以前,研究人员对贝叶斯网络的研究正处于逐步摸索的阶段,并在2008年至2012年渐渐有了研究成果。

Table 3. Number of TOP10 author posts in the past ten years
表3. 近十年TOP10作者发文数量
3.3. 贝叶斯网络研究的主要来源出版物共引分析
通过分析贝叶斯网络学术领域的文献出版物能够比较准确地确定该领域的核心出版物的分布情况。在Cite Space中“node type”选择参数“Cited Journal”,得到出版物分布的共引网络图谱和如表4所示的贝叶斯网络文献发表数量TOP15的被引期刊。

Table 4. Bayesian network literature published in the TOP15 cited journals
表4. 贝叶斯网络文献发表数量TOP15的被引期刊
其中PROBABILISTIC REASON的被引文献数量高达476篇,排在第一位。MACH LEARN的被引文献数量为433篇,排名第二,ARTIF INTELL的被引文献数量为426篇,排名第三,随后的还有LECT NOTES COMPUT SC (402篇)、INT J APPROX REASON (301篇)等。从中心性来看,INT J APPROX REASON以0.18排在首位,随后的有MACH LEARN (0.16),J ARTIF INTELL RES (0.15),PROBABILISTIC REASON (0.12)等。前五个出版物不仅被引文献的数量很多,在领域内的影响也很大,尤其Lecture Notes in Computer Science占有绝对的领先地位,该丛书每年都出版了诸如Computer Security - ESORICS、Network and System S。
ecurity等书籍,涉及了当年的热点研究问题。此外,J ARTIF INTELL RES虽然被引文献的数量不是特别多,但是中心性很高,近十年的影响因子也很高,说明在领域内影响力较大。综合可以看出,Lecture Notes in Computer Science、Machine Learing、International Journal of approximate Reasoning和Artificial Intelligence In Medicine这些学术出版物是该领域中较为重要的组成部分,SCIENCE的在自然科学领域虽然有较大影响,但是在贝叶斯网络的研究中其中心性只有0.05,相对来说在这个领域影响力较低。
3.4. 核心文献分析
文献的被引频次是最能直接体现文献学术影响力及其价值的重要指标。表5是被引频次top10的文献统计列表,从表中可知Stegle发表的“A Bayesian Framework to Account for Complex Non-Genetic Factors in Gene Expression Levels Greatly Increases Power in eQTL Studies”位居第一位,被引频次高达132次,该文研究了一种用于绘制表达数量性状基因座(eQTL)的概率方法,该方法使用贝叶斯建模,它可以模拟基因型的贡献以及已知和隐藏的混杂因子 [6]。第二位核心文献是Ahmadlou发表的“Enhanced probabilistic neural network with local decision circles: A robust classifier”一文,被引频次为120次,该文探讨了通过使用简单贝叶斯规则的核密度估计,在模式层中计算测试数据对每个训练数据的可能性,并使用局部决策圈(LDC)提出了增强和广义PNN (EPNN),以提高其对数据中噪声的鲁棒性 [7]。Psorakis发表的“Adaptive Overlapping Community Detection with Bayesian Non-Negative Matrix Factorization”排在第三位,被引频次为117次,该文提出利用非负矩阵分解(NMF)进行群落检测,可以从整个网络相邻矩阵中找到两个非负矩阵,两个矩阵的乘积很好地逼近原始矩阵。通过分解过程中的贝叶斯解释,不仅可以用Shrinkage方法在大型网络中捕获最合适的社区数,还可以验证在模糊情况下如何将节点分配给社区的良好阈值。该方法应用于一些真实网络和具有基准的合成网络。重叠群落检测的实验结果表明,该方法能够有效地找到群落数量和重叠度,并且比其他现有的重叠群落检测方法具有更好的性能 [8]。结合表5的关注点来看,有多篇都与生物医学相关,例如Zoppoli发表的“Time Delay-ARACNE: Reverse engineering of gene networks from time-course data by an information theoretic approach”一文介绍了一种从基于信息理论的算法并利用时间序列测量推断基因调控网络的方法,这种算法的基本思想是通过假设作为基础概率模型的静态马尔可夫随机场来检测表达谱之间的时间延迟的依赖性。使用自动计算的阈值过滤掉信息量较少的依赖关系,保留最可靠的连接 [9]。贝叶斯网络模型在生物医学领域有着其他机器学习不具备的优势 [10]。

Table 5. Top10 cited references
表5. 被引频次Top10的文献
4. 基于共词分析的研究热点
共词分析相比文献的共被引和耦合,其得到的结果是非常直观的。即研究者直接可以通过共词分析的结果,对所研究领域的主题进行分析。图4中心性由最外层十字代表。关键字重叠则由同心十字表示,关键词年份不同十字的深浅层次也不同。关键词之间的远近则代表着其之间的关系。其中同心十字与文字大小成正相关,文字越大也表示关键词被引频次越高 [11]。表6列出的前十五个词是词频较高和中心性较高的关键词。

Table 6. List of high-frequency words and high centrality keywords for Bayesian network research (Top15)
表6. 贝叶斯网络研究高频词及高中心性关键词一览表(Top15)
Cite Space V可以直接使用WOS等数据库的文献记录,通过提炼研究的关键词或主题词的频次及不同的关键词或主题词之间共现关系,并采用可视化的形式展现主题词或关键词的频次高低、聚类关系,得出研究热点。将最终精炼整理得到的1613篇论文全记录信息导入Cite Space V,时区分隔(Time Slicing) = (From2008 To2018) (1Years Per Slice);主题词来源(TermSource)为标题(Title)、摘要(Abstract )、作者关键词(Author Keywords (DE))、扩展关键词(Keywords Plus (ID)),即全部勾选;节点类型(Node Types)选择关键词(Keyword);选择最小生成树算法(Minimum Spanning Tree)进行剪枝(Pruning);视图方式( Visualization) 保持默认;进行图谱绘制。根据本文的主题,需要对图谱绘制使用的关键词节点进行去重复和合并,合并在不同论文中不同表达形式而意义相同的关键词。合并后“baysian network”的词频达到606次,是本研究中贝叶斯网络领域的最重要的主题词。通过最小生成树算法进行聚类分析,得到如表6所示的高频关键词、高中心性关键词表。从表6中可以看出,在全球范围内来说贝叶斯网络研究领域十分广泛,不仅围绕人工智能、模式识别、机器学习、数据挖掘等传统贝叶斯网络技术应用层面展开,还关注于规划识别、模型诊断、模型诊断串行译码和遥感数据分类等;且在交叉学科如冠心病中医临床诊断、对移动机器人进行避障等领域也有数量可观的论文发表 [12]。
5. 研究总结与启示
贝叶斯之父pearl 1985年在《Artificial Intelligence》杂志上首先提出了基于贝叶斯理论的贝叶斯网络的构想。由于贝叶斯网络很好地结合了概率论以及图论相关理论,与当时最流行的基于线性规则的推理相比,能够很好地解决复杂、模糊和不确定问题。因而,在以后的不确定场景下,贝叶斯网络得到了很好的应用,并且逐步取代其他机器学习算法。与此同时,贝叶斯网络出现给很多学者在因果推断问题上提供了一种新的思路,因为这种算法能够有效且直观地解决因果关系问题,这也被称为概率图模型,如隐马尔科夫模型(HMM)和动态贝叶斯网络(DBN)等。表7列出三个阶段的主要研究热点、研究领域以及研究脉络。

Figure 5. Keywords development context timeline diagram
图5. 关键词发展脉络时间轴图
关键词通常是对文章主旨和中心内容的凝练,为检索、阅读等带来很大的便利。Web of Science核心数据库中的所有文章都新增了补充关键词(keywords plus),这些关键字是通过聚类算法计算得出的。从贝叶斯网络领域每年不同的关注点出发,分析研究贝叶斯网络的发展动向。本文利用CiteSpace 软件生成关键词,从关键字和相关领域术语的变化过程中,可以推断出发展趋势动向,使用时间轴视图绘制其演化过程,便可得到关键词发展脉络时间轴图。
图5中“十字”形节点的大小与此关键词共被引的程度成正比。与关键词节点相连连线的颜色对应关键词出现的年份。
本文简要介绍并分析了国内外近10年有关贝叶斯网络的研究概况和研究热点,可供学者从多方面对该领域进行了解。通过以上介绍,我们可以将该领域研究分为三个阶段:(1) 1990年以前:主要是在贝叶斯网络数学理论方面做研究,在建立贝叶斯网络时也都是以专家先验知识为基础而构建的;(2) 1990~2005年:主要研究如何在大量数据的基础上,进行贝叶斯网络的自主构建;(3) 2005~至今:主要研究贝叶斯网络的应用,来解决实际问题。结合前文的分析,对全文总结如下:
1) 国内外贝叶斯网络领域的研究文献质量一直在稳步提升,在文献数量上美国和中国最有很大的优势,但在文献影响力上美国、英国和法国处于领先地位,而中国凸显出文献数量多国际影响力低的特点。在这十年内,发表论文的机构主要集中在伦斯勒理工学院、格拉纳达大学、云南大学和中国科学技术大学。其中美国伦斯勒理工学院的Ji Q.教授将动态贝叶斯网络广泛应用于计算机视觉、计算机感知,并将理论用于人机交互(特别是人类状态监控),情景意识和决策信息融合 [15]。
2) 在近十年内,贝叶斯网络的应用趋于成熟化,它在实际应用中发挥了巨大作用并且体现了深厚的潜力。比如在医学分析领域中有PATHFINDER系统,特别事在对“淋巴结点”分析和诊断中有比较好的表现;CPCSBN远程医疗系统,总共有四百多个节点和九百多条弧,相比较于世界上主要的远程诊疗方法,其性能处于领先地位;ALARM网,具有三十多个节点和四十多条弧,其描述了在手术室中潜在细菌的问题,经常用来做贝叶斯网络在结构学习中检验的标准 [16]。Ji Q.等用动态贝叶斯网络分类器进行人脸识别的研究;Pedro Larranaga等将贝叶斯网络分类器用于诊断和治疗帕金森综合征;Hudson等将贝叶斯网络用于模拟军事对抗和预测;C. Bielza等利用贝叶斯网络确定早期阿尔茨海默病的标志和病发机制。
3) 近年来,对于贝叶斯网络的研究越来越深入,但学者们大都分布在美国、西班牙、法国和中国这几个国家,中国学者的整体论文数量较多,但高水平、影响因子较高的文章却不多,这也跟国内目前比较推崇神经网络和深度学习有关。2018年“贝叶斯网络之父”Pearl推出自己的新书《The Book of Why》,81岁的Pearl在新书中描述了一个未来世界真正的人工智能是如何进行思考并且做出决策的。他认为让人工智能真正智能起来的关键因素是进行因果推理。机器不能仅仅把发烧和疟疾联系起来,更要能推断出疟疾是可以引起发烧。只要这种因果框架被建立起来,机器就有能力提出反事实的问题——询问在干预介入的情况下因果关系会如何变化,Pearl认为这才是人工智能科学思考的基础。