1. 引言
本体一词最初起源于哲学领域,用于表述事物之间的本质必然关联。之后,本体作为一个数据管理模型应用于计算机领域。进入本世纪之后,本体已经成为集数据管理、存储、计算、检索为一体的工具。在管理学中,为了有效地对海量数据进行管理,需要其管理模型能拥有结构化表示数据的能力,从而,本体开始应用于数据管理领域,其相关技术在近几年得到了长足的发展,各种本体算法孕育而生(见[1] -[10] )。此外,借于其强大的数据管理功能,本体被应用于其他学科领域,比如教育学、心理学、生物学、化学等等。
一般地,用用O表示一个本体,用一个图
来该本体对应的数据结构。在管理学中,本体利用其自身结构化特征为用于提供查询服务。在具体的工程应用中,数据查询是本体这一数据管理模型的主要功能。从这一角度来说,在本体上的各种应用算法,其核心和本质是对存储的概念进行相似度计算,进而知道它们之间的联系。
近年来,通过学习方法得到本体算法已经成为研究的热点。[2] 提出了基于对偶理论的本体稀疏向量学习算法;[3] 模糊本体中的模糊相似度计算;[4] 给出了基于MLS方法的本体学习算法;[5] 提出基于梯度下降策略的本体稀疏向量学习算法;[6] 在多重分割框架下提出无限推荐本体算法;[7] 利用控制论方法提出新本体相似度计算和本体映射优化算法;[8] 得到基于TLP经验模型的本体学习算法;[9] 将信号逼近的方法应用于本体相似度计算和本体映射中,得到相应的算法;[10] 在k-部排序框架下给出基于AUC标准的本体算法。
本文提出基于距离学习的本体相似度计算和本体映射算法,其算法主要是利用特征值优化技术。
2. 本体学习算法框架
在本体管理模型中,每个概念对应本体图中的一个顶点。为了将本体算法融入到学习框架中,需要对这些概念进行预处理,即对每个顶点而言,用一个向量来表示这个顶点对应概念的所有信息。在不引起混淆的情况下,符号
同时表示顶点和它对应的向量。因此在本文中,表示顶点对应概念信息的向量用该顶点v来表示,不再使用标准向量的粗体。在整个学习过程中,使用如下两个集合作为样本集,其实S是相似顶点对构成的集合,D是不相似顶点对构成的集合:
,
.
而顶点之间的距离则用如下公式进行计算:
(1)
其中M是一个半正定对称矩阵。根据公式(1),距离学习的实质是学习得到文矩阵M。对任意自然数n,设
。设
是对称p阶矩阵空间,
为正定对称p阶矩阵空间。设任意
,空间
上的内积可以表示为
,其中
表示矩阵的迹。用
表示标准欧式空间下的泛数。由n个本体样本点构成的样本集合记为
,其中
,
是顶点
对应的标记。记
,则由(1)可知
。若
属于相似集合对,则设
,并将
记为
。
在学习过程中,我们希望相似的顶点对,它们的距离尽可能的小;而不相似的顶点对,它们的距离尽可能的大。进而可以如下表示:
(2)
采用对最小平方距离进行最大化的方法,(2)又可以化为
(3)
记
,则(3)又可以写成
(4)
可见,(4)是一个典型的半正定规划(semi-definite programming,简称SDP),其等价于
(5)
3. 主要本体学习算法描述
下面我们给出本文主要本体学习策略。对任意
,记
为
的最大特征值。设
为不相似对的个数,它的单纯形则为
.
记
,
。设
是可逆的,则(4)等价于
. (6)
更进一步,可以表示成如下特征值优化问题:
.
如果设三元组
表示为
与
相似,但
与
不相似,并设
为这样的三元组的集合。重新记
,
。则本体算法问题又可以重新写为如下形式:
(7)
其中
是平衡参数。通过计算可知,上述(7)又等价于
.
类似地,设
,
。假设
可逆,则上述本体问题(7)又等价于
(8)
其中向量
表示其所有分量都是1。设
表示向量
的最大元素,则(7)可以表示为广义特征值优化问题如下:
.
事实上,由(6)可知本体问题可看成
.(9)
为解答本体问题(9),引入光滑参数
,并定义
.
下面我们使用光滑逼近的思想来解(9):
输入:光滑参数
,阈值
,步长序列
;
初始化:
满足
;
对
做如下循环
,
即
其中
为矩阵
的最大特征值。
;
若
,则退出循环;
输出:
阶矩阵
。
可知道,如果步长序列满足
且
,则有
。
另外一个解答本体优化问题(8)的思路可以表述如下。先设
.
这样一来,(8)等价于
.
用如下的函数来逼近
:
.
其梯度为
,
.
其具体逼近方法为:
输入:光滑参数
,阈值
,步长序列
;
初始化:
满足
和
;
对
做如下循环
;
;
若
,则退出循环;
输出:
阶矩阵
和松弛变量
。
利用以上两种策略,都可以得到顶点对应向量之间距离计算公式,进而间接确定顶点对应概念之间的相似度。
4. 实验
本节中,我们将验证以上得到的本体算法对本体相似度计算和本体映射的有效。为此,将本文学习算法应用于生物学GO本体和物理教育学本体,前者验证算法对相似度计算的效率,后者验证算法对本体映射构建是否有效。
4.1. 本体相似度实验
GO本体构建于http://www.geneontology.Org网站,它将一些生物基因概念集合在一起进行管理,方便用户查找信息。因此,GO本体可以看成一个数据库,图1可见该本体的大致结构,其图形可以表示为一棵树,所有概念分成“molecular function”,“biological process”和“cellular component”三个部分。实验的过程是利用本文得到的算法在GO本体上进行概念顶点之间的距离计算,距离越小则表示相似度越大;反之,距离越大则表示相似度越小。因为这样得到的相似度是相对的,所以实验结构可以使用P@N[11] 平均准确率来判定它的优劣。为了有所比较,将如下以下三类本体学习算法也同时作用于GO本体:基于传统回归学习模型的本体算法[12] 、基于快速排序的学习模型的本体算法[13] 和基于一般本体排序学习方法的本体算法[14] 。取N = 3,5,10,其P@N准确率对比可参考表1。
表1. 部分实验数据
根据取N = 3,5,10时表1中的P@N准确率数据分析对比可知,利用特征值优化得到的距离计算方法可以用于本体相似度计算,并且对GO本体而言,其效率要高于另外三种使用的方法。
4.2. 本体映射实验
接下来,需要验证本文使用特征值优化方法的距离计算模型是否对多个本体之间映射的构建有效。借助物理教育学本体O2和O3,其结构可参考图2和图3。由于是本体映射,因此此次距离计算只在不同本体之间进行。同理,距离越小说明相似度越高,距离越大说明相似度越小。而最后本体映射的构建是在相似度计算的基础上进行的。即对于某一个顶点而言,返回在另一个本体中与之相似的顶点集合作为映射值。算法得到的是相对相似度,因此实验准确率同样采用P@N准确率来判断。为了和其他算法的结果进行对比,我们还是将上一个实验中用过的三类算法作用于物理教育学本体O2和O3:基于传统回归学习模型的本体算法、基于快速排序的学习模型的本体算法和基于一般本体排序学习方法的本体算法。由于本次实验中本体顶点数量较少,因此只取N = 1,3,5。表2中显示了部分实验结果。
由表2的数据可知,在取N = 1,3,5的情况下,本文特征值优化得到的距离计算模型在物理学教育本体上构建本体映射的效率要高于其他使用的三种方法。
5. 结束语
本体的本质是一个概念集合。在管理学中,为了对概念进行有效管理,需要将其结构化存储和表示,
表2. 部分实验数据
因而本体作为一种方法和工具被广泛应用于大数据相关概念管理中。而用户则需要知道这些概念之间的相互联系,因而在本体上进行相似度计算时本体应用的核心内容。本文利用特征值优化得到距离学习方法,并将其用在本体相似度计算和本体映射中。第四节中所示的两个实验表明,新算法是可行的并且是有效的。
基金项目
国家自然科学青年基金资助项目(11401519)。