1. 引言
在数据挖掘中除了针对数据库中数据的挖掘研究外还有对文本的挖掘研究。在互联网成为生活必不可少的组成部分的今天,网络信息充斥生活,而海量数据中哪些是有用的、需要的,而哪些又是垃圾信息,需要剔除的,如何能自动轻松的完成筛选?本文中研究的就是基于Web的文本挖掘。在进行web挖掘的时候,如何计算词语的相似度会影响到最终挖掘的效果。传统的基于知网的词语相似度算法有它的局限性,很多学者对其也进行了改进,比如文献 [1] [2] 中提到的。本文从柔性逻辑的角度改进该词语相似度算法,使之能根据需要自适应的改变。
2. 柔性逻辑基础
20世纪以来,数十种适用于不同的背景的逻辑学被先后提出,用于满足各新兴学科的不同需要。为了满足智能应用的需要,在刚性逻辑中引入现实世界的柔性因子,去补充刚性的不足,本世纪初何华灿教授提出了一种新的柔性逻辑–泛逻辑学 [3] 。泛逻辑理论利用二值逻辑、多值逻辑和模糊逻辑的理论体系去研究人工智能领域中的不确定性、不完全性以及模糊性。其中它对命题的真值域、命题连接词、量词等都进行了柔性化 [4] [5] [6] ,可以全面反映命题真值的不确定性、真值误差的不确定性、命题之间相关关系的不确定性和相对权重的不确定性对逻辑推理的影响,使之更适合于现实世界的推理规则。目前对泛逻辑的研究已经建立并证明了各级泛运算的模型和算子并进行了证明和应用,形成了一套形式推理系统。在本文中只应用了泛逻辑中的泛非运算,下面就着重介绍一下泛非运算的逻辑公式。
2.1. 泛非命题连接词及其逻辑公式
在泛逻辑中,泛逻辑学中非运算(算子)以三角范数理论中的N范数作为其数学原型。在三角范数研究中很早就研究了模糊非算子,称为N范数,文献 [7] [8] [9] [10] [11] 对其进行了研究,得到的结果不尽相同。
1. N范数的一般定义 [3]
设一元运算N(x)是的,则关于N(x)有以下条件:
边界条件N1,;
单调性N2,若,则;
严格单调性N2’,若,则;
连续性N3,,x−, x+是x的左右邻元;
逆等性N4,,即是N(x)的逆。
定义1:满足条件N1和N2的N(x)称为弱N范数(Weak n-norm);如果满足条件N1、N2和N4,则称为N范数;如果满足条件N1、N2和N3,则称为连续(弱)N范数;如果满足条件N1、N2和N2’,则称为严格单调(弱)N范数;
例如,,N2, N1和Sugeno算子簇都是严格单调连续弱N范数(簇)。而N3和N0中都存在间断点,不是连续N范数,只是弱N范数(簇)。一般情况下讨论的都是连续的严格单调N范数。
2. N性生成元及其性质
在特征空间E中,当每一个模糊测度m(X)可以精确得到时,,,中心非算子成立,它是泛非运算的基模型。但当得到的模糊测度m(X)的值x不精确时,设,,,若需要在一定约束条件下对N(x*)进行估计,则一般约束条件如下
(1)
其中为N性生成元,它是连续的严格单调增函数,,,作用是修正误差对模糊测度值x*的影响。是特殊的N性生成元,它表示模糊测度是精确的。
3. N范数完整簇及广义自相关系数
有了N性生成元及生成方法,下面来研究用它们来生成N范数完整簇。
广义自相关系数k值:N范数是连续的严格单调减的,它的不动点即广义自相关系数。
研究表明,N性生成元完整簇的模型有无穷多种,它们与误差分布的形式有关。因而由N性生成元完整簇生成的N范数完整簇也有无穷多种,最常用的是多项式模型和指数模型。下面用表示误差分布函数完整簇,表示N性生成元完整簇,表示N范数完整簇.
定义2:设N性生成元簇,,对某个特定的,是一个N性生成元,若满足:
1)可随k连续的严格单调减地变化;
2),且当时;
3) 当时,当时;
4) 对,,使;
5) 对,,使.
则称是N性生成元完整簇,简称N元簇(N-generate cluster).
这里表示以x为变元对求逆。
2.2. 泛非命题连接词的相关性质
泛非命题连接词即具有一级不确定性的泛非运算,由于模糊测度的不精确性导致了它的不确定性,这种不确定性由认识偏差或测量误差引起,用广义自相关系数也称误差系数来表示。使用一级泛非运算的条件是命题和它的非命题都服从相同的误差分布,并有相同的误差水平k。
泛非命题连接词的运算模型是一个N范数完整簇,其中位置标志参数k是的不动点,也是非运算中的阈元,它代表否定中的风险程度。是一个可在其存在域内随k连续变化的非算子完整簇,它的存在域是:,最大非算子是,中心非算子是,最小非算子是。
N范数完整簇由泛非运算模型的生成基和N性生成元完整簇相互作用生成。
其中泛非运算模型的生成基是精确命题真值的非运算即中心非算子。N性生成元完整簇的逻辑意义是修正模糊测度误差对命题真值的影响,它与模糊测度的误差分布函数簇有关。簇有无限多种,故簇也有无限多种。一个逻辑推理系统中一般只需要使用同一个簇和簇。常用的是多项式模型和指数模型。
多项式模型:
(2)
(3)
指数模型:
(4)
(5)
由于泛非命题连接词是由N范数完整簇定义的,所以N范数和N范数完整簇的性质就是线序连续值逻辑泛非命题连接词的性质,归纳起来有:
封闭性:命题p的泛非命题仍是命题。
对合律:命题经过2 (偶数)次相同误差水平k的泛非运算后回到原命题。
泛非性如果,则;如果,则:不假命题的泛非命题一定不真;不真命题的泛非命题一定不假。
对偶律, ,:泛非运算模型簇满足对偶律,它以中心非算子N(x)为中心,零级对偶和一级对偶都在簇中。
偶等性:任何泛非运算的自对偶仍然是自己。
3. 词语相似度计算及其改进
3.1. 词语相似度计算
设有词语W1和W2,如果W1用n个概念来描述,W2用m个概念描述,则计算词语间的相似度即计算概念集合间的相似度。
1. 义原相似度的计算
要计算两组概念的相似度首先要计算义原间的相似度,因为所有概念都是用义原来表示的。文献 [12] 中采用通过语义距离来计算义原结点间相似度的办法,即假设两个义原在此层次体系中的路径距离为d,则这两个义原间的语义相似度可由
(6)
2. 虚词概念的相似度计算
基于“知网”的知识描述语言的,虚词用“{句法义原}”或“{关系义原}”描述,所以虚词的相似度就可以通过对应的“句法义原”或“关系义原”间的相似度计算来得到。
3. 实词概念的相似度计算
实词概念采用的相似度计算方法是通过部分相似度的合成来代替整体的相似度。首先要将两个整体的各个部分之间建立起一一对应的关系,随后计算各个配对间的相似度,加权求和。若某一部分的对应为空时其相似度定义为一个比较小的常数δ,和具体词与义原的相似度定义为同一级别。
得到词语的概念集合后,建立起两个集合元素的一一对应关系,之后集合的相似度计算就等于其元素对相似度的算术平均值。具体算法在文献 [13] 中曾有详细描述,这里不再重复。
3.2. 义原相似度的计算及其改进
要计算两组概念的相似度首先要计算义原间的相似度,因为所有概念都是用义原来表示的。文献 [12] 中采用通过语义距离来计算义原结点间相似度的办法,即假设两个义原在此层次体系中的路径距离为d,则这两个义原间的语义相似度可由式(6)计算得来,具体化为:
(7)
其中a为可调节参数,通常a是指相似度为0.5时的词语距离值。p1和p2为两个不同的义原,d是在层次树中p1和p2间路径的长度,为一正整数。具体的计算方法:找到p1和p2的最近共同双亲结点cp,如果cp存在,则;否则d = 20。
在柔性逻辑中,泛非运算模型为,常用的多项式模型为,,k为广义自相关系数。
这里采用柔性逻辑来分析义原相似度,由原义原相似度计算公式
(8)
其中d是p1和p2在层次树中的路径长度。
将泛非运算因子引入,即将泛非运算模型和式(8)结合,对d进行归一化处理,令,则,代入式(7)得到
(9)
也就是说,原来的义原相似度定义可以由泛非运算来定义。如此以来使相似度的计算更加的柔性化,可以随着不同的要求来改变使用的相似度计算方法,在簇中选取适合计算的范数。比如当前的义原相似度计算中只考虑了义原在层次树中的深度及相互的路径长度,并没有考虑区域密度等影响因素,而实际使用中密度的影响会更大,所以就需要修改当前的相似度计算方法,比如在文献 [14] 中修改了其义原距离d计算公式为
(10)
其中,,,为可调节参数。
该定义中考虑了深度及区域密度的共同影响,并且设定了为可调节参数,更符合实际。但这样的定义的距离和原来定义的距离不同,需要全部重新计算,而且该定义假设义原的深度和区域密度对义原相似度的贡献是独立的,深度对相似度的影响比密度对相似度的影响要小,但实际深度和密度是有相互关联的,如此又需要改进该计算方法。
4. 总结与展望
使用泛非算子后,可以通过调节广义相关系数k来体现不同因素对相似度计算的影响。广义相关系数原意是修正测度误差的,在这里可以通过不同的k值得到不同的泛非运算模型,也即新相似度计算模型,如此使得相似度计算能在不同的情况下有不同的计算结果。如此可为文本挖掘的研究提供了新的思路和方向,以期能更方便有效的进行相似度的计算,帮助企业及用户更有效的挖掘需要的数据。
基金项目
本项目得到网络文化与数字传播北京市重点实验室开放课题资助(ICDD201610);2015课程建设“数据结构教学方式改革的研究项目”资助。
参考文献