1. 引言
云模型是李德毅院士于20世纪90年代初提出的一种研究定性概念定量化模型[1],现已广泛应用于人工智能[2]、数据挖掘[3]、数据处理[4]、推荐系统[5]和评价决策[6]等诸多领域。对不同的云模型进行相似度的测算是云模型应用过程的重要环节。相似性作为客观事物本质关联的直观反映,其度量方法构成了数据挖掘、推荐系统等领域的核心技术环节,且云模型相似性的计算精度直接影响到其在实际应用的效果。然而,当前现有云模型相似性度量方法普遍存在计算复杂、区分度不高、结果不稳定等问题。因此,研究一种更有效的相似性度量方法,不仅能够完善现有的云理论体系,提升云模型的运行效率,还能够对推动人工智能、数据挖掘、智能决策系统等领域发展有着重要的意义。
在云模型相似性度量领域,现有方法主要分为以下四类:一类是基于云滴度量方法。如,张勇[7]通过随机抽取云滴样本并计算所有组合的累计距离的均值作为相似度,但结果易受云滴个数和实验次数的影响,且计算复杂,不适合大规模数据;二类是基于数字特征的向量度量方法。如,张光卫等[8]将云模型的期望、熵、超熵等数字特征作为一组向量,将相似度测算转化为向量的夹角余弦值计算,但该方法未能充分考虑熵和超熵的影响,且在区分度方面存在局限;三类是基于形状的重叠面积度量方法。如,李海林等[9]通过求解两云模型期望曲线的交点及重叠面积进行度量。查翔等[10]提出一种云相似度概念跃升的间接计算相似性方法,通过截断熵获得综合云,计算综合云与原始云的曲线相交面积间接衡量相似性。汪军等[11]结合期望曲线相交面积和方差之比定义了云模型的距离相似性和形状相似性概念,构建一种云模型综合相似性度量方法。上述方法都涉及曲线交点的计算及其重叠面积的积分运算,时间复杂度较高;四类从模糊贴近度的角度来描述云模型相似性的度量方法,如,龚艳冰等[12]将两种模糊贴近度公式进行组合来度量正态云的相似性。黄琼桃等[13]基于EW-型贴近度来度量三角云的相似性。此外,还有兼顾云滴距离和形状面积等多角度综合度量方法。如,Zhu等[14]基于正态云的云滴数量分布和隶属度,提出一种双向加权的相似性度量方法。许昌林[15]、Xu [16]等分别提出基于Hellinger距离和Wasserstein距离的云模型相似度方法。以上方法在区分度、稳定性、时间代价大小方面各有优缺点,更好的云模型相似性度量方法有待提出。
针对上述问题,本文以三角云模型作为研究对象,将其期望曲线以及最大边界曲线视作三角模糊数[13],综合考虑云模型的位置和形状特征,引入CD-型模糊数贴近度公式,提出一种基于CD-型贴近度的云模型相似性度量方法(similarity measure method of CD type approximation formula based on triangular cloud model, CDTCM)。实验表明,该方法能客观地度量云模型相似性,较传统的ECM、MCM、LICM、CFSM、EMTCM等方法,区分度更高,并且在时间序列分类实验中能提高分类结果的精确度。
2. 理论基础
定义1 [17]设U为数值型定量论域,C为U上的语言值概念,对于任意
,若x是概念C的单次随机映射结果,且x对C的隶属度
是具有稳定倾向的随机数值。即
,则x在论域U上的分布称为云,每个
称为一个云滴。
定义2 [17]云模型
通过三个数字特征来描述一个定性概念:
1) 期望值Ex (expectation):体现了概念外延的理想中心位置,对应云图的几何重心,即随机实现一次定性概念时所有x的平均值;
2) 熵En (entropy):反映定性概念外延的随机波动范围,即云滴(样本点)围绕期望值(Ex)的离散程度,同时也代表某一定性概念的接受范围;
3) 超熵He (hyper entropy):二阶熵,是熵(En)的不确定性度量。He越小,云滴的
分布越集中,概念边界越清晰;反之则云图越“厚”,概念边界越模糊。下图1表示了三角云模型以及其三个数字特征的含义。
Figure 1. The schematic diagram of triangular cloud model (15, 5, 0.3)
图1. 三角云模型(15, 5, 0.3)的示意图
定义3 [13] 若云模型
生成的云滴
满足:
,其中
,且
对定性概念
的隶属函数为:
则称
在论域
上的分布为三角云。
定义4 [13] 若随机变量
满足:
其中
,且
,则称
为三角云的期望曲线,如图1中线条所示。
定义5 [18] 设
为实数集,
为模糊集,若其满足正则性,凸性上半连续性,且支集是紧集,则模糊集
称为模糊数。模糊数空间是由全体模糊数构成的空间,记为
。
特别地,对于模糊数
,若
则称
为三角模糊数,记为
。
定义6 [19] 对于
,且
,则
称为区间数。区间的全体记为
。对于
,存在公式:
,
,
和
分别是区间数的期望值和宽度。
定义7 [20] 设
,对于给定的
,模糊数
的r-截集记为
,其中
。
定义8 [18] 设
,若映射
满足:
1)
;
2)
;
3)
且
。
则称
为模糊数
的贴近度。
3. CD-型贴近度公式
本文从模糊贴近度角度来描述云模型的相似性,从CD-型区间数距离出发,构造了一种新的CD-型模糊贴近度公式,并基于该模糊贴近度公式来度量两三角云模型的相似性。
引理1 [18] 对任意
,设函数
为:
其中函数
严格单调递减且
;距离函数
满足如下条件:
1)
;
2)
;
3)
且
。
则
为区间数与的贴近度。
根据上述引理1,本文选取严格单调递减函数
,(其中
,且
)显然该函数满足
,及文献[21]提出的如下式(1)的CD-型区间数距离公式
(1)
可定义如式(2)所示的CD-型区间数贴近度公式[21]
(2)
受文献[18]的启发,对CD-型区间数贴近度进行积分,构造CD-型模糊数贴近度公式,给出如下定理1。
定理1 对于
,
为其r-截集,设映射
定义为:
(3)
则
成为模糊数
和
的贴近度,称为CD-型贴近度。
证:设
,其中
是模糊数空间,则显然有
这表明映射
满足:
。
1)
:
2)
:
当
时,对任意
,均有
且
,即
,
,于是由式(1),(2)易知,有
,所以易推出
下面只需证明当
时,有
。
由
,有
,即
又由
且
,有
对于
几乎处处成立,从而
对于
几乎处处成立。即存在
上的零测度集
,使得
关于r在
上处处成立。
对于
且
时,由零测度集
的性质可知,存在非减数列
使得
。从而根据模糊数的表示定理[23],有
对
,可以取单调下降的
收敛于0,所以同样有
因此
对任何
成立,即
。
3)
且
:
设
,则对任意
,有
即对任意
,有
,由区间数贴近度性质[18]可知
从而有
即
于是由定义8,
为模糊数u与v的贴近度。
4. 基于CD-型贴近度的三角云相似性度量
三角云模型
作为一种拓展的云模型,它以期望曲线作为骨架,反映总体几何特征;而
根据三角云的雾化特性,当
时,最大边界曲线可使99.7%的云滴落在其内部,这表明最大边
界曲线可反映云模型的局部特征。因此,为融合云模型整体和局部特征,本文先通过CD-型贴近度来刻画期望曲线和最大边界曲线的贴近度,再将其进行加权提出两三角云综合相似性度量方法。
4.1. 三角云期望曲线的相似性度量
三角云模型的“
”覆盖原则表明90%以上的云滴落在
范围内,所以在计算云模型的相似性时,也只需考虑在该范围之内的云滴和期望曲线,因此将“
”原则引入到期望曲线中,可定义限制其定义域范围后的期望曲线表达式[13]:
(4)
显然上式(4)符合三角模糊数的概念,即
为三角形模糊数,记为
。该三角模糊数的r-截集如下图2所示。
Figure 2. The r-cut interval number of triangular numbers
图2. 三角模糊数的r-截集
易计算得
的r-截集的上下界为:
(5)
该r-截集的期望和宽度分别为
(6)
现对于两云模型分别为
和
,将其期望曲线可看成如下所示的两个三角模糊数:
(7)
现利用模糊数
的CD-型贴近度来刻画两三角云的相似性,提出三角云期望曲线的相似性度量方法(similarity measure method of expectation curve for triangular cloud model, ETCM),记为
(8)
其中
,且
越大,说明两云模型的相似度就越高。
具体的基于期望曲线的云模型相似性度量算法如下所示:
算法2.1. CDETCM算法
输入:云模型
和
输出:两云模型的相似性
Step 1依据式(7),将两云模型表示成三角模糊数形式; Step 2由式(5)、(6)分别计算两三角模糊数r-截集的期望值
和
及宽度
和
; Step 3将期望值和宽度代入公式(1),计算CD-型区间数距离
; Step 4将
带入式(2)转化为区间数贴近度
; Step 5将
代入式(3),计算
。 |
注:计算过程中,令
以减少时间复杂度。
4.2. 三角云最大边界曲线的相似性度量
三角云最大边界曲线通过将超熵参数引入期望曲线实现动态扩展。即将原熵值En修正为复合参数
,所以两个云模型的三角形模糊数分别变为
,(9)
其中,
。
该方法沿用与期望曲线相似的计算步骤,仅将原来的熵值(En)替换成熵值(En)加上超熵(He)的3倍。三角云最大边界曲线的相似性度量方法(similarity measure method of maximum boundary curve for triangular cloud model, MTCM)记为
。
具体的三角云最大边界曲线的相似性度量算法如下所示:
算法2.2. CDMTCM算法
输入:云模型
和
输出:两云模型的相似性
Step 1依据式(9),将两云模型表示成三角模糊数形式; Step 2将(5)式中的
替换成
,再由式(5)、(6)分别计算两三角模糊数r-截集的期望值
和
及宽度
和
; Step 3将期望值和宽度代入公式(1),计算区间数距离
Step 4将
带入式(2)转化为区间数贴近度
; Step 5将
代入式(3),计算
。 |
注:计算过程中,令
以减少时间复杂度。
4.3. 综合的三角云模型相似性度量
云模型相似性度量方法需合理考虑三个特征值。基于三角云的期望曲线的相似性度量方法计算仅涉及期望Ex和熵En的值,没有考虑超熵He会影响的云模型的厚度,这将导致一定的计算误差;而基于三角云的最大边界曲线的相似性度量方法,采用3He扩张边界,虽捕捉了局部的波动特征,但过度放大了超熵(He)的影响。因此,本文融合云模型的三个特征值,定义一种加权计算三角云相似性的综合方法,如下式(10)所示:
(10)
其中,
和
代表基于三角云的期望曲线及最大边界曲线的相似性权重,且满足
。另外,受文献[24]的启发,
与
的确定方法如下:
(11)
综合的三角云相似性度量算法如下所示:
算法2.3. CDTCM算法
输入:云模型
和
输出:两云模型的综合相似性
Step 1利用算法2.1计算出
; Step 2利用算法2.2计算出
; Step 3将
和
代入公式(11)解出其中的
; Step 4将
代入公式(10),计算综合相似度
。 |
注:计算过程中,令
以减少时间复杂度。
5. 实验对比分析
为了说明本文所提算法的可行性及有效性,首先通过数值仿真实验验证CDETCM、CDMTCM、CDTCM等方法的可行性;其次利用该方法对UCI常用数据集(synthetic control chart dataset)和UCR中心电图数据(ECG200)和牛肉光谱数据(Beef)等10个常用的数据集进行分类实验,根据其分类精确度验证算法的分类性能以进一步说明方法的可行性和有效性。
5.1. 仿真实验
本文利用文献[8]中给出的4个云模型进行数值仿真实验,它们分别为:
其对应云图如图3所示,根据本文所提算法上述4个云模型相似性度量结果如表1所示。
由下表1可知,4个云模型两两之间相似度大小为:
,该相似性大小的排序与图3的直观印象相契合,即该方法可行。再将本文所提CDTCM方法和现有的比较经典的相似性度量方法ECM [9]、MCM [9]、LICM [8]、EMTCM进行比较,不同相似性度量算法的计算结果对比如表2所示。
Figure 3. Cloud droplet distribution and the expected curve of four cloud models
图3. 四个三角云的云滴分布及期望曲线
Table 1. Three different similarity measurement methods for cloud models
表1. 3种不同云模型相似性度量方法
相似度 |
CDETCM |
CDMTCM |
CDTCM |
(C1, C2) |
0.1570 |
0.1568 |
0.1596 |
(C1, C3) |
0.1658 |
0.1660 |
0.1659 |
(C1, C4) |
0.8499 |
0.7680 |
0.8172 |
(C2, C3) |
0.6763 |
0.7297 |
0.6968 |
(C2, C4) |
0.1614 |
0.1614 |
0.1614 |
(C3, C4) |
0.1705 |
0.1709 |
0.1707 |
表2的实验数据表明,CDTCM与ECM、MCM、LICM及EMTCM方法在相似性大小判断上具有一致性,均识别出云模型
与
的相似度最高。然而,在差异性区分能力方面,CDTCM展现出明显优势:同样是比较云模型
和
的相似度差值,ECM (差异度0.077)、MCM (差异度0.0028)、LICM (差异度0.0002)和EMTCM (差异度0.0874),CDTCM对
与
的相似性差异度达到0.1204。特别地,LICM因计算结果都很接近,导致区分能力不足。此外,CDTCM方法还具有一定的稳定性,由于其实验结果仅由云模型的3个数字特征决定,不受云滴数量和实验重复次数的影响。
5.2. 时间序列分类实验
在数据挖掘[25]领域,时序数据分类方法[26]始终是研究焦点之一,而分类模型的好坏关键在于其相似性度量方法的选取。因此,为验证本文所提方法的有效性,本节进行时间序列分类实验。本实验首先采用UCI中的常用时间序列数据集(synthetic control chart dataset) [27],该数据集包含6类不同的时序数据,每类100条,单条长度为60。实验中,对每类数据采用10折交叉验证,即将每类的100条数据均分为10组,每次测试取其中的1组(10条)为测试集,剩下的9组(90条)数据为训练集。
Table 2. Comparison of different similarity measurement methods for cloud models
表2. 不同的云模型相似性度量方法比较
相似度 |
ECM |
MCM |
LICM |
EMTCM |
CDTCM |
(C1, C2) |
0.0252 |
0.4545 |
0.9561 |
0.2419 |
0.1596 |
(C1, C3) |
0.0893 |
0.4905 |
0.9648 |
0.2543 |
0.1659 |
(C1, C4) |
0.9465 |
0.9604 |
0.9990 |
0.8848 |
0.8172 |
(C2, C3) |
0.8695 |
0.9576 |
0.9992 |
0.7974 |
0.6968 |
(C2, C4) |
0.0285 |
0.4525 |
0.9679 |
0.2500 |
0.1614 |
(C3, C4) |
0.0964 |
0.4898 |
0.9755 |
0.2594 |
0.1707 |
为了验证本文CDTCM方法的分类性能,采用的是最近邻分类(K-Nearest Neighbors, KNN)算法[28]进行分类实验(K = 10)。仿真实验对比了云模型在不同相似性度量方法下的时间序列分类正确率。首先,将每条时序数据通过逆向云变换算法表示为云模型,然后利用不同的云模型相似度量方法分别计算每类测试集与其他数据(包含目标类训练样本与全量非目标类数据的混合数据)的相似度矩阵,根据该相似度矩阵,利用KNN算法对分类结果进行计算,并通过10折交叉验证的方式,以得到每类测试集的分类正确率,最后对六类数据集的分类正确率取算术平均值,可得到如图4所示的各方法的分类正确率。其中,对比方法为ECM [9]、MCM [9]、LICM [8]、CFSM [12]、EMTCM [13]等方法。其次,对于KNN算法中不同的K值会导致不同的分类效果,因此为了突显CDTCM方法的优点,采用不同的参数K进行分类实验,分析CDTCM方法分类正确率的变化趋势,结果如图5所示。
Figure 4. Accuracy of different metric methods in classification
图4. 不同度量方法的分类正确率
由图4可清楚看到,本文提出的相似度量方法在前四类数据中表现良好,在前四类数据的平均分类正确率排序为CDTCM > MCM > EMTCM > ECM > LICM > CFSM。在六类数据中的平均分类正确率该方法与MCM基本一致,但高于ECM、LICM、CFSM及EMTCM方法。在分类正确率的稳定性方面,CDTCM方法在每一类数据中的分类正确率均在0.8以上,稳定性与传统的ECM、MCM、EMTCM方法相当,但明显优于LICM及CFSM方法。该实验结果表明本文方法是有效的,且充分展示了其在时间序列数据分类中良好性能。
由图5可知,对于不同的近邻数K,CDTCM方法对第1类与第2类数据的分类正确率并无影响,而其余各类的分类正确率均有不同程度的变化。其中,第3、4类数据的分类正确率虽呈现波动趋势,但波动幅度较小,且随着K值增加,分类正确率略有提升;第5、6类数据的分类正确率也呈波动趋势,但当
时,波动幅度较小且趋于稳定;而对于在不同K值下的平均分类率波动幅度很小。该仿真实验结果表明,总体上近邻数K对平均分类正确率的影响并不大,说明本文所提方法性能良好。
Figure 5. Comparison of the classification accuracy results of CDTCM under different values of the number of neighbors (K)
图5. CDTCM在不同近邻数K下的分类正确率结果对比
为进一步更加全面地验证本文所提CDTCM方法的分类性能,从UCR数据库中选取了心电图数据(ECG200)和牛肉光谱数据(Beef)等10个时间序列数据集进行分类实验,这些数据集中的各个数据序列样本带有分类标签,且均已被划分为不同规模大小的训练集和测试集。本实验分析的是各云模型相似性度量算法在时间序列分类中的分类错误率,采用最近邻算法1-NN作为时间序列分类器。为提高分类效率,将每个时间序列降维分段处理,并将分段后的时间序列利用逆向云算法转换为云模型,在同一维数段上云模型,分别利用LICM、ECM、MCM、CFSM和CDTCM算法来计算相似度。本实验的降维强度
。各方法在10个不同数据集下的分类错误率如表3所示。
由上表3可知,本文所提出的CDTCM方法在上述10个数据集中进行分类实验的分类错误率较低,除Adiac、Beef数据集外,其他9个数据集的分类错误率都在0.1以下,这表明该方法针对不同的数据集都表现出良好的分类效果,且与传统的ECM、MCM及CFSM等方法不相上下。
Table 3. Classification error rates of different cloud model similarity measures
表3. 不同的云模型相似性度量方法分类错误率比较
Name |
ECM |
MCM |
LICM |
CFSM |
CDTCM |
Gunpoint |
0.060 |
0.053 |
0.067 |
0.120 |
0.080 |
CBF |
0.003 |
0.015 |
0.037 |
0.015 |
0.010 |
Trace |
0.080 |
0.000 |
0.110 |
0.170 |
0.090 |
Wafer |
0.010 |
0.016 |
0.004 |
0.021 |
0.013 |
Facefour |
0.057 |
0.057 |
0.057 |
0.090 |
0.045 |
ECG200 |
0.130 |
0.120 |
0.160 |
0.150 |
0.090 |
Adiac |
0.376 |
0.384 |
0.439 |
0.491 |
0.366 |
Beef |
0.433 |
0.300 |
0.300 |
0.366 |
0.366 |
Coffee |
0.250 |
0.036 |
0.036 |
0.143 |
0.036 |
OliveOil |
0.167 |
0.100 |
0.066 |
0.133 |
0.100 |
6. 结束语
云模型相似性度量是当前研究的热点,其相似性度量方法的好坏至关重要。因此,为解决现有方法存在的区分度不高、结果不稳定等问题,本文提出了一种基于CD-型贴近度的云模型相似性度量方法,并通过数值模拟和时间序列分类实验,对该方法的可行性及有效性进行验证,得到以下结论:
本文将云模型扩展后的三角云的期望曲线及最大边界曲线看作三角模糊数,结合CD-型区间数距离,构造CD-型贴近度,求解两个云模型的相似度,该方法综合考虑了云模型的三个数字特征,计算过程简单,结果稳定且不受实验次数和云滴个数的影响。
在数值仿真实验中,该方法能够准确地衡量云模型间的相似程度,且结果较传统的ECM、MCM、LICM、EMTCM方法有更高的区分度。而在时间序列分类实验中,对于synthetic control chart dataset数据集的不同类型的数据CDTCM方法的分类准确率均在0.8以上,明显优于传统的LICM和CFSM方法,展现了算法的稳定性。而对于UCR数据库中10个数据集也展现出良好的分类效果。
本文提出的相似度量方法是对云模型理论的重要补充和完善,下一步的研究方向是将模糊数学中的相关理论与云模型相似性度量进行更深层次的有机融合。
基金项目
铀资源探采与核遥感全国重点实验室自主部署项目(2024QZ-TD-25)。
NOTES
*第一作者。
#通讯作者。