1. 引言
粗糙集理论[1]作为处理不确定性数据的有效工具,在数据挖掘[2]、冲突分析[3]、决策理论[4]及特征选择[5]等领域广泛应用,引起了持续关注与探索。随着研究的不断深入,经典粗糙集理论也在持续发展完善,不断衍生出新的模型和应用方向,以更好地处理多样化的数据,为解决复杂问题提供了强大的理论支撑和工具支持。
为克服传统粗糙集在问题处理上的局限性和单一性,多尺度决策系统[6]应运而生。该系统通过将条件属性划分为具有粗细关系的多个尺度,从不同层次对信息进行分析与处理,从而提升数据处理的灵活性和适应性,具体来说,在细尺度下处理问题利于捕捉细节信息,而在粗尺度下处理问题则能更好地把握全局信息。2013年,研究者从多粒度[7]的角度提出了多尺度信息系统中的多粒度粗糙集[8],并基于乐观多粒度和悲观多粒度两种视角进行分析,以满足不同的需求。在多尺度决策系统中,最优尺度的选择[9]与属性约简[10]是其核心研究方向,而关于不同尺度之间关联性的挖掘研究仍较为有限。
现有研究尚未涉及利用粒度转换函数在不同尺度间实现下近似跳转的机制与方法,因此本文在基于乐观多粒度的多尺度决策系统中,提出了从细尺度到粗尺度的下近似快速更新方法,并构建了多尺度决策系统下基于乐观多粒度的下近似快速跳转算法。最终,通过设计对比实验验证了本文所提算法的正确性与高效性。
2. 基本概念
定义1 [6]:二元组
表示一个多尺度决策信息系统,
是一个非空有限集合,表示论域;
为决策属性集;
表示具有n个条件属性的集合,其中每个条件属性
在多尺度条件下具有m个尺度,即
。条件属性
的相邻的两个尺度之间存在粒度转换函数
,使得
,其中
为满射函数,因此条件属性集合在多尺度条件下可表示为
。
定义2 [11]:
为一个多尺度决策信息系统,其中
。给定
表示第i个条件属性的尺度被限制为
,则条件属性集C在k下形成的单尺度信息表表示为:
,其中
。此时称k为S的一个尺度组合。S中所有的k组成的集合称为尺度空间,记作K。
定义3 [11]:
为一个多尺度决策信息系统,K为尺度空间,对于尺度组合
,若对于任意的
,均满足
,称尺度组合
较k更粗,记作
。
定义4 [8]:二元组
为一个多尺度决策信息系统。当尺度组合为
时,得到信息表
。粒度集
,满足
。对于
,X在粒度集
下的乐观多粒度下、上近似定义分别为:
(1)
(2)
则X的乐观多粒度正域定义如下:
(3)
性质1:在多尺度决策信息系统
中,对于尺度组合
,
,对于粒度集A中的任意粒度
,满足以下性质:
(4)
3. 基于多粒度的多尺度决策系统中下近似快速跳转方法
多粒度下近似的计算建立在单个粒度下近似计算的基础之上,而尺度由细向粗变化时,传统更新单粒度下近似的方法需要重新遍历整个信息表以确定每个对象的等价类,导致计算效率较低。针对这一问题,本研究将多尺度决策系统特有的粒度转换函数与哈希表相结合,提出了一种基于多尺度决策系统中基于粒度转换函数的下近似快速更新算法。该算法避免了大规模数据遍历,从而显著提升了尺度转换过程中下近似更新的计算效率。本研究以单个属性为一个粒度进行分析。
定义5:在粗糙集理论中哈希查找借助哈希表对元素进行分类存储,能够实现数据的快速存取,具体可表示为
。其中key为对象的属性值,value为三元组,在value中,x表示对象的等价类,d为等价类的广义决策值,
为判断该对象是否在下近似中的标识项。
性质2:在多尺度决策信息系统
中,对于
,属性
在尺度u下所划分的等价类表示为
,
表示条件属性
在尺度u与
之间的粒度转换函数,其中
,则当尺度由细变粗,即由u变化为
时,对于
,可能发生的情况如下:
(1)
;
(2)
且
;
(3)
且
;
(4)
且
。
其中
表示尺度变化时
所在的等价类会发生合并。对于以上四种情况,只有当发生情况(3)或发生情况(4)且满足
在尺度u下的决策值不相同时,对象x不再属于尺度
的下近似,此时需要从下近似中移除该对象。情况(1)和(2)不会对下近似产生影响。
证明:
情况(1)不在考虑范围之内;情况(2)显然成立在此不做证明;
情况(3):因为
,所以
并且
;因为
,所以
并且
。已知
,故而得知
。情况(4)同理可证。
证毕。
图1以可视化的形式展示了上述性质的图示说明,不同的等价类由不同形状表示,上述性质中的(1)、(2)、(3)与图中一一相对应,从图1可以看出,情况(1)和情况(2) (a)会对下近似值产生影响,并且在更新过程中可以删除整个等价类,而不是单独删除对象,可以简化计算流程并提高更新效率。
Figure 1. Change diagram of lower approximation
图1. 尺度由细到粗转换时下近似变化图
定义6:在多尺度决策信息系统
中,K为尺度空间,给定尺度组合
且满足
。以单个属性作为一个粒度,尺度组合
和
的多粒度结构分别为
和
,其中
。各条件属性在两个尺度间的粒度转换函数表示为
。对于决策属性D,
表示尺度组合v下单个粒度
关于D的下近似。当细粒度向粗粒度转换时,尺度组合
的下近似快速更新公式为:
(5)
其中,
为满足
的对象集合,即在尺度从细向粗转换过程中,等价类发生合并的对象集合,
为对象x的决策值。
则结合公式(1)和(5),由细尺度向粗尺度转换时尺度组合
下的乐观多粒度下近似快速更新公式表示如下:
(6)
通过遍历粒度转换函数,找出尺度变换后取值相同的元素,并利用哈希表快速检索这些值对应的对象。检查这些对象决策值的一致性,若存在不一致的情况,则将该对象所在的等价类从下近似集合中移除,从而获得更新后的下近似结果。这种方式能够在获得细尺度下近似后,快速计算更粗尺度的下近似,拥有更高的时间效率。根据上述定义和分析,下面给出尺度由细到粗跳转时乐观多粒度下近似的快速更新算法,如表1所示。
Table 1. Fast update algorithm for multigranulation lower approximations from fine to coarse scales
表1. 尺度由细到粗跳转时多粒度下近似的快速更新算法
输入:多尺度决策系统
,尺度组合
和
且
,粒度转换函数为
,多粒度结构
和
。 |
输出:
。 |
1. 初始化:
,
; |
2. 对于
,执行以下操作: 2.1. 初始化字典
,
; 2.2.
,执行以下步骤: 2.2.1. 若
不在
索引中:添加索引
; 2.2.2. 更新
中
为
的
; 2.3. 通过
计算
; 2.4. 遍历粒度转换函数
,通过
找出需要合并的等价类集合,合并后的集合记为
; 2.5. 对于
,执行以下步骤: 2.5.1. 对于
,若
中的标识项存在T且d值不相同:
; |
3. 根据公式(6)计算
; |
4. 输出粗尺度下乐观多粒度下近似
; |
5. 算法结束。 |
4. 实验分析
本节从结果正确性及时间效率两个方面对本文提出的算法进行验证。实验环境为Windows 11操作系统,配备1.6GHz的CPU和8GB的内存,使用编程软件为Pycharm2022.1.3。在实验中,采用9组UCI数据集(https://archive.ics.uci.edu/datasets)进行对比实验,详细信息见表2,包括数据集名称、样本数及属性数。
考虑到原始数据集中缺乏多尺度特征,因此在实验开始之前对原始数据进行预处理以构建具有粗细关系的三个尺度。具体构造方法为:
1) 首先基于文献[11]实验中所提及的方法构建第一尺度的值,构造公式如下:
(7)
在公式(7)中,
表示对象x在条件属性a下的值,
表示最小值,
表示条件属性a下的标准差,符号
表示向下取整函数,将连续数据转换为离散数据。
2) 随后采用层次聚类构建剩余两个尺度,构建过程中需要保证每个条件属性的类别数量不小于2个,若无法满足该条件,则终止当前尺度的聚类过程,并将该尺度数据直接复制至下一尺度。
Table 2. UCI datasets
表2. UCI数据集
序号 |
数据集 |
样本数 |
属性数 |
1 |
Magic Gamma Telescope |
19,020 |
10 |
2 |
Dry Bean Dataset |
13,611 |
16 |
3 |
Raisin |
900 |
7 |
4 |
Rice |
3810 |
7 |
5 |
Iranian Churn Dataset |
3150 |
13 |
6 |
Yeast |
1484 |
8 |
7 |
Page Blocks Classification |
5473 |
10 |
8 |
Liver Disorders |
345 |
5 |
9 |
Iris |
150 |
4 |
4.1. 算法正确性验证
Table 3. Lower approximation results
表3. 下近似结果
序号 |
LAFTC |
Hash |
CL |
下近似结果 |
长度 |
下近似结果 |
长度 |
下近似结果 |
长度 |
1 |
{12337, 12458, ···, 18979, 18981} |
148 |
{12337, 12458, ···, 18979, 18981} |
148 |
{12337, 12458, ···,18979, 18981} |
148 |
2 |
{4, 25, ···, 7426, 7427} |
1660 |
{4, 25, ···, 7426, 7427} |
1660 |
{4, 25, ···, 7426, 7427} |
1660 |
3 |
{85, 290, ···, 892, 893} |
151 |
{85, 290, ···, 892, 893} |
151 |
{85, 290, ···, 892, 893} |
151 |
4 |
{0, 7, ···, 3808, 3809} |
462 |
{0, 7, ···, 3808, 3809} |
462 |
{0, 7, ···, 3808, 3809} |
462 |
5 |
{2, 6, ···, 3146, 3148} |
1019 |
{2, 6, ···, 3146, 3148} |
1019 |
{2, 6, ···, 3146, 3148} |
1019 |
6 |
{114, 553, 881, 988, 989, 990, 1079} |
7 |
{114, 553, 881, 988, 989, 990, 1079} |
7 |
{114, 553, 881, 988, 989, 990, 1079} |
7 |
7 |
{307, 323, ···, 5318, 5466} |
34 |
{307, 323, ···, 5318, 5466} |
34 |
{307, 323, ···, 5318, 5466} |
34 |
8 |
{84, 223} |
2 |
{84, 223} |
2 |
{84, 223} |
2 |
9 |
{0, 1, ···, 48, 49} |
50 |
{0, 1, ···, 48, 49} |
50 |
{0, 1, ···, 48, 49} |
50 |
为了验证本文提出的LAFTC算法的有效性,我们将所提算法的计算结果与基于哈希[12]的求解乐观多粒度下近似方法(Hash)、传统的基于遍历[1]的求解乐观多粒度下近似方法(CL)进行了对比。实验结果表明,本文所提算法是正确且有效的。
在实验中,我们展示了第二尺度乐观多粒度下近似的对比结果,具体如表3所示。实验中分别采用三种算法计算从第一尺度向第二尺度跳转时乐观多粒度的下近似结果,下近似具体结果及其长度分别在表3中展示,三种算法求得乐观多粒度下近似结果完全一致,但由于下近似结果过长,无法全部展示,因此在表3中仅列出了结果下标的前两位及后两位。从表3的结果中可以看出,通过算法LAFTC、Hash及CL在9个数据集中所获得的下近似结果保持完全一致,这表明本文所提的LAFTC算法有效且正确。
4.2. 算法高效性验证
在本节中,我们对LAFTC算法与基于哈希求解乐观多粒度下近似求解方法(Hash)、传统的基于遍历求解乐观多粒度下近似求解方法(CL)在计算乐观多粒度下近似时的时间效率方面进行了对比,实验结果见表4及图2。
Table 4. Computation time (s)
表4. 运行时间
序号 |
LAFTC |
Hash |
CL |
1 |
0.0003 |
0.1223 |
0.2568 |
2 |
0.0013 |
0.1325 |
0.2241 |
3 |
0.0005 |
0.0043 |
0.0057 |
4 |
0.0004 |
0.0150 |
0.0236 |
5 |
0.0014 |
0.0229 |
0.0218 |
6 |
0.0002 |
0.0073 |
0.0172 |
7 |
0.0003 |
0.0290 |
0.0839 |
8 |
0.0001 |
0.0012 |
0.0029 |
9 |
0.0002 |
0.0004 |
0.0006 |
平均 |
0.0005 |
0.0372 |
0.0707 |
Figure 2. Optimistic multigranulation lower approximation time comparison
图2. 计算乐观多粒度下近似时间对比图
表中结果均保留4位小数,时间单位为秒(s),最后一行表示在9个数据集上计算乐观多粒度使用时间的平均值。图中使用对数坐标以更清晰地展示各算法之间的差异。由表和图可以看出,算法LAFTC在计算多粒度下近似时使用的时间平均最短,且在每个数据集中均取得了较高的效率。其中Iris数据集的加速效果不如Magic数据集,这主要是由于Iris数据集的对象规模较小,导致不同算法之间的运行时间差异并不明显。相比之下,对于Magic和Bean等大规模数据集的加速效果较好,其中Bean数据集由于特征维度较高,其运行时间比Magic更长。从实验结果可以看出,本文提出的算法在处理大规模数据集时展现出显著的性能优势。综上所述,LAFTC算法是有效的且在时间效率上表现优异。
5. 结论
本文在多尺度决策系统的研究背景下,结合哈希数据结构及粒度转换函数讨论了在尺度跳转时乐观多粒度下近似的变化机制。基于此,本文提出了尺度由细到粗跳转时乐观多粒度下近似的快速更新算法,实验部分通过对比不同算法在下近似结果上的一致性以及运行时间上的性能表现,验证了本文所提算法的正确性与高效性。实验结果表明本文算法不仅能够在多尺度决策系统中准确计算乐观多粒度下近似,还在时间效率上具有显著优势。未来将进一步研究该算法在动态数据集中的实现。
基金项目
本文受烟台市科技计划项目(编号:2022XDRH016)的资助。