多尺度决策系统中高效下近似跳转算法研究
Research on Efficient Lower Approximation Transition Algorithm Based on Multi-Scale Decision Systems
DOI: 10.12677/csa.2025.154108, PDF, HTML, XML,    科研立项经费支持
作者: 张 晴:烟台大学计算机与控制工程学院,山东 烟台
关键词: 粒计算下近似多尺度决策系统多粒度Granular Computing Lower Approximation Multi-Scale Decision Systems Multigranulation
摘要: 经典粗糙集理论只能从单个尺度处理分析数据,多尺度决策系统则可以从粗细不同尺度深度挖掘数据中隐含的信息,该系统的提出拓宽了经典粗糙集的应用范围,成为粗糙集领域的重要研究方向之一,受到学者广泛关注。由于传统方法下各尺度间下近似的转换仍需要消耗较多资源,因此本文提出一种下近似快速跳转方法。在基于乐观多粒度的多尺度决策系统的背景下,利用多尺度决策系统中特有的粒度转换函数实现了尺度由细向粗跳转时下近似的快速更新,并提出了相应的更新算法,有效避免了重新对数据表的遍历。为了验证算法的有效性,实验使用9个UCI数据集从下近似结果及时间方面分别进行验证,结果表明本文所提出的算法可行且具有更高的效率。
Abstract: Classical rough set theory can only process and analyze data from a single scale, whereas a multi-scale decision system can deeply mine the information hidden in the data from different coarse and fine scales. The introduction of multi-scale decision systems has expanded the application scope of classical rough set theory, establishing it as a significant research direction within the field and garnering widespread attention. However, traditional methods for transitioning lower approximations across scales still consume considerable resources. To address this, this paper proposes a rapid transition method for lower approximations. Initially, the multi-scale decision system is integrated with optimistic multigranulation rough sets. Building on this foundation, the method leverages the granular transformation functions of multi-scale decision systems to facilitate swift updates of lower approximations during scale transitions from fine to coarse. This approach introduces a fast update algorithm for lower approximations as scales coarsen, effectively circumventing the need for repeated traversal of data tables. To validate the algorithm’s efficacy, experiments were conducted using nine UCI datasets, assessing both the results of lower approximations and computational time. The findings demonstrate that the proposed algorithm is not only feasible but also exhibits superior efficiency.
文章引用:张晴. 多尺度决策系统中高效下近似跳转算法研究[J]. 计算机科学与应用, 2025, 15(4): 359-366. https://doi.org/10.12677/csa.2025.154108

1. 引言

粗糙集理论[1]作为处理不确定性数据的有效工具,在数据挖掘[2]、冲突分析[3]、决策理论[4]及特征选择[5]等领域广泛应用,引起了持续关注与探索。随着研究的不断深入,经典粗糙集理论也在持续发展完善,不断衍生出新的模型和应用方向,以更好地处理多样化的数据,为解决复杂问题提供了强大的理论支撑和工具支持。

为克服传统粗糙集在问题处理上的局限性和单一性,多尺度决策系统[6]应运而生。该系统通过将条件属性划分为具有粗细关系的多个尺度,从不同层次对信息进行分析与处理,从而提升数据处理的灵活性和适应性,具体来说,在细尺度下处理问题利于捕捉细节信息,而在粗尺度下处理问题则能更好地把握全局信息。2013年,研究者从多粒度[7]的角度提出了多尺度信息系统中的多粒度粗糙集[8],并基于乐观多粒度和悲观多粒度两种视角进行分析,以满足不同的需求。在多尺度决策系统中,最优尺度的选择[9]与属性约简[10]是其核心研究方向,而关于不同尺度之间关联性的挖掘研究仍较为有限。

现有研究尚未涉及利用粒度转换函数在不同尺度间实现下近似跳转的机制与方法,因此本文在基于乐观多粒度的多尺度决策系统中,提出了从细尺度到粗尺度的下近似快速更新方法,并构建了多尺度决策系统下基于乐观多粒度的下近似快速跳转算法。最终,通过设计对比实验验证了本文所提算法的正确性与高效性。

2. 基本概念

定义1 [6]二元组 S=( U,CD ) 表示一个多尺度决策信息系统, U={ x 1 , x 2 ,, x s } 是一个非空有限集合,表示论域; D={ d } 为决策属性集; C={ a j |j=1,2,,n } 表示具有n个条件属性的集合,其中每个条件属性 a j C 在多尺度条件下具有m个尺度,即 a j ={ a j 1 , a j 2 ,, a j m } 。条件属性 a j 的相邻的两个尺度之间存在粒度转换函数 g a j u1,u ,使得 a j u ( x )= g a j u1,u ( a j u1 ( x ) ) ,其中 g a j u1,u 为满射函数,因此条件属性集合在多尺度条件下可表示为 C={ a j u |j=1,2,,n,u=1,2,,m }

定义2 [11] S=( U,CD ) 为一个多尺度决策信息系统,其中 C={ a j u |j=1,2,,n,u=1,2,,m } 。给定 k=( u 1 , u 2 ,, u n ) 表示第i个条件属性的尺度被限制为 u i ,则条件属性集Ck下形成的单尺度信息表表示为: S k =( U, C k { d } ) ,其中 C k =( a 1 u 1 , a 2 u 2 ,, a n u n ) 。此时称kS的一个尺度组合。S中所有的k组成的集合称为尺度空间,记作K

定义3 [11] S=( U,CD ) 为一个多尺度决策信息系统,K为尺度空间,对于尺度组合 k=( u 1 , u 2 ,, u n ),  k ' =( u 1 ' , u 2 ' ,, u n ' )K ,若对于任意的 i[ 1, n ] ,均满足 u i u i ' ,称尺度组合 k ' k更粗,记作 k k '

4 [8]二元组 S=( U,CD ) 为一个多尺度决策信息系统。当尺度组合为 vK 时,得到信息表 S v =( U, C v { d } ) 。粒度集 A v ={ A 1 v , A 2 v ,, A t v } ,满足 A i v A v ,  A i v C v 。对于 XU X在粒度集 A v 下的乐观多粒度下、上近似定义分别为:

Apr _ A v O ( X )={ xU,x Apr _ A 1 v ( X )x Apr _ A 2 v ( X )x Apr _ A n v ( X ) } (1)

Apr ¯ A v O ( X )=( Apr _ A v O ( X ) ) (2)

X的乐观多粒度正域定义如下:

PO S A v O ( X )= Apr _ A v O ( X ) (3)

性质1在多尺度决策信息系统 S=( U,CD )=( U,{ a j u |j=1,2,,n,u=1,2,,m }{ d } ) 中,对于尺度组合 v, v ' K v v ' ,对于粒度集A中的任意粒度 A i A( i[ 1, t ] ) ,满足以下性质:

Apr _ A v O ( X ) Apr _ A v O ( X ) Apr _ A i v O ( X ) Apr _ A i v ' O ( X ) (4)

3. 基于多粒度的多尺度决策系统中下近似快速跳转方法

多粒度下近似的计算建立在单个粒度下近似计算的基础之上,而尺度由细向粗变化时,传统更新单粒度下近似的方法需要重新遍历整个信息表以确定每个对象的等价类,导致计算效率较低。针对这一问题,本研究将多尺度决策系统特有的粒度转换函数与哈希表相结合,提出了一种基于多尺度决策系统中基于粒度转换函数的下近似快速更新算法。该算法避免了大规模数据遍历,从而显著提升了尺度转换过程中下近似更新的计算效率。本研究以单个属性为一个粒度进行分析。

定义5:在粗糙集理论中哈希查找借助哈希表对元素进行分类存储,能够实现数据的快速存取,具体可表示为 key:{ value }=key:{ x,d,T/F } 。其中key为对象的属性值,value为三元组,在value中,x表示对象的等价类,d为等价类的广义决策值, T/F 为判断该对象是否在下近似中的标识项。

性质2在多尺度决策信息系统 S=( U,CD )=( U,{ a j u |j=1,2,,n,u=1,2,,m }{ d } ) 中,对于 xU ,属性 a j 在尺度u下所划分的等价类表示为 [ x ] a j u g a j u, u ' 表示条件属性 a j 在尺度u u ' 之间的粒度转换函数,其中 u< u ' ,则当尺度由细变粗,即由u变化为 u ' 时,对于 x,yU ,可能发生的情况如下:

(1) g a j u, u ' ( a j u ( x ) ) g a j u, u ' ( a j u ( y ) )

(2) g a j u, u ' ( a j u ( x ) )= g a j u, u ' ( a j u ( y ) ) x Apr _ a j u ( D ), y Apr _ a j u ( D )

(3) g a j u, u ' ( a j u ( x ) )= g a j u, u ' ( a j u ( y ) ) x Apr _ a j u ( D ), y Apr _ a j u ( D )

(4) g a j u, u ' ( a j u ( x ) )= g a j u, u ' ( a j u ( y ) ) x Apr _ a j u ( D ), y Apr _ a j u ( D )

其中 g a j u, u ' ( a j u ( x ) )= g a j u, u ' ( a j u ( y ) ) 表示尺度变化时 x,y 所在的等价类会发生合并。对于以上四种情况,只有当发生情况(3)或发生情况(4)且满足 x,y 在尺度u下的决策值不相同时,对象x不再属于尺度 u ' 的下近似,此时需要从下近似中移除该对象。情况(1)和(2)不会对下近似产生影响。

证明:

情况(1)不在考虑范围之内;情况(2)显然成立在此不做证明;

情况(3):因为 y Apr _ a j u ( D ) ,所以 oU,o [ y ] a j u 并且 d( o )d( y ) ;因为 g a j u, u ' ( a j u ( x ) )= g a j u, u ' ( a j u ( y ) ) ,所以 o,y,x [ x ] a j u 并且 [ o ] a j u = [ x ] a j u = [ y ] a j u 。已知 d( o )d( y ) ,故而得知 [ x ] a j u Apr _ a j u ( D ) 。情况(4)同理可证。

证毕。

图1以可视化的形式展示了上述性质的图示说明,不同的等价类由不同形状表示,上述性质中的(1)、(2)、(3)与图中一一相对应,从图1可以看出,情况(1)和情况(2) (a)会对下近似值产生影响,并且在更新过程中可以删除整个等价类,而不是单独删除对象,可以简化计算流程并提高更新效率。

Figure 1. Change diagram of lower approximation

1. 尺度由细到粗转换时下近似变化图

定义6在多尺度决策信息系统 S=( U,CD )=( U,{ a j u |j=1,2,,n,u=1,2,,m }{ d } ) 中,K为尺度空间,给定尺度组合 v,v'K 且满足 vv' 。以单个属性作为一个粒度,尺度组合 v={ u 1 , u 2 ,..., u n } v'={ u 1 ' , u 2 ' ,, u n ' } 的多粒度结构分别为 A v ={ A 1 v , A 2 v ,, A n v } A v' ={ A 1 v' , A 2 v' ,, A n v' } ,其中 A i v , A i v' C v 。各条件属性在两个尺度间的粒度转换函数表示为 g a 1 u 1 , u 1 ' , g a 2 u 2 , u 2 ' ,, g a n u n , u n ' 。对于决策属性D Apr _ A i v ( D ) 表示尺度组合v下单个粒度 A i v 关于D的下近似。当细粒度向粗粒度转换时,尺度组合 v' 的下近似快速更新公式为:

Apr _ A i v' ( D )= Apr _ A i v ( D ){ [ x ] A i v |x Apr _ A i v ( D ), yΔ, d( y )d( x ) } (5)

其中, Δ 为满足 g i u i , u ' i ( A i v ( x ) )= g i u i , u ' i ( A i v ( y ) ) 的对象集合,即在尺度从细向粗转换过程中,等价类发生合并的对象集合, d( x ) 为对象x的决策值。

则结合公式(1)和(5),由细尺度向粗尺度转换时尺度组合 v' 下的乐观多粒度下近似快速更新公式表示如下:

Apr _ A v' O ( D )= A i v A v { Apr _ A i v ( D ){ [ x ] A i v |x Apr _ A i v ( D ), yΔ, d( y )d( x ) } } (6)

通过遍历粒度转换函数,找出尺度变换后取值相同的元素,并利用哈希表快速检索这些值对应的对象。检查这些对象决策值的一致性,若存在不一致的情况,则将该对象所在的等价类从下近似集合中移除,从而获得更新后的下近似结果。这种方式能够在获得细尺度下近似后,快速计算更粗尺度的下近似,拥有更高的时间效率。根据上述定义和分析,下面给出尺度由细到粗跳转时乐观多粒度下近似的快速更新算法,如表1所示。

Table 1. Fast update algorithm for multigranulation lower approximations from fine to coarse scales

1. 尺度由细到粗跳转时多粒度下近似的快速更新算法

输入:多尺度决策系统 S=( U,CD ) ,尺度组合 v={ u 1 , u 2 ,, u n } v'={ u 1 ' , u 2 ' ,, u n ' } vv' ,粒度转换函数为 g a 1 u 1 , u 1 ' , g a 2 u 2 , u 2 ' ,, g a n u n , u n ' ,多粒度结构 A v ={ A 1 v , A 2 v ,, A n v } A v' ={ A 1 v' , A 2 v' ,, A n v' }

输出: Apr _ A v' O ( D )

1. 初始化: Apr _ A v' O ( D )= Apr _ A v' P ( D )=

2. 对于 A i v A v ,执行以下操作:

2.1. 初始化字典 dict={ key:{},value:{} } Apr _ A i v' ( D )=

2.2. xU ,执行以下步骤:

2.2.1. 若 A i v ( x ) 不在 dict 索引中:添加索引 A i v ( x )

2.2.2. 更新 dict key A i v ( x ) value

2.3. 通过 dict 计算 Apr _ A i v ( D )

2.4. 遍历粒度转换函数 g i u i ,u ' i ,通过 dict 找出需要合并的等价类集合,合并后的集合记为 Z 1 , Z 2 ,, Z s

2.5. 对于 Z i ( 1is ) ,执行以下步骤:

2.5.1. 对于 x Z i ,若 dict 中的标识项存在Td值不相同: Apr _ A i v ' ( D )= Apr _ A i v ( D ) Z i

3. 根据公式(6)计算 Apr _ A v' O ( D )

4. 输出粗尺度下乐观多粒度下近似 Apr _ A v' O ( D )

5. 算法结束。

4. 实验分析

本节从结果正确性及时间效率两个方面对本文提出的算法进行验证。实验环境为Windows 11操作系统,配备1.6GHz的CPU和8GB的内存,使用编程软件为Pycharm2022.1.3。在实验中,采用9组UCI数据集(https://archive.ics.uci.edu/datasets)进行对比实验,详细信息见表2,包括数据集名称、样本数及属性数。

考虑到原始数据集中缺乏多尺度特征,因此在实验开始之前对原始数据进行预处理以构建具有粗细关系的三个尺度。具体构造方法为:

1) 首先基于文献[11]实验中所提及的方法构建第一尺度的值,构造公式如下:

a 1 ( x )= a( x ) m a / std( a ) (7)

在公式(7)中, a( x ) 表示对象x在条件属性a下的值, m a 表示最小值, std( a ) 表示条件属性a下的标准差,符号 a( x ) m a 表示向下取整函数,将连续数据转换为离散数据。

2) 随后采用层次聚类构建剩余两个尺度,构建过程中需要保证每个条件属性的类别数量不小于2个,若无法满足该条件,则终止当前尺度的聚类过程,并将该尺度数据直接复制至下一尺度。

Table 2. UCI datasets

2. UCI数据集

序号

数据集

样本数

属性数

1

Magic Gamma Telescope

19,020

10

2

Dry Bean Dataset

13,611

16

3

Raisin

900

7

4

Rice

3810

7

5

Iranian Churn Dataset

3150

13

6

Yeast

1484

8

7

Page Blocks Classification

5473

10

8

Liver Disorders

345

5

9

Iris

150

4

4.1. 算法正确性验证

Table 3. Lower approximation results

3. 下近似结果

序号

LAFTC

Hash

CL

下近似结果

长度

下近似结果

长度

下近似结果

长度

1

{12337, 12458, ···, 18979, 18981}

148

{12337, 12458, ···, 18979, 18981}

148

{12337, 12458, ···,18979, 18981}

148

2

{4, 25, ···, 7426, 7427}

1660

{4, 25, ···, 7426, 7427}

1660

{4, 25, ···, 7426, 7427}

1660

3

{85, 290, ···, 892, 893}

151

{85, 290, ···, 892, 893}

151

{85, 290, ···, 892, 893}

151

4

{0, 7, ···, 3808, 3809}

462

{0, 7, ···, 3808, 3809}

462

{0, 7, ···, 3808, 3809}

462

5

{2, 6, ···, 3146, 3148}

1019

{2, 6, ···, 3146, 3148}

1019

{2, 6, ···, 3146, 3148}

1019

6

{114, 553, 881, 988, 989, 990, 1079}

7

{114, 553, 881, 988, 989, 990, 1079}

7

{114, 553, 881, 988, 989, 990, 1079}

7

7

{307, 323, ···, 5318, 5466}

34

{307, 323, ···, 5318, 5466}

34

{307, 323, ···, 5318, 5466}

34

8

{84, 223}

2

{84, 223}

2

{84, 223}

2

9

{0, 1, ···, 48, 49}

50

{0, 1, ···, 48, 49}

50

{0, 1, ···, 48, 49}

50

为了验证本文提出的LAFTC算法的有效性,我们将所提算法的计算结果与基于哈希[12]的求解乐观多粒度下近似方法(Hash)、传统的基于遍历[1]的求解乐观多粒度下近似方法(CL)进行了对比。实验结果表明,本文所提算法是正确且有效的。

在实验中,我们展示了第二尺度乐观多粒度下近似的对比结果,具体如表3所示。实验中分别采用三种算法计算从第一尺度向第二尺度跳转时乐观多粒度的下近似结果,下近似具体结果及其长度分别在表3中展示,三种算法求得乐观多粒度下近似结果完全一致,但由于下近似结果过长,无法全部展示,因此在表3中仅列出了结果下标的前两位及后两位。从表3的结果中可以看出,通过算法LAFTC、Hash及CL在9个数据集中所获得的下近似结果保持完全一致,这表明本文所提的LAFTC算法有效且正确。

4.2. 算法高效性验证

在本节中,我们对LAFTC算法与基于哈希求解乐观多粒度下近似求解方法(Hash)、传统的基于遍历求解乐观多粒度下近似求解方法(CL)在计算乐观多粒度下近似时的时间效率方面进行了对比,实验结果见表4图2

Table 4. Computation time (s)

4. 运行时间

序号

LAFTC

Hash

CL

1

0.0003

0.1223

0.2568

2

0.0013

0.1325

0.2241

3

0.0005

0.0043

0.0057

4

0.0004

0.0150

0.0236

5

0.0014

0.0229

0.0218

6

0.0002

0.0073

0.0172

7

0.0003

0.0290

0.0839

8

0.0001

0.0012

0.0029

9

0.0002

0.0004

0.0006

平均

0.0005

0.0372

0.0707

Figure 2. Optimistic multigranulation lower approximation time comparison

2. 计算乐观多粒度下近似时间对比图

表中结果均保留4位小数,时间单位为秒(s),最后一行表示在9个数据集上计算乐观多粒度使用时间的平均值。图中使用对数坐标以更清晰地展示各算法之间的差异。由表和图可以看出,算法LAFTC在计算多粒度下近似时使用的时间平均最短,且在每个数据集中均取得了较高的效率。其中Iris数据集的加速效果不如Magic数据集,这主要是由于Iris数据集的对象规模较小,导致不同算法之间的运行时间差异并不明显。相比之下,对于Magic和Bean等大规模数据集的加速效果较好,其中Bean数据集由于特征维度较高,其运行时间比Magic更长。从实验结果可以看出,本文提出的算法在处理大规模数据集时展现出显著的性能优势。综上所述,LAFTC算法是有效的且在时间效率上表现优异。

5. 结论

本文在多尺度决策系统的研究背景下,结合哈希数据结构及粒度转换函数讨论了在尺度跳转时乐观多粒度下近似的变化机制。基于此,本文提出了尺度由细到粗跳转时乐观多粒度下近似的快速更新算法,实验部分通过对比不同算法在下近似结果上的一致性以及运行时间上的性能表现,验证了本文所提算法的正确性与高效性。实验结果表明本文算法不仅能够在多尺度决策系统中准确计算乐观多粒度下近似,还在时间效率上具有显著优势。未来将进一步研究该算法在动态数据集中的实现。

基金项目

本文受烟台市科技计划项目(编号:2022XDRH016)的资助。

参考文献

[1] Pawlak, Z. (1982) Rough Sets. International Journal of Computer & Information Sciences, 11, 341-356.
https://doi.org/10.1007/bf01001956
[2] Kong, Q., Wang, W., Xu, W. and Yan, C. (2024) A Method of Data Analysis Based on Division-Mining-Fusion Strategy. Information Sciences, 666, Article 120450.
https://doi.org/10.1016/j.ins.2024.120450
[3] Zhi, H. and Li, J. (2024) Component Similarity Based Conflict Analysis: An Information Fusion Viewpoint. Information Fusion, 104, Article 102157.
https://doi.org/10.1016/j.inffus.2023.102157
[4] Guo, Y., Tsang, E.C.C., Hu, M., Lin, X., Chen, D., Xu, W., et al. (2020) Incremental Updating Approximations for Double-Quantitative Decision-Theoretic Rough Sets with the Variation of Objects. Knowledge-Based Systems, 189, Article 105082.
https://doi.org/10.1016/j.knosys.2019.105082
[5] Huang, Z. and Li, J. (2024) Covering Based Multi-Granulation Rough Fuzzy Sets with Applications to Feature Selection. Expert Systems with Applications, 238, Article 121908.
https://doi.org/10.1016/j.eswa.2023.121908
[6] Wu, W. and Leung, Y. (2011) Theory and Applications of Granular Labelled Partitions in Multi-Scale Decision Tables. Information Sciences, 181, 3878-3897.
https://doi.org/10.1016/j.ins.2011.04.047
[7] Qian, Y., Liang, J., Yao, Y. and Dang, C. (2010) MGRS: A Multi-Granulation Rough Set. Information Sciences, 180, 949-970.
https://doi.org/10.1016/j.ins.2009.11.023
[8] Gu, S., Li, X., Wu, W. and Nian, H. (2013) Multi-Granulation Rough Sets in Multi-Scale Information Systems. 2013 International Conference on Machine Learning and Cybernetics, Tianjin, 14-17 July 2013, 108-113.
https://doi.org/10.1109/icmlc.2013.6890453
[9] Bao, H., Wu, W., Zheng, J. and Li, T. (2021) Entropy Based Optimal Scale Combination Selection for Generalized Multi-Scale Information Tables. International Journal of Machine Learning and Cybernetics, 12, 1427-1437.
https://doi.org/10.1007/s13042-020-01243-y
[10] Wang, Z., Chen, H., Yuan, Z., Wan, J. and Li, T. (2023) Multiscale Fuzzy Entropy-Based Feature Selection. IEEE Transactions on Fuzzy Systems, 31, 3248-3262.
https://doi.org/10.1109/tfuzz.2023.3250639
[11] Li, F. and Hu, B.Q. (2017) A New Approach of Optimal Scale Selection to Multi-Scale Decision Tables. Information Sciences, 381, 193-208.
https://doi.org/10.1016/j.ins.2016.11.016
[12] 刘勇, 熊蓉, 褚健. Hash快速属性约简算法[J]. 计算机学报, 2009(8): 1493-1499.