区间值决策系统下的最小属性约简
Minimum Attribute Reduction under Interval-Valued Decision System
DOI: 10.12677/HJDM.2024.141001, PDF, HTML, XML, 下载: 84  浏览: 182  科研立项经费支持
作者: 陈 宇:烟台大学计算机与控制工程学院,山东 烟台
关键词: 粗糙集差别矩阵属性约简区间值决策系统0-1规划Rough Set Discernibility Matrice Attribute Reduction Interval-Valued System 0-1 Programming
摘要: 在给定的属性约简目标函数下,决策表中往往存在多个约简。最后的决策规则集直接依赖于所获得的约简。决策规则集的简洁性、可理解性、通用性和精确性因约简的不同而不同,因此期望得到一些最优结果,即长度最短的最小约简。这样可以尽可能多地去除冗余属性,有效地管理决策表的存储空间,并且决策规则集的性能将变得优异。不幸的是,寻找最小约简已被证明是一个NP-难问题(Wong和Ziarko 1985)。当给定决策表时,启发式算法并不总是能得到最小约简。因此本文在区间值决策系统下提出了基于差别矩阵的0-1规划最短约简算法。
Abstract: With a given attribute reduction objective function, there are often multiple reductions in the deci-sion table. The final decision rule set is directly dependent on the obtained reductions. The con-ciseness, comprehensibility, generality and accuracy of the decision rule set vary from one reduc-tion to another, so it is expected to obtain some optimal result, i.e., the smallest reduction with the shortest length. This will remove as many redundant attributes as possible, manage the storage space of the decision table efficiently, and the performance of the decision rule set will become superior. Unfortunately, finding the minimum reduction has been shown to be an NP-hard problem (Wong and Ziarko, 1985). Heuristic algorithms do not always yield the minimum reduction when given a decision table. Therefore, in this paper, we propose a difference matrix-based shortest reduction algorithm for 0-1 programming under interval-valued decision system.
文章引用:陈宇. 区间值决策系统下的最小属性约简[J]. 数据挖掘, 2024, 14(1): 1-9. https://doi.org/10.12677/HJDM.2024.141001

1. 引言

波兰数学家Pawlak于1982年提出的粗糙集理论 [1] ,它是一种新型的处理模糊和不确定知识的数学工具,其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。属性约简 [2] [3] [4] [5] 是粗糙集理论中的核心内容之一,数据库中的属性并不是同等重要的,甚至其中某些知识是冗余的,通过属性约简,可以去除数据库中的冗余、无用的成分,揭示数据中隐含的规律。从粗糙集理论的角度来理解,在一个信息系统中,有些属性对于分类来说是多余的,去掉这些属性后,信息系统的分类能力不会改变,所以属性约简后仍然反映了一个信息系统的本质信息 [6] [7] [8] [9] [10] 。一般来讲,一个信息系统的属性约简不是唯一的,通常人们希望能够找到一个属性个数最小的属性约简,该属性约简称为最小属性约简。

对任一给定区间值决策系统,若属性约简算法能确保找到其最小属性约简,则该算法称为最小属性约简的完备算法。现有的最短约简工作大多是基于二进制差别矩阵 [11] [12] [13] 的方法,这种方法大多又只适用于经典的粗糙集系统模型。本文在经典的区间值决策系统数据背景下,提出了基于差别矩阵的0-1规划最短约简算法并与经典的基于差别矩阵的属性约简算法作比较。

2. 基本概念

2.1. 区间值决策系统

定义1 给定区间值系统IVDS是一个四元组: I V D S = ( U , A T = C D , V , f ) ,其中U是一个非空有限集合称为论域,AT表C表示条件属性的集合,D表示决策属性的集合, V a 表示的是属性a的值域,f是一个映射函数,其中 f : U × A T V f ( x , a ) 表示对象 x U 在属性 a C 上的取值,简记为 a ( x ) f ( x , d ) 表示对象x在属性 d D 上的取值,简记为 d ( x )

定义2 [14] 设 ξ i = [ l i m , u i m ] ξ j = [ l j m , u j m ] 为任意两个区间值,分别表示的是对象 x i x j 在属性 a m 下的属性值,则区间值的相关运算如下:

ξ i ξ j = { , ( u i m < l j m ) ( u j m < l i m ) [ max ( l i m , l j m ) , min ( u i m , u j m ) ] , otherwise (1)

ξ i ξ j = [ min ( l i m , l j m ) , max ( u i m , u j m ) ] (2)

其中 1 i , j | U | 1 m | C | | U | 表示对象的个数, | C | 表示条件属性的个数。式(1)和式(2)分别表示两个区间数的交运算和并运算。

定义3 给定一个四元组区间值系统IVDS: I V D S = ( U , A T = C D , V , f ) ,对于 x i , x j U , a m C ,区间值 ξ i = [ l i m , u i m ] ξ j = [ l j m , u j m ] 的杰卡德相似系数 [15] S i m i , j m 为:

S i m i , j m = | [ l i m , u i m ] [ l j m , u j m ] | | [ l i m , u i m ] [ l j m , u j m ] | (3)

又称为杰卡德相似率用于度量区间数之间的相似性。

定义4 [16] 给定一个四元组区间值系统IVDS: I V D S = ( U , A T = C D , V , f ) E C ,阈值 α 的取值范围是 0 α 1 ,定义关于条件属性子集E下的 α -相容关系 l C α 为:

l C α = { ( x i , x j ) | ( x i , x j ) U × U , S i m i , j m α , a m C } (4)

定义5 [16] 给定一个四元组区间值系统IVDS: I V D S = ( U , A T = C D , V , f ) E C 0 α 1 l C α 是在条件属性子集E下的 α -相容关系,定义关于对象 x i 在属性 E C 下的相容类为:

T C E α ( x i ) = { x j | x j U : ( x i , x j ) l E α } (5)

a m E a m 的相容类为:

T C { a m } α ( x i ) = { x j | x j U : ( x i , x j ) l { a m } α } (6)

在E下的 α -相容类集合为:

T C E α ( U ) = { T C E α ( x 1 ) , T C E α ( x 2 ) , , T C E α ( x n ) } (7)

其中n的值为论域里对象的个数。

定义6 给定一个四元组区间值系统IVDS: I V D S = ( U , A T = C D , V , f ) ,定义C, X U 关于 α -相容类 T C C α ( x i ) 的上、下近似为:

A p r ¯ C α ( X ) = { x i : x i U , T C C α ( x i ) X } (8)

A p r _ C α ( X ) = { x i : x i U , T C C α ( x i ) X } (9)

决策属性D对论域的划分为 U / D = { D 1 , D 2 , , D | U / D | } ,对于 x i U ,决策属性D的上、下近似定义如下:

A p r ¯ C α ( D ) = { x i : x i U , T C C α ( x i ) D } (10)

A p r _ C α ( D ) = { x i : x i U , T C C α ( x i ) D } (11)

关于决策属性D对于属性集C的正域为:

P O S C α ( D ) = D j U / D A p r _ C α ( D j ) (12)

其中 | U / D | 表示 U / D 集合中元素个数。

2.2. 差别矩阵

性质1 [17] 给定一个四元组区间值系统IVDS: I V D S = ( U , A T = C D , V , f ) α -相容类 T C C α ( x i ) 的具有以下性质:

1) 满足对称性: x , y U ,如果 ( x , y ) l C α ,则 ( y , x ) l C α

2) 满足自反性:对于 x U ,有 ( x , x ) l C α

3) 不传递性: x , y , z U ,如果 ( x , z ) l C α ( z , y ) l C α ,成立,则 ( x , y ) l C α 不一定成立。

定义7 [14] 给定一个四元组区间值系统IVDS: I V D S = ( U , A T = C D , V , f ) E C 是IVDS的一个正域保持约简当且仅当以下两条件成立:

1) 联合充分性: P O S E α ( D ) = P O S C α ( D )

2) 个体必要性: c E ,满足 P O S E { c } α ( D ) P O S E α ( D )

定义8 [1] 给定一个四元组区间值系统IVDS: I V D S = ( U , A T = C D , V , f ) U = { x 1 , x 2 , , x n } 对于

x , y [ 1 , n ] α [ 0 , 1 ] ,正域保持约简对应的差别矩阵为 M α = ( m x y α ) n × n ,其中 m x y α 表示为:

m x y α = { { a m C : S i m i j m α } , condition 1 , otherwise (13)

其中 condition 1 = x x x y P O S C α ( D ) d ( x x ) d ( x y ) n = | U |

定义9 [1] 给定一个四元组区间值系统IVDS: I V D S = ( U , A T = C D , V , f ) ,正域约简对应的差别函数为:

D F α = { m x y α : m x y α } (14)

差别函数 D F α 可以转化为极小析取范式 D H α

基于上述定义,结合文献 [18] 所提出的快速约简方法和文献 [16] 给出区间值决策系统下基于差别矩阵的正域约简算法((Positive regions Reduction Algorithm based on Discernibility Matrix, PRADM))如表1所示。

Table 1. Positive regions reduction algorithm based on discernibility matrix (PRADM)

表1. 基于差别矩阵的正域约简算法

3. 0-1规划问题

定义9中的差别函数可以求出所有约简,但是在实际生活中,有时只需要找出一个约简即可,于是人们就去寻找最短约简,即能区分开所有对象的条件属性最少的约简集合。文献 [19] 提出了计算信息系统的最小属性约简可转化为求解0-1规划问题,本小节主要分析计算最短属性约简如何转换成求解0-1规划问题。

定义10 设 X , Y 是差别矩阵中的两个元素,若 X Y ,即X中的属性都包含于Y中的属性,称Y为X的重复元素。

因此为了求得约简,通常会把重复元素和空集删去,下面引入极小差别集合的概念。

定义11 给定一个四元组区间值系统IVDS: I V D S = ( U , A T = C D , V , f ) ,如果 M s = { s 1 , s 2 , , s k } 为区间值系统的极小差别集合,则Ms满足以下两个条件:

1) s k M s m i j 使得 s k = m i j

2) i , j { 1 , 2 , , n } k { 1 , 2 , , l } m i j ,若 m i j s k ,则 s k = m i j

由定义11可知,差别矩阵的非空极小项构成了极小差别集合,对差别矩阵进行约简时删除重复元素和空集就得到了极小差别集合,极小差别集合与差别矩阵起到相同的作用,可以代替差别矩阵。

定理1给定一个四元组区间值系统IVDS: I V D S = ( U , A T = C D , V , f ) ,假设R是一个约简,那么它的充要条件如下:

1) R s i , i [ 1 , k ]

2) a R j { 1 , 2 , , k } ,使得 s j ( R { a } ) =

根据定理1可以将R转化为如下优化问题:

min | R | s .t . R s i , i [ 1 , k ] , a R , j { 1 , 2 , , k } , s k ( R { a } ) = (15)

经分析可进一步优化为:

min | R | s .t . R s i , i [ 1 , k ] (16)

下面证明优化问题(15)和(16)等价:

“(16) (15)”使用反证法。假设 R ο 是(16)的最优解,现须得证明 R ο 使得优化条件 a R ο j { 1 , 2 , , k } s j ( R ο { a } ) = 满足。假设该条件不满足,则 a R ο j { 1 , 2 , , k } s j ( R ο { a } ) = ,令 R = R ο { a } ,则有 i { 1 , 2 , , k } s i R ,即 R 是(16)的可行解,且 R R ο 这就导致 R ο 不是最优解与题意矛盾。所以 R ο 满足优化条件 a R ο j { 1 , 2 , , k } s j ( R ο { a } ) =

“(15) (16)”假设 R ο 是(15)的最优解,则 R ο 是(16)的可行解。因为 R ο 满足优化条件 a R ο j { 1 , 2 , , k } s j ( R ο { a } ) = ,所以 R ο 去掉任意属性(16)的约束条件就不成立,这就说明 R ο 确为(16)的最优解。

4. 基于0-1规划的特定类最小属性约简算法

定义12给定一个四元组区间值系统IVDS: I V D S = ( U , A T = C D , V , f ) ,属性集合 C = { a 1 , a 2 , , a m } ,最小约简对应一个列向量 e = ( e 1 , e 2 , , e n ) T ,该向量的表述如下所示:

e i = { 0 , a i R E D 1 , a i R E D (17)

易知 | R E D | = i = 1 n e i

定义13 给定一个四元组区间值系统IVDS: I V D S = ( U , A T = C D , V , f ) ,属性集合 C = { a 1 , a 2 , , a m } ,极小差别集合 M s = { s 1 , s 2 , , s k } s j 对应一个行向量 p i = ( p i 1 , p i 2 , , p i m ) ,该向量表述如下:

p i j = { 0 , a j s i 1 , a j s i (18)

其中 j [ 1 , m ] ,易知 | R E D s i | = j = 1 m p i j e j

由定义12和定义13可知优化问题(16)的优化条件 R s i 可以转化为 j = 1 m p i j e j 1 ,因此优化问题

(16)可转化为如下0-1规划:

min i = 1 n e i s .t . j = 1 n p i j e j 1 , i [ 1 , k ] . e j = 0 1. (19)

0-1规划(19)又可以进一步可以变形为矩阵形式。

定义14设 z = ( 1 , 1 , , 1 ) T t = ( 1 , 1 , , 1 ) T 是个m维的单位列向量,矩阵 P = [ p 1 p 2 p l ] ,于是0-1规划(19)

的矩阵形式定义如下:

min z T e s .t . p e t e j = 0 1. (20)

本节针对全部决策类进行属性约简。本文提出了区间值决策系统下基于0-1规划的正域保持最小属性约简算法(Positive region preserving minimum attribute reduction algorithm based on 0-1 programming under interval-valued decision system (MPR-IVDS))如表2所示。

Table 2. Positive region preserving minimum attribute reduction algorithm based on 0-1 programming under interval-valued decision system (MPR-IVDS)

表2. 区间值决策系统下基于0-1规划的正域保持最小属性约简算法

5. 实验分析

本实验选取6个UCI数据集进行约简效率的对比,数据集的详细信息如表3所示。本节主要对经典区间值决策系统下基于差别矩阵的正域约简算法(PRADM)与本文提出的区间值决策系统下基于0-1规划的正域保持最小属性约简算法(MPR-IVDS)约简效率进行对比。本实验在英特尔(R)酷睿(TM)i5-7200UCPU @ 2.50 GHz 2.71 GHz处理器、8.00 GB内存和Windows 10操作系统。算法使用python语言编写,并在开发工具PyCharm上编译和运行。在验证算法有效性之前,使用Weka 3.8.6对数据集合进行离散化,对于缺失数据集,用相应属性下出现频率最高的值填充;对于名词性数据集用数字数据集进行替换;对于条件属性的数据类型采用文献 [20] 所提方法把单值数据转换为区间值数据,阈值 α = 0.3

Table 3. Dataset Information

表3. 实验使用的数据集

约简效率

图1为经典区间值决策系统下基于差别矩阵的正域约简算法(PRADM)与本文提出的区间值决策系统下基于0-1规划的正域保持最小属性约简算法(MPR-IVDS)按照对象的均匀添加比例变化的时间效率对比柱状图。横坐标表示参与实验的数据比例,纵坐标是约简所消耗的时间单位是秒,蓝色是正域约简算法(PRADM),橙色表示基于0-1规划的正域保持最小属性约简算法(MPR-IVDS)。从中可以看出随着参与对象比例增加,两个算法的时间消耗也逐渐增加,但是MPR-IVDS消耗时间几乎都要低于PRADM,因此本文提出的MPR-IVDS约简效率更高。

(a) Lymphography (b) Hepatitis

(c) Autism Screening Adult (d) Audit Data (e) Breast Cancer Wisconsin (f) Autistic Spectrum Disorder Screening Data for Children

Figure 1. Comparison of reduction efficiency

图1. 约简效率对比

6. 结论

在本文中,对于寻找最小约简结果的研究中,本文提出了区间值决策系统下基于0-1规划的正域保持最小属性约简算法(MPR-IVDS),与传统的差别矩阵算法相比本文提出的算法避免了计算最小析取范式,缩短了算法计算时间,提高了算法效率。实验结果表明,本文在区间值决策系统下提出的算法在进行最小属性约简的查询时具有很好的效率。

基金项目

本文受烟台市科技计划项目(编号:2022XDRH016)的资助。

参考文献

[1] Pawlak, Z. (1982) Rough Sets. International Journal of Computer and Information Sciences, 11, 341-356.
https://doi.org/10.1007/BF01001956
[2] Chen, Q., Huang, M., Wang, H. and Xu, G. (2022) A Feature Discreti-zation Method Based on Fuzzy Rough Sets for High-Resolution Remote Sensing Big Data under Linear Spectral Model. IEEE Transactions on Fuzzy Systems, 30, 1328-1342.
https://doi.org/10.1109/TFUZZ.2021.3058020
[3] Dai, J.H., Hu, H., Zheng, G.J., et al. (2016) Attribute Reduction in Interval-Valued Information Systems Based on Infor-mation Entropies. Frontiers of Information Technology & Electronic Engineering, 17, 919-928.
https://doi.org/10.1631/FITEE.1500447
[4] Sun, L., Yin, T., Ding, W., Qian, Y. and Xu, J. (2022) Feature Selec-tion with Missing Labels Using Multilabel Fuzzy Neighborhood Rough Sets and Maximum Relevance Minimum Re-dundancy. IEEE Transactions on Fuzzy Systems, 30, 1197-1211.
https://doi.org/10.1109/TFUZZ.2021.3053844
[5] Bao, H., Wu, W.Z., Zheng, J.W., et al. (2021) Entropy Based Optimal Scale Combination Selection for Generalized Multi-Scale Information Tables. International Journal of Machine Learning and Cybernetics, 12, 1427-1437.
https://doi.org/10.1007/s13042-020-01243-y
[6] 叶东毅. Jelonek属性约简算法的一个改进[J]. 电子学报, 2000, 28(12): 81-82. http://dx.chinadoi.cn/10.3321/j.issn:0372-2112.2000.12.023
[7] 苗夺谦, 胡桂荣. 知识约简的一种启发式算法[J]. 计算机研究与发展, 1999, 36(6): 42-45.
[8] Yao, Y.Y. and Zhang, X.Y. (2017) Class-Specific Attribute Reducts in Rough Set Theory. Information Sciences, 418-419, 601-618.
https://doi.org/10.1016/j.ins.2017.08.038
[9] Shu, W.H. and Qian, W.B. (2015) An Incremental Approach to Attribute Reduction from Dynamic Incomplete Decision Sys-tems in Rough Set Theory. Data & Knowledge Engineering, 100, 116-132.
https://doi.org/10.1016/j.datak.2015.06.009
[10] Yao, Y. and Zhao, Y. (2008) Discernibility Matrix Simplification for Constructing Attribute Reducts. Information Sciences, 179, 867-882.
https://doi.org/10.1016/j.ins.2008.11.020
[11] Skowron, A. and Rauszer, C. (1992) The Discernibility Matrices and Functions in Information Systems. In: Słowiński, R., Ed., Intelligent Decision Support. Theory and Decision Li-brary, Vol. 11, Springer, Dordrecht, 331-362.
https://doi.org/10.1007/978-94-015-7975-9_21
[12] Huang, Z.H., Li, J.J., Dai, W.Z. and Lin, R.D. (2019) Gener-alized Multi-Scale Decision Tables with Multi-Scale Decision Attributes. International Journal of Approximate Reason-ing, 115, 194-208.
https://doi.org/10.1016/j.ijar.2019.09.010
[13] 钱文彬. 基于信息熵的二进制差别矩阵属性约简算法[J]. 计算机工程与应用, 2010, 46(6): 120-123. http://cea.ceaj.org/CN/10.3778/j.issn.1002-8331.2010.06.034
[14] 张楠, 许鑫, 童向荣, 等. 不协调区间值决策系统的知识约简[J]. 小型微型计算机系统, 2017, 38(7): 1585-1589.
[15] 刘鹏惠, 陈子春, 秦克云. 区间值信息系统的决策属性约简[J]. 计算机工程与应用, 2009, 45(28): 148-150+229. http://dx.chinadoi.cn/10.3778/j.issn.1002-8331.2009.28.044
[16] 尹继亮, 张楠, 赵立威, 等. 区间值决策系统的局部属性约简[J]. 计算机科学, 2018, 45(7): 178-185. http://dx.chinadoi.cn/10.11896/j.issn.1002-137X.2018.07.031
[17] Leung, Y., Wu, W.Z. and Mi, J.S. (2008) A Rough Set Approach for the Discovery of Classification Rules in Interval-Valued Information Systems. SSRN Electronic Jour-nal.
https://doi.org/10.1016/j.ijar.2007.05.001
[18] Borowik, G. and Luba, T. (2012) Attribute Reduction Based on the Complementation of Boolean Functions. 1st Australian Conference on the Applications of Systems Engineering ACASE’12, Sydney, 6-8 February 2012.
[19] 詹婉荣, 于海. 基于0-1规划的最小属性约简算法[J]. 洛阳师范学院学报, 2021, 40(2): 1-4. http://dx.chinadoi.cn/10.3969/j.issn.1009-4970.2021.02.001
[20] Zhang, X., Mei, C., Chen, D., et al. (2014) Mul-ti-Confidence Rule Acquisition and Confidence-Preserved Attribute Reduction in Interval-Valued Decision Systems. In-ternational Journal of Approximate Reasoning, 55, 1787-1804.
https://doi.org/10.1016/j.ijar.2014.05.007