基于最大决策熵的快速属性约简算法

doi:10.12677/HJDM.2023.133022

期刊菜单

基于最大决策熵的快速属性约简算法
Fast Attribute Reduction Algorithm Based on Maximum Decision Entropy

DOI: 10.12677/HJDM.2023.133022, PDF, HTML, XML, 下载: 160 浏览: 309 科研立项经费支持
作者: 袁梅：烟台大学计算机与控制工程学院，山东烟台
关键词: 快速属性约简算法；粗糙集；最大决策熵；决策系统；Fast Attribute Reduction Algorithm； Rough Set； Maximum Decision Entropy； Decision System

摘要: 在大数据时代背景下，各领域数据爆炸式增长，数据类型复杂多样。针对决策系统中基于最大决策熵的属性约简算法在大规模数据集下运行效率低的问题，提出了一种基于启发式的快速属性约简算法。本文提出的算法首先研究了属性和对象在属性约简过程中的变化对其产生影响，其次提出了属性重要度保序性的相关定理。最后通过UCI数据集对提出算法的有效性进行验证，结果表明提出的快速属性约简算法的运行效率更高。

Abstract: In the era of big data, data in various fields is growing explosively, and data types are complex and diverse. Aiming at the low efficiency of attribute reduction algorithm based on maximum decision entropy in decision system under large data sets, a fast attribute reduction algorithm based on heuristic is proposed. The algorithm proposed in this paper firstly studies the influence of the changes of attributes and objects in the process of attribute reduction, and then puts forward the related theorem about the rank preservation of attributes. Finally, the effectiveness of the proposed algorithm is verified by the UCI data set, and the results show that the proposed fast attribute re-duction algorithm is more efficient.

文章引用：袁梅. 基于最大决策熵的快速属性约简算法[J]. 数据挖掘, 2023, 13(3): 222-229. https://doi.org/10.12677/HJDM.2023.133022

1. 引言

粗糙集理论是用于处理不精确、不一致、不完备信息和知识的有效工具 [1] [2] 。如今，学者们对粗糙集理论已经进行了深入探索，相应的属性约简 [3] [4] [5] [6] 方法也较为完善。Kryszkiewicz [7] 在不完备决策系统下引入广义决策保持约简，介绍了相关决策规则的提取，并提出了基于差别矩阵的广义决策保持约简方法。差别矩阵方法虽然可以求出所有约简结果，但其效率相对于启发式算法较低。2002年王国胤等 [8] 从信息论观点出发，将条件信息熵作为启发式信息，设计了启发式属性约简算法；2018年，Gao [9] 提出了最大决策熵的启发式属性约简算法。2019年Zhang等 [10] 等提出了启发式的广义决策属性约简。

现阶段，对于大规模数据集，有关属性约简的快速算法研究已取得许多成果。2006年，徐章艳等 [11] 提出了基于基数排序的快速属性约简算法；2010年，Qian等 [12] 提出了正域加速属性约简算法，2018年，Du等 [13] 在序决策系统下提出了快速属性约简算法。另外，增量式属性约简算法 [14] [15] [16] [17] 利用已有的信息进行增量更新，不需要重新计算，从而实现算法效率的提高。本文从对象和属性的角度考虑研究，通过理论分析和实验结果均表明了该算法的有效性。

2. 基本概念

定义1 [1] 信息系统是由四元组 $I S = (U, A T, V, f)$ 组成，其中U表示论域，是非空有限对象组成的集合；AT表示非空有限属性集合； $V_{p}$ 表示属性 $p \in A T$ 的值域，有 $V = \cup_{P \in A T} V_{p}$ ；f是一个映射函数， $f : U \times A T \to V$ 为论域U中的每一个对象在 $\forall p \in A T$ 上都有一个值。若 $A T = C \cup D$ ，其中C表示非空有限的条件属性集合，D表示非空有限的决策属性集合，且 $C \cap D \neq \emptyset$ ，则四元组记为 $D S = (U, A T = C \cup D, V, f)$ 称为决策信息系统。

定义2 [1] 四元组 $D S = (U, A T = C \cup D, V, f)$ 为一个决策信息系统，对任意非空属性集合 $P \subseteq A T$ ，有

P在U上的不可区分关系定义为：

$I N D (P) = {(x, y) \in U \times U | p (x) = p (y), \forall p \in P}$ (1)

不可区分关系 $I N D (P)$ 是一个满足自反性、对称性和传递性的等价关系。由不可区分关 $I N D (P)$ 导出对论域U的划分为 $U / I N D (P) = {{[x]}_{P} | x \in U}$ ，通常简写为U/P，其中 ${[x]}_{P}$ 表示包含x的等价类，易得 ${[x]}_{I N D (P)} = \cap_{p \in P} {[x]}_{p}$ 。

定义3 [1] 决策信息系统的四元组 $D S = (U, A T = C \cup D, V, f)$ ，由决策属性D导出U的划分为 $U / D = {D_{1}, D_{2}, \dots, D_{m}} (1 \leq m \leq | U |)$ ，对 $\forall P \subseteq C$ ，决策类U/D关于条件属性集P的下近似和上近似的定义为：

$\underline{P} (U / D) = {\underline{P} (D_{1}), \underline{P} (D_{2}), \dots, \underline{P} (D_{m})}$ (2)

$\bar{P} (U / D) = {\bar{P} (D_{1}), \bar{P} (D_{2}), \dots, \bar{P} (D_{m})}$ (3)

决策类U/D关于条件属性集P的正域和边界域的定义：

$P O S_{P} (U / D) = \cup_{D_{i} \in U / D} \underline{P} (D_{i})$ (4)

$B N D_{P} (U / D) = \cup_{D_{i} \in U / D} \bar{P} (D_{i}) - \cup_{D_{i} \in U / D} \underline{P} (D_{i})$ (5)

定义4 [9] 决策信息系统 $D S = (U, A T = C \cup D, V, f)$ ，U在C以及D上的划分分别为 $U / C = {U_{1}, U_{2}, \dots, U_{m}}$ ， $U / D = {Y_{1}, Y_{2}, \dots, Y_{n}}$ ，其中 $m = | U / C |$ ， $n = | U / D |$ 。对于任意一个等价类 $U_{i} \in U / C$ ，

该等价类的最大包含度以及最大决策分别定义为：

$M P (D | U_{i}) = \max (P (Y_{1} | U_{i}), P (Y_{2} | U_{i}), \dots, P (Y_{n} | U_{i}))$ (6)

$M D (D | U_{i}) = {f (y, D) | y \in Y_{j} \land P (Y_{1} | U_{i}) = M P (D | U_{i})}$ (7)

定义5 [9] 决策信息系统 $D S = (U, A T = C \cup D, V, f)$ ，U在C以及D上的划分分别为 $U / C = {U_{1}, U_{2}, \dots, U_{m}}$ ， $U / D = {Y_{1}, Y_{2}, \dots, Y_{n}}$ ，其中 $m = | U / C |$ ， $n = | U / D |$ 。C相对于D的最大包含度的概

率分布定义为：

$\begin{array}{l} M S (D | C) = ((M P (D | U_{1}), 1 - M P (D | U_{1})), (M P (D | U_{2}), 1 - M P (D | U_{2})), \dots, \\ (M P (D | U_{m}), 1 - M P (D | U_{m}))) \end{array}$ (8)

定义6 [9] 决策信息系统 $D S = (U, A T = C \cup D, V, f)$ ，若 $Q \subseteq C$ ，Q相对于D的最大包含度的概率分布定义为

$M S (D | Q) = ((M P (D | U_{1}), 1 - M P (D | U_{1})), (M P (D | U_{2}), 1 - M P (D | U_{2})), \dots, (M P (D | U_{m}), 1 - M P (D | U_{m})))$ ，那么对于任意一个等价类 $U_{i} \in U / Q$ 的最大决策熵以及B相对于D的最大决策熵分别定义为：

$M H (D | U_{i}) = - P (U_{i}) (M P (D | U_{i}) \log M P (D | U_{i}) + (m - 1) (\frac{1 - M P (D | U_{i})}{m - 1}) \log (\frac{1 - M P (D | U_{i})}{m - 1}))$ (9)

$M H (D | B) = \sum_{i = 1}^{m} M H (D | U_{i})$ (10)

3. 基于最大决策熵的启发式约简

定义7 [9] 决策信息系统 $D S = (U, C \cup D, V, f)$ ，若 $Q \subseteq C$ ， $\forall q \in Q$ ，q的内部属性重要度定义为：

$S i g_{U}^{i n n e r} (q, Q, C, D) = M P_{C}^{U} (D | Q - {q}) - M P_{C}^{U} (D | Q)$ (11)

定义8 [9] 决策信息系统 $D S = (U, C \cup D, V, f)$ ，若 $Q \subseteq C$ ， $\forall q \in C - Q$ ，q的外部属性重要度定义为：

$S i g_{U}^{o u t e r} (q, Q, C, D) = M P_{C}^{U} (D | Q) - M P_{C}^{U} (D | Q \cup {q})$ (12)

定义9 [9] 决策信息系统 $D S = (U, C \cup D, V, f)$ ， $Q \subseteq C$ ， $\forall q \in Q$ ，若 $S i g_{U}^{i n n e r} (q, Q, C, D) > 0$ ，则q为核属性；若 $S i g_{U}^{i n n e r} (q, Q, C, D) = 0$ ，则q为冗余属性。

定义10 [9] 决策信息系统 $D S = (U, C \cup D, V, f)$ ，若 $Q \subseteq C$ 是C的一个约简，当且仅当满足以下两个

条件：

1) $M H (D | Q) = M H (D | C)$ ；

2) 对 $\forall Q^{'} \subset Q$ ，有 $M H (D | Q^{'}) \neq M H (D | C)$ 。

Table 1. Fast reduction algorithm based on maximum decision entropy (ACC_HA_MDE)

表1. 基于最大决策熵的快速约简算法

4. 基于最大决策熵的加速算法

定理1决策信息系统 $D S = (U, C \cup D, V, f)$ ， $P \subseteq C$ ，若 $\forall a, b \in C - P - P^{'}$ ，其中， $C^{'} = C - P^{'}$ ， $P^{'} = {c | M H_{C}^{U} (D | P) = M H_{C}^{U} (D | (P \cup {c})), c \in C - P}$ ， $U^{'} = U - P O S_{P}^{C} (U, D)$ ，并且 $S i g_{U}^{o u t e r} (a, P, C, D) \geq S i g_{U}^{o u t e r} (b, P, C, D)$ ，则 $S i g_{U^{'}}^{o u t e r} (a, P, C^{'}, D) \geq S i g_{U^{'}}^{o u t e r} (b, P, C^{'}, D)$ 。

证明：若 $U / P = {U_{1}, U_{2}, \dots, U_{p}, U_{p + 1}, \dots, U_{m}}$ ， $U / D = {Y_{1}, Y_{2}, \dots, Y_{n}}$ ，其中 $U_{p}, U_{p + 1}, \dots, U_{m} \subseteq P O S_{P}^{C} (U, D)$ 。因此对每个等价类 $U_{i} \subseteq P O S_{P}^{C} (U, D)$ ，存在决策类Y，使 $U_{i} \cap Y = U_{i}$ 。用 $M H_{C}^{U} (D | P)$ 表示在U上的最大

决策熵。

$\begin{matrix} M H_{C}^{U} (D | P) = - \sum_{i = 1}^{m} (P (U_{i}) (M P (D | U_{i}) \log M P (D | U_{i}) + (m - 1) (\frac{1 - M P (D | U_{i})}{m - 1}) \log (\frac{1 - M P (D | U_{i})}{m - 1}))) \\ = - \sum_{i = 1}^{p} (P (U_{i}) (M P (D | U_{i}) \log M P (D | U_{i}) + (m - 1) (\frac{1 - M P (D | U_{i})}{m - 1}) \log (\frac{1 - M P (D | U_{i})}{m - 1}))) \\ = - \frac{| U^{'} |}{| U |} \sum_{i = 1}^{p} (P (U_{i}) (M P (D | U_{i}) \log M P (D | U_{i}) + (m - 1) (\frac{1 - M P (D | U_{i})}{m - 1}) \log (\frac{1 - M P (D | U_{i})}{m - 1}))) \\ = \frac{| U^{'} |}{| U |} M H_{C}^{U^{'}} (D | P) \end{matrix}$

由于 $U^{'} = U - P O S_{P}^{C} (U, D)$ ，所以 $P O S_{P}^{C} (U^{'}, D) = \emptyset$ ，又因为 $C^{'} = C - P^{'}$ ，其中 $P^{'} = {c | M H_{C}^{U} (D | P) = M H_{C}^{U} (D | (P \cup {c})), c \in C - P}$ ， $C^{'} \cap P^{'} = \emptyset$ ， $P \subset P^{'}$ ，故 $M H_{C}^{U} (D | P) = M H_{C^{'}}^{U} (D | P)$ 。同理可得 $M H_{C}^{U^{'}} (D | P) = M H_{C^{'}}^{U^{'}} (D | P)$ 。因此 $M H_{C}^{U} (D | P) = (| U^{'} | / | U |) M H_{C}^{U^{'}} (D | P) = (| U^{'} | / | U |) M H_{C^{'}}^{U^{'}} (D | P)$ ，所以 $S i g_{U}^{o u t e r} (a, P, C, D) / S i g_{U^{'}}^{o u t e r} (a, P, C^{'}, D) = | U^{'} | / | U |$ 。因此，若 $S i g_{U}^{o u t e r} (a, P, C, D) \geq S i g_{U}^{o u t e r} (b, P, C, D)$ ，则 $S i g_{U^{'}}^{o u t e r} (a, P, C^{'}, D) \geq S i g_{U^{'}}^{o u t e r} (b, P, C^{'}, D)$ 。

通过表1所示的ACC_HA_MDE算法，可以快速计算基于最大决策熵的属性约简。其中ACC_HA_MDE

在步骤5的时间复杂度为 $O (a_{i} \sum_{i = 1}^{b} {(b_{i} - i + 1)}^{2})$ ；而在表2所示的HA_MDE算法在步骤4的时间复杂度为 $O (a b^{2})$ 。因此，ACC_HA_MDE的效率更高。

Table 2. Attribute reduction algorithm based on maximum decision entropy (HA_MDE) [9]

表2. 基于最大决策熵的属性约简算法 [9]

5. 实验分析

实验环境采用Intel Corei3-9100 (3.6 GHz)处理器、8 GB内存和Windows10操作系统。算法使用Python语言进行编写，在开发工具PyCharm2020上编译运行。

为了验证提出算法的有效性，本实验选取了8组UCI数据集，为了更好验证所提出算法的有效性，需要对数据集进行预处理。首先将数据集使用WEKA3.8.5进行等频离散化，并将数据集中名词性数据转化为整数表示。对于缺失数据，利用对应属性下占最多比例的属性值进行替换。表3展示了每个数据集的相关信息。在实验过程中，将各数据集按对象数目分成10份(每份为 $⌈ | U | / 10 ⌉$ )，或将各数据集的属性每份分成 $⌈ | C | / 10 ⌉$ 。

Table 3. Data set information

表3. 数据集信息

约简效率对比

本节对HA_MDE与ACC_HA_MDE两种算法的约简效率进行比较分析，通过8组UCI数据集进行实验展示。表4展示了HA_MDE与ACC_HA_MDE两种算法的时间以及约简长度。可以看到7个数据集的ACC_HA_MDE算法的时间比HA_MDE算法的消耗的时间少。例如Audit-risk数据集，本文提出的算法ACC_HA_MDE耗时0.32 s，而启发式算法HA_MDE运行时间为2.01 s，HA_MDE运行时间约为ACC_HA_MDE运行时间的6.281倍。而Hill数据集，本文提出的算法ACC_HA_MDE相对于HA_MDE耗时较多，由于该数据集在迭代中删除的正域与属性不够多，使消耗时间增多。由于删除的是冗余属性和对象，所以两种算法的约简长度相同。

Table 4. Comparison of time and reduction length of HA_MDE and ACC_HA_MDE algorithms

表4. HA_MDE和ACC_HA_MDE两种算法的时间与约简长度比较

图1中用实心六边形折线表示HA_MDE、用实心倒三角形折线表示ACC_HA_MDE，展示了两种算法在8组数据集上随论域大小变化的时间消耗曲线，横坐标表示论域大小，纵坐标表示算法运行时间。从图1中可以看到除了Hill数据集外，其余7个数据集在本文提出的算法ACC_HA_MDE运行时间相对于HA_MDE运行时间较短。因此，本文提出的ACC_HA_MDE算法相对于启发式HA_MDE算法提高了算法效率。

Figure 1. Comparison of algorithm reduction efficiency with object increase

图1. 随着对象增加算法约简效率的比较

6. 总结

本文针对基于最大决策熵的约简目标提出了在完备决策信息系统下的快速属性约简算法。在每轮迭代中首先删除一部分正域，使数据集中对象数目减少，以提高算法的效率；其次删除冗余属性，可以进一步提高算法的效率。实验选取8组UCI数据集对提出的算法进行有效性验证，实验结果表明：本文提出算法的效率优于经典算法的效率，实现了对经典算法的优化。

基金项目

本文受烟台市科技计划项目(编号：2022XDRH016)的资助。

参考文献

[1]	Pawlak, Z. (1982) Rough Sets. International Journal of Computer and Information Sciences, 11, 341-356. https://doi.org/10.1007/BF01001956
[2]	杨习贝, 颜旭, 徐苏平, 于化龙. 基于样本选择的启发式属性约简方法研究[J]. 计算机科学, 2016, 43(1): 40-43.
[3]	Chen, H.M., Li, T.R., Cai, Y., Luo, C. and Fujita, H. (2016) Par-allel Attribute Reduction in Dominance-Based Neighborhood Rough Set. Information Sciences, 373, 351-368. https://doi.org/10.1016/j.ins.2016.09.012
[4]	Wang, C.Z., Shao, M.W., Sun, B.Q. and Hu, Q.H. (2015) An Im-proved Attribute Reduction Scheme with Covering Based Rough Sets. Applied Soft Computing, 26, 235-243. https://doi.org/10.1016/j.asoc.2014.10.006
[5]	Min, F., Zhang, Z.H. and Dong, J. (2018) Ant Colony Optimiza-tion with Partial-Complete Searching for Attribute Reduction. Journal of Computational Science, 25, 170-182. https://doi.org/10.1016/j.jocs.2017.05.007
[6]	Miao, D.Q., Zhao, Y., Yao, Y.Y., Li, H.X. and Xu, F.F. (2009) Relative Reducts in Consistent and Inconsistent Decision Tables of the Pawlak Rough Set Model. Information Sciences, 179, 4140-4150. https://doi.org/10.1016/j.ins.2009.08.020
[7]	Kryszkiewicz, M. (1998) Rough Set Approach to Incomplete Infor-mation Systems. Information Sciences, 112, 39-49. https://doi.org/10.1016/S0020-0255(98)10019-1
[8]	王国胤, 于洪, 杨大春. 基于条件信息熵的决策表约简[J]. 计算机学报, 2002, 25(7): 759-766.
[9]	Gao, C., Lai, Z.H., Zhou, J., Zhao, C.R. and Miao, D.Q. (2108) Maxi-mum Decision Entropy-Based Attribute Reduction in Decision-Theoretic Rough Set Model. Knowledge-Based Systems, 143, 179-191. https://doi.org/10.1016/j.knosys.2017.12.014
[10]	Zhang, N., Gao, X.Y. and Yu, T.Y. (2019) Heuristic Ap-proaches to Attribute Reduction for Generalized Decision Preservation. Applied Sciences, 9, Article 2841. https://doi.org/10.3390/app9142841
[11]	徐章艳, 刘作鹏, 杨炳儒, 宋威. 一个复杂度为的快速属性约简算法[J]. 计算机学报, 2006, 29(3): 391-399.
[12]	Qian, Y.H., Liang, J.Y., Pedrycz, W. and Dang, C.Y. (2010) Positive Approximation: An Accelerator for Attribute Reduction in Rough Set Theory. Artificial Intelligence, 174, 597-618. https://doi.org/10.1016/j.artint.2010.04.018
[13]	Du, W.S. and Hu, B.Q. (2018) A Fast Heuristic Attribute Reduction Approach to Ordered Decision Systems. European Journal of Operational Research, 264, 440-452. https://doi.org/10.1016/j.ejor.2017.03.029
[14]	Sang, B.B., Chen, H.M., Yang, L., Zhou, D.P., Li, T.R. and Xu, W.H. (2021) Incremental Attribute Reduction Approaches for Ordered Data with Time-Evolving Objects. Knowledge-Based Systems, 212, Article ID: 106583. https://doi.org/10.1016/j.knosys.2020.106583
[15]	Dong, L.J. and Chen, D.G. (2020) Incremental Attribute Re-duction with Rough Set for Dynamic Datasets with Simultaneously Increasing Samples and Attributes. International Journal of Machine Learning and Cybernetics, 11, 1339-1355. https://doi.org/10.1007/s13042-020-01065-y
[16]	Shu, W.H., Qian, W.B. and Xie, Y.H. (2020) Incremental Fea-ture Selection for Dynamic Hybrid Data Using Neighborhood Rough Set. Knowledge-Based Systems, 194, Article ID: 105516. https://doi.org/10.1016/j.knosys.2020.105516
[17]	鲍迪, 张楠, 童向荣, 岳晓东. 区间值决策表的正域增量式属性约简算法[J]. 计算机应用, 2019, 39(8): 2288-2296.

为你推荐

友情链接