1. 引言
粗糙集中的属性约简[1],作为单决策表数据分析的核心降维方法之一,已广泛应用于知识发现、模式识别及智能决策等领域,并在实际场景中展现出显著优势。因其基于二元关系的数学建模特性,该方法通过严格保持数据分类能力的一致性,能够自适应地剔除冗余属性,尤其适用于高维、噪声数据的特征选择。
多数数据集的高维特征中混杂着冗余和噪声属性,而属性约简可以有效缓解这一问题,并显著提高模型的学习效率。针对属性约简中诸多问题,例如求解约简效率低,学者们提出了多种有效的技术来解决这些问题。Chen [2]等人扩展了优势邻域粗糙集(DNRS)模型以支持数值与分类属性间的偏序关系建模,并提出一种基于并行计算的属性约简方法。Yong [3]等人采用基于欧氏距离的分桶机制与邻域局部搜索优化方法,构建了分桶优化的邻域粗糙集模型,并提出正域快速迭代算法以及快速属性约简框架。Wang [4]等人用基于类标签标准差加权的样本质量评估方法,提出了加权K近邻邻域粗糙集模型(WKNRS)和结合前向贪心搜索策略的加权K近邻特征选择算法(WKNFS),有效改善了传统邻域粗糙集对噪声敏感的问题。Qian [5]等人引入基于粗糙集理论的正向近似理论框架,设计了一种加速启发式属性约简过程的通用算法,该框架能够提升现有启发式算法的计算效率。Wang [6]等人提出基于邻域关系基数的邻域区分指数及其变体(联合、条件、互区分指数),结合邻域半径参数分析实值数据的区分能力,并基于此定义了特征显著性度量,设计了一种前向贪心特征选择算法。Hu [7]等人通过引入基于属性与决策相关性的动态权重分配机制,提出了加权邻域粗糙集模型(WNRS),设计融合贪心搜索与等距阈值优化的属性约简算法。
上述工作中分别针对不同的问题提出了相对应的解决措施,一定程度上缓解了在混合数据、噪声敏感以及大规模数据上存在的一些问题,推动属性约简技术向高效、鲁棒、自适应发展。本文进一步聚焦时间效率优化问题,提出基于逐层收缩正域迭代机制的邻域粒度熵约简算法:通过动态排除已确定正域对象降低论域基数,结合邻域粒度熵量化分类不确定性,在UCI数据集实验中验证了算法在保证约简一致性的同时,显著降低时间开销。
2. 基本概念
定义1:四元组
表示一个决策信息表,其中
表示非空有限的样本集合,也称为论域;
表示条件属性集;
表示决策属性集;V为属性集合F的值域;
为映射关系,对于
表示样本
在属性
下的取值。
定义2 [8]:给定决策信息表
,对于
,
表示邻域半径,
是一个条件属性子集,则对象
在论域
下关于条件属性集
的邻域定义为:
(1)
其中
表示对象
和
之间的距离。
定理1:对于任意的条件属性子集
,
满足
。
证明:易证,此处省略。
定义3:给定四元组
为决策信息表,
表示论域U在决策属性下的划分,
是基于二元等价关系的划分,即对于任意对象属于且仅属于一个决策类内。
定义4 [9]:四元组
表示一个决策信息表,条件属性子集
对于任意的非空集合
的下近似和上近似分别定义为:
(2)
(3)
具体地,条件属性子集B关于决策属性D的下近似和上近似分别定义为:
(4)
(5)
其中
表示样本u的决策类,即
。
定义5 [10]:在决策信息表
中,对于任意的条件属性子集
相对于决策属性集D在论域U下的条件粒度熵定义为:
(6)
其中
表示
在论域U下的补集。
定理2:对于任意的条件属性子集
,满足
。
证明:易证,此处省略。
定义6:假设四元组
表示一个多标记决策表,对于已选条件属性子集
,
表示候选属性,则候选属性s在论域U下的外部属性重要度定义为:
(7)
定义7:假设四元组
表示一个多标记决策表,对于任意内部属性
在论域U下的内部属性重要度定义为:
(8)
定义8:给定四元组
,对于条件属性子集
,B称为四元组
的一个约简如果满足:
1)
;
2) 对
。
3. 基于正域逼近的高效属性约简算法
定义9 [5]:四元组
表示一个决策信息表,
表示一个逐渐递增的属性集合簇,即
。
表示
内属性划分最精细的属性集合。则
关于集合
的下近似定义为:
(9)
其中
,
。
根据定义9,可以通过减少每次迭代所需要遍历的对象数目从而减少计算约简结果所需要的时间开支,但需保证在第k次迭代时所选择的属性与经典算法相比是相同的。
定理3:四元组
表示一个决策信息表,
表示第k次迭代的论域,对于已选属性集合
以及任意的候选属性
,如果在论域
上
成立,则在论域
上
也成立。
其中
。
证明:当第k次迭代时,
表示候选属性,原始可化为:
对于任意的
,易知:
;
此外当
时,根据对称性可知
,又因为
,可以推导出:
与
相矛盾;其余情况易知:
,即U删除的对象并不影响计算
,
。
原始可化为:
因为二者比率等于两个论域的比率为固定值。即在删除对象迭代的过程中,在迭代过程中所选择的属性与经典算法相比是相同的。
根据以上的描述,在邻域关系下提出了基于正域逼近的高效属性约简算法,其具体算法内容如表1所示。
Table 1. Positive region approximation-based efficient attribute reduction algorithm
表1. 基于正域逼近的高效属性约简算法
输入:多标记决策表
,邻域半径
。 |
输出:
关于新的论域
的一个约简
。 |
1:初始化
,
,
; |
2:根据邻域半径
更新每个样本的邻域; |
3:对于
: |
3.1:计算在论域
上的内部属性重要度
; |
3.2:选择
执行
; |
4:当
时,重复执行: |
4.1:
;对于候选属性
,计算其外部属性重要度
; 4.2:选择
执行
,更新
; 4.3:
5:
; 6:返回关于论域U的约简
。 |
4. 实验分析
在本节中,我们进行了一系列实验。实验在Windows 11操作系统、Intel Core i7-13700H CPU和16GB DDR5内存的环境下执行,所有算法均使用Python 3.11实现。
基于属性重要性测度的保序性,所有改进型属性约简算法与原算法生成的属性约简结果具有理论一致性。因此,本实验聚焦于验证算法在约简结果等价性与计算效率两个维度的性能差异,分类精度不作为比较指标,主要针对约简结果一致性以及约简效率进行对比分析。数据集的详细信息如表2所示,所有数据集均从真实透明的UCI数据集下载获得。
Table 2. Datasets
表2. 数据集
序号 |
数据集 |
样本数 |
属性数 |
1 |
Wine_red |
1599 |
11 |
2 |
BreastCancer |
699 |
8 |
3 |
Sonar |
208 |
60 |
4 |
Lonosphere |
351 |
32 |
5 |
Image segment |
210 |
19 |
6 |
Absenteeism at work |
741 |
21 |
4.1. 算法约简结果一致性验证
为了严谨验证本文提出的加速策略在保持算法核心功能方面的有效性,本研究设计了系统性对比验证方案。实验通过控制变量方法,在相同实验环境下对比了加速算法与原始非加速算法在属性约简任务中的表现。具体而言,实验设置中严格保持了两类算法的核心参数配置与终止条件,仅针对加速策略引入的优化模块进行差异性测试。这种设计确保了实验结果差异的唯一来源为加速机制本身,从而能够准确评估其是否改变算法的本质行为。
实验结果表明,加速算法在各项对比维度中均展现出与原始算法的高度一致性。这种一致性不仅体现在约简集的静态属性构成上,更反映在动态任务场景中的功能等价性。值得注意的是,加速策略通过引入创新的计算优化机制,在不影响约简过程收敛方向的前提下,显著减少了冗余计算路径的探索。理论分析表明,该策略通过减少每次迭代所需遍历样本数量,有效降低了特征评估过程中的时间复杂度,这一优势在高维数据处理场景中尤为突出。本验证工作从实践层面证实了加速策略在算法加速与结果保真之间的平衡能力,为相关优化方法的研究提供了可复现的验证范式。其具体约简结果以及参数在表3中得以体现。
Table 3. Comparative analysis of reduction consistency
表3. 约简一致性对比
序号 |
PRAR |
AR |
约简结果 |
半径 |
约简结果 |
半径 |
1 |
{10, 2, 5, 9} |
0.01 |
{10, 2, 5, 9} |
0.01 |
2 |
{3, 0, 4, 2, 6} |
0.05 |
{3, 0, 4, 2, 6} |
0.05 |
3 |
{20, 36, 29, 53, 55} |
0.1 |
{20, 36, 29, 53, 55} |
0.1 |
4 |
{28, 25, 21, 2, 3, 16} |
0.1 |
{28, 25, 21, 2, 3, 16} |
0.1 |
5 |
{0, 1, 5, 11, 13, 14, 15, 16, 17, 18, 10, 8} |
0.1 |
{0, 1, 5, 11, 13, 14, 15, 16, 17, 18, 10, 8} |
0.1 |
6 |
{1, 2, 3, 4, 9, 10, 0, 6} |
0.1 |
{1, 2, 3, 4, 9, 10, 0, 6} |
0.1 |
表3所展示的实验结果表明了PRAR加速算法与AR非加速算法相比,在相同的半径下以及在所有实验的数据集上均取得了相同的约简结果。六组实验中,PRAR与AR的约简集合元素完全重合,特征编号及数量严格一致,在多种异构数据集下两类算法的结果同步性未受参数影响;即使是含12个特征的大规模约简结果(序号5),二者仍保持完全相同的复杂集合结构该结果直接证明了加速策略在优化计算效率的过程中,完整保留了原始算法的核心逻辑与结果生成机制。
4.2. 算法效率对比试验
在本小节中主要针对算法的效率即算法运行时间的结果展开对比,与上一小节约简结果一致性验证的实验环境相同,本小节展示了不同的属性约简算法得到其约简结果的运行时间。其具体的实验结果见表4。实验结果表明,PRAR加速算法具有普适性:在半径参数从0.01 (数据集1)到0.1 (数据集3~6)的变化范围内,PRAR算法始终展现出显著的时间优势。例如在数据集1中,PRAR将计算耗时从264.72秒缩短至205.63秒,效率提升22.3%;而在数据集6中,运行时间从63.29秒降至38.49秒,加速比达1.64倍。最后通过两个小节的实验验证结果表明,加速算法在保证了约简结果相同的同时与非加速算法相比均有明显的加速效果。由此得出本文提出的加速算法具备有效性和高效性。
Table 4. Algorithm efficiency comparison
表4. 算法效率对比
序号 |
PRAR |
AR |
算法运行时间/s |
半径 |
算法运行时间/s |
半径 |
1 |
205.6317 |
0.01 |
264.7153 |
0.01 |
2 |
19.0512 |
0.05 |
32.5395 |
0.05 |
3 |
27.3375 |
0.1 |
37.5631 |
0.1 |
4 |
32.2824 |
0.1 |
50.9737 |
0.1 |
5 |
3.6416 |
0.1 |
5.1651 |
0.1 |
6 |
38.4943 |
0.1 |
63.2857 |
0.1 |
5. 结论
本文针对属性约简技术在高维数据处理中的时间效率瓶颈问题,提出了一种基于邻域粗糙集理论的高效优化算法。通过设计逐层收缩的正域迭代机制,动态剔除已确认的正域样本以缩减论域规模,有效降低局部计算复杂度;同时引入邻域粒度熵作为分类不确定性的量化指标,优化特征评估准则。在UCI标准数据集上的实验表明,该算法在不影响约简结果一致性的前提下,显著缩短了计算耗时。相较于传统方法,其主要差异在于:一方面通过动态论域降维策略减少冗余计算路径,另一方面借助邻域粒度熵的敏感性提升分类边界判定效率。
基金项目
本文受烟台市科技计划项目(编号:2022XDRH016)的资助。