1. 引言
近年来,多标签学习在众多领域得到了广泛应用[1]。随着数据规模的快速扩张,特征维度不断增多,其中包含着大量无关特征。这些特征不仅会削弱模型的预测性能,还会显著增加训练的计算成本[2]。因此,在多标签场景下采用有效的学习方法与特征选择策略,已成为应对高维多标签数据的关键途径[3]。
在实际应用中,在数据采集与标注阶段往往会出现信息缺失[4]。这不仅会导致部分特征值无法被完整获取,还会进一步增加后续学习与分析任务的不确定性与复杂性[5]。众多研究者针对不完备数据的多标签特征选择问题进行了系统的研究。Dai等[4]考虑了特征之间的正交互作用,定义了对称耦合鉴别权评价特征和标签对之间的相关性,提出了一种用于处理特征缺失的不完备多标签特征选择方法。Dai等[6]基于特征相关性与模糊容差关系实现缺失值与标签的恢复,提出了实例相关的不完备多标签数据特征选择方法。Li等[7]通过学习特征相关矩阵,定义了补充特征矩阵,进而改善了多标签学习的分类性能。
粗糙集理论[8]作为处理不确定性数据的重要工具,能在无先验信息的前提下,刻画特征间的依赖关系,从而识别出关键特征,因此在特征选择研究中得到了广泛关注与应用。Lin等[9]构造了多标签模糊粗糙集模型,提出了基于多标签模糊粗糙集的属性约简方法。Chen等[10]构造了变精度模糊邻域粗糙集模型,提出了基于变精度模糊邻域粗糙集的多标签属性约简算法。Sun等[11]建立了模糊多邻域粗糙集模型,提出了基于标签增强的特征选择方法。
香农熵[12]也称为信息熵,可用于衡量系统中信息的不确定性。Qian等[13]在不完备信息系统中引入了组合熵和组合粒度的概念,并系统分析了它们的性质及关系。Zhang等[14]提出了邻域组合熵的概念,据此提出了基于邻域组合熵的异构特征选择方法。Yang等[15]定义了模糊熵的概念以量化多标签学习中特征的不确定性,提出了基于特征重要性和标签重要性的特征选择算法。Liao等[16]在模糊粗糙集理论的框架下,提出了基于模糊条件熵的多标签特征选择算法。
在不完备多标签数据中,数据缺失会影响样本间相似程度的刻画,从而增加多标签特征选择过程中不确定性描述的难度。由此,本文提出基于模糊组合熵的不完备多标签特征选择方法。首先,在不完备多标签模糊信息系统中定义模糊关系,进而得到模糊信息粒、模糊标签粒以及多标签模糊下上近似,构造不完备多标签模糊粗糙集。在此基础上,引入模糊组合熵、模糊联合组合熵、模糊条件组合熵等信息度量。接着,基于模糊组合熵讨论特征的内外重要度,给出不完备多标签模糊粗糙集上的特征选择算法。最后,通过实验验证所提算法的有效性。
2. 预备知识
称
为多标签模糊信息系统[17],其中
为非空有限样本集,
为特征集,
,
表示样本
在特征
下的取值。
为标签集,标签向量集
,
为与样本
关联的标签向量,且
样本
具有标签
。
定义1 [17]设
为多标签模糊信息系统,
,
的模糊关系
定义为:
(1)
其中σ为高斯核宽度参数。则
为U上的模糊相似关系。
,
,x的模糊信息粒
定义为:
(2)
,定义标签粒
,标签粒的全体
构成U的覆盖。标签粒
的模糊标签粒
定义为:
(3)
称
为标签粒集
关于
的多标签模糊粒覆盖。
定义2 [17]设
为多标签模糊信息系统,
为
上的多标签模糊粒覆盖。
,
,
关于
的多标签模糊下、上近似分别定义为:
,
,(4)
其中
关于
的模糊下近似
和上近似
分别定义为:
,
. (5)
3. 不完备多标签模糊粗糙集与信息度量
针对不完备数据,文献[18]通过定义相似度函数构造了模糊关系,以刻画样本之间的模糊相似程度。本节借鉴文献[18]中相似度函数的构造思想,在不完备多标签模糊信息系统中引入特征值缺失率并考虑调节参数,定义新的模糊关系,从而建立不完备多标签模糊粗糙集,在此基础上给出不完备多标签模糊粗糙集上的信息度量。
3.1. 不完备多标签模糊粗糙集
定义3 设
为多标签模糊信息系统,若存在
,
使得
,则称该信息系统为不完备多标签模糊信息系统,记作
。
定义4 设
为不完备多标签模糊信息系统,
,
,
诱导的
上的模糊关系为
,
的具体定义如下:
(6)
其中
为调节参数,
表示
的特征值缺失率,
为平滑参数。
,
的模糊关系
定义为:
(7)
在样本存在缺失特征值时,通过引入特征值缺失率与调节参数
,模糊关系能够自适应调节样本对的相似度,并对其取值进行约束;在样本不存在缺失特征值时,相似度采用柯西核函数进行刻画,其平缓的衰减特性能够有效减少异常值对相似度计算的影响,从而提高结果稳定性。
定义5 设
为不完备多标签模糊信息系统,
,
,
的模糊信息粒
定义为:
(8)
,标签粒
的模糊标签粒
定义为:
(9)
称
为标签粒集L关于A的不完备多标签模糊粒覆盖。
定义6 设
为不完备多标签模糊信息系统,
为
上的不完备多标签模糊粒覆盖。
,
,
关于
的多标签模糊下、上近似分别定义为:
,
,(10)
其中
关于
的多标签模糊下近似
和上近似
分别定义为:
,
.(11)
3.2. 不完备多标签模糊粗糙集上的信息度量
本节将文献[13]提出的组合熵引入不完备多标签模糊粗糙集,以不完备多标签模糊信息粒作为信息刻画的基本粒度,定义模糊组合熵等信息度量,研究其性质和关系。
定义7 设
为不完备多标签模糊信息系统。
,
,
的模糊组合熵定义为:
(12)
,
和
的模糊联合组合熵定义为:
(13)
相对于
的模糊条件组合熵定义为:
(14)
相对于
的模糊条件组合熵定义为:
(15)
定理1 设
为不完备多标签模糊信息系统。
,下列结论成立:
(1)
;
(2)
.
证明 易证结论(1)成立,下证(2)。
4. 基于模糊组合熵的不完备多标签特征选择
本节基于模糊组合熵定义特征重要度,进而提出适用于不完备多标签场景的特征选择算法。
定义8 设
为不完备多标签模糊信息系统。若
,称
在
中是必要的;否则,称
在
中是冗余的。
,若
,且
,
,称
是
的特征约简。
中所有必要特征构成的集合称为
的核,记为
。
定义9 设
为不完备多标签模糊信息系统。
,
关于
和
的特征内重要度定义为:
(16)
,
关于
和
的特征外重要度定义为:
.(17)
定理2 设
为不完备多标签模糊信息系统。
,
(1)
;
(2)
.
证明 易证结论(1)成立,下证(2)。
,则
,因此
。若
,有
,则
,可得
在
中是必要的,因此
。
推论 设
为不完备多标签模糊信息系统。
,
。
证明 由定理2易证结论成立。
根据上述结论,可以构造基于模糊互补熵的不完备多标签特征选择算法(IMFSFCE)。首先,计算
关于
和
的特征内重要度,将内重要度为正的特征子集作为初始特征子集。然后,分别计算
相对于特征子集
和全集
的模糊条件组合熵,若
,则输出特征子集;否则,从未选特征中挑选外重要度最大的特征加入
,直到
相对于特征子集
的模糊条件组合熵小于
相对于全集
的模糊条件组合熵。具体特征选择过程见算法1。
算法1 基于模糊互补熵的不完备多标签特征选择(IMFSFCE) |
输入:不完备多标签模糊信息系统
,
。 |
输出:特征子集
。 |
1 初始化
; |
2
,计算模糊关系
、
,模糊信息粒
、
; |
3 计算模糊标签粒
和多标签模糊粒覆盖
; |
4 由式(24)计算
的特征内重要度
,若
,则
; |
5 计算
,若
,执行步骤7;否则执行步骤6; |
6
,由式(25)计算
的特征外重要度
,若
,则
,并执行步骤5; |
7 输出特征子集
。 |
5. 实验
5.1. 实验环境
为验证IMFSFCE算法的有效性,选取Mulan数据库5个多标签数据集进行实验分析。表1列出了5个多标签数据集的相关信息。实验采用多标签K最近邻(Multi-Label K-Nearest Neighbor, ML-KNN)分类器,近邻数量设置为10,平滑参数设置为0.1 [19]。
Table 1. Information of multi-label datasets
表1. 多标签数据集信息
数据集 |
样本数 |
特征数 |
标签数 |
领域 |
训练样本数 |
测试样本数 |
Flags |
194 |
19 |
7 |
Images |
129 |
65 |
Emotions |
593 |
72 |
6 |
Music |
391 |
202 |
Cal500 |
502 |
68 |
174 |
Music |
251 |
251 |
Water quality |
1060 |
16 |
14 |
Chemistry |
530 |
530 |
Virus |
207 |
440 |
6 |
Biology |
124 |
83 |
本文采用平均精度(Average Precision, AP)、汉明损失(Hamming Loss, HL)、排序损失(Ranking Loss, RL)、覆盖率(Coverage, CV)、1-错误率(One Error, OE)作为分类评价指标[20]。其中,AP值越高,表明分类性能越好;HL、RL、CV、OE值越低则分类性能越好。后续实验用符号“↑”表示“值越大分类性能越优”,符号“↓”表示“值越小分类性能越优”。在实验结果的呈现中,最优值以粗体形式突出显示。
评价指标的具体定义[21]如下:
设不完备多标签模糊信息系统
。训练集
,
为样本
具有标签
的概率,
为样本
的真实标签向量,
为多标签分类器预测样本
的标签向量,
为
的排序函数。
(1) 平均精度(AP)用于衡量模型预测标签集合中的标签排序在整体排序中的表现。AP值越大,说明模型对相关标签的识别与排序更准确,分类性能越优:
(18)
(2) 汉明损失(HL)用于衡量模型在标签空间上产生的错误预测比例。该指标反映了样本标签被误分类的次数。HL值越小,说明模型在标签判断上产生的错误更少,分类性能越优:
(19)
(3) 排序损失(RL)用于衡量模型在排序过程中将无关标签排在相关标签之前的次数。该指标反映了排序错误的程度。RL值越小,说明模型在区分相关与无关标签时的排序能力越强,分类性能越优:
(20)
(4) 覆盖率(CV)用于衡量预测结果中,为包含全部相关标签所需在排序列表上向下遍历的平均距离。CV值越小,说明模型更容易在较前的位置找到所有相关标签,分类性能越优:
(21)
(5) 1-错误率(OE)用于统计预测排名第一的标签未包含在样本真实标签集合中的次数。OE值越小,说明模型对最相关标签的识别越可靠,分类性能越优:
(22s)
5.2. 参数分析
由于原始多标签数据集是完整的,本文采用随机缺失方法使数据集不完整,
以步长0.1在
内取值,取缺失率10%、20%、30%、40%、50%分别进行实验。5个数据集在不同取值下的评价指标如图1~5所示。
Figure 1. The AP index results of multi-label datasets under different values
图1. 多标签数据集在不同取值下的AP指标结果
Figure 2. The HL index results of multi-label datasets under different values
图2. 多标签数据集在不同取值下的HL指标结果
Figure 3. The RL index results of multi-label datasets under different values
图3. 多标签数据集在不同取值下的RL指标结果
Figure 4. The CV index results of multi-label datasets under different values
图4. 多标签数据集在不同取值下的CV指标结果
Figure 5. The OE index results of multi-label datasets under different values
图5. 多标签数据集在不同取值下的OE指标结果
5.3. 实验结果
本文选取能够使评价指标达到最优的缺失率与
作为最终的参数设置。在此基础上,对所提IMFSFCE算法、使用全部特征的方法以及不同消融设置(无
、无
、无
与
)进行对比实验。实验结果如表2所示。实验结果中,最优指标值以粗体形式表示。
Table 2. Experimental results of different methods on five evaluation metrics for each datasets
表2. 不同方法在各数据集上的五种评价指标实验结果
数据集 |
方法 |
AP (↑) |
HL (↓) |
RL (↓) |
CV (↓) |
OE (↓) |
Flags |
IMFSFCE |
0.7596 |
0.4110 |
0.2987 |
4.3231 |
0.1846 |
使用全部特征 |
0.7536 |
0.4286 |
0.3179 |
4.3846 |
0.2154 |
无
|
0.7536 |
0.4286 |
0.3179 |
4.3846 |
0.2154 |
无
|
0.7473 |
0.4198 |
0.3185 |
4.3846 |
0.2154 |
无
、
|
0.7536 |
0.4286 |
0.3179 |
4.3846 |
0.2154 |
Emotions |
IMFSFCE |
0.6172 |
0.4356 |
0.4110 |
2.9851 |
0.5198 |
使用全部特征 |
0.6047 |
0.4530 |
0.4311 |
3.0149 |
0.5248 |
无
|
0.6002 |
0.4513 |
0.4303 |
3.0743 |
0.5297 |
无
|
0.6123 |
0.4480 |
0.4244 |
3.1436 |
0.5149 |
无
、
|
0.6040 |
0.4513 |
0.4323 |
3.0248 |
0.5248 |
Cal500 |
IMFSFCE |
0.4421 |
0.1614 |
0.2208 |
132.5339 |
0.1155 |
使用全部特征 |
0.4421 |
0.1614 |
0.2208 |
132.5339 |
0.1155 |
无
|
0.4388 |
0.1654 |
0.2217 |
132.4303 |
0.1155 |
无
|
0.4421 |
0.1614 |
0.2208 |
132.5339 |
0.1155 |
无
、
|
0.4421 |
0.1614 |
0.2208 |
132.5339 |
0.1155 |
Water quality |
IMFSFCE |
0.5641 |
0.4673 |
0.4000 |
10.3736 |
0.4133 |
使用全部特征 |
0.5632 |
0.4704 |
0.4020 |
10.3830 |
0.4152 |
无
|
0.5632 |
0.4704 |
0.4020 |
10.3868 |
0.4152 |
无
|
0.5612 |
0.4714 |
0.4052 |
10.4245 |
0.4152 |
无
、
|
0.5632 |
0.4704 |
0.4020 |
10.3830 |
0.4152 |
Virus |
IMFSFCE |
0.4633 |
0.2932 |
0.4283 |
2.2892 |
0.7831 |
使用全部特征 |
0.4071 |
0.3133 |
0.4802 |
2.5422 |
0.8434 |
无
|
0.4071 |
0.3133 |
0.4802 |
2.5422 |
0.8434 |
无
|
0.4048 |
0.3173 |
0.4775 |
2.5422 |
0.8554 |
无
、
|
0.4071 |
0.3133 |
0.4802 |
2.5422 |
0.8434 |
由表2可知,对于AP指标,IMFSFCE算法在所有数据集上的实验结果均不低于其余四种对比方法;对于HL、RL、CV指标,IMFSFCE算法在所有数据集上的实验结果均不高于其余四种对比方法;对于OE指标,IMFSFCE算法在Flags、Cal500、Water quality、Virus数据集上的实验结果均不高于其余四种对比方法,在Emotions数据集上与最优方法相差0.0049。相较于其余四种对比方法,IMFSFCE算法在5个数据集上的AP平均提升3.48%,HL、RL、CV和OE平均下降3.02%、4.33%、2.83%和4.64%。上述结果表明,IMFSFCE算法在保证平均精度提升的同时,有效控制了多种误差相关指标的增幅,整体上获得了更优的分类性能。
为进一步评估IMFSFCE算法在数据维度压缩方面的表现,本文统计了该算法在各数据集上的约简率,如表3所示。
Table 3. Feature reduction ratios of each dataset
表3. 各数据集的特征约简率
数据集 |
原始特征数 |
选择特征数 |
约简率 |
Flags |
19 |
4 |
78.95% |
Emotions |
72 |
22 |
69.44% |
Cal500 |
68 |
32 |
52.94% |
Water quality |
16 |
11 |
31.25% |
Virus |
440 |
3 |
99.32% |
由表3可知,IMFSFCE算法在各数据集上均能有效降低数据维度,约简率介于31.25%~99.32%之间。综上,IMFSFCE算法能够在有效压缩数据维度的同时保持良好的分类性能,实验结果验证了本文算法的有效性,适用于不完备多标签特征选择场景。
6. 结论
本文提出了基于模糊组合熵的不完备多标签特征选择。在不完备多标签模糊信息系统中,通过改进模糊关系,定义了模糊信息粒、模糊标签粒以及多标签模糊下近似与上近似,建立了不完备多标签模糊粗糙集。进一步地,将组合熵引入不完备多标签模糊粗糙集,定义了模糊组合熵、模糊联合组合熵、模糊条件组合熵等信息度量,给出了基于模糊组合熵的特征内外重要度。最后,基于信息度量与重要度分析,提出了不完备多标签模糊粗糙集上的多标签特征选择算法。在5个多标签数据集上的实验结果表明,本文所提特征选择算法能够在不完备场景下改善多标签分类性能,验证了该方法的可行性与有效性。