基于正负类边界距离的多标签数据属性约简

doi:10.12677/CSA.2020.109163

期刊菜单

基于正负类边界距离的多标签数据属性约简
Attribute Reduction for Multi-Label Data Based on Boundary Distance between Positive and Negative Classes

DOI: 10.12677/CSA.2020.109163, PDF, HTML, XML,
作者: 纪思南：渤海大学数学系，辽宁锦州
关键词: 多标签分类；属性约简；边界距离；依赖度函数；Multi-Label Classification； Attribute Reduction； Boundary Distance； Dependence Function

摘要: 本文首先将多标签分类问题分解为一系列单标签二分类子问题，每一个子问题对应一个标签。子问题的正类定义为具有该标签的样本，负类定义为不具有该标签的样本。在给定的属性子集下，计算出正负类样本之间的最小距离，即分类边界的最小距离。将子问题分类边界最小距离求和定义为依赖度函数，并将此依赖度函数作为属性子集重要度评价指标。然后建立了所提出依赖度函数关于属性子集的单调性，并通过最大化依赖度函数给出了属性约简的定义。最后，设计了一种基于正负类边界距离的属性约简算法，并在实际的多标签数据集上进行了实验，实验结果表明，所提约简算法能够建立合理的属性重要度排序，有效地去除冗余属性。

Abstract: In this paper, the multi-label classification problem is decomposed into a series of single-label bi-nary classification sub-problems, each of which corresponds to one label. The positive class of the sub-problem is defined as the sample with the label, and the negative class is defined as the sample without the label. Under the given attribute subset, the minimum distance between positive and negative class samples is calculated, that is, the minimum distance of classification boundary. The sum of the boundary distances for all sub-problems is defined as dependency function, which is used as the evaluation of the importance of the attribute subset. The monotonicity of the proposed dependence function with respect to the attribute subset is established, and the definition of the attribute reduction is given by maximizing the dependence function. Finally, an attribute reduction algorithm based on positive and negative class boundary distance is designed, and the experiments are carried out on actual multi-label data sets. The experimental results show that the proposed algorithm can establish a reasonable ranking of attribute importance and effectively remove redundant attributes.

文章引用：纪思南. 基于正负类边界距离的多标签数据属性约简[J]. 计算机科学与应用, 2020, 10(9): 1549-1558. https://doi.org/10.12677/CSA.2020.109163

1. 引言

近年来，在数据挖掘和机器学习领域中，多标签分类问题引起了广泛的关注。多标签分类和单标签分类的区别就是单标签分类中的样本只能与一个标签相关联，而多标签分类中的样本可能同时与多个类别标签相关联 [1] [2] [3]。

在多标签数据中，有些属性可能是冗余的或与分类任务不相关的，冗余或不相关的属性会导致多标签分类器的分类性能较差。因此，在设计分类器前，需要减少冗余或不相关的属性 [4]。属性约简就是在分类能力不变的前提下，删除其中冗余或不相关的属性，选择一个最优属性子集来提高分类器的分类性能，保留了数据集最有用的信息，使分类模型简洁，具有更好的泛化能力 [5] [6] [7]。

属性约简是多标签分类重要的数据预处理过程，其目的是减少数据的维数，来提高数据处理速度 [8]。2018年，Lin等人提出了一种新的模糊粗糙集模型，采用局部采样技术构造样本间的鲁棒距离，并建立了一种适用于多标签学习的属性约简算法 [9]。2019年，Wang等人提出了一种基于信息论的多标签学习特征选择算法，他先定义了多标签信息熵和多标签互信息的新概念，然后，建立了一种缺失标签的多标签特征选择方法 [10]。2020年，Liu等人通过设计类间判别和类内邻域识别来选择每个新到达的标签特征，提出了一种在流标签环境下的多标签特征选择方法 [11]。

现有的属性约简算法，计算复杂度较高，而样本间距离运算简单，直观，所以我们在这篇论文中利用样本间距离，定义依赖度函数，使模型更加简洁，运算速度更快。我们首先将多标签分类问题转化为二分类问题，并介绍了正负类样本集，然后，求出正负类样本间距离，从而定义了依赖度函数。通过正负类样本间距离函数，证明了依赖度函数相对于属性子集是单调递增的。接着给出了属性约简定义，最后，设计了一种基于正负类边界距离的属性约简算法，来选择最优的多标签属性子集。为了验证该方法的性能，我们将其与现有的四种多标签特征选择算法进行了比较。实验结果表明，该方法能够有效地去除冗余属性。

论文的其余部分结构如下。在第一节中，回顾了多标签分类的基础知识、点到点的距离、集到集的距离和点到集的距离的定义。在第二节中，我们给出了属性约简的定义，设计了一种基于正负类边界距离的属性约简算法。在第三节中，汇报了我们的算法在9个多标签数据集上实验的结果。在第四节中，对本文所得结论和实验结果进行总结，并提出了今后要研究的问题。

2. 基础知识

多标签数据表示为 $S = (U, A, L)$ ，其中样本集 $U = {x_{1}, x_{2}, \dots, x_{n}}$ 是一个非空有限集，表示有n个样本实例。属性集 $A = {a_{1}, a_{2}, \dots, a_{p}}$ 是一个非空有限集，每个属性 $a \in A$ 是从样本集U到实数集的函数，其中 $a (x)$ 表示为样本 $x \in U$ 在属性a上的值。标签集 $L = {l_{1}, l_{2}, \dots, l_{q}}$ 是一个非空有限集，表示有q个标签。每个标签 $l \in L$ 被定义为从样本集U到集合 ${0,1}$ 的函数。假设样本x与标签l相关联，则 $l (x) = 1$ ；否则， $l (x) = 0$ 。

对于任意非空属性子集 $B \subseteq A$ ，假设样本点x和点y都是样本集U中的点，则点x和点y之间的距离定义为

$d_{B} (x, y) = \sum_{a \in B} | a (x) - a (y) | .$

对于每个非空属性子集 $B \subseteq A$ ，设集合X和集合Y是样本集U的子集，则集合X和集合Y之间的距离定义为

$d_{B} (X, Y) = \min_{x \in X, y \in Y} d_{B} (x, y) .$

当集合X是单点集 ${x}$ 时，点x和点集Y之间的距离为

$d_{B} (x, Y) = \min_{y \in Y} d_{B} (x, y) .$

任意两个非空集X和Y都有 $d_{B} (X, Y) \geq 0$ 。

3. 多标签数据属性约简

在给定标签 $l_{i} \in L$ 的情况下，关于 $l_{i}$ 的一对样本集被定义为

$E_{i} = {x \in U : l_{i} (x) = 1}, i = 1, \dots, q .$

$F_{i} = {x \in U : l_{i} (x) = 0}, i = 1, \dots, q .$

样本集 $E_{i}$ 是有该标签的样本集合，样本集 $F_{i}$ 是没有该标签的样本集合， $E_{i}$ 是正类样本集， $F_{i}$ 是负类样本集。每个标签具有一对样本集 $E_{i}$ 和 $F_{i}$ 。对于给定的属性子集 $B \subset A$ ，下面的函数 $d_{B} (E_{i}, F_{i})$ 可以测量正类样本集 $E_{i}$ 和负类样本集 $F_{i}$ 之间的距离，函数定义为

这个距离函数 $d_{B} (E_{i}, F_{i})$ 测量了正类样本集 $E_{i}$ 和负类样本集 $F_{i}$ 的边界距离，函数值越大，分类器的分类能力越好。也就是说，标签相同的样本距离越近越好，标签不同的样本距离越远越好。

定义1：对于任意非空属性子集 $B \subseteq A$ ，我们将每个标签的正负类样本间距离求和定义为依赖度函数，依赖函数为

$γ (B) = \sum_{i = 1}^{q} d_{B} (E_{i}, F_{i})$

依赖度函数 $γ (B)$ 用于评估属性子集的重要性，依赖度函数值的大小取决于正负类样本间距离函数 $d_{B} (E_{i}, F_{i})$ 值的大小。

引理1：对于多标签数据 $S = (U, A, L)$ ，距离函数 $d_{B} (E_{i}, F_{i})$ 和依赖度函数 $γ (B)$ 相对于属性集B是单调递增的。任意选择两个属性子集 $B_{1}$ 和 $B_{2}$ ，有 $B_{1} \subset B_{2} \subset A$ ，则存在 $d_{B_{1}} (E_{i}, F_{i}) < d_{B_{2}} (E_{i}, F_{i})$ ， $γ (B_{1}) \leq γ (B_{2})$ 。

证明：由距离的定义，对于任意 $B_{1} \subset B_{2}$ ，有

$d_{B_{1}} (x, y) = \sum_{a \in B_{1}} | a (x) - a (y) | \leq \sum_{a \in B_{2}} | a (x) - a (y) | = d_{B_{2}} (x, y)$

根据集合到集合间距离的定义有

$d_{B_{1}} (E_{i}, F_{i}) = \min_{x \in E_{i}, y \in F_{i}} d_{B_{1}} (x, y) \leq d_{B_{1}} (x, y)$

$d_{B_{2}} (E_{i}, F_{i}) = \min_{x \in E_{i}, y \in F_{i}} d_{B_{2}} (x, y) \leq d_{B_{2}} (x, y)$

因此

$d_{B_{2}} (E_{i}, F_{i}) - d_{B_{1}} (E_{i} - F_{i}) > 0$

$d_{B_{1}} (E_{i}, F_{i}) < d_{B_{2}} (E_{i}, F_{i})$

另外，根据定义1有

$γ (B_{1}) = \sum_{i = 1}^{q} d_{B_{1}} (E_{i}, F_{i})$

$γ (B_{2}) = \sum_{i = 1}^{q} d_{B_{2}} (E_{i}, F_{i})$

得到

$\sum_{i = 1}^{q} d_{B_{2}} (E_{i}, F_{i}) - \sum_{i = 1}^{q} d_{B_{1}} (E_{i}, F_{i}) \geq 0$

因此

$γ (B_{1}) \leq γ ( B 2 )$

引理得证。

从引理1看出，随着属性数目的增加，样本间距离函数值越大，依赖度函数值也越大。这意味着在属性子集中添加新属性从而提高了分类器的分类能力。现在，我们通过最大化依赖度函数给出属性约简的定义。

定义2：对于多标签数据 $S = (U, A, L)$ ，如果属性子集 $B \subseteq A$ 满足以下条件，则称集合B是A的依赖约简：

1) $γ (B) = γ (A)$ ；

2) 对于任意的 $B^{'} \subset B$ ，。

我们可以看到约简的是A的一个极小子集，它保持了分类器的分类能力。然而，在现实应用中，上述定义过于严格，因此我们引入一个参数 $ε$ ，并给出基于正负类边界距离的属性约简定义。

定义3：对于多标签数据 $S = (U, A, L)$ ，如果属性子集 $B \subseteq A$ 满足以下条件，则称集合B是A基于正负类边界距离的属性约简：

1) $| γ (B) - γ (A) | < ε$ ；

2) 对于任意的 $B^{'} \subset B$ ， $| γ (B^{'}) - γ (A) | \geq ε$ 。

在这里，我们通过引入参数 $ε$ 来扩大属性约简的范围，并尽可能减少冗余属性，同时将正负类样本间距离的变化保持在较小的范围内。例1更详细地描述了约简过程。

例1：给出多标签数据集 $S = (U, A, L)$ ，如表1所示，样本集为 $U = {x_{1}, x_{2}, x_{3}, x_{4}, x_{5}, x_{6}}$ ，属性集为 $A = {a, b, c}$ ，标签集为 $L = {l_{1}, l_{2}, l_{3}}$ 。

Table 1. Multi-label data

表1. 多标签数据

正负类样本集如表2所示。

Table 2. Sample set

表2. 样本集

根据距离定义计算出正负类样本间距离，然后得到依赖度函数值，结果如表3所示。

Table 3. Distance

表3. 距离

根据定义3计算得到表4。

Table 4. Dependence degree

表4. 依赖度

根据定义3中的参数 $ε = 1$ ，则从表4中可看出属性集 ${a, c}$ 是正负类边界距离的属性约简。

现在，我们设计了一种基于正负类边界距离的属性约简算法。把定义3中的参数 $ε$ 看作算法的停止条件，当依赖度的增加小于参数 $ε$ 时，算法终止，完成属性约简。

变量 $A_{k}$ 是剩余的属性集，变量 $B_{k}$ 是选择的属性集。最初的剩余属性集就是全部的属性集A，从 $A_{k}$ 中任意选择一个 $a_{j}$ ，把它并到 $B_{k}$ 里，计算依赖度 $γ (B_{k} \cup {a_{j}})$ ，有多少个属性就算多少个依赖度。然后选择依赖度最大的属性，在剩余属性 $A_{k}$ 里去掉，选择的属性 $B_{k}$ 中加上。选择最大的依赖度作为新的依赖度，当依赖增量小于参数 $ε$ 时，算法终止，属性约简完成。当依赖增量大于参数 $ε$ 时，回到第2步，选择了一个属性后还剩多少，然后循环上述过程，循环到满足不等式时，属性约简完成。在算法中， $| U |$ 是样本数， $| A |$ 是属性数，步骤2到步骤5是一个循环过程，循环 $| A |$ 次。因此，时间复杂度为 $O (| A | {| U |}^{2})$ 。

4. 实验

为了评估PNBR算法的性能，本文在九个多标签数据集上实现了PNBR算法，并将实验结果与四种多标签属性约简算法进行了性能比较。这些算法包括PR、MDMR、FSSL和NLD，其中PR代表经典的正域约简算法 [12]、MDMR代表标签最大依赖和最小冗余算法 [13]、FSSL代表基于流标签的多标签学习的特征选择算法 [11]、NLD代表邻域标签依赖度约简算法 [14] 和PNBR代表我们提出的正负类边界距离的多标签数据属性约简算法。九个多标签数据集如表5所示。

Table 5. Multi-label data sets

表5. 多标签数据集

在我们的实验中，采用十折交叉验证来评估不同方法的有效性。十折交叉验证是将原始数据集随机分成10个大小相同的样本子集，轮流将其中9个子集当作多标签训练集，一个子集当作多标签测试集，进行实验。每次实验都会得出相应的正确率或差错率，10次实验结果的正确率或差错率的平均值作为对算法精度的估计。表6给出了实验后所选属性的平均数量，并用下划线突显了两个最佳结果。通过比较所选属性的平均数量可知，MDMR算法和PNBR算法更好，可以去除更多的冗余属性。而PR算法和FSSL算法相对差一点。

Table 6. Average numbers of the selected attributes

表6. 所选属性的平均数量

实验结果分析，对于数值型数据而言，PNBR算法和MDMR算法选择的属性最少。在Flags数据集中，它只保留了19个属性中的4或5个，这两种算法相对其他算法较差。然而在数据集Enron、Medical和Genbase中，随着数据属性数量的增加，属性减少的就不多了，这种影响就可以忽略不计了。

十折交叉验证的平均运行时间如表7所示，可以看出，MDMR算法、NLD算法和PNBR算法的运行时间比其他算法长，PR算法和FSSL算法的运行时间比其他算法短。

Table 7. Average running time

表7. 平均运行时间

实验结果分析，对于数值型数据而言，FSSL算法和NLD算法的计算时间大约是PR算法和MDMR算法的2倍，NLD算法和PNBR算法的计算时间大约是PR算法和MDMR算法的3倍。在Flags数据集中，由于数据集较小，所以算法的计算速度的差异不明显。

本文用分类器ML-9NN评估了五种属性约简算法的分类性能，同时，采用Hamming Loss、F₁ score和Coverage三种多标签分类的评价指标，来衡量约简数据的分类精度 [15]，其中下划线突显了两个最佳结果。

Table 8. Hamming loss

表8. 汉明损失

汉明损失反应的是错误分类的样本标签占总样本标签的比率，该指标取值越小，算法的性能越好，当值为0时达到最优。从表8可以看出，NLD算法和PNBR算法优于其他算法，MDMR算法和FSSL算法的性能略优于PR算法，结合表6和表7中的属性约简数量和运行时间，NLD算法和PNBR算法保留的属性更多，即使耗时长，但它的分类效果更好，特别是对于符号型数据。

Table 9. F1 score

表9. F₁分数

F₁ score相对于汉明损失是一个综合版本，F₁ score衡量分类的准确性，并忽略错误分类的样本。它是精确率和召回率的调和平均值，该指标取值越大，算法的性能越好，通常最大值为1，最小值为0，当值为1时达到最优。从表9可知，除数据集Core15k外，五种算法在F₁ score方面没有显著差异。对于Core15k数据集，NLD算法和MDMR算法的分类精度与原始数据差不多。

Table 10. Coverage

表10. 覆盖率

覆盖率表示算法生成的排序底部的真实标签的排序平均值。排序越大越不相关，所以这个覆盖率越小，算法性能越好。从表10看出，PR算法和PNBR算法优于其他算法。从数值上看，约简前后数据的分类精度并没有明显差异。实验结果表明所提约简算法能够建立合理的属性重要度排序，有效地去除冗余属性。

5. 总结

本文受基于集合到集合距离的启发，设计了一种基于正负类边界距离的属性约简算法，通过实验对所提的约简方法进行了评估，结果表明，所提约简算法能够建立合理的属性重要度排序，有效地去除冗余属性，并保持较高的分类精度。

实验研究表明，我们这个方法在处理大规模数据时，计算复杂度还是有点高，如何降低时间复杂度是我们今后要做的工作。另外在本文，我们将多标签数据分解中的标签看作为独立的，不相关的，但是在现实生活中，标签之间应该是有相关性的，所以，今后的研究工作中要将标签的相关性考虑进去，再做研究。

参考文献

[1]	Zhang, M.L. and Zhou, Z.H. (2014) A Review on Multi-Label Learning Algorithms. IEEE Transactions on Knowledge and Data Engineering, 26, 1819-1837. [Google Scholar] [CrossRef]
[2]	Xu, S.P., Yang, X.B., Yu, H.L., Yu, D.J., Yang, J.Y., Eric, C.C. and Tsang, J. (2016) Multi-Label Learning with Label-Specific Feature Reduction. Knowledge-Based Systems, 104, 52-61. [Google Scholar] [CrossRef]
[3]	Zhu, P.F., Xu, Q., Hu, Q.H., Zhang, C.Q. and Zhao, H. (2018) Multi-Label Feature Selection with Missing Labels. Pattern Recognition, 74, 488-502. [Google Scholar] [CrossRef]
[4]	Li, H., Li, D.Y., Zhai, Y.H., Wang, S.G. and Zhang, J. (2016) A Novel Attribute Reduction Approach for Multi-Label Data Based on Rough Set Theory. Information Sciences, 367-368, 827-847. [Google Scholar] [CrossRef]
[5]	Li, Y.W., Lin, Y.J., Liu, J.H., Weng, W., Shi, Z.K. and Wu, S.X. (2018) Feature Selection for Multi-Label Learning Based on Kernelized Fuzzy Rough Sets. Neurocomputing, 318, 271-286. [Google Scholar] [CrossRef]
[6]	Liu, J.H., Lin, Y.J., Li, Y.W., Weng, W. and Wu, S.X. (2018) Online Multi-Label Streaming Feature Selection Based on Neighborhood Rough Set. Pattern Recognition, 84, 273-287. [Google Scholar] [CrossRef]
[7]	Lin, Y.J., Hu, Q.H., Zhang, J. and Wu, X.D. (2016) Mul-ti-Label Feature Selection with Streaming Labels. Information Sciences, 372, 256-275. [Google Scholar] [CrossRef]
[8]	Fan, X.D., Zhao, W.D., Wang, C.Z. and Huang, Y. (2018) Attribute Re-duction Based on Max-Decision Neighborhood Rough Set Model. Knowledge-Based Systems, 151, 16-23. [Google Scholar] [CrossRef]
[9]	Lin, Y.J., Li, Y.W., Wang, C.X. and Chen, J.K. (2018) Attribute Re-duction for Multi-Label Learning with Fuzzy Rough Set. Knowledge-Based Systems, 152, 51-61. [Google Scholar] [CrossRef]
[10]	Wang, C.X., Lin, Y.J. and Liu, J.H. (2019) Feature Selection for Multi-Label Learning with Missing Labels. Applied Intelligence, 49, 3027-3042. [Google Scholar] [CrossRef]
[11]	Liu, J.H., Li, Y.W., Weng, W., Zhang, J., Chen, B.H. and Wu, S.X. (2020) Feature Selection for Multi-Label Learning with Streaming Label. Neurocomputing, 387, 268-278. [Google Scholar] [CrossRef]
[12]	段洁, 胡清华, 张灵均, 钱宇华, 李德玉. 基于邻域粗糙集的多标记分类特征选择算法[J]. 计算机研究与发展, 2015, 52(1): 56-65.
[13]	Lin, Y.J., Hu, Q.H., Liu, J.H. and Duan, J. (2015) Multi-Label Feature Selection Based on Max-Dependency and Min-Redundancy. Neurocomputing, 168, 92-103. [Google Scholar] [CrossRef]
[14]	Fan, X.D., Chen, Q., Qiao, Z.J., Wang, C.Z. and Ten, M.Y. (2020) Attribute Reduction for Multi-Label Classification Based on Labels of Positive Region. Soft Computing, 1-11. [Google Scholar] [CrossRef]
[15]	Zhang, M.L. and Zhou, Z.H. (2006) ML-KNN: A Lazy Learning Approach to Multi-Label Learning. Pattern Recognition, 40, 2038-2048. [Google Scholar] [CrossRef]

为你推荐

友情链接