1. 引言
在信息爆炸时代,文本数据呈指数级增长,如何对海量文本进行分类成了一个亟待解决的关键问题。多标签文本分类作为一项自然语言处理技术,其应用场景广泛,涵盖新闻分类、情感分析、商品标注等领域,但其也面临诸多挑战,例如标签复杂关系、文本多样性和语义模糊性等[1]。目前学界针对多标签文本分类展开了深度研究,王嫄(2024)等提出基于编码器–解码器结构的标签语义交互Seq2Seq模型,得到类别理解纠正的文本表示[2];张红(2024)引入BERT模型搭建自适应分类框架,实现了多标签文本的自适应分类[3]。这些方法虽取得部分突破,但未能有效捕捉复杂语义关系和标签相关性,导致分类准确率不高,无法满足精准分类需求。随着深度学习技术的发展,融合注意力机制逐渐被引入多标签文本分类中,其能够聚焦文本关键信息,从而提高分类的准确性和效率,因此为多标签文本分类提供了新的思路[4]。鉴于此,提出一种基于融合注意力机制的多标签文本分类方法,通过对模型的进一步优化,能够克服传统方法的局限性,为实际场景中的多标签文本分类提供更可靠的解决方案。
2. 理论基础
2.1. 多标签文本分类
在单标签分类中,每个文本仅被赋予一个类别,与其相比,多标签文本分类中的每个文本可能同时属于多个类别,其特点在于标签间可能存在相关性,这样便增加了分类复杂性。例如,关于智能产品的文章可能同时涉及“智能设备”“人工智能”“大数据技术”等多个标签,难点在于准确捕捉文本与多个标签之间的复杂关系,以及处理标签的失衡和不确定性。多标签文本分类在信息检索领域有着广泛应用,例如搜索引擎可根据多标签分类为用户提供更精准的搜索结果[5];在情感分析中,不仅要判断文本的整体情感倾向,还要识别出喜悦、愤怒、悲伤等所有涉及的情感元素。此外,在内容推荐系统中,通过对用户兴趣的多标签分类,可为用户推荐更符合其多样化需求的内容。
2.2. 融合注意力机制
融合注意力机制能够通过动态调整文本不同部分的关注权重,从而更精准地捕捉到与不同标签相关的关键信息。例如,在处理艺术文献时,对于与特定技巧标签相关的段落给予更高的权重,从而提高对该标签的分类准确性。在面对多维数据时,融合注意力机制可以有效地整合和筛选来自不同数据源和维度的信息[6]。例如,同时处理文本内容、作者信息、发布时间等多维度数据,能够根据任务需求灵活地分配注意力权重,从而更好地适应复杂的数据特征和结构。
3. 模型构建
3.1. 词向量表示
词向量使用word2vec方法表示,并通过skip-gram算法进行实现,在语料库上构建词共现矩阵进行词向量训练,可捕捉单词之间的语义特性,从而得到词向量表示。在词向量表示时,每个样本仅被赋予一个唯一标签,给定样本集
,对于样本标签
,其文本语义表示为
,其中C是一个无限的语义集合。
3.2. 标签注意力
常见的注意力机制包括软注意力机制与硬注意力机制,软注意力机制通过计算注意力分布来对输入信息进行加权平均,硬注意力机制直接选择某个特定的输入向量,实现方式通常基于最大采样或随机采样。为更好结合本方法考虑标签的相关性,将处理后的文本表示与标签表示相结合进行交互注意力计算。首先,针对序列中的文本标签
与文本语义表示
,通过不同的线性层得到
、
和
:
(1)
其中,
,
,
是不同的权重矩阵,随后计算
和所有
之间的相似度,此时使用点积来实现:
(2)
其中,
表示点积,
表示Key的转置。接着,使用softmax函数对相似度得分进行归一化,得到注意力权重:
(3)
最后,使用注意力权重对Value进行加权求和,得到基于文本内容的标签表示
:
(4)
在模型构建中,随着注意力的进一步扩展,这样
就能较为全面地结合文本内容考虑标签与文本的关系及标签间的相关性,由此便于模型运行。
3.3. 融合策略
融合注意力机制能够综合不同注意力机制的优点,提高对复杂文本信息的捕捉能力,适应不同类型和特点的文本数据。本文采用并行融合策略,当获得文本语义表示
与基于标签的文本表示
后,使用并行融合策略将二者结合,通过加权求和得到最终的文本表示,这样可进一步提取有效语义信息,从而提升模型泛化能力。
使用不同权重矩阵
与
确定提取上述两种文本表示,权重矩阵由Tanh函数获得:
(5)
其中,
、
分别表示可训练参数矩阵,可将最终预测的第n个标签的文本表示为:
(6)
4. 模型优化
为优化模型性能,将多标签分类的层次结构扁平化处理,并把融合后的文本语义信息进行转换,从而得到预测结果:
(7)
其中,
、
分别表示可训练参数矩阵,δ为激活函数。随后,为进一步衡量模型预测结果与真实标签之间的差距,并指导学习过程,需选择多分类交叉熵损失函数来优化模型性能,可表示为
(8)
其中C表示类别集合,
表示样本i属于类别j的真实标签,
是样本i属于类别j的预测概率。在应用中,可根据数据集特点和模型结构对损失函数进行调整。如果数据集存在类别失衡问题,可为不同样本赋予不同权重,以减少失衡对模型训练的影响。此外,还可引入正则化项
防止模型过拟合:
(9)
其中θ是模型参数,M是参数数量,λ是正则化参数。将损失函数与正则化项结合,可得到最终的优化目标函数:
(10)
其中L是损失函数,R是正则化项。
5. 实验设置
5.1. 参数设置
模型训练需设置实验参数,如学习率、迭代次数、批大小等。学习率根据实验调整,学习率较小会导致训练收敛缓慢,而学习率较大会导致模型无法收敛;迭代次数取决于模型性能,当损失不再下降可认为已收敛,此时停止训练;批大小会影响模型的训练效率和稳定性,批大小较小会导致梯度估计方差过大,批大小较大则会占用过多内存。在具体设置方面,学习率设置为0.001,迭代次数为500,批大小为64。使用word2vec将文本转换为300维的词向量。
5.2. 数据集
为有效训练模型,选择多标签文本分类数据集Reuters-21578和RCV1-v2进行实验。Reuters-21578数据集主题广泛,包括721,738篇人工分类的新闻,共有109个标签;RCV1-v2数据集则具有丰富的文本特征和多样的标签类别,包括56,320篇摘要与对应的62个标签。在预处理数据集时,首先进行数据清洗,去除噪声和无效数据。随后使用分词工具对文本进行分词和词干提取,并通过GloVe嵌入技术将文本转换为词向量表示。此外,为应对类别失衡问题,采用过采样来平衡各类别的样本数量,以便模型处理。
5.3. 模型比较
为验证本方法相比传统模型在性能上的优势及其对多标签文本分类预测性能的提升,将其与已有模型进行比较实验。参与比较的模型分为两种:一种是基于决策树的多标签分类模型与基于支持向量机的多标签分类模型;第二种则是其他融合注意力机制的简单叠加模型。
5.4. 评价指标
为评估模型性能,本实验选择准确率(Precision)、召回率(Recall)和F1值(F1-score)作为衡量多标签文本分类模型性能的评估指标,其中TP表示模型正确预测为正类的样本数量,FP表示模型错误预测为正类的样本数量,FN表示模型错误预测为负类的正类样本数量。
(11)
(12)
(13)
6. 结果分析
为综合评估本模型与常用文本分类模型对多标签文本分类识别的效果,分别在Reuters-21578和RCV1-v2两个数据集上进行实验,同时选用准确率、召回率与F1值和作为评价指标。表1与表2分别展示了本模型与对照模型在两个数据集上的表现情况。
Table 1. Comparison of results on Reuters-21578 (%)
表1. 在Reuters-21578上的结果比较(%)
模型 |
准确率 |
召回率 |
F1值 |
基于决策树的模型 |
72.15 |
65.32 |
34.28 |
基于支持向量机的模型 |
78.36 |
70.21 |
37.03 |
其他融合注意力机制的简单叠加模型 |
82.69 |
75.33 |
39.42 |
本模型 |
89.78 |
83.46 |
43.25 |
Table 2. Comparison of results on RCV1-v2 (%)
表2. 在RCV1-v2上的结果比较(%)
模型 |
准确率 |
召回率 |
F1值 |
基于决策树的模型 |
80.15 |
80.32 |
40.12 |
基于支持向量机的模型 |
84.21 |
83.26 |
41.87 |
基于注意力机制的简单叠加模型 |
81.38 |
82.27 |
40.92 |
本模型 |
87.56 |
85.23 |
43.19 |
由上述实验可知,本模型在两个数据集上相比对照模型均取得最优结果。在Reuters-21578上,基于决策树的模型在三个指标上的整体表现最差,这是因为其仅考虑文本语义信息,未考虑标签相关性与不同单词的贡献度,导致模型学习能力显著降低;基于注意力机制的简单叠加模型则在对照模型中表现最佳,其通过注意力机制计算词与标签的匹配得分,考虑到标签与文本的影响,但与其他两个模型一样,均未能更深入地学习标签间的相关性以及标签对文本的表示,所以相较本模型较差。
在RCV1-v2上,所有对照模型与本模型均表现较为良好,但本模型相比对照模型在三个指标上仍有提升,且都得到最优结果。参照模型在性能上表现最不理想的是基于注意力机制的简单叠加模型,而表现最好的则为基于支持向量机的模型,主要是因为基于注意力机制的简单叠加模型更注重标签与文本的语义关联,而RCV1-v2的类别非常明确,且次数较少,对挖掘深层的文本语义与标签关联信息易出现过拟合问题,由此导致分类精度下降,基于支持向量机的模型和基于决策树的模型相对更关注文本语义理解,因此在RCV1-v2上表现出更高的学习效率。观察两个数据集的实验结果,各参照模型的表现均存在局限性,而本模型均可获得最优效果,可知本模型的鲁棒性较好。
为进一步验证方法有效性,以Reuters-21578数据集为例进行消融实验,选用Micro-F1、HMicro-F1、Macro-F1、HMacro-F1这4个F1指标进行评测,Micro-F1和Macro-F1通常用于评估模型在所有类别上的整体性能,而HMicro-F1和HMacro-F1则更侧重于考虑类别的样本分布,对于不平衡数据集的性能评估更为敏感。如表3所示,本模型的分类效果显著优于其他模型,其在Macro-F1与HMacro-F1上分别提升3.37%与3.69%。
Table 3. Results of ablation experiment of Reuters-21578 data set (%)
表3. Reuters-21578数据集消融实验结果(%)
模型 |
Micro-F1 |
HMicro-F1 |
Macro-F1 |
HMacro-F1 |
基于决策树的模型 |
37.26 |
36.82 |
35.77 |
34.96 |
基于支持向量机的模型 |
40.22 |
39.74 |
39.15 |
38.27 |
基于注意力机制的简单叠加模型 |
39.85 |
39.17 |
38.28 |
37.58 |
本模型 |
42.75 |
42.45 |
41.65 |
41.27 |
7. 结语
综上所述,本文提出了一种融合注意力机制的多标签文本分类方法,取得了显著成果。本方法使用的融合策略能够较好地适应各种数据集,可聚焦文本关键局部信息,从而更好地捕捉语义的复杂性和多样性。在处理多标签间的相关性方面,还可通过学习不同标签之间的关联,提高分类的准确性。在融合上,本方法能够更好地综合不同注意力机制的优点,避免了简单叠加可能带来的信息冗余和冲突。在结构上,注意力机制与文本特征提取部分能够更加紧密地结合,提高了模型的整体性能和泛化能力。在后续研究中,可探索更高效的注意力机制算法,以降低计算复杂度,提高模型的训练和预测速度。同时引入神经网络架构,从而进一步提升模型对复杂语义的处理能力。
基金项目
湖南环境生物职业技术学院南岳学者项目:多标签文本分类算法的研究(项目编号:NY2023-01)。