1. 引言
文本分类是自然语言处理(NLP)领域中的基本任务之一,其目的是将文本数据分配到预定义的类别或标签中,使得信息的搜索和分析更加高效[1]。文本分类在现实中的应用十分广泛,包括情感分析[2]、信息检索[3]和意见挖掘[4]等。
传统的文本分类方法包括机器学习方法[5]-[7]和深度学习方法[8]-[10]。然而,这些方法并不能够捕捉文本中的复杂关系和结构信息(例如词语之间的依存关系),并且在处理长距离依赖时其性能往往不尽如人意。
为解决上述问题,许多研究者将图神经网络(GNNs) [11] [12]应用于文本分类任务中。Yao等人[13]通过构建文档-词和词-词的图结构,捕捉文本中的语义信息和结构关系,进而将文本分类问题转化为节点分类问题。TextING [14]通过构建单词与单词之间的关系提高了模型的泛化能力。Tayal等人[15]通过在输出空间中引入标签依赖机制来扩充图卷积网络。
近年来,预训练模型在文本分类任务中展现出了优秀的性能。例如,Word2Vec [16]通过将词汇映射到低维度向量空间来捕捉词语的语义关系。Transformer [17]利用注意力机制有效地捕捉了序列数据中的长距离依赖关系,而BERT [18]利用其双向编码器机制,使得模型能够同时上下文信息,从而显著提升了对文本语义的理解和处理能力。预训练模型在大规模数据集上进行训练,学习数据的特征和模式。此类模型通常采用无监督学习的方法,在缺乏标签的情境下对数据加以训练,以此获得通用的数据表示形式,进而在文本分类任务中表现出优秀的性能。
为了将预训练模型与GNNs的优势结合起来,已有若干研究工作相继展开。Yang等人[19]提出了BEGNN模型,该模型通过词的共现关系构建文本图,并使用GNNs提取文本特征。Lv等人[20]提出了RB-GAT模型,该模型将RoBERTa [21]、双向门控循环单元(BiGRU) [22]和图注意力网络(GAT) [23]融合起来,旨在优化文本分类的实现过程。Lin等[24]提出了BertGCN文本分类模型,该模型为数据集构建了一个异构图,并使用BERT对文档节点进行初始化,随后采用GCN [25]执行卷积操作。这种联合训练BERT与GCN模块的方法使得模型更有效地捕获文本的语义信息及其词间的依赖关系,从而在多个文本分类数据集上取得了优异的表现。然而,尽管BertGCN在文本分类中取得了良好的效果,但其仍存在一些局限性。BERT使用绝对位置编码,难以捕捉词语间的相对位置关系,同时,BERT将词语内容与位置信息耦合,导致信息混淆,限制了其表现。为了解决这些问题,我们提出了一种新的模型架构DeGraph-Net,其中DeBERTa通过引入解缠注意力和相对位置编码,克服了这些局限性,提高了模型的性能。
具体来说,我们的贡献如下:
1) 提出了一种新的混合结构DeGraph-Net。该模型结合了DeBERTa模块和GCN模块来分别提取文本特征,既能够更加精确地捕获上下文信息,又能兼顾文本的结构信息,从而准确表达文本内容,显著提升了分类任务的准确率。
2) 我们的方法在三个基准文本分类数据集上的表现优于其他基线模型,并通过实验和分析证明了该方法的有效性。
2. 相关工作
2.1. 预训练模型
在NLP领域,预训练模型[26]主要分为两类。第一类模型侧重于学习浅层词嵌入,如Word2Vec [16]和Glove [27]。尽管这些模型能够生成高质量的词向量,但由于其预训练的词向量无法根据上下文动态调整,因此难以准确捕捉和理解更高层次的文本概念。第二类模型主要学习上下文词嵌入,使得词语的语义信息能够根据不同的上下文环境进行动态变化。这种模型设计使得它们能够更精确地捕捉并理解文本的深层含义,进而在各种语言处理任务中表现出更强的性能。例如,ELMo [28]模型采用了双向长短时记忆网络(LSTM) [29]架构,具备在模型层面解决一词多义问题的能力,其生成的词向量能够根据不同的上下文环境进行相应的变化。ULMFiT [30]模型采用微调预训练模型的策略,有效解决了每次都需要从零开始训练模型的问题。Vaswani等人[17]提出了Transformer的新架构,该架构创新性地发展了注意力机制[31],不仅提高了并行处理的能力,还使得模型能在较短的时间内学习到更丰富的数据特征。Devlin等人[18]提出了BERT预训练模型,它采用了双向的Transformer进行预训练,可以有效地利用上下文的双向信息。ALBERT [32]作为BERT的经典变体之一,不仅保持了原有的高性能表现,同时显著减少了模型所需的参数数量。DeBERTa [33]通过引入解缠注意力和相对位置编码,提升了对词语间相对关系的捕捉能力,在多个任务上超越了BERT的性能。
2.2. 图神经网络
在过去的几年中,GNNs受到了广泛关注和研究。GNNs能够提取并结合多尺度局部空间数据的特征,展现出了强大的表征能力,成功地将深度学习模型从欧氏空间扩展到非欧氏空间。在图数据中,不仅包含节点的特征,还包括图的结构特征。GNNs通过边上传递的消息来有效捕获节点之间的依赖关系和相互作用。GCN首次将卷积操作创新性地应用于图结构数据,其核心思想在于对每个节点及其相邻节点的信息执行加权平均处理,进而生成可供神经网络进一步处理的结果向量。Veličković等人[23]提出了GAT,该模型采用注意力机制来计算每个节点对其相邻节点的注意力权重,提高了模型的鲁棒性和可解释性。Hamilton等人[34]提出了GraphSAGE,该模型利用采样机制,有效地解决了在大规模图结构上进行梯度更新时所面临的高内存消耗和计算速度缓慢的问题。
2.3. 预训练模型与图神经网络的融合
在预训练模型和GNNs取得显著成就之后,一些研究者提出了将这两种技术相结合的创新思路。Lu等人[35]提出了VGCN-BERT模型,该模型通过将BERT与词汇图卷积网络(VGCN)相结合的方式,旨在同时捕获数据的局部细节和全局结构信息。Zhang等人[36]提出了GRAPH-BERT模型,该模型通过将整个图分解为多个子图的方式,来学习每个节点的特征信息。此外,该模型还采用了并行处理技术,显著提升了模型的运算效率。Lin等人[24]提出了BertGCN,这是一种结合预训练模型与传导式学习的文本分类模型。在训练过程中,其采用预测插值、记忆回放以及小批量学习率等技术,使得模型在五个不同的文本分类数据集上取得了显著的性能提升。
3. 研究方法
在这一部分中,我们详细描述了DeGraph-Net的结构。
3.1. 总体结构
在所提出的DeGraph-Net模型中,我们设计了四个模块,分别是1) 图的构造;2) 基于DeBERTa的特征提取;3) 基于GCN的特征提取;4) 特征聚合。对于每个数据集,我们根据文档及其所含单词的重要度和相关度构建了一个异构图。关于构建此图的具体方法,已在论文的3.2节中进行了详细阐述。DeBERTa负责处理输入的文本,其提取到的具有上下文表示的特征用于初始化图节点的表示,然后利用GCN进行迭代传播,得到最终的特征表示,最后使用全连接层来预测类别。通过这种方式,模型能够利用预训练模型和GCN的互补优势,模型结构如图1所示。
Figure 1. DeGraph-Net architecture
图1. DeGraph-Net架构
3.2. 图的构建
我们为每个数据集都构建了一个异构图,表示为
,V是图中所有节点的集合,E是节点之间的边的集合,以MR数据集为例,异构图在GCN层中的传播如图2所示。
其中,以“O”开头的节点为文档节点,其他节点为单词节点,
代表x的嵌入,不同的颜色代表不同的文档类别。
依照TextGCN的规定,我们将节点划分为文档节点和单词节点两类。单词节点与文档节点之间的连接,采用词频–逆文档频率(TF-IDF)作为度量标准;而单词节点间的连接,则采用正点互信息(PPMI)进行
Figure 2. Schematic of GCN layer in DeGraph-Net
图2. DeGraph-Net中的GCN层示意图
度量。连接i和j两个节点的边的权重具体定义如公式(1)所示:
(1)
两个词i、j之间的PMI值计算公式为:
(2)
(3)
(4)
其中,
是包含单词i和单词j的滑动窗口的数量,而
是包含单词i的滑动窗口的数量。
是滑动窗口的总数。
同样的,我们使用单位矩阵
作为节点的初始特征,其中
代表文档节点的数量,
代表单词节点的数量。在DeGraph-Net模型中,我们采用DeBERTa模型来提取文本数据的特征,并将这些特征作为文档节点的嵌入表示。文档节点的嵌入表示为
,其中d是嵌入的维数,因此节点的初始特征矩阵如公式(5)所示:
(5)
3.3. 基于DeBERTa的特征提取
在这一节中我们介绍DeBERTa的结构。DeBERTa的输入是文本数据,输出为包含了整个输入序列的全局特征表示。
Figure 3. DeBERTa architecture
图3. DeBERTa架构
DeBERTa模型的结构基于Transformer架构,该架构使用Transformer网络对输入文本进行编码并生成高质量的文本表示,并在此基础上引入了特有的改进和增强机制。DeBERTa包含一个输入层,用于接收输入文本数据并将其转换为适合模型处理的嵌入表示,如图3所示。然后这些嵌入表示经过Transformer层处理后,生成具有上下文表示的特征,最后这些上下文的嵌入被馈送到GCN层。与BERT不同的是,DeBERTa使用相对位置嵌入来表示词语之间的相对位置,即图3中Relative Position Embedding部分。此外,DeBERTa在设计中考虑了解码过程中的特殊需求,如自然语言生成任务中的解码需求,加入了一些增强特性来提高模型的生成能力,即图3中的Enhanced Mask Decoder部分。
3.4. 基于GCN的特征提取
对于异构图,我们使用GCN进行特征提取和传播。具体来说,GCN层接收图G的特征矩阵X和邻接矩阵A,聚合了每个节点的邻居信息来更新其特征表示,第i个GCN层的输出特征矩阵记为
,计算过程如公式(6)所示:
(6)
其中,
代表归一化对称邻接矩阵,
代表每一层的权重矩阵,第0层的初始输入特征矩阵表示为
。
GCN层的输出是更新后的特征表示,它捕获的是文档中的结构信息,并通过softmax层获得最终预测:
(7)
其中g表示GCN模型,X表示输入特征矩阵。
3.5. 联合DeBERTa和GCN预测
我们发现DeBERTa模型输出的特征表示输入softmax层后,将其得到的结果来辅助优化DeGraph-Net会导致更快的收敛速度和更好的性能,如公式(8)所示:
(8)
其中,W代表权重矩阵,X代表输入特征矩阵。
具体来说,我们建议通过调整
来平衡DeBERTa的预测结果与GCN预测结果之间的关系,从而使DeGraph-Net模型的性能得到进一步优化。我们使用公式(9)实现:
(9)
在4.5中,我们在三个数据集上进行了综合实验,以确定
的最佳值。DeBERTa模型在捕获文档中的上下文关系方面的卓越能力,与GCN在揭示语义依赖关系方面的强大功能相结合,使得模型在需要深入理解单词间语义联系的任务上表现出了更优的性能。
4. 实验和分析
4.1. 数据集
我们在三个广泛使用的文本分类数据集上进行了实验:Movie Review (MR),Ohsumed和R52。数据集的汇总统计见表1。
Table 1. Summary statistics of datasets
表1. 数据集统计
Datasets |
#Docs |
#Training |
#Test |
#Classes |
MR |
10,662 |
7108 |
3554 |
2 |
Ohsumed |
7400 |
3357 |
4043 |
23 |
R52 |
9100 |
6532 |
2568 |
52 |
1) Movie Review (MR)。它是一个情感分类数据集,其中包含了10,662条电影评论样本。每一条评论均被明确标注为正面或负面情感,其中正面评论有5331条,负面评论亦为5331条。在实验设计上,我们选定了7108份文档作为训练集,剩余的3554份文档作为测试集。
2) Ohsumed。该数据集来源于MEDLINE数据库,此数据库由美国国家医学图书馆所维护,是一个重要的医学文献索引数据库。该数据集内含7400篇医学摘要文档,这些文档覆盖了23种心血管疾病的类别。在本次实验设置中,有3357篇文档被选定为训练集,剩余的4043篇文档被用作测试集。
3) R52。该数据集是路透社数据集的另一个子集,其中包含了9100个文件,这些文件被细分至52个不同的类别中。在实验设计方面,6532个文档被分配至训练集,剩下的2568个文档作为测试集。
4.2. 基线模型
为了全面评估本文所提出的方法,我们将DeGraph-Net与一些公认为性能较好的文本分类模型进行了比较,包括用于处理序列化数据的深度模型和基于GNN的模型。
BERT [18]。它是由谷歌提出的一种预训练语言模型。它基于Transformer架构并采用双向编码策略以捕获上下文信息,从而显著提升语言理解的能力。BERT通过无监督学习的方法在广泛的文本数据上进行训练,能够有效地执行多种自然语言处理任务。
DeBERTa [33]。DeBERTa是由微软研究院创新开发的一种高级自然语言处理模型。该模型采用了解缠注意力机制,以区分处理词语的内容与其位置信息。通过应用相对位置编码,DeBERTa增强了对词语间相对关系的识别能力,并借助增强解码机制,提升了模型在各类生成任务上的表现。在众多NLP任务中,DeBERTa的性能均超越了BERT模型。
SGC [37]。SGC (Simplified Graph Convolution)是一种GCN的优化版本,旨在提高GCN的计算效率和性能。SGC的核心理念在于通过简化传统的图卷积网络中的层叠结构,从而降低计算复杂度和内存消耗。
TextGCN [13]。它将文本数据建模为图结构,并借助图卷积网络的特性来捕捉词汇与文档之间的复杂关系。在构建文本图的过程中,我们遵循了原始论文中描述的相同方法,并采用文档节点的最终表示作为执行分类的基础。
TextING [14]。它将文本表示为图结构,有效捕获了文本实例之间的关联性及结构信息。与TextGCN所采用的方法不同,本模型为每份文本独立构建一个图。通过对输出层的利用,获取了文本的最终表征,并据此执行分类任务。
BertGCN [24]。它结合了BERT预训练模型和GCN,以提升文本处理能力。在BertGCN中,BERT模型产生的输出被用作GCN的节点特征输入,这种结合使得模型在处理富含文本信息的图结构数据时更为高效,进而在文本分类任务上展现出了优异的性能表现。
4.3. 实验步骤
在处理所有数据集时,我们参照了TextGCN的方法,包括清理和标记文本,随后移除了一些低频词汇,并利用10%的训练数据进行验证以辅助模型训练过程。我们使用DeBERTa和一个2层的GCN来实现DeGraph-Net。在DeBERTa模块中,我们采用[CLS]令牌的输出特征来作为文档嵌入,并通过前馈层生成最终预测结果。训练的每一轮开始之前,都会先用DeBERTa计算所有文档的嵌入,并利用这些嵌入更新图中的节点特征,然后将更新后的图输入到DeGraph-Net中进行训练。为了提升嵌入表示的一致性,我们对DeBERTa模块使用了较小的学习率,而对GCN模块则设置了较大的学习率。我们与先前的研究进行了对比,即4.2中的基线模型,以准确评估我们的研究成果。
4.4. 实验结果
为了验证DeGraph-Net模型文本分类的性能,我们与4.2节中的基线模型进行了比较。在三个文本分类数据集上各个模型的测试精度如表2所示。
Table 2. Results for different models on text classification datasets
表2. 不同模型在文本分类数据集上的结果
Model |
MR |
Ohsumed |
R52 |
BERT |
85.51 |
70.71 |
96.33 |
DeBERTa |
86.87 |
71.06 |
96.36 |
SGC |
75.88 |
68.49 |
93.08 |
TextGCN |
76.55 |
68.32 |
92.85 |
TextING |
79.80 |
70.41 |
93.62 |
BertGCN |
85.79 |
72.57 |
96.40 |
DeGraph-Net |
88.55 |
73.36 |
96.49 |
在三个不同的数据集上,DeGraph-Net展现出了最优的性能表现。相较于SGC、TextGCN以及TextING,BERT和DeBERTa整体性能较优,这体现了预训练模型的显著优势。与BERT和DeBERTa相比,DeGraph-Net在Ohsumed数据集上有了显著的性能提升。这一提升可以归因于Ohsumed数据集中文本的平均长度为79,较长的文本长度意味着利用文档–单词统计信息构建的图结构更为复杂,这种复杂的图结构更有利于信息的传播,从而使得模型在该数据集上展现了更佳的性能。
4.5. 超参数设置
根据公式(9),超参数
控制了DeGraph-Net输出特征和DeBERTa输出特征之间的平衡,其值的设定直接影响最终结果的精确度。因此,为了确定
的最佳取值,我们在三个基准数据集上进行了实验。图4显示了MR、Ohsumed和R52数据集上不同
值的DeGraph-Net的精度。
(a) MR
(b) Ohsumed (c) R52
Figure 4. Accuracy of DeGraph-Net when varying λ on the development set
图4. 验证集上λ值变化时DeGraph-Net的精度
在三个基准数据集上,
设置为0.6到0.8之间的值更可取,并且当
时准确率达到最佳。此外,
(只使用DeGraph-Net)始终比
(只使用DeBERTa)时准确率更高。这些结果表明,DeBERTa权重较高时的DeGraph-Net预测在文本分类任务上更加准确。
5. 结论
在这项工作中,我们提出了一种DeGraph-Net的新方法,它有效地结合了大规模预训练模型卓越的上下文单词表示能力和图卷积技术,以实现文本分类任务。实验结果显示,在三个基准文本分类数据集上,DeGraph-Net的性能超越了BertGCN模型。此外,我们还分析了不同的超参数配置对模型性能的影响,进一步验证了我们提出的DeGraph-Net方法的有效性。然而,在这项研究中,我们需要先构建整个数据集的异构图,然后再利用模型进行特征提取。与能够自动构图的模型相比,这一步骤可能不是最优解。因此,我们计划在未来的工作中继续探索和改进这一点。
基金项目
北京市教育委员会科研计划项目资助(KM202410015002; KM202110015003);北京印刷学院博士启动资金(27170123034; 27170124010);北京市教委科技计划重点项目(KZ202010015021);电子信息专业学位研究生联合培养基地建设(21090224002);北京印刷学院青年项目——面向融媒体出版物的多模态信息分析与理解技术研究(20190124072)。
NOTES
*通讯作者。