1. 引言
关系三元组抽取是信息抽取领域的重要任务,旨在从自然语言文本中识别出由主语、谓语和宾语构成的结构化关系,广泛应用于知识图谱构建、问答系统、推荐系统等场景[1]。近年来,预训练语言模型(Pre-trained Language Models, PLMs)的引入显著提升了关系抽取任务的整体性能[2]。然而,在真实应用中,关系类别往往呈现长尾分布特征,尤其在中文语境中,不同关系类别呈现出明显的长尾分布特征,存在大量低频甚至极少样本关系类别,导致基于监督学习的方法在这些长尾关系上的表现较差[3]。如何在标注样本稀缺的条件下准确识别这些关系三元组,已成为当前关系抽取研究中的关键挑战之一。
针对标注样本稀缺的问题,少样本关系三元组抽取(Few-Shot Relation Triple Extraction, FS-RTE)逐渐成为研究热点。现有方法主要分为三种范式:先实体后关系、先关系后实体,以及实体关系双向引导。先实体后关系范式首先识别文本中的实体,再基于实体对进行关系分类[4]。该方式结构清晰,便于实现,但在少样本场景下面临两个主要问题:一是未考虑关系差异性的实体识别难以覆盖所有关系语义;二是可能引入冗余实体,干扰后续关系预测[5]。先关系后实体范式则从关系判别入手,以预测的关系类别作为引导信息辅助实体抽取,从而缓解实体语义差异带来的影响。然而,这两种单向建模范式在建模过程中缺乏实体与关系之间的交互,限制了原型表示的表达能力。为解决上述问题,研究人员提出实体关系双向引导范式,通过构建实体与关系之间的双向交互机制,实现两者表征的协同优化,显著提升了模型在少样本条件下的性能和鲁棒性[6]。尽管实体关系双向引导范式在少样本关系三元组抽取任务中取得了显著进展,但现有方法在原型表示与建模机制上仍存在明显局限。首先,在原型构建方面,大多数方法采用token的等权平均方式生成实体或关系原型,忽略了不同token对类别语义的重要程度差异。这种构建方式容易受到冗余或无关信息干扰,导致原型表示的语义模糊,影响实体与关系之间的匹配精度。其次,在原型分布建模方面,类内原型往往表现出较大的分散性,而类间原型之间的距离却较为接近,导致整体原型区分度不足。同时,现有方法普遍缺乏专门的结构性约束机制对原型空间进行规范,进一步加剧了匹配边界的模糊性,降低了三元组抽取的稳定性和鲁棒性。
为缓解上述现有方法在原型构建和表示方面的不足,本文提出了一种基于实体关系双向引导范式的中文少样本关系三元组抽取方法。在本文方法的设计过程中,主要面临以下两个关键挑战。第一,支持样本稀缺导致类别原型难以准确构建。在少样本条件下,实体与关系的语义表示本就有限,而现有方法通常采用token的等权平均方式生成原型,忽略了不同token对类别语义的重要程度差异,导致原型表达模糊、易受噪声干扰。为应对这一问题,本文引入了基于token置信度的加权原型构建机制,通过动态评估每个token的语义贡献,实现更精确的原型聚合,从而提升模型在有限样本下的表示能力。第二,原型空间缺乏结构约束,影响匹配判别稳定性。由于类内原型分布易发散、类间原型区分度不足,模型在三元组抽取过程中容易出现边界模糊和预测不稳定现象。为此,本文进一步设计了原型多样性约束损失函数,在增强类间分离性的同时强化类内一致性,从而提升模型的鲁棒性和泛化性能。总的来说,本研究的主要贡献如下:
提出了一种基于token置信度的加权原型构建方法,通过引入动态语义评估机制,有效识别并强化对类别语义贡献较大的关键token,从而缓解传统等权平均策略导致的语义模糊与噪声干扰问题,显著提升了原型表示的准确性与鲁棒性。
设计了一种原型多样性约束损失函数,在类间最大化原型差异、类内最小化原型分散,从而规范原型空间的分布结构。该设计有效缓解了少样本条件下类间边界模糊、类内原型发散等问题,显著提升了模型在低资源场景下的判别能力与泛化稳定性。
在FewDuIE1.0与FewDuIE2.0两个中文少样本数据集上进行了系统实验与消融分析,实验结果显示,本文方法在多个评价指标上均显著优于主流基线方法,两个核心模块在不同任务设定下均带来显著性能提升,充分验证了所提方法的有效性、鲁棒性与适应性。
2. 相关工作
关系三元组抽取旨在从自然语言文本中识别由主语、谓语和宾语构成的结构化关系三元组[1]。早期研究主要采用管道式方法[7],将任务划分为命名实体识别[8]和关系抽取[9]两个阶段。该方法结构简单,但容易受到错误传播的影响,限制了整体性能的提升。为克服流水线方法的不足,部分研究提出了联合抽取模型,通过端到端学习实现实体和关系的同步识别[10]。然而,现有基于监督学习的方法普遍依赖大规模人工标注数据,当面临关系类别分布高度不平衡、特别是长尾关系场景时,其性能仍显著下降,泛化能力受限。
针对上述挑战,近年来研究者将关注重点逐步转向少样本关系三元组抽取任务,旨在利用有限的标注样本,仍能高效完成实体及其语义关系的识别[11]。与传统的监督学习方法类似,该任务通常可分解为少样本命名实体识别[12]和少样本关系抽取[13]两个子任务。早期方法多聚焦于其中之一,分别建模实体或关系信息,未能捕捉三元组内部的语义耦合结构。为此,研究者逐渐转向联合建模策略,提升实体与关系间的交互建模能力与整体抽取性能[4]。目前联合建模方法大致可分为三类主流范式,即先实体后关系、先关系后实体,以及实体关系双向引导。先实体后关系范式首先识别文本中的实体,再基于这些实体预测其间的语义关系。典型方法如MPE [4],其采用条件随机场进行实体识别,并结合原型网络完成关系分类。该类方法结构简洁、实现成本低,但在面对新颖或低频关系时易引入冗余实体,干扰关系判别的准确性。先关系后实体范式则以关系识别为起点,随后基于已识别关系引导相关实体的抽取。代表性方法如RelATE [5]、PTN [14]和RCTE [15]。此类方法有效缓解了先实体后关系范式中存在的实体语义不一致问题,但其建模过程仍为单向流程,实体与关系之间信息交互不足,且原型表示能力受限。为弥补上述两类方法的信息交互缺陷,近年来研究者提出了实体关系双向引导范式,通过构建实体与关系之间的相互引导机制,实现实体识别与关系分类的协同优化。代表方法如TGIN [3],其通过异构图结构与翻译机制实现信息交互;MG-FTE [6]引入实体感知与关系生成模块进行相互引导;SQGE [16]则融合支持集与查询集的原型信息,结合多级对比学习与实体特征增强策略,在多个少样本数据集上取得了领先的性能表现。尽管上述方法在不同建模范式下均取得了一定进展,但在类别原型的语义表达准确性与原型空间分布的结构化建模方面仍存在显著局限,难以有效应对长尾关系场景下的关系三元组抽取挑战。
3. 方法
3.1. 整体框架
本文提出了一种面向中文文本的少样本关系三元组抽取方法,通过引入实体关系双向引导机制,实现实体识别与关系分类的协同优化。如图1所示,整个模型主要包含三个核心模块:(1) 实体关系双向引导模块,构建实体识别与关系分类之间的相互引导机制,通过关系引导实体识别、实体引导关系抽取以及双向注意力机制,实现支持集与查询集的语义对齐和两个子任务的协同学习;(2) 加权原型构建机制,针对传统token等权平均方式的局限性,引入基于token置信度的动态权重分配策略,通过评估每个token的语义贡献实现更精准的原型聚合;(3) 原型多样性约束损失,设计专门的结构化损失函数,解决原型空间中类内发散、类间区分度不足的问题,通过优化类内一致性与类间分离性,提升原型表示的判别能力。模型在支持集上学习原型表示,并在查询集上完成三元组抽取任务。
Figure 1. Framework of the proposed model under the 2-way-1-shot setting
图1. 2-way-1-shot设置下的模型框架图
3.2. 实体关系双向引导机制
实体关系双向引导机制是本文方法的核心基础,通过构建实体识别与关系分类之间的相互引导,实现两个子任务的协同优化[6]。与传统的单向建模方式不同,该机制建立了实体与关系信息的双向流动,有效缓解了少样本场景下实体与关系表示不充分的问题。
该机制主要包含三个关键组件。关系引导的实体识别利用已有的关系原型引导查询句中的实体抽取过程,通过将关系原型作为语义先验知识,帮助模型更准确地定位与特定关系相关的实体,从而在有限样本条件下提升实体识别的精度。实体引导的关系抽取基于识别出的实体信息反向优化关系原型表示,通过分析实体的语义特征和上下文信息,模型能够动态调整关系原型,使其更好地适应当前的语义场景,提升关系分类的准确性。双向注意力机制[17]实现支持集与查询集之间的语义对齐与原型优化,该机制通过计算支持样本和查询样本之间的语义相似度,动态分配注意力权重,促进实体与关系信息的双向传递和相互增强。
通过这种双向引导的设计,模型能够在实体识别和关系分类两个子任务间建立密切的信息交互,克服了传统单向建模方式的局限性,为后续的原型构建和优化提供了更加丰富的语义基础。
3.3. 加权原型构建机制
传统的原型构建方法通常采用token等权平均的方式生成类别原型,这种方法忽略了不同token对类别语义贡献的差异性,容易受到冗余或无关信息的干扰,导致原型表示语义模糊,影响少样本条件下的抽取性能。为解决这一问题,本文提出基于token置信度的加权原型构建机制(Weighted Prototype Construction, WPC),通过动态评估每个token的语义重要性,实现更精准的原型聚合。
本文采用基于L2范数的置信度计算方法,通过衡量token嵌入向量的表示强度来评估其语义贡献。对于属于同一实体标签的token集合,首先计算每个token嵌入向量的L2范数:
(1)
其中,
表示第
个token的嵌入表示,
表示L2范数计算。
随后,通过温度参数
控制的softmax函数进行归一化,得到每个token的置信度权重:
(2)
其中
表示第
个token的置信度权重,exp (⋅)表示指数函数,
表示对应标签的token集合,
表示集合
的大小,
表示集合中token的索引,
为温度系数,用于控制权重分布的平滑程度。
基于上述置信度权重
,对该标签下所有token的嵌入表示进行加权求和,得到该实体类别在当前支持样本
中的原型表示:
(3)
其中
表示第
个支持样本对应的类别原型。
随后,将每个类别在
个支持样本中的原型取平均,作为该类别最终的原型表示:
(4)
通过这种加权聚合策略,模型能够自适应地关注对类别语义贡献更大的token,从而在少样本条件下构建更加精准和鲁棒的类别原型表示。
3.4. 原型多样性约束损失设计
在少样本关系三元组抽取任务中,由于训练样本稀缺,原型空间容易出现类内原型发散与类间原型区分度不足的问题,导致模型在三元组匹配过程中边界模糊、预测不稳定。为此,本文设计了原型多样性约束损失(Prototype Diversity Loss, PDL),通过同时优化类间分离度与类内一致性,提升原型表示的判别能力。
该损失函数包含两个关键组件:类间分离损失和类内聚合损失。对于每个批次中的原型张量,首先计算各类别的中心原型表示,然后分别计算类间和类内的约束损失。
类间分离损失旨在最大化不同类别原型之间的距离,增强类间区分度。对于批次中第
个样本,首先计算各类别的中心原型:
(5)
其中,
表示第
个样本中第
个类别的第
个原型,
表示每个类别的原型数量,
表示第
个类别的中心原型。
然后计算类间距离矩阵,并通过负距离的形式构建类间分离损失:
(6)
其中,
表示类别
和
之间的欧氏距离,
表示上三角掩码集合用于避免重复计算,
表示有效距离对的数量,
表示批次大小。
类内聚合损失旨在最小化同一类别内不同原型之间的距离,增强类内一致性:
(7)
其中,
表示类别数量,
表示第
个原型与其类别中心的欧氏距离。
最终,原型多样性约束损失函数为:
(8)
通过联合优化类间分离性与类内一致性,所提损失函数能够引导模型学习到更加紧凑且具有判别性的原型表示。类间分离损失确保不同类别的原型在特征空间中保持足够距离,而类内聚合损失则促使同类原型聚集在相近区域,从而显著提升了模型在少样本条件下的泛化能力与判别稳定性。
3.5. 目标函数
在完成各个模块的设计与损失函数的构建之后,本文进一步定义了模型的整体损失函数,以统一优化实体识别、关系分类以及原型表示学习三个核心任务。总体损失由三部分组成:关系分类损失
、实体识别损失
以及原型多样性约束损失
。
在关系分类方面,模型需要基于双向引导机制增强的特征表示,准确判断查询样本所属的关系类别。为此,采用交叉熵损失函数度量预测关系分布与真实标签之间的差异:
(9)
其中,
表示第
个样本对第
个关系类别的真实标签,
表示模型预测第
个样本属于第
个关系类别的概率,
表示每个类别的查询样本数。该损失鼓励查询样本的表示与对应类别的原型具有更高的内积相似度,从而实现有效的关系预测。
在实体识别方面,由于实体边界判定具有序列依赖性,简单的分类损失难以捕捉标签间的转移约束。因此,采用条件随机场建模标签序列的全局最优路径,通过负对数似然损失优化:
(10)
其中,
表示第
个样本的真实实体标签序列,
表示输入序列,
表示CRF参数,
表示给定输入序列下真实标签序列的条件概率。通过该损失函数,模型能够有效学习实体边界的识别能力。
最后,原型多样性约束损失
已在3.4节中详细阐述,通过联合优化类间分离性和类内一致性来增强原型表示的判别能力。
为实现实体识别、关系分类与原型表示优化的协同训练,本文设计了多任务联合优化的总损失函数:
(11)
其中,
是控制原型多样性损失权重的超参数,用于平衡不同任务之间的优化目标。该损失函数在整个训练过程中被最小化,使模型能够同时学习到具有强泛化能力的实体与关系表示,并确保支持集中的原型具备良好的判别性,从而在查询集中实现更准确的关系三元组抽取。
Table 1. Statistics of two datasets
表1. 两个数据集的统计信息
类别 |
FewDuIE1.0 |
FewDuIE2.0 |
训练关系数 |
15 |
15 |
验证关系数 |
14 |
14 |
测试关系数 |
14 |
13 |
每个关系的句子数 |
400/50 |
500/50 |
4. 实验
4.1. 实验设置
4.1.1. 数据集
为了适配少样本关系三元组抽取任务,我们重新构建了两个数据集。表1展示了这些数据集的统计数据。需特别指出的是,训练集、验证集和测试集之间不存在类别重叠的情况。
FewDuIE1.0数据集是基于公开数据集DuIE [18]构建的一个子集,其原始语料来源于百度百科与百度新闻等中文文本资源。DuIE已被广泛用于中文实体关系抽取任务的评估[19] [20]。由于原始数据中部分句子包含多个关系三元组,为避免模型混淆并确保任务设定的一致性,我们仅保留包含单一三元组的句子,最终获得覆盖43个关系类别的子集。考虑到各关系类别样本数量的不均衡性,我们选取其中句子数量少于400的14个关系类别作为测试集;再从其余样本数较多的29个关系类别中,随机划分出15个作为训练集,14个作为验证集。在完成类别划分后,我们从各类别中随机抽取指定数量的样本,用于构建最终的数据集。其中,每类关系在训练集、验证集和测试集中分别包含400、400和50个实例。
在此基础上,我们进一步构建了更具挑战性的FewDuIE2.0数据集。该数据集基于DuIE2.0 [21]构建,原始语料同样来源于百度百科、百度新闻等中文开放领域文本。相较于DuIE,DuIE2.0的语言风格更口语化,且在关系结构上更为复杂,进一步提升了任务的语言多样性与建模难度。我们采用与FewDuIE1.0相同的筛选策略,仅保留包含单一三元组的样本,最终得到覆盖42个关系类别的数据子集。根据同样的划分策略,我们将样本数量少于500的13个关系类别划为测试集,从其余29个类别中随机选取15个作为训练集,14个作为验证集。随后从各类别中随机抽取指定数量的样本,构建最终数据集,其中每类关系在训练集、验证集和测试集中分别包含500、500和50个实例。
4.1.2. 基线
为评估模型效果,我们选取了几种典型的基线方法进行对比实验。
RelATE [5]:属于先关系后实体的抽取范式。该方法通过双重注意力机制生成关系原型,再以该原型为引导,分别识别对应的头实体与尾实体,从而缓解标签爆炸、实体差异等问题,适用于少样本场景下的关系三元组抽取。
PTN [14]:属于先关系后实体的抽取范式。该方法提出了一种基于视角迁移的框架,依次通过关系视角、实体视角和三元组视角进行推理,并在视角间循环迁移信息,最终实现联合三元组抽取。
MGFTE [6]:属于实体关系相互引导的抽取范式。该方法提出双原型解码器协同推理,并通过原型级融合模块增强实体与关系间的关联性,从而提升少样本场景下的抽取鲁棒性。
SQGE [16]:属于实体关系相互引导的抽取范式。该方法通过融合支持集与查询集的原型信息,结合多级对比学习和实体特征增强策略,有效缓解类内差异与类间混淆问题,实现少样本关系三元组抽取。
4.1.3. 实现细节
我们采用Adam优化器[22]对模型参数进行优化,其中预训练语言模型部分的学习率设置为1 × 10−5,其余模块的学习率为1 × 10−3,权重衰减系数为1 × 10−4。训练过程中使用StepLR学习率调度策略,每训练1000步将学习率衰减一次。训练最多执行5000步,若在每500步一次的连续三次验证评估中验证集性能无提升,则提前终止训练,以避免过拟合。
在任务构造方面,我们遵循N-way K-shot的少样本学习设定,分别在FewDuIE1.0和FewDuIE2.0数据集上构建5-way 5-shot与3-way 3-shot两类实验任务。具体而言,每个训练任务包含N × K个标注样本的支持集和1个样本的查询集。所有实验均在训练集上进行训练,通过验证集性能确定最优模型参数,并在测试集上报告最终性能。此外,在多任务损失函数中,温度系数
设置为1.2,权重平衡系数
设置为0.05。
本研究采用表现优异且应用广泛的中文预训练编码器chinese-bert-wwm-ext [23],该模型在本任务中经过对比实验验证具有良好的性能优势。
模型的评估方法沿用了以往研究的做法,使用F1分数、精确率和召回率来评估模型的性能。
所有实验在一台配备Intel Xeon Silver 4310 CPU @ 2.10GHz、NVIDIA RTX 3090 GPU及256GB内存的服务器上完成,操作系统为Windows Server 2022 Standard。实验环境基于PyTorch 1.10.0深度学习框架,CUDA版本为11.1。
Table 2. Main results on FewDuIE1.0
表2. FewDuIE1.0的主要结果
模型 |
3-way 3shot |
5-way 5shot |
精确率 |
召回率 |
F1分数 |
精确率 |
召回率 |
F1分数 |
PTN [14] |
43.40 |
43.40 |
43.40 |
40.80 |
40.80 |
40.80 |
RelATE [5] |
48.30 |
52.73 |
50.42 |
47.46 |
50.32 |
48.85 |
MG-FTE [6] |
64.05 |
61.46 |
62.43 |
63.57 |
61.51 |
62.43 |
SQGE [16] |
31.47 |
19.06 |
23.74 |
34.69 |
17.68 |
23.42 |
Ours |
66.46 |
65.21 |
65.65 |
66.18 |
65.29 |
65.64 |
4.2. 实验主要结果
表2总结了不同方法在FewDuIE1.0数据集上的性能表现。可以看出,在FewDuIE1.0数据集上,所提模型在两个任务设定下均显著优于现有主流方法,F1分数分别达到65.65% (3-way 3-shot)和65.64% (5-way 5-shot),分别比性能最优的对比方法MG-FTE [6]提高了约3.2%。此外,与结构较为简洁的单向建模方法PTN [14]和RelATE [5]相比,本文方法在F1指标上分别提高了超过20%和15%,进一步验证了实体关系双向引导机制在低资源条件下对信息交互与联合建模的增强效果。为更直观展示实验结果,图2绘制了各模型在FewDuIE1.0数据集上的F1分数柱状图,进一步凸显了本文方法的性能优势。
Figure 2. F1 score comparison of models on FewDuIE1.0
图2. FewDuIE1.0上模型F1分数对比
Table 3. Main results on FewDuIE2.0
表3. FewDuIE2.0的主要结果
模型 |
3-way 3shot |
5-way 5shot |
精确率 |
召回率 |
F1分数 |
精确率 |
召回率 |
F1分数 |
PTN [14] |
28.60 |
28.60 |
28.60 |
29.40 |
29.40 |
29.40 |
RelATE [5] |
42.43 |
45.43 |
43.89 |
40.84 |
43.81 |
42.27 |
MG-FTE [6] |
59.60 |
60.47 |
59.82 |
59.82 |
60.46 |
60.03 |
SQGE [16] |
17.56 |
14.09 |
15.63 |
15.90 |
11.27 |
13.19 |
Ours |
62.63 |
62.15 |
62.18 |
62.76 |
62.39 |
62.46 |
表3展示了不同方法在FewDuIE2.0数据集上的实验结果。由于FewDuIE2.0的数据结构更为复杂且包含更多样化的语言现象,因此对模型的建模能力提出了更高的要求。尽管如此,本文提出的方法仍然在3-way-3-shot和5-way-5-shot任务中均表现出色,在两个任务中分别达到62.18%和62.46%的F1分数,同样超越所有对比方法。其中,与MG-FTE [6]相比,F1分数分别提升了2.36%和2.43%,显示出所提方法在面对更复杂语义结构时依然具备良好的泛化能力和稳定性。从图3的F1性能对比柱状图中可以看出,本文方法在FewDuIE2.0数据集上依然保持领先,充分说明其在复杂任务中的适应性与鲁棒性。
从精确率与召回率的角度来看,本文方法在两个数据集的不同设定下均取得了较为平衡的性能,表明其不仅能够较为准确地识别出正确的三元组,同时具备较强的覆盖能力。这种平衡性得益于本文所引入的加权原型构建机制与原型多样性约束损失,在提升原型表达判别力的同时,有效缓解了原型空间中类别间混淆与类别内发散的问题。
Figure 3. F1 score comparison of models on FewDuIE2.0
图3. FewDuIE2.0上模型F1分数对比
Table 4. Ablation studies on FewDuIE1.0
表4. 在FewDuIE1.0上的消融研究
类别 |
3-way 3shot |
5-way 5shot |
精确率 |
召回率 |
F1分数 |
精确率 |
召回率 |
F1分数 |
ours |
66.46 |
65.21 |
65.65 |
66.18 |
65.29 |
65.64 |
w/o PDL |
65.83 |
64.22 |
64.83 |
65.27 |
64.54 |
64.81 |
w/o WPC |
65.27 |
64.09 |
64.49 |
65.06 |
64.54 |
64.71 |
4.3. 消融实验
为进一步验证所提方法中关键模块的有效性,本文设计了消融实验与编码器对比实验,分析不同模块与编码器对模型性能的具体影响。
Table 5. Ablation studies on FewDuIE2.0
表5. 在FewDuIE2.0上的消融研究
类别 |
3-way 3shot |
5-way 5shot |
精确率 |
召回率 |
F1分数 |
精确率 |
召回率 |
F1分数 |
ours |
62.63 |
62.15 |
62.18 |
62.76 |
62.39 |
62.46 |
w/o PDL |
61.32 |
61.49 |
61.19 |
61.78 |
61.61 |
61.59 |
w/o WPC |
61.24 |
60.59 |
60.76 |
61.25 |
60.71 |
60.87 |
在消融实验中,我们分别去除模型中的加权原型构建机制和原型多样性约束损失,并在FewDuIE1.0与FewDuIE2.0两个数据集上进行对比实验,结果如表4与表5所示。结果表明,无论是去除加权原型构建机制还是原型多样性约束损失,都会导致模型性能下降,说明两者对最终效果均具有积极贡献。其中,加权原型机制对F1分数提升更为显著,有助于缓解原型表达模糊的问题;而多样性约束则在优化原型空间结构、提升匹配边界清晰度方面发挥关键作用,两者共同促进了模型在少样本场景下的稳定性与泛化能力。
在编码器对比实验中,我们将所提模型分别搭配六种主流中文预训练编码器进行测试。这些编码器中,bert-base-chinese由Google发布[2],chinese-roberta-wwm-ext、chinese-macbert-base、chinese-bert-wwm和chinese-bert-wwm-ext均由哈工大讯飞联合实验室发布[23],ernie-3.0-base-chinese则由百度发布[24]。我们在FewDuIE1.0数据集上开展了3-way 3-shot与5-way 5-shot两类实验任务,结果如表6所示。结果显示,chinese-bert-wwm-ext编码器在两个任务设定中均获得最高的F1分数,显著优于其他编码器。该模型在原始Whole Word Masking (WWM)策略基础上,采用了更大规模的语料和更丰富的训练细节优化,进一步提升了对中文词语级语义的建模能力,尤其在命名实体识别和上下文关系抽取任务中表现出更强的适应性和稳定性。相比之下,RoBERTa和ERNIE等模型虽在部分指标上具备优势,但整体表现略有波动,泛化能力不足。因此,选用适配性更强的预训练编码器不仅有助于提升基础表示能力,也为少样本三元组抽取任务提供了更可靠的语义支撑。
Table 6. Performance comparison of different encoders on the FewDuIE1.0
表6. 不同编码器在FewDuIE1.0上的性能比较
编码器 |
3-way 3shot |
5-way 5shot |
精确率 |
召回率 |
F1分数 |
精确率 |
召回率 |
F1分数 |
bert-base-chinese |
63.90 |
58.58 |
60.86 |
63.43 |
58.74 |
60.87 |
chinese-roberta-wwm-ext |
61.48 |
60.01 |
60.42 |
60.31 |
59.48 |
59.79 |
ernie-3.0-base-chinese |
60.34 |
59.00 |
59.36 |
59.22 |
58.12 |
58.57 |
chinese-macbert-base |
62.32 |
61.02 |
61.42 |
61.86 |
61.37 |
61.53 |
chinese-bert-wwm |
62.61 |
58.86 |
60.35 |
61.95 |
58.65 |
60.14 |
chinese-bert-wwm-ext |
64.05 |
61.46 |
62.43 |
63.57 |
61.51 |
62.43 |
5. 结论
本文针对中文少样本关系三元组抽取任务中类别原型表示模糊、实体与关系交互建模不充分等问题,提出了一种基于实体关系双向引导的新型抽取方法。该方法通过构建实体识别与关系分类之间的双向信息流,实现两个子任务的协同优化。进一步地,本文引入加权原型构建机制与原型多样性约束损失函数,分别提升原型语义表达的准确性与结构区分能力。实验结果显示,所提方法在FewDuIE1.0与FewDuIE2.0数据集上均优于主流基线,验证了其在少样本条件下的有效性与泛化能力。此外,消融实验证实了两个关键模块对性能提升具有显著贡献,编码器对比实验也进一步体现了中文预训练语言模型在该任务中的重要性。
基金项目
国家自然科学基金项目(62002225);上海市自然科学基金项目(21ZR1445400)。
NOTES
*通讯作者。