1. 引言
命名实体识别(NER)是自然语言理解(NLU)中的一个重要研究领域。其目的是为序列中的每个标记分配多个实体类型或非实体类型[1]。最近,预训练语言模型(PLMs)的出现[2]将NER带入了一个新的领域。传统上,NER在一个范例中操作,其中令牌被分类为一些固定的实体类型(如组织、个人等),NER模型经历一次性学习过程。然而,更现实的场景要求NER模型在新实体类型出现时不断识别它们,而不需要完全重新训练。这种范式称为连续命名实体识别(CNER),由于其实际应用是有前途的,已经获得了大量的研究关注[3] [4]。一个恰当的例子是像Siri和小艾这样的语音助手,它们经常需要提取新的实体类型(如Genre、Actor)来理解新的用户意图(例如,GetMovie)。当前CNER领域已发展出多种有效方法来应对这两个问题。知识蒸馏框架作为基础方案,通过教师–学生模型架构传递旧知识[5],同时扩展模型容量学习新类型,如AddNER保留原有输出层并新增处理层,Extend NER则直接扩展输出维度[3]。更先进的CPFD方法创新性地结合池化特征蒸馏和置信度伪标签策略,既平衡模型稳定性与可塑性,又有效处理非实体类型的语义偏移问题[6]。权重调优与融合策略通过动态调整学习率和参数融合比例,以模型无关方式实现知识保留[7]。概念驱动方法则引入形式概念分析构建知识结构,设计多层次蒸馏方案[8]。此外,学习–复习框架采用两阶段策略,首先生成包含旧类型的合成样本,再进行二次蒸馏,有效缓解类型混淆问题[9]。这些方法通过不同技术路线,共同推动了CNER领域的发展。
CNER核心解决两个问题,一个是学习新的实体,一个是保持对旧实体的识别能力。现有的方法普遍面临两大核心挑战:第一个挑战是语义偏移问题,其表现形式主要包含两个方面:非实体语义偏移和实体语义偏移。其中非实体语义偏移问题是CNER特有的任务设定,如图1所示,传统NER中明确的O标签语义被解构为三重内涵:真实非实体、已学旧实体和未学新实体的复杂混合体。这种语义混杂导致模型在每个增量阶段都面临重新定义决策边界的挑战。针对这一难题,研究者们提出了多层次解决方案:[3]开创性地将知识蒸馏引入CNER,通过软目标传递保留旧实体知识;[9]设计的“学习–复习”框架通过合成样本扩充训练数据,明确区分不同语义成分;[4]从因果推理视角提取Other-Class中的因果效应;[6]则创新性地采用中位数熵阈值筛选高置信度预测。然而这些方法在伪标签质量控制方面仍存在明显局限,特别是对低频实体和未来实体干扰的处理效果有限。另一方面,实体语义偏移问题则表现为更深层的特征空间退化现象,如图1所示。在增量学习过程中,旧实体特征经历着不可逆的系统性畸变:簇心偏移、密度降低和边界模糊等效应不断侵蚀着关键的判别特征。对此,[8]开发的形式概念分析(FCA)方法通过构建概念格显式建模标签关系;[6]提出的池化特征蒸馏(PFD)则巧妙平衡了特征空间的稳定性与可塑性。但必须指出,这些方法仅能延缓而无法根治特征退化问题,特别是在多步增量后,早期实体的特征表示仍会出现严重劣化,且计算开销较大的问题也亟待优化。
第二个挑战是持续学习的固有难题——灾难性遗忘[10]-[12]。在CNER中展现出新的特性。模型参数在优化新实体识别时,会不可逆地覆盖对旧实体识别至关重要的网络权重,这种现象因CNER中极端的类别不平衡而加剧。当前研究形成了三大解决路径:Extend NER通过冻结部分参数和扩展输出层来保护旧知识[3];CFNER创新性地引入自适应权重机制[13]。这些方法虽然在一定程度上缓解了遗忘问题,但仍存在稳定性偏向,导致新实体学习不足,特别是对少样本实体的保护效果不佳,模型在实体数量差异显著时的表现仍有很大提升空间。
Figure 1. Semantic drift and feature attenuation in continual named entity recognition
图1. 连续命名实体识别中的语义漂移与特征衰减
本文提出了一种名为动态特征保存与动态调整权重的新方法,该方法通过动态记忆库构建和权重调整机制协同缓解连续命名实体识别中的灾难性遗忘和特征偏移问题。利用历史模型信息在两个关键维度进行优化。首先,本文设计了基于特征空间分析的动态词典机制,通过在每轮训练后可视化模型特征分布(t-SNE降维),采用密度敏感采样策略选择关键样本加入动态词典,这些样本在后续训练中与新数据联合优化,有效修复特征覆盖盲区;其次,引入类型自适应的权重调节策略,根据记忆库与当前数据的类型比例动态调整损失权重。本文的核心贡献在于:
1) 提出基于密度采样的动态记忆库机制,通过记忆库补充关键样本,缓解实体语义漂移问题并直接对抗灾难性遗忘;
2) 设计基于实体历史表现和数量动态调整在交叉熵损失中的类别权重。
在CoNLL2003、I2B2、OntoNotes5这三个基准数据集的十种CNER设置中,DFPA平均提升Mi-F1和Ma-F1,最高单任务增益达18.83%,显著超越现有最优方法。
2. 相关工作
2.1. 持续学习
持续学习在不降低先前任务性能的情况下学习连续任务[14]-[16]。本文将现有的持续学习方法分为基于记忆的、基于动态架构的和基于规则化的。基于记忆的方法[17]-[19]通过将保存或生成的旧样本整合到当前训练样本中来学习新任务。基于动态架构的方法[20]-[22]通过动态扩展模型架构以学习新任务。基于正则化的方法则通过对网络权重施加约束[1] [23]-[25]、调控中间特征[26]或约束输出概率[27] [28]来缓解灾难性遗忘。
2.2. 连续命名实体识别
传统NER专注于开发各种深度学习模型,旨在从非结构化文本中提取实体[29]。最近,PLM已被广泛用于NER,并已实现SOTA性能[2]。然而,大多数现有方法被设计为识别预定义实体类型的固定集合。作为响应,CNER将持续学习范式与传统NER相结合[6] [11] [30]。
2019年,Monaikul等人开创性地提出了AddNER和Extend NER框架,首次将知识蒸馏技术引入CNER领域。这两种架构通过教师–学生模型的知识传递机制,在扩展模型识别新实体类型能力的同时,有效保留了已有实体类型的识别能力,为后续研究奠定了基础[3]。
2021年,夏雨等人提出的“学习–复习”框架代表了重要突破。该方法的创新性在于采用两阶段训练策略,首先生成包含旧实体类型的合成样本,然后进行二次蒸馏,显著缓解了新旧实体类型间的混淆问题,在CoNLL-03和OntoNotes数据集上取得了优于基线模型的表现[9] [31] [32]。
2023年,张都臻等人开发的CPFD方法将研究推向新高度。该方法不仅创新性地引入池化特征蒸馏来平衡模型稳定性与可塑性,还设计了基于置信度的伪标签策略,有效缓解了非实体类型的语义偏移问题。但伪标签策略虽然减少了错误传播但未能完全消除旧模型的预测偏差[6]。
2023年,张都臻等人提出了名为RDP的方法。该方法针对增量式命名实体识别(INER)中的两大挑战——灾难性遗忘和背景偏移问题,提出了任务关系蒸馏方案和原型伪标签策略。任务关系蒸馏通过跨任务关系蒸馏损失和内任务自熵损失,平衡了模型的稳定性和可塑性,有效缓解了灾难性遗忘;原型伪标签则通过纠正旧模型的预测错误,生成高质量伪标签,解决了背景偏移问题[13]。
2024年,于雅涵等人提出的权重调优与融合策略展现了新思路。通过WT策略的学习率衰减计划和WF推理阶段的动态参数融合,该方法以模型无关的方式增强了知识保留能力,在十个CNER设置中均表现出稳定的性能提升。不过文章也承认该方法对实体类型的学习顺序较为敏感,且未在BERT之外的大型语言模型上验证其普适性,这在一定程度上限制了方法的适用范围[7]。
2025年,刘浩等人的概念驱动方法开辟了新方向。通过将形式概念分析引入CNER,构建概念格来捕捉深层知识结构,并设计多层次蒸馏方案,该方法在保持旧知识方面取得了显著效果。然而该方法的一个明显局限是仅关注已学习过的旧类型而忽略了未来可能出现的实体类型,且完全监督的学习设置需要大量标注数据,在实际应用中可能面临标注成本高的挑战[8]。
3. 方法
针对连续命名实体识别(CNER)中的语义漂移与数据不平衡而导致的灾难性遗忘问题,本文提出动态词典与自适应权重调整相结合的双重优化框架。系统通过密度感知采样构建增量原型库,并利用自适应权重有效平衡新旧知识的学习强度,共同缓解灾难性遗忘现象。具体模型框架如图2所示。
Figure 2. NER model architecture with dynamic dictionary and adaptive weight adjustment
图2. 动态词典与自适应权重调整的NER模型架构
3.1. 动态词典与密度感知采样机制
在连续命名实体识别(Continual Named Entity Recognition, CNER)任务中,灾难性遗忘和语义漂移是影响模型性能的两大核心挑战。传统的经验回放(Experience Replay)方法通常采用随机采样的方式维护历史样本,但这种方式难以保证特征空间的代表性,尤其是在低密度边界区域,模型更容易遗忘历史知识。为此,本文提出了一种基于密度感知采样的动态词典(Dynamic Dictionary)构建方法,结合特征空间分析与自适应权重机制,显著提升了模型对旧知识的保持能力和对新知识的适应能力。
具体而言,在每一增量任务t结束后(t < Ttotal-1),首先利用当前训练好的模型对本轮数据集Dt进行特征提取。由于CNER的增量设定要求所有历史实体在当前任务中均被标记为O-label,导致数据中O标签样本占比极高,这不仅会造成特征空间的主导效应,还会加剧梯度消失和决策边界模糊化等问题。为缓解这一现象,本文在特征采样阶段对O标签样本实施严格的随机下采样,仅保留5%的O标签特征用于后续分析。设So为采样后的O标签特征集合,具体采样过程可表示为:
其中,
表示O标签,
为采样比例。
在获得初步特征集合后,对所有特征进行z-score归一化处理,以消除不同维度间的尺度影响,确保后续聚类与降维分析的有效性。归一化后的特征
计算如下:
其中,
和
分别为特征的均值和标准差。随后,采用t-SNE算法将高维特征
降维至二维空间,以最大程度保留标签间的局部拓扑结构。t-SNE降维的结果
可表示为:
通过可视化分析,发现特征空间中存在明显的覆盖盲区,尤其是在新旧类别的边界区域。为此,本文设计了密度感知采样机制,重点关注低密度区域的样本,以提升动态词典的代表性和多样性。
具体地,对于每个目标实体
,提取其B-k/I-k标签的样本集合
,并对其二维特征执行K-means聚类(
),以避免样本分布过度重叠。每个聚类簇
内,进一步计算所有样本的平均k近邻距离(
),以衡量该簇的密度水平。密度计算公式如下:
其中,
为第
个样本的特征,
为其第
个最近邻。基于逆密度采样策略,从每个簇中优先选取密度最低的10%样本,形成边界关键样本集
,以最大化动态词典对特征空间边界的覆盖能力。采样公式如下:
采样完成后,将选中的token反向映射至原始句子,并与历史动态词典合并,得到当前任务的动态词典
。动态词典的更新规则如下:
需要注意的是,在最后一个任务阶段,动态词典不需要再更新。
3.2. 自适应权重调整策略
在连续命名实体识别场景下,类别不平衡问题会显著影响模型的增量学习效果。传统静态权重分配方法难以适应持续变化的实体分布。为了解决这一挑战,本文提出了一种自适应权重优化方法,该方法基于多维动态评估,能够动态地调节训练过程中的损失函数,以适应实体分布的持续变化。
本文的方法首先涉及到新实体的初始化。在检测到新增实体类型时,采用一种启发式权重初始化策略,该策略基于样本量,通过以下公式计算:
这里,
是整个数据集中的样本总量,
是新增实体类型的样本量,而
是一个小的数值稳定项,用于避免除以零的情况。
随后,对权重进行动态归一化处理,以确保权重分布的合理性并避免极端值的干扰。这一步骤通过以下公式实现:
在这个公式中,
和
分别代表所有权重中的最小值和最大值,通过这种方式,可以将权重映射到一个预定的区间内,从而实现归一化。
接着,计算每个实体的权重,这涉及到一个复合权重公式,该公式综合考虑了实体的基础F1分数、全局计数和样本比率,具体如下:
在这个公式中,
代表实体的基础F1分数,
是实体的全局计数,
是所有实体的全局计数,而
是样本比率。通过结合实体识别的性能和样本分布特征来动态调整每个实体的权重。在训练过程中,这些计算得到的权重被用于加权交叉熵损失函数,以优化模型:
这里,
表示模型对实体i的预测概率,
是相应实体
的权重。通过这种方式,本文的方法能够在反向传播过程中自动强化关键实体的梯度信号,同时抑制不必要的更新。
本文提出的动态词典与密度感知采样机制,能够在每一轮增量学习后动态维护特征空间的代表性样本,显著提升了模型对历史知识的保持能力。同时,动态权重机制有效缓解了类别不平衡带来的训练偏置,使得模型在面对新旧知识冲突时能够实现更优的平衡。
4. 实验
4.1. 实验设置
本文严格遵循CFNER中提出的实验设置[13]。选用三个广泛应用的命名实体识别数据集进行评估,分别为CoNLL2003、I2B2和OntoNotes5。训练集被划分为不相交的切片,每个切片对应一个连续学习步骤,切片的划分和采样算法均与CFNER保持一致,每个切片仅保留当前学习的实体类型标签,其余标签被屏蔽为非实体类型。具体采样细节可参考CFNER附录B。在CNER设置方面,实体类型按照字母顺序依次引入,数据切片顺序地用于模型训练。以CoNLL2003为例,采用FG-1-PG-1和FG-2-PG-1两种设置;I2B2和OntoNotes5数据集则采用FG-1-PG-1、FG-2-PG-2、FG-8-PG-1和FG-8-PG-2四种设置。评估时,验证集仅保留当前学习的实体类型标签,测试集则保留所有已学习过的实体类型标签,其余均视为非实体类型。性能评估指标采用微观F1 (Mi-F1)和宏观F1 (Ma-F1),并以所有步骤的平均结果(包括第一步)作为最终性能。此外,为了更全面地分析模型表现,本文还引入了逐步性能对比曲线,并通过配对t检验(显著性水平为0.05)评估改进的统计学意义。本文在上述基础上引入了动态词典机制:在每次训练结束后,自动挑选并保存每个实体类型不超过100条的数据样本,作为后续训练阶段的辅助知识。
4.2. 整体结果
CoNLL2003数据集的实验对比结果如表1所示,Ours为本文方法的结果。
Table 1. Comparison results on the CoNLL2003 dataset
表1. Conll2003数据集对比实验结果
数据集 |
方法 |
FG-1-PG-1 |
FG-2-PG-1 |
Mi-F1 |
Ma-F1 |
Mi-F1 |
Ma-F1 |
CoNLL2003 |
PODNet |
36.74 ± 0.52 |
29.43 ± 0.28 |
59.12 ± 0.54 |
58.39 ± 0.99 |
续表
|
LUCIR |
74.15 ± 0.43 |
70.48 ± 0.66 |
80.53 ± 0.31 |
77.33 ± 0.31 |
ST |
76.17 ± 0.91 |
72.88 ± 1.12 |
76.65 ± 0.24 |
66.72 ± 0.11 |
Extend NER |
76.36 ± 0.98 |
73.04 ± 1.80 |
76.66 ± 0.66 |
66.36 ± 0.64 |
CFNER |
80.91 ± 0.29 |
79.11 ± 0.50 |
80.83 ± 0.36 |
75.20 ± 0.32 |
CFNER* |
80.80 ± 0.80 |
78.93 ± 1.13 |
79.92 ± 0.36 |
72.83 ± 1.59 |
RDP |
82.55 ± 0.26 |
80.64 ± 0.12 |
85.82 ± 0.36 |
83.59 ± 0.37 |
RDP* |
81.76 ± 0.32 |
79.77 ± 0.37 |
85.54 ± 0.28 |
83.26 ± 0.29 |
CPFD |
82.24 ± 0.63 |
79.94 ± 0.66 |
85.70 ± 0.19 |
83.49 ± 0.16 |
CPFD* |
82.32 ± 0.21 |
80.03 ± 0.34 |
85.77 ± 0.37 |
83.26 ± 0.35 |
**(Ours) |
84.34 ± 0.27 |
82.42 ± 0.33 |
86.38 ± 0.26 |
84.56 ± 0.23 |
注:*表示为作者复现的分数,下表同。
I2B2数据集的实验对比结果如表2所示,Ours为本文方法的结果。
Table 2. Comparison results on the I2B2 dataset
表2. I2B2数据集对比实验结果
数据集 |
方法 |
FG-1-PG-1 |
FG-2-PG-2 |
FG-8-PG-1 |
FG-8-PG-2 |
Mi-F1 |
Ma-F1 |
Mi-F1 |
Ma-F1 |
Mi-F1 |
Ma-F1 |
Mi-F1 |
Ma-F1 |
I2B2 |
PODNet |
12.31 ± 0.35 |
17.14 ± 1.03 |
34.67 ± 2.65 |
24.62 ± 1.76 |
39.26 ± 1.38 |
27.23 ± 0.93 |
36.22 ± 12.9 |
26.08 ± 7.42 |
LUCIR |
43.86 ± 2.43 |
31.31 ± 1.62 |
64.32 ± 0.76 |
43.53 ± 0.59 |
57.86 ± 0.87 |
33.04 ± 0.39 |
68.54 ± 0.27 |
46.94 ± 0.63 |
ST |
31.98 ± 2.12 |
14.76 ± 1.31 |
55.44 ± 4.78 |
33.38 ± 3.13 |
49.51 ± 1.35 |
23.77 ± 1.01 |
48.94 ± 6.78 |
29.00 ± 3.04 |
Extend NER |
42.85 ± 2.86 |
24.05 ± 1.35 |
57.01 ± 4.14 |
35.29 ± 3.38 |
43.95 ± 2.01 |
23.12 ± 1.79 |
52.25 ± 5.36 |
30.93 ± 2.77 |
CFNER |
62.73 ± 3.62 |
36.26 ± 2.24 |
71.98 ± 0.50 |
49.09 ± 1.38 |
59.79 ± 1.70 |
37.30 ± 1.15 |
69.07 ± 0.89 |
51.09 ± 1.05 |
CFNER* |
64.48 ± 1.13 |
37.74 ± 1.16 |
73.27 ± 0.42 |
52.92 ± 1.04 |
59.65 ± 1.53 |
38.50 ± 1.18 |
67.81 ± 0.94 |
50.74 ± 1.02 |
RDP |
71.39 ± 1.01 |
44.00 ± 2.31 |
77.45 ± 0.55 |
53.48 ± 0.66 |
77.50 ± 1.26 |
62.99 ± 0.36 |
80.08 ± 0.40 |
63.72 ± 0.71 |
RDP* |
50.57 ± 8.02 |
38.67 ± 1.81 |
76.32 ± 1.63 |
54.97 ± 0.52 |
77.45 ± 2.53 |
62.55 ± 1.49 |
81.80 ± 0.62 |
65.85 ± 0.90 |
CPFD |
74.19 ± 0.95 |
48.34 ± 1.45 |
78.19 ± 0.58 |
56.04 ± 1.22 |
74.75 ± 1.35 |
56.19 ± 2.46 |
81.05 ± 0.87 |
65.04 ± 1.13 |
CPFD* |
73.97 ± 0.78 |
47.09 ± 1.08 |
79.24 ± 0.28 |
58.36 ± 1.05 |
74.58 ± 2.01 |
55.39 ± 1.73 |
81.19 ± 0.83 |
64.45 ± 1.50 |
**(Ours) |
78.66 ± 0.76 |
65.92 ± 0.77 |
82.37 ± 0.19 |
68.85 ± 0.20 |
85.95 ± 0.29 |
71.67 ± 0.65 |
86.22 ± 0.19 |
73.11 ± 0.16 |
OntoNotes5数据集的实验对比结果如表3所示,Ours为本文方法的结果。
Table 3. Comparison results on the Ontonotes5 dataset
表3. I2B2数据集对比实验结果
数据集 |
方法 |
FG-1-PG-1 |
FG-2-PG-2 |
FG-8-PG-1 |
FG-8-PG-2 |
Mi-F1 |
Ma-F1 |
Mi-F1 |
Ma-F1 |
Mi-F1 |
Ma-F1 |
Mi-F1 |
Ma-F1 |
Ontonotes5 |
PODNet |
9.06 ± 0.56 |
8.36 ± 0.57 |
19.04 ± 1.08 |
16.93 ± 0.85 |
29.00 ± 0.86 |
20.54 ± 0.91 |
37.38 ± 0.26 |
25.85 ± 0.29 |
LUCIR |
28.18 ± 1.15 |
21.11 ± 0.84 |
56.40 ± 1.79 |
40.58 ± 1.11 |
66.46 ± 0.46 |
46.29 ± 0.38 |
76.17 ± 0.09 |
55.58 ± 0.55 |
续表
|
ST |
50.71 ± 0.79 |
33.24 ± 1.06 |
68.93 ± 1.67 |
50.63 ± 1.66 |
73.59 ± 0.66 |
49.41 ± 0.77 |
77.07 ± 0.62 |
53.32 ± 0.63 |
Extend NER |
50.53 ± 0.86 |
32.84 ± 0.84 |
67.61 ± 1.53 |
49.26 ± 1.49 |
73.12 ± 0.93 |
49.55 ± 0.90 |
76.85 ± 0.77 |
54.37 ± 0.57 |
CFNER |
58.94 ± 0.57 |
42.22 ± 1.10 |
72.59 ± 0.48 |
55.96 ± 0.69 |
78.92 ± 0.58 |
57.51 ± 1.32 |
80.68 ± 0.25 |
60.52 ± 0.84 |
CFNER* |
58.22 ± 1.12 |
41.54 ± 1.08 |
72.39 ± 0.58 |
55.05 ± 0.57 |
80.18 ± 0.26 |
60.06 ± 1.29 |
81.60 ± 0.4 |
61.72 ± 0.53 |
RDP |
68.28 ± 1.09 |
53.56 ± 0.39 |
74.38 ± 0.26 |
57.73 ± 0.54 |
79.89 ± 0.20 |
63.20 ± 0.58 |
83.30 ± 0.30 |
66.92 ± 1.26 |
RDP* |
56.13 ± 2.56 |
45.38 ± 2.00 |
68.84 ± 0.77 |
54.48 ± 0.82 |
77.58 ± 1.34 |
60.89 ± 1.40 |
83.00 ± 0.20 |
66.01 ± 0.76 |
CPFD |
66.73 ± 0.70 |
54.12 ± 0.30 |
74.33 ± 0.30 |
57.75 ± 0.35 |
81.87 ± 0.47 |
65.52 ± 1.05 |
83.38 ± 0.18 |
66.27 ± 0.75 |
CPFD* |
66.57 ± 0.89 |
53.74 ± 0.51 |
74.32 ± 0.36 |
57.77 ± 0.74 |
82.72 ± 0.29 |
66.17 ± 0.91 |
84.00 ± 0.20 |
67.08 ± 0.50 |
**(Ours) |
66.12 ± 0.65 |
59.39 ± 1.22 |
71.84 ± 0.41 |
64.46 ± 0.66 |
79.36 ± 0.30 |
70.53 ± 0.36 |
81.05 ± 0.29 |
72.22 ± 0.22 |
4.3. 案例分析
图3通过具体案例对比分析展示了本文提出模型与基线模型在命名实体识别任务上的预测性能差异。该图选取具有代表性的文本序列,并列呈现真实标注标签、本文模型预测结果及参考模型预测结果,清晰展示了各模型在实体边界识别准确度、类型标注一致性以及错误模式方面的对比情况。从可视化结果可以看出,本文模型在复杂实体识别和歧义消解方面表现出显著优势,其预测结果与真实标签的一致性更高,而基线模型则存在更多的实体漏检和类型误判问题。该案例分析为定量实验结果提供了直观佐证,进一步验证了本文所提方法的有效性和优越性。
Figure 3. Comparative analysis of cases based on true labels and multi-model predictions
图3. 基于真实标签与多模型预测的案例对比分析
4.4. 可视化分析
4.4.1. 特征可视化
图4通过特征空间可视化对比了在I2B2数据集前四轮训练中,基线方法与本文提出方法的特征表示学习效果。从可视化结果可以明显观察到,加入本文提出的方法后,模型学习到的特征表示呈现出更加清晰的类别边界和更紧凑的类内分布。具体而言,基线方法的特征分布相对分散,不同实体类型的特征存在较大重叠,这反映了模型在区分相似实体方面的困难;而引入本文的方法后,各类别特征形成了更加分离的聚类簇,表明模型能够学习到判别性更强的特征表示。这种改进在医学文本的复杂实体识别任务中尤为重要,因为医学术语往往具有高度的语义相似性。前四轮的渐进式改善进一步证明了本文方法在训练过程中的稳定性和有效性,为模型性能提升提供了直观的特征层面解释。
Figure 4. Feature visualization comparison on I2B2 dataset (first four rounds)
图4. I2B2数据集前四轮特征可视化对比分析
4.4.2. 结果分数可视化
图5展示了I2B2和OntoNotes5数据集在不同任务设置下各对比方法的Ma-F1分数变化趋势。从图中可以清晰观察到,本文提出的方法(Ours)在所有实验设置上均优于其他基线方法,展现出卓越的性能稳定性和泛化能力。这种跨数据集的一致优势充分证明了本文方法在不同领域和任务设置下的强鲁棒性。性能提升主要归因于动态词典机制的有效性、自适应权重调整的优化效果等。对于8-1、8-2这样实验设置下的提升效果没有1-1、2-2提升明显,是因为可进步空间缩小。
Figure 5. Ma-F1 score comparison across different task settings on I2B2 and Ontonotes5 datasets
图5. I2B2与OntoNotes5数据集多任务设置下的Ma-F1分数对比
4.5. 消融实验
CoNLL2003数据集的消融实验结果如表4所示。
Table 4. Ablation study results on the CoNLL2003 dataset
表4. CoNLL2003数据集消融实验结果
实验设置 |
FG-1-PG-1 |
FG-2-PG-1 |
Mi-F1 |
Ma-F1 |
Mi-F1 |
Ma-F1 |
Baseline (CPFD) |
82.32 ± 0.21 |
80.03 ± 0.34 |
85.77 ± 0.37 |
83.26 ± 0.35 |
+动态词典 |
83.46 ± 0.34 |
81.33 ± 0.38 |
86.68 ± 0.14 |
84.80 ± 0.12 |
+自适应权重 |
84.34 ± 0.27 |
82.42 ± 0.33 |
86.38 ± 0.26 |
84.56 ± 0.23 |
I2B2数据集的消融实验结果如表5所示。
Table 5. Ablation study results on the I2B2 dataset
表5. I2B2数据集消融实验结果
实验设置 |
FG-1-PG-1 |
FG-2-PG-2 |
FG-8-PG-1 |
FG-8-PG-2 |
Mi-F1 |
Ma-F1 |
Mi-F1 |
Ma-F1 |
Mi-F1 |
Ma-F1 |
Mi-F1 |
Ma-F1 |
Baseline
(CPFD) |
73.97 ± 0.78 |
47.09 ± 1.08 |
79.24 ± 0.28 |
58.36 ± 1.05 |
74.58 ± 2.01 |
55.39 ± 1.73 |
81.19 ± 0.83 |
64.45 ± 1.50 |
+动态
词典 |
78.41 ± 0.16 |
66.15 ± 0.31 |
80.73 ± 0.32 |
62.93 ± 0.75 |
84.62 ± 0.18 |
68.62 ± 0.56 |
85.19 ± 0.26 |
70.43 ± 0.98 |
+自适
应权重 |
78.66 ± 0.76 |
65.92 ± 0.77 |
82.37 ± 0.19 |
68.85 ± 0.20 |
85.95 ± 0.29 |
71.67 ± 0.65 |
86.22 ± 0.19 |
73.11 ± 0.16 |
OntoNotes5数据集的消融实验结果如表6所示。
Table 6. Ablation study results on the I2B2 dataset
表6. I2B2数据集消融实验结果
实验设置 |
FG-1-PG-1 |
FG-2-PG-2 |
FG-8-PG-1 |
FG-8-PG-2 |
Mi-F1 |
Ma-F1 |
Mi-F1 |
Ma-F1 |
Mi-F1 |
Ma-F1 |
Mi-F1 |
Ma-F1 |
Baseline
(CPFD) |
66.57 ± 0.89 |
53.74 ± 0.51 |
74.32 ± 0.36 |
57.77 ± 0.74 |
82.72 ± 0.29 |
66.17 ± 0.91 |
84.00 ± 0.20 |
67.08 ± 0.50 |
+动态
词典 |
65.98 ± 0.75 |
59.99 ± 0.53 |
72.59 ± 0.29 |
62.63 ± 0.59 |
80.43 ± 0.70 |
69.66 ± 0.89 |
82.49 ± 0.20 |
69.28 ± 0.83 |
+自适
应权重 |
66.12 ± 0.65 |
59.39 ± 1.22 |
71.84 ± 0.41 |
64.46 ± 0.66 |
79.36 ± 0.30 |
70.53 ± 0.36 |
81.05 ± 0.29 |
72.22 ± 0.22 |
4.6. 结果分析
为深入探究本方法对持续学习性能的提升本质,我们进行了细致的类别级性能分析。如表1与表2所示,与基线方法相比,我们提出的动态词典驱动框架所带来的宏观F1 (Macro-F1)提升并非均匀分布,其增益主要来源于有效遏制了对已学旧类别的灾难性遗忘,以及对难样本新类别的充分学习。
在CoNLL-2003数据集的1-1任务增量学习场景中,我们的方法将平均Macro-F1从80.30提升至83.08。具体而言,在最终任务中,所有旧类别(location, misc, organisation)的F1分数均获得稳定改善或保持高位,尤其是misc类别,其F1分数从60.66显著提升至73.63,这清晰地表明我们的方法通过密度感知记忆与自适应加权机制,有效巩固了模型对历史知识的保持能力。
在更具挑战性的I2B2数据集1-1任务场景中,我们方法的优势更为显著,平均Macro-F1从47.93大幅提升至66.81,相对提升近40%。基线模型表现出严重的灾难性遗忘,众多早期类别(如CITY、COUNTRY、IDNUM)的F1分数在后续任务中暴跌至0,而我们的方法成功地维持了这些类别的有效识别能力。例如,CITY和COUNTRY类别的F1分数被分别稳定在50~60和60~65的区间,而非归零。同时,对于后续任务中的难样本类别(如MEDICALRECORD, ZIP),我们的方法也实现了更优的学习效果,F1分数分别达到81.06和83.92。
综上所述,性能提升直接验证了动态词典作为“记忆锚点”在缓解遗忘上的有效性,以及自适应权重策略在促进难样本学习上的必要性。我们的方法确保了模型在整个增量学习过程中保持稳定且公平的类别级性能,从而实现了宏观F1指标的整体飞跃。
4.7. 局限性
本研究在连续命名实体识别任务中取得了重要进展,但仍需客观审视其存在的若干局限性。从方法论角度而言,当前动态词典的构建机制完全依赖于精确的监督信号,这一特性使其在弱监督或远程监督场景下的鲁棒性受到显著制约。计算效率方面,尽管相较于基线方法已实现优化,但每轮增量学习过程中进行的特征空间分析(包括t-SNE降维和K-means聚类等操作)仍不可避免地引入额外的计算负担,这在处理超大规模文本语料时可能构成系统瓶颈。在理论框架层面,现有的权重调整公式基于实体独立性假设构建,未能充分考虑实体间的潜在语义关联,这一局限在需要复杂语义推理的嵌套实体识别任务中表现得尤为明显。此外,当前实现方案对新引入实体类型的数量存在内在约束,当单步增量过程中新增实体类型超过特定阈值时,动态词典的内存占用将呈现显著增长趋势,这对资源受限的实际应用场景提出了挑战。这些局限性不仅界定了本研究的适用范围,同时也为后续研究指明了潜在改进方向,包括但不限于:开发更具鲁棒性的弱监督学习范式、设计更高效的特征空间更新算法,以及探索跨语言迁移的有效策略等。
5. 结论
本研究为连续命名实体识别(CNER)这一自然语言理解领域的新兴研究方向奠定了重要基础。针对CNER任务中存在的两大核心挑战——灾难性遗忘问题与非实体类型的语义漂移现象,本文提出了一套创新性的解决方案。首先,设计了一种基于密度感知采样的动态词典构建机制,通过智能选择历史数据中的关键样本来直接缓解模型遗忘问题。其次,开发了一种自适应权重调整策略,该策略综合考虑实体类别的历史学习表现和样本分布特征,动态优化交叉熵损失函数中的权重分配,有效平衡新旧类别之间的学习强度。在CoNLL2003、I2B2和OntoNotes5这三个基准数据集的十个不同CNER任务设置下进行的系统性实验表明,本文提出的方法在所有测试场景中都显著超越了现有最优方法,展现了卓越的泛化能力和鲁棒性。
致 谢
在本论文的研究与写作过程中,我得到了许多老师、同学和朋友的关心与帮助。在此,谨向所有给予我指导和支持的人表示衷心的感谢。
首先,衷心感谢我的导师,在论文选题、研究方法、论文撰写等各个阶段都给予了我悉心的指导和宝贵的建议,使我能够顺利完成本论文。感谢实验室的各位同学和朋友,在数据处理、实验设计和学术讨论中给予了我极大的帮助和支持。你们的鼓励和陪伴让我在科研道路上不断前行。
最后,感谢我的家人对我学习和生活的理解与支持,是你们给予我坚强的后盾和无限的动力。
由于篇幅有限,未能一一列举所有帮助过我的人,在此一并表示诚挚的谢意!