1. 引言
稀有语言特征(如隐性线索、结构性否定)因其在训练语料中的低频性与分布不均,长期以来是自然语言处理(NLP)模型面临的重要挑战。此类特征出现频率远低于主流语言模式,导致模型易过拟合浅层语言信号,难以泛化到语义细腻且结构复杂的表达中。
否定现象尤其是隐性否定,因其缺乏明确的词汇标记、依赖抽象语义和多样句法结构,是研究语言泛化难题的理想诊断任务。因此,否定检测既是研究语言泛化的典型任务,也为探索如何在语料层面对稀有语言特征进行系统性平衡提供了理想案例。本文将否定检测作为代理任务,以深入探讨在低资源条件下平衡稀有语言特征的通用策略。
传统语料如SFU Review多以显性否定(如not、never)为主,结构单一;而CONDAQA则包括hardly、unaddressed等更丰富的隐性否定形式,但数量有限,难以有效训练模型。尽管已有研究尝试通过简单的极性翻转或词汇替换缓解数据不足问题,但这些方法常引入语义噪声,无法捕捉深层结构特征。
为此,本研究提出一种基于大型语言模型(LLMs)的结构化数据增强框架,包括线索扩展与反事实构造两个阶段,以增强训练数据中隐性否定的频率和结构多样性。基于RoBERTa模型的实验结果显示,LLM驱动的增强方法显著提高了模型对隐性否定表达的泛化性能,证明LLM在小规模、不平衡语料环境下,能够有效平衡和放大稀有语言特征。
2. 文献综述
稀有语言特征,如形态结构和隐性语义线索,在自然语言理解任务中提出了独特挑战。这些特征在标准数据集中普遍代表性不足,模型训练时往往忽视其重要性。Henning等[1]对深度学习驱动的自然语言处理系统中的类别不平衡问题进行了系统综述,指出其对模型泛化能力和公平性均有不利影响。Hofmann等[2]进一步证明,标准预训练语言模型在处理形态复杂或派生词形式时表现不佳,凸显出模型训练中结构性稀疏的问题。Gururangan等[3]揭示了自然语言推理(NLI)数据中的注释伪影,这些伪影会扭曲语言特征的分布,使模型更依赖表层相关性而非深层语言线索。上述研究共同强调了一个核心问题:文本数据中具有语言丰富性的信号在频率和分布上均呈现出严重不均,亟需更有针对性的策略加以解决。
为缓解数据不平衡并增强模型对稀有语言现象的鲁棒性,研究者提出了多种数据增强方法。传统策略如EDA [4]与HotFlip [5]主要引入词汇层面的扰动,但往往缺乏句法与语义的忠实性。Kaushik等[6]提出了反事实增强策略,通过在保持语法与语义连贯的前提下更换样本标签,显著提升了模型的鲁棒性。
近年来,大型语言模型(LLMs)逐渐被用于生成高质量、多样化的训练样本[7] [8]。这类方法超越了表层扰动,能够生成具有语义控制性的增强样本,包括对比性或结构导向的变体。Gururangan等[9]进一步表明,若在特定任务数据分布上进行持续预训练,可提升模型对稀有或特定领域模式的感知能力。在这一趋势基础上,Dai等[10]提出了AugGPT,利用ChatGPT生成语义一致、结构多样的释义样本。类似地,Qu等[11]提出了CoDA,一种对比正则化增强框架,通过受控转换(如回译)促进特征感知的多样性。这些方法共同强调,在泛化稀有语言特征时,结构、对比与线索级控制的重要性不容忽视。
否定,尤其是隐性否定,是一种语言表达丰富却频率极低的典型挑战。在NLP中,否定作为稀有语言结构的代表,非常适合用于检验各类增强策略对低代表性线索的建模能力。Hossain等[12]系统分析了多个主流语料中的否定现象,指出隐性否定线索常被遗漏标注,且建模方式不一致。Poliak等[13]与Ravichander等[14]则指出,模型可能通过利用数据集伪影在否定相关任务中取得意外的高分,而并未真正掌握其背后的语言结构。Shaitarova与Rinaldi [15]研究了跨语言、零样本条件下的否定范围解析,发现通用语言表示往往难以识别否定范围边界。Fancellu [16]对多语言否定范围识别进行了深入探讨,进一步佐证了否定在不同语言和语料中均具有结构上的难以建模性。与此同时,Truong等[17]提出一种结合掩码与增强的否定感知预训练策略,以提升模型对隐性否定的敏感性。
尽管已有研究在理解和解决数据不平衡问题方面取得了进展,但如何系统性地利用大型语言模型提高模型对结构隐性语言线索的泛化能力尚未得到充分探索。本研究旨在填补这一研究空白,提出一种以否定为研究案例、基于LLM的结构化数据增强方法,期望有效提升模型对稀有语言现象的识别与泛化能力,并探索语言模型如何超越表面词汇分布,捕捉深层次的语言结构信号。
3. 研究方法与隐性否定建模策略
3.1. 不平衡语料中隐性否定的建模挑战
自然语言中的否定表达呈现出丰富多样的语言线索。其中,显性否定(如not、never、no)具有明确的句法标记,在训练数据中频繁出现;而隐性否定在词汇表达上更多样化,语义更为细腻,但在语料中的分布严重不足。这种不平衡导致模型训练时易过拟合于显性表达,难以有效泛化至结构与表达方式不同但语义相同的否定形式。此前研究已指出类似的不平衡问题在自然语言推理任务中存在[2] [3]。
为探讨此类结构偏斜的影响,本文选取两个在否定分布上存在显著差异的语料库进行分析:SFU Review语料库[18]与CONDAQA数据集[14]。
SFU语料包含超过16,000条带注释的影评句子,其中约18%含有否定表达,主要为显性否定(如not、never、no)。图1清晰展示了线索分布的高度单一,反映其结构多样性极为有限。
相比之下,CONDAQA数据集在结构与否定形式上更加多元化,包含了1289对对比句,涉及多种否定策略,包括隐性形式如hardly、unaddressed、absence of等。图2显示了其在否定线索上的相对平衡。
为开展数据增强实验,本文从CONDAQA中筛选出100个SFU中未出现的隐性否定线索,并进行人工校验。这些线索涵盖多个语义领域,作为种子词被用于借助大型语言模型生成约5000条合成句子(具体过程参见下文方法介绍)。
以下例句展示了两个语料在否定表达方面的对比:
SFU例句(多为显性否定):
Figure 1. Distribution of negation cues in SFU corpus
图1. SFU语料否定线索分布情况
Figure 2. Distribution of negation cues in CONDAQA corpus
图2. CONDAQA语料否定线索分布情况
CONDAQA例句(显性 + 隐性否定):
However, Machias Seal Island... was unaddressed by the commission.
...absence from work due to sickness and elevated risk of future disability pension.
综上所述,本节突出了SFU与CONDAQA两个语料库在否定表达上的分布性与结构性不均衡问题,这一差异可通过表1更直观地呈现。此类不平衡性进一步突显了构建针对性增强策略的必要性。区别于表面改写类增强方法,本文提出的增强框架旨在通过语义控制与多样化的否定线索设计,解决训练数据中结构性稀缺的问题。下一节将具体阐述该增强框架。
Table 1. Corpus statistics and negation coverage
表1. 语料库统计及否定分布
Dataset |
Size |
Negation Type |
SFU |
16,944 |
18% negation (mostly explicit) |
CONDAQA |
1289 |
100% negation (balanced) |
3.2. 基于大型语言模型的特征导向数据增强框架
为解决训练语料中隐性否定表达不足且结构单一的问题,本研究提出一种基于大型语言模型(LLMs)的结构化数据增强框架。该框架通过一个两阶段流程,系统性地提升语料中隐性、低频否定表达的频率和多样性,以强化模型对深层语言特征的泛化能力。
阶段一:线索驱动的句子生成:
此阶段旨在扩充包含稀有否定线索的训练样本,在两个维度上重新平衡了代表性不足的语言特征:(1) 通过增加低频线索的出现频率,实现频率上的补偿;(2) 通过多样的句法配置与领域特定表达,实现结构上的补偿。
1) 种子线索提取:首先,从CONDAQA数据集中筛选出100个在SFU Review语料中未出现的隐性否定线索(如unaddressed、hardly、absence),以确保引入新的语言结构并避免数据污染。
2) 线索语义扩展:随后,利用GPT-4对每个种子线索进行语义扩展,生成5个语义相近的替代词(例如,将unlike扩展为untenable、unfathomable等),最终获得500个扩展线索,极大地丰富了否定表达的词汇库。
3) 多样化句子生成:以CONDAQA语料中的句子作为结构模板,利用这500个扩展线索,引导GPT-4生成约5000条新的训练句子。生成过程覆盖了教育、科技、文化等多个语义领域,确保了样本的领域多样性。
4) 质量控制:所有生成的句子都经过严格的质量筛选,包括使用自动化工具(如Grammarly API)进行语法检测和人工审核,以确保最终纳入训练集的样本在句法和语义上均是高质量的。
阶段二:结构化的反事实生成:
此阶段旨在通过生成极性相反的对比句对,增强模型对否定线索功能的敏感性,抑制其对数据集中表面统计偏差的依赖。我们为整个训练集(包括原始SFU样本和LLM生成的样本)都生成了反事实版本。为确保生成质量,我们采用了一种受控的重写策略,该策略借鉴了Plyler等人的理据引导思想,并施加了以下四个核心约束:
约束1:理据识别:从原句中识别出承载核心极性信息的最小片段(约占15%~20%,可不连续),作为“理据”。若句中存在否定线索,则必须包含在理据中。
约束2:极性反转重写:对识别出的理据进行重写,使其极性反转(如否定转为肯定)。重写过程必须移除所有原始否定标记,且不得引入新的否定词。
约束3:受控重嵌入:将重写后的理据重新嵌入原句的句法结构中,并最大限度地减少对句子其余部分的改动,以保持语义上下文的连贯性。
约束4:结构保真度:生成的反事实句在字符数上必须控制在原句长度的±10%范围内,并确保语言流畅自然。
以下示例展示了在该约束机制下完成的一次受控重写:
原语料:This was later adopted in Ancient Greece as the “gamos” and “engeysis” rituals, although unlike in Judaism the contract made in front of witness was only verbal.
大语言模型生成:This was later adopted in Ancient Greece as the “gamos” and “engeysis” rituals, similar to Judaism, the contract made in front of witnesses was simply oral.
通过这一系列明确的约束,LLM能够生成高质量、语义连贯且结构清晰的反事实句对。这种方法为模型提供了丰富且平衡的对比监督信号,有效促进了其对否定语言特征的深度泛化能力。
3.3. 基线增强方法
为验证我们提出的结构化增强框架的有效性,我们设置了两种基线增强方法作为对比:一种是基于自监督的“理据重写”框架,另一种则是传统的简单加入否定词。
3.3.1. 自监督反事实生成
自监督方法如图3所示,该方法源于Plyler等[19]的研究成果。该研究提出了一种自动化的、基于理据(rationale-based)的反事实生成框架。具体而言,给定一个带有情感极性标注的句子,模型首先识别出与原始标签有因果关联的最小词元片段(理据)。随后,利用掩码语言模型(Masked Language Model, MLM)对这些片段进行修改,以生成具有对比性的版本,从而实现句子极性的翻转,同时保持语言流畅性和句法结构的完整。
Figure 3. Counterfactual data generation workflow
图3. 反事实数据生成工作流
尽管这一策略高效且无需额外标注,但可能存在句法多样性不足的问题,且在极性反转中过分依赖如not或never等显性否定标记,从而限制其对语义细腻现象的建模能力。
3.3.2. 简单否定词插入
此方法是一种更朴素的基线,通过在原始肯定句中随机插入显性否定词(如not)来生成否定样本。该基线旨在验证仅仅增加否定信号的数量,而缺乏结构和语义多样性,是否足以提升模型的泛化性能。
4. 实验设置
为系统评估所提出的数据增强框架的有效性,我们基于roberta-base模型设计了六种实验配置。所有模型均使用Hugging Face Transformers库进行微调,并通过操控训练数据的构成来评估不同增强策略对模型性能的影响。
1) SFU:仅使用原始SFU语料库的60% (3117条否定句和7049条肯定句)进行微调。
2) SFU + LLM:在SFU数据基础上,加入5000条由本文提出的阶段一方法生成的隐性否定样本。
Table 2. Hyperparameter settings
表2. 超参数设置
参数类别 |
超参数 |
值 |
模型与架构 |
基础模型 |
roberta-base |
最大序列长度 |
256 tokens |
训练方案 |
训练轮数(Epochs) |
20 |
每设备批量大小(Batch Size) |
16 |
梯度累积步数 |
1 |
早停策略(Early Stopping) |
监控指标:eval_f1,容忍轮数:2 |
优化器与调度器 |
优化器 |
AdamW |
峰值学习率 |
2 × 10−5 |
AdamW Betas (β1, β2) |
(0.9, 0.999) |
AdamW Epsilon (ϵ) |
1 × 10−8 |
权重衰减(Weight Decay) |
0.01 |
学习率调度策略 |
带预热的线性衰减 |
预热步数(Warmup Steps) |
500 |
硬件与精度 |
GPU |
1× RTX4090 (24GB) |
混合精度训练 |
FP16 |
3) SFU + LLM + CF (SS):在配置2的基础上,额外加入通过自监督反事实生成方法(见3.3.1节)产生的反事实样本。
4) SFU + LLM + CF (GPT-4):在配置2的基础上,额外加入通过本文提出的阶段二方法(见3.2节)生成的结构化反事实样本。
5) SFU + Not-inserted:在SFU语料中,加入5000条通过简单否定词插入方法(见3.3.2节)生成的合成样本。
6) NegBERT:直接在CONDAQA测试集上评估公开发布的预训练NegBERT模型,不进行任何额外微调,作为领域内先进方法的参考。
训练数据由SFU语料与不同策略生成的增强样本构成。在引入反事实样本的配置中,我们确保正负类别完全平衡。测试集统一使用CONDAQA数据集,该数据集包含1289对语义相反的肯定与否定句。所有报告的评估结果均为三次独立实验的平均值,评估指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)与F1分数。表2详细列出了本次微调实验所使用的全部超参数。
5. 实验结果与分析
本研究以多种数据增强配置对RoBERTa模型进行了微调,并在CONDAQA衍生的测试集上评估模型表现。该测试集包含1289对肯定与否定句,评估指标包括准确率(Accuracy)、F1分数与AUC值,具体结果如表3所示。
未经微调的RoBERTa基线模型性能接近随机水平,说明其难以有效捕捉否定相关的语言特征模式。以SFU语料微调后,模型表现有明显提升(准确率为60.76%,F1分数为0.5792),但由于过度依赖显性否定线索,限制了其对更复杂隐性否定形式的泛化能力。当加入5000条由LLM生成的隐性否定样本(SFU + LLM配置)时,模型的表现显著提高(准确率达67.31%,F1分数为0.6712),验证了结构多样、特征导向的数据增强对模型性能的积极影响。
Table 3. Model performance comparison on CONDAQA dataset
表3. 模型在CONDAQA测试集上的性能表现
|
Accuracy |
F1 |
AUC |
RoBERTa (w/o FT) |
50.06% |
0.3340 |
0.3484 |
SFU |
60.76% |
0.5792 |
0.6379 |
SFU + LLM |
67.31% |
0.6712 |
0.7467 |
SFU + LLM + CF (SS) |
68.15% |
0.6805 |
0.7734 |
SFU + LLM + CF (GPT4) |
75.20% |
0.7513 |
0.7855 |
NegBERT |
60.17% |
0.5932 |
0.6745 |
SFU + Not |
60.56% |
0.5774 |
0.6483 |
进一步引入反事实增强策略(Counterfactual Augmentation)后,模型性能进一步提升。在自监督变体(SFU+ LLM + CF (SS))中,F1分数小幅但稳定上升至0.6805,说明即使是自动生成的对比样本,也有助于引导模型关注与极性相关的语言片段。但此方法主要依赖浅层变换和表面语言线索,因此效果仍存在一定局限。
表现最优的是使用GPT-4生成反事实样本的配置(SFU + LLM + CF (GPT4)),其准确率为75.20%,F1分数为0.7513,AUC达0.7855。这一结果凸显了将特征导向的数据增强与语义连贯的极性转换相结合,在有效建模低频语言特征方面的优势。与自监督方法相比,GPT-4生成的反事实句子在结构多样性和语义流畅性上更具优势,显著增强了模型的泛化能力。
值得一提的是,更简单的数据增强策略(如随机插入“not”或直接使用未微调的NegBERT模型)未能表现出显著优势,这些方法缺乏必要的语义控制与深层次的结构变化。这进一步强调了否定识别任务的特征导向性质,模型表现强烈依赖于训练过程中所提供的否定线索的质量与多样性。
另一个有趣的现象是,仅使用LLM生成的反事实样本在CONDAQA测试集上取得了近90%的高准确率。然而,在SFU数据集上的初步测试(未列入表中)则显示性能大幅下降,与未经微调的RoBERTa基线模型表现相当。这一现象表明模型可能过拟合于合成数据中浅层否定线索,而未真正学习到否定的泛化特性。这也再次凸显了构建跨领域、线索多样的训练数据的重要性。
综上,实验结果验证了本研究的核心假设:通过LLM引导、结构多样的数据增强,有助于显著提升模型对稀有与隐性否定模式的敏感性。同时,不同反事实策略之间的对比表明,提升模型泛化能力不仅依赖于对比监督的存在,更取决于其语义与句法层面的质量控制。
上述发现契合本文的研究目标:通过结构化、由LLM驱动的数据增强机制,增强模型对代表性不足、隐性表达语言特征的建模能力。
6. 结论与未来工作
本文提出了一种基于大型语言模型(LLMs)的特征导向数据增强框架,以解决小规模、不平衡语料中稀有语言特征表示不足的问题。以否定检测为诊断性案例,本研究证明LLMs可通过隐性线索扩展与结构化的反事实重写生成高质量的训练样本,显著提升模型对隐性否定等上下文敏感语言特征的识别与泛化能力。
实验结果显示,通过LLM驱动的增强方法,RoBERTa模型在隐性否定识别任务上的性能明显提升,说明结构丰富且语义细腻的训练数据能有效克服传统增强方法的不足。此外,本研究还指出,现有数据集中显性否定表达数量远超过隐性否定表达,盲目合并数据可能导致隐性线索的进一步稀释,未来应有意识地避免此类数据建设问题。
未来研究可进一步拓展本文提出的方法,应用于其他同样具有稀疏特征问题的语言现象,如情态表达、指代消解或修辞语言等。这些特征往往无法仅通过表层特征建模,需要结合结构和语义导向的增强策略。另一方面,将增强策略拓展至跨领域、多文体的语料中,以提升模型在实际应用场景中的泛化能力,也将是未来重要的研究方向。此外,深入探索经特征平衡数据训练的模型在情感分析、问答系统与事实验证等更广泛的下游任务中的表现与泛化特性,具有显著的研究与实践价值。
附 录:提示词设计
提示词1:生成含隐性否定的句子
以下提示词用于引导模型从CONDAQA语料中生成包含隐性否定线索的陈述句:
You are now playing the role of a professional writing assistant. Your task is to help construct well-written declarative sentences that showcase linguistic features related to negation.
This was later adopted in Ancient Greece as the “gamos” and “engeysis” rituals, although unlike in Judaism the contract made in front of witnesses was only verbal.
Please generate 10 new declarative sentences that retain a similar syntactic and rhetorical structure but shift to different topics or domains (e.g., law, science, education, or culture).
In each sentence, replace “unlike” with a semantically similar implicit negation cue (e.g., unsubstantiated, untenable, unfathomable, unprecedented).
Use formal language, and ensure each sentence is coherent and contextually meaningful.
提示词2:反事实重写(否定→肯定)
以下提示词用于引导大型语言模型对否定句进行反事实重写,将其转化为肯定句:
Hi, ChatGPT. Please help me to transform a sentence containing the negation cue “unlike” into an fully affirmative version under the following constraints:
Character count of the result must be within ±10% of the original.
15%~20% of the original words must be changed (via replace, delete, or insert).
Remove all negation markers. Do not introduce new negation.
Output must be fluent and natural.
For any input, reply with:
1. Original metrics (character and word count)
2. Changed tokens (words replaced/added/removed)
3. Final rewritten sentence
Example input:
This was later adopted in Ancient Greece as the “gamos” and “engeysis” rituals, unlike in Judaism the contract made in front of witness was only verbal.
Example output:
This was later adopted in Ancient Greece as the “gamos” and “engeysis” rituals, similar to Judaism, the contract made in front of witnesses was simply oral.
Your help are deeply appreciated.
提示词3:反事实重写(肯定→否定)
以下提示词用于引导大型语言模型对肯定句进行反事实重写,将其转化为否定句:
Hi ChatGPT, please create a counterfactual version of the following affirmative sentence under these rules:
Character count of the result must be within ±10% of the original.
15%~20% of the original words must be changed (via replace, delete, or insert).
The result should remain negated, but do not introduce any explicit “no”, “not” or similar explicit structural negation tokens.
Output must be fluent and natural.
For any input, reply with:
1. Original metrics (character and word count)
2. Changed tokens
3. Final sentence
Example input:
She always arrives early to every meeting.
Example output:
She hardly comes early to every meeting.