1. 引言
方面级情感分析(Aspect-Based Sentiment Analysis, ABSA)近年来成为自然语言处理领域的一个研究热点,旨在对文本中特定aspect的情感倾向进行细致的分类[1] [2]。在情感计算和人机交互等应用场景中,准确识别出文本中特定aspect的情感极性具有重要意义。例如,在产品评论分析中,不同用户的评价可能包含多个aspect,如价格、质量和售后服务,而对这些aspect的情感极性进行准确分类,有助于更全面地了解用户需求和市场反馈。
目前,ABSA领域中已有较多的研究成果,通常基于深度学习和语言模型方法,如BERT [3]和RNN [4] [5]等。然而,传统方法在多aspect情感区分方面面临挑战,尤其是当多个aspect出现在同一句话中时,难以捕捉到每个aspect的情感特征。此外,现有模型在捕捉局部上下文情感信息时也存在一定局限,导致对特定aspect的情感识别准确性不足[6]。
为应对上述问题,本文提出了一种基于自适应滑动窗口和变分自编码器的ABSA模型(AdaptWin-ABSA)。该模型结合了对比学习和自适应滑动窗口机制,在BERT生成的嵌入表示基础上,更精准地建模文本中不同方面(aspect)的情感特征,并显著增强了不同方面间的情感区分能力。此外,变分自编码器的引入有助于从潜在空间建模文本的情感分布,从而进一步提升情感极性分类的鲁棒性。实验结果表明,AdaptWin-ABSA模型在多个公开数据集上实现了较高的准确率和F1值,验证了其在方面级情感分析任务中的有效性和应用前景。
本文的主要贡献总结如下:
(a) 提出一种自适应滑动窗口机制,动态调整上下文窗口大小,能够有效捕捉局部上下文中的情感特征,提升对不同方面情感的建模能力;
(b) 设计并结合对比学习方法,通过最大化不同方面间的表示差异性,增强模型在多方面情感区分任务中的表现,弥补了现有方法在多方面情感区分上的不足;
(c) 引入变分自编码器建模潜在情感分布,从潜在空间中挖掘文本的情感特征,提升模型对复杂情感模式的解析能力和分类的鲁棒性,为方面级情感分析提供了新的解决方案。
2. 相关工作
面级情感分析是一种细粒度的情感分析任务,其目标是在给定的上下文中提取针对特定方面的情感极性。作为自然语言处理中的重要分支,ABSA被广泛应用于产品评论分析、用户反馈研究等场景,为企业和研究者提供了深刻的情感洞察[6]。早期的ABSA方法主要依赖于人工设计的特征[7] [8],例如基于情感词典、句法依赖关系或特定规则构建的特征。然而,这些方法通常无法有效捕捉方面与上下文之间的深层语义关联,在处理复杂句子结构或隐含情感表达时,表现出较大的局限性。此外,这类方法还需要耗费大量的人力成本进行特征工程,难以扩展到大规模、多领域的情感分析任务中。
循环神经网络(Recurrent Neural Network, RNN)由于在处理序列数据上的优势,广泛应用于自然语言处理任务。RNN的两个主要变体—长短时记忆网络(Long Short-Term Memory, LSTM) [4]和门控循环单元(Gated Recurrent Unit, GRU) [5],通过门控机制克服了RNN的梯度消失和梯度爆炸问题。Liu等人[7]基于LSTM提出了TD-LSTM和TC-LSTM模型,用于方面级情感分析,将方面信息与上下文信息融合,提升了情感分类的精度。
注意力机制近年来在ABSA任务中得到广泛应用,因为它可以有效捕捉与特定方面相关的上下文信息。Tang等人[8]提出的ATAE-LSTM模型通过注意力机制增强了对方面特征的关注,使得情感分析的效果显著提升。随后,Wang等人[9]提出了双重注意力机制模型,以应对多标签情感分类中的复杂情感关系。
基于注意力机制的预训练模型BERT [3]推出后,在情感分析中展现了卓越的性能。Sun等人[10]提出在BERT微调过程中引入多种辅助句,提升ABSA任务的情感分类表现。Xu等人[11]进一步提出一种基于BERT的后训练微调方法,进一步优化了BERT在ABSA任务上的适用性。
Figure 1. Structure of AdaptWin-ABSA
图1. AdaptWin-ABSA模型结构
自编码器和变分自编码器(Variational Autoencoder, VAE)在隐空间建模和情感特征学习方面展现出独特优势。VAE通过隐空间分布生成丰富的情感特征,能够帮助模型在情感分布建模中实现细致控制。Xu等人[12]提出了一种结合VAE的ABSA模型,通过将情感特征映射到潜在空间,捕捉到文本中的隐含情感分布。Cheng等人[13]基于条件VAE提出一种多层次情感特征建模框架,能够更加精准地控制不同情感的生成。Nie等人[14]通过条件约束和变分自编码器进一步提升了情感分类的效果,为情感分析模型提供了更加灵活的特征建模方法。
对比学习在增强情感区分方面具有良好效果,尤其在不同情感标签之间拉开差距方面表现优异。Yang等人[15]基于对比学习提出了一种新的情感分类方法,通过对比不同情感极性的特征表达,提升了模型对多方面情感的区分能力。Song等人[16]结合对比学习和BERT,设计了方面特异性情感表示模型,使得相似的情感类别在嵌入空间中得到良好区分。Wang等人[17]提出动态对比学习,通过动态调整样本对的训练,提升了情感特征学习的灵活性。
自适应滑动窗口机制在动态特征捕捉中表现出色,近年来逐渐应用于情感分析及多模态数据处理任务中。He等人[18]在自适应滑动窗口机制中引入自注意力,使得模型能够自动捕捉局部上下文的情感变化。Zhang等人[19]提出一种新的自适应滑窗方案,通过动态调整窗口大小,增强模型对长短期情感变化的适应性。Ahmed等人[20]将适应滑窗应用于情感分析任务,通过多头自注意力机制和自适应窗口结合,显著提升了情感识别的准确性。
综上所述,近年来的研究表明,通过深度学习和对比学习等方法的结合,可以显著提升ABSA任务中的情感区分效果和细粒度情感建模能力。本文提出的AdaptWin-ABSA模型结合了自适应滑动窗口、变分自编码器和对比学习,不仅有效提升了多方面情感区的能力,还增强了模型在局部上下文情感特征捕捉上的鲁棒性,为方面级情感分析任务提供了新的解决方案。
3. AdaptWin-ABSA模型构建
AdaptWin-ABSA模型基于自适应滑窗、变分自编码器(VAE)和对比学习策略构建,旨在方面级情感分析(ABSA)任务中高效捕捉多方面的细粒度情感特征。如图1所示,该模型主要包括四个模块:文本嵌入层、变分自编码器(VAE)模块、自适应滑窗机制、情感分类层,以及基于对比学习的特征增强模块。
3.1. 文本嵌入层
AdaptWin-ABSA模型的输入通过BERT模型进行嵌入处理。给定输入文本
,模型利用BERT提取每个词的嵌入表示,表示为:
(1)
其中,
为BERT模型输出的d维嵌入表示。此输出嵌入经过丢弃层(Dropout)以防止过拟合,并作为后续模块的输入。
3.2. 变分自编码器
为在潜在空间中生成细粒度的情感特征,AdaptWin-ABSA模型使用变分自编码器(VAE)建模文本情感的隐含分布。VAE由编码器和解码器两部分组成,具体过程如下。
3.2.1. 编码器
VAE的编码器部分通过双向LSTM提取上下文特征,并将输出通过两个全连接层得到均值向量
和向量方差
。给定输入
,编码器的输出为:
(2)
其中
表示表示双向LSTM的输出向量,然后通过两个线性变换计算出潜在分布的均值和方差:
(3)
其中
和
为线性变换矩阵,
和
为偏置项。
3.2.2. 重参数化
通过重参数化技巧对潜在空间中的情感特征进行采样。给定均值
和方差
,从潜在分布中采样潜在变量
:
(4)
是从标准正态分布中采样的随机噪声,确保采样的可导性以便于反向传播。
3.2.3. 解码器
在解码器中,将潜在变量
输入至解码器的 LSTM 结构中,以生成与输入结构相似的重构序列
:
(5)
编码器和解码器共同实现了对情感特征的隐空间建模,使得模型在ABSA任务中能够更细致地捕捉情感特征。
3.3. 自适应滑窗机制
在ABSA任务中,情感极性通常受到特定方面词及其邻近上下文的显著影响。为了有效提取方面词的邻近情感信息,AdaptWin-ABSA模型引入了自适应滑窗机制(Adaptive Sliding Window Mechanism),用于捕捉方面词及其邻近的上下文特征。该机制不仅动态调整滑窗的范围,还结合了基于距离的加权策略,以确保情感特征能够被精细捕捉。自适应滑窗机制主要包含以下几个步骤:窗口范围确定、动态掩码生成以及距离加权。
3.3.1. 窗口范围确定
自适应滑窗机制的第一步是确定窗口的范围,使得模型能够在捕捉方面词的基础上,灵活选择与之相关的上下文信息。给定一个方面词在句子中的起始位置
和方面词的长度
,模型动态调整滑窗的范围,定义为:
(6)
其中,
为窗口的可扩展范围。具体来说,如果句子的长度为
,则该范围被限制在
之内,以确保滑窗不越界。窗口范围的大小由模型的自适应策略自动调整,依赖于方面词与邻近词的语义相关性。若上下文信息的重要性较高,则
的值自动增大,使模型捕捉更多的上下文;反之,则窗口范围缩小,专注于方面词附近的核心情感信息。
3.3.2. 动态掩码生成
在确定窗口范围后,自适应滑窗机制通过动态生成窗口掩码来对无关信息进行过滤。掩码矩阵
用于在前向传播过程中屏蔽掉窗口外的词,以确保模型的注意力集中在窗口内的上下文。
假设输入的词嵌入矩阵为
,其中
为序列长度,
为词嵌入维度。掩码矩阵
定义为:
(7)
其中,
为输入序列中每个词的位置。当
时,表示该词处于滑窗范围内,模型允许其在注意力机制中发挥作用;而
则屏蔽掉窗口范围外的词语信息,使模型专注于方面词及其相关上下文。这一掩码矩阵在后续的特征提取和加权过程中被广泛应用,确保情感信息的提取针对性更强。
3.3.3. 距离加权机制
在滑窗范围内,自适应滑窗机制进一步设计了基于距离的加权策略,以增强方面词附近上下文的情感权重。滑窗中的上下文词根据其与方面词的距离进行加权,使得距离较近的词具有更高的权重,确保情感信息在空间上具有合理的衰减特性。
具体而言,设第
个词到方面词的距离为
,模型使用指数衰减函数为每个词分配权重:
(8)
其中,
为控制衰减速度的超参数。距离较小的词(即与方面词距离较近的词)其权重
较大,而距离较远的词其权重则相对较小。该权重矩阵
应用于滑窗内的每个词,将其与词嵌入
乘以生成加权特征表示:
(9)
最终加权特征
聚焦在滑窗内的上下文信息,确保模型关注的重点在与方面词相关的区域上。
3.4. 自注意力机制模块
在AdaptWin-ABSA模型中,自注意力机制能够动态地为输入序列中不同位置的特征分配权重,使模型在捕捉关键情感信息时具备更高的灵活性和辨识度。
给定输入序列表示
,自注意力机制首先通过计算词对之间的注意力得分
来刻画词
对词
的依赖关系。该得分
定义为:
(10)
其中,
为词
和词
之间的匹配程度,通过双线性投影实现:
(11)
在上述公式中,
和
分别为查询和键的可学习投影矩阵。通过对每个词与其上下文的关系进行加权,自注意力机制能够在输入序列中有效区分出情感相关的上下文信息。
基于计算得到的注意力权重,自注意力机制为每个词生成加权的上下文表示
:
(12)
其中,
为值投影矩阵,是可学习参数,用于确保上下文信息在高维嵌入空间中的准确表征。最后,通过tanh激活函数处理,加权表示
的非线性特征得以增强,从而捕捉到更为丰富的情感信息。
3.5. 对比学习模块
在AdaptWin-ABSA模型中,流程如图2所示。对比学习模块用于增强方面级情感分析(ABSA)中的情感特征区分性。通过对比学习,模型能够拉近相同情感类别的特征表示,同时拉远不同情感类别的特征表示,从而提升情感分类的精度和鲁棒性。为优化ABSA任务的特征区分效果,对比学习模块设计了以下创新点:类别对比增强、动态权重分配和调整的对比损失函数。
Figure 2. Process of contrastive learning
图2. 对比学习流程
3.5.1. 类别对比增强
在方面级情感分析任务中,不同情感类别的区分尤为重要。为了增强模型对情感极性差异的敏感度,对比学习模块优先构建情感类别差异大的样本对,以加强对不同情感特征的区分。具体策略如下:
正样本对
:从相同情感类别的样本中选择,使模型能在特征空间中拉近同类特征。
负样本对
:优先选择情感极性差异大的样本对,使模型在特征空间中对不同情感类别形成更清晰的边界。
3.5.2. 动态权重分配
为了更精确地调整不同类别样本对在对比损失中的影响,AdaptWin-ABSA模型引入了动态权重分配机制。具体来说,对于情感类别极性差异较大的样本对(如“积极”和“消极”),分配更高的对比权重;而对于情感相对中性的样本对(如“中性”与“积极”或“中性”与“消极”),分配较低的对比权重。权重分配定义如下:
(13)
其中,
表示高权重,
表示低权重。这种权重分配策略确保模型更关注情感极性差异大的方面特征,从而提升模型的区分能力。
对比损失函数:
根据以上设计,AdaptWin-ABSA模型的对比损失函数进一步调整为包含动态权重的对比损失形式:
(14)
其中:
为批次大小,
为样本对的余弦相似度;
为温度系数,控制对比学习的敏感性;
为样本对的权重,依据情感极性差异动态分配。
3.5.3. 损失函数
在AdaptWin-ABSA模型中,情感分类的准确性至关重要,因此使用交叉熵损失函数
来衡量模型预测的概率分布与真实标签分布之间的差距。交叉熵损失定义为:
(15)
其中:
表示真实标签的独热编码值,若类别i是真实类别,则
,否则
。
表示模型预测的类别i的概率值,由Softmax层输出。
N表示情感分类的类别数量。
交叉熵损失
的作用是将模型预测结果与真实标签对齐,促使模型在训练过程中逐步优化参数,减小预测分布与真实分布之间的差异,提高情感分类的精度。
在最终损失函数中,交叉熵损失
与对比损失
共同组成整体损失:
(16)
是一个超参数,用于平衡对比损失和分类损失对模型的影响。通过对比学习模块,模型在特征空间中形成了更清晰的类别区分边界,增强了情感分类的准确性和模型的泛化能力。
4. 实验
4.1. 数据集
验证使用了三个公共标准基准数据集:Restaurant数据集、Laptop数据集和Twitter数据集。其中,Restaurant和Laptop数据集来自SemEval2014任务4,分别包含餐饮领域和笔记本电脑领域的评论。Twitter数据集则由推特帖子构成,涵盖了日常社交媒体环境中的情感表达。
Table 1. Statistical information of the three experimental datasets
表1. 三个实验数据集的统计信息
Dataset |
Positive |
Negative |
Neural |
Train |
Test |
Train |
Test |
Train |
Test |
Laptop |
994 |
341 |
870 |
128 |
464 |
169 |
Restaurant |
2164 |
728 |
807 |
196 |
637 |
196 |
Twitter |
1561 |
173 |
1560 |
173 |
3172 |
346 |
这三个数据集中的每个实例都被标注为三个情感极性之一:积极、中性或消极。此外,数据集中的每个句子都被注释了相应的方面及其情感极性,以支持方面级情感分析任务。表1中展示了这三个数据集的具体统计信息,包括各情感极性和方面的分布情况。
4.2. 实验环境与参数设计
本实验在Ubuntu 20.04系统上进行,处理器为Intel Xeon 16核CPU,内存为64 GB,并配备NVIDIA Tesla A100 GPU (80 GB显存),实验代码基于PyTorch框架实现。模型使用BERT预训练嵌入,嵌入维度为768,双向LSTM隐层维度为256,多头注意力机制的头数设置为12。自适应滑窗机制的初始滑窗大小设为3,对比学习模块的温度系数为0.07,损失权重系数设为0.5。学习率为5 × 10−5,批次大小为32,最大训练轮次为20,并使用早停策略(验证集上连续5轮无提升即停止)。输入层和隐藏层的Dropout概率为0.1,模型的权重衰减系数为1 × 10−5。
4.3. 评价指标
在本研究中,采用了ABSA任务中常用的评价指标:准确率(Accuracy)和F1分数(F1 Score)。
准确率用于衡量模型在所有测试样本中预测正确的比例,定义如下:
(17)
F1分数综合考虑精确率(Precision)和召回率(Recall),特别适合评估类别不均衡的情感分析任务,定义如下:
(18)
通过准确率和F1分数,可以全面衡量模型在ABSA任务中的情感极性分类效果,从整体和细节两方面评估其性能。
4.4. 对比模型
ATAE-LSTM:Wang等人[9]提出了一种结合注意力机制与LSTM的模型,用于建模方面词和上下文之间的联系。该模型在句子中识别出与方面词相关的特征,从而更好地捕捉情感信息。
MemNet:Tang等人[21]设计了一种深度记忆网络(MemNet),通过多次迭代注意力机制,逐步提取方面词的上下文特征。最终的注意力输出用于预测方面的情感极性。
RAM:Chen等人[22]改进了MemNet模型,使用双向LSTM表示记忆,同时引入GRU来处理多层注意力机制的特征。这种方法增强了模型在捕捉上下文情感信息方面的能力。
IAN:Ma等人[23]提出交互注意力网络(IAN),该模型通过两个LSTM分别生成方面词和上下文的表示,并进行交互学习,以提高方面和上下文的匹配效果。
Cabasc:Liu等人[7]设计了一个基于内容注意力的模型,利用两种不同的注意力机制来从全局视角和序列关联中提取与方面相关的信息,以更全面地捕捉情感线索。
PBAN:Gu等人[24]提出了一种位置感知双向注意力网络,通过关注方面词与情感词之间的相对位置,增强了模型对方面周围有用信息的关注。
AEN-BERT:Song等人[25]设计了一个注意力编码网络,用于在上下文中提取与方面相关的特征,通过 BERT 的预训练进一步提升了模型性能。
KumaGCN:Chen等人[26]利用潜在的图结构进一步丰富句法特征,通过图节点和边的关系建模,以更好地捕捉句法信息中的深层依赖关系。
WKDGCN:Huang等人[27]提出了一种基于语序知识的双通道图卷积网络用于方面级情感分析。该方法通过双通道结构整合句法依赖和语序信息,使模型更准确地捕获方面词的情感关系,从而提升情感极性判定的准确性。
R-GAT:Wang等人[28]构建了基于方面项的依赖树结构,并利用关系图注意力网络(GAT)对其进行编码,从而更有效地提取方面项与上下文之间的依赖信息。
SSEGCN:Zhang等人[29]针对方面级情感分类(ABSC)模型同时考虑了句子的语义关联和句法结构。
BERT4GCN:Xiao等人[30]结合BERT的语法顺序特征和依存图的句法知识,通过图卷积网络(GCN)实现方面级情感分类。
4.5. 实验结果及分析
如表2所示,实验结果表明,AdaptWin-ABSA模型在Laptop和Restaurant数据集上表现优异,但在Twitter数据集上表现略逊于部分对比模型。
Table 2. Comparison of experimental results on the three public datasets
表2. 三个公开数据集上实验结果的对比
Model |
Laptop |
Restaurant |
Twitter |
Acc (%) |
F1 (%) |
Acc (%) |
F1 (%) |
Acc (%) |
F1 (%) |
ATAE-LSTM |
68.70 |
- |
77.2 |
- |
- |
- |
MemNet |
72.37 |
- |
80.95 |
- |
- |
- |
RAM |
69.59 |
64.61 |
78.30 |
68.46 |
70.52 |
67.95 |
IAN |
72.10 |
- |
78.60 |
- |
- |
- |
Cabasc |
72.57 |
67.06 |
79.37 |
69.46 |
70.95 |
69.00 |
PBAN |
74.12 |
- |
81.16 |
- |
- |
- |
AEN-BERT |
79.93 |
76.31 |
83.12 |
73.76 |
74.71 |
73.13 |
KumaGCN |
76.12 |
72.42 |
81.43 |
73.64 |
72.45 |
70.77 |
WKDGCN |
77.27 |
73.81 |
83.66 |
76.43 |
75.72 |
74.18 |
R-GAT |
77.42 |
73.76 |
83.30 |
76.08 |
75.57 |
73.82 |
SSEGCN |
78.99 |
75.03 |
84.46 |
76.98 |
73.55 |
72.14 |
BERT4GCN |
77.49 |
73.01 |
84.75 |
77.11 |
74.73 |
73.76 |
AdaptWin-ABSA |
80.01 |
77.26 |
85.36 |
77.27 |
75.00 |
74.01 |
Laptop数据集:AdaptWin-ABSA模型在该数据集上的准确率为80.01%,F1分数为77.26%,明显优于其他对比模型,展示了其在电子产品评论数据上的优越性。相比于性能较高的WKDGCN和R-GAT模型,AdaptWin-ABSA模型在准确率和F1分数上均有约2%~3%的提升,显示出较强的泛化能力。
Restaurant数据集:Restaurant数据集上,AdaptWin-ABSA模型取得了85.36%的准确率和77.27%的F1分数,均为最佳表现。与其他模型(如BERT4GCN和R-GAT)相比,AdaptWin-ABSA模型在该数据集上的性能显著提升,说明该模型能够在较大规模的餐馆评论数据集上充分学习情感特征,捕捉到更细粒度的方面情感信息。
Twitter数据集:在Twitter数据集上,AdaptWin-ABSA模型的准确率为75.00%,F1分数为74.01%。虽然在准确率上接近部分高性能对比模型,但在F1分数上略低于WKDGCN (F1分数为74.18%)。这一结果表明,在社交媒体类型的文本数据上,AdaptWin-ABSA的表现不如在结构化评论数据集上的稳定,Twitter数据具有较高的噪声和非正式语言结构,导致模型在特征提取方面受到一定影响。
4.6. 消融实验
为评估AdaptWin-ABSA模型中各模块的有效性,设计了一系列消融实验,逐一去除或修改各个模块,分析其对模型性能的贡献。实验结果总结于表3中,包含AdaptWin-ABSA模型的五种变体:
(1) AdaptWin-NoWindow:移除自适应滑窗机制,采用固定大小的滑窗。此变体用于评估自适应滑窗在捕获方面词局部上下文信息中的作用。将自适应滑窗替换为固定滑窗后,模型在动态调整上下文范围方面的能力受到限制。
(2) AdaptWin-NoVAE:去除VAE模块,仅依赖BERT嵌入表示,不进行潜在空间编码。此变体探索VAE生成的潜在特征表示对情感特征表达的作用。无VAE模块时,模型在丰富情感信息方面的表现有所减弱。
(3) AdaptWin-NoAttention:移除自注意力机制。在此配置中,模型不对方面相关的词语应用注意力权重,而是直接使用特征表示作为输入。该实验测试了自注意力机制在聚焦方面相关情感信息中的效果。
(4) AdaptWin-NoContrast:移除对比学习模块。在此配置中,模型不再生成正负样本对,也不计算对比损失,直接使用情感特征进行分类。此实验用于评估对比学习在增强模型情感极性区分能力方面的效果。
(5) AdaptWin-SingleHead:将多头注意力替换为单头自注意力。此配置简化了注意力结构,仅使用一个注意力头来捕获方面相关的上下文信息,测试多头注意力在捕捉情感信息多样性方面的效果。
Table 3. Results of the ablation study
表3. 消融实验结果
Model |
Laptop |
Restaurant |
Twitter |
Acc (%) |
F1 (%) |
Acc (%) |
F1 (%) |
Acc (%) |
F1 (%) |
AdaptWin-ABSA-full |
80.01 |
77.26 |
85.36 |
77.27 |
75.00 |
74.01 |
AdaptWin-NoWindow |
76.50 |
73.40 |
82.13 |
75.51 |
72.10 |
71.31 |
AdaptWin-NoVAE |
75.29 |
72.50 |
80.75 |
74.10 |
71.21 |
69.85 |
AdaptWin-NoAttention |
76.80 |
73.52 |
81.92 |
74.21 |
72.52 |
72.10 |
AdaptWin-NoContrast |
78.50 |
74.10 |
84.51 |
77.01 |
73.95 |
72.00 |
AdaptWin-SingleHead |
78.12 |
74.22 |
84.16 |
76.03 |
73.56 |
71.23 |
实验结果表明,移除或替换这些模块会导致模型性能下降,说明各模块在不同情感信息的捕捉和表达方面均具有重要作用。例如,去除自适应滑窗(AdaptWin-NoWindow)限制了模型在不同上下文中动态调节窗口大小的能力,从而导致准确率下降;去除VAE模块(AdaptWin-NoVAE)减少了潜在特征表示的丰富性,影响情感特征的表达;去除对比学习模块(AdaptWin-NoContrast)则降低了模型对不同情感极性进行区分的能力。此外,将多头注意力替换为单头自注意力(AdaptWin-SingleHead)使模型的表现略有下降,表明多头注意力在捕获多维度情感信息方面具有优势。
如表4所示,我们对三种模型(AdaptWin-ABSA、AEN-BERT和BERT4GCN)的参数量、推理速度和GPU内存消耗的对比。根据表格,AdaptWin-ABSA模型的参数量为110.52 M,推理速度为12.5 ms/sample,GPU内存消耗为800 MB,相较于其他基线模型,其推理速度和内存消耗较为优越。AEN-BERT和BERT4GCN模型的参数量略高,推理速度和内存消耗也稍微增加,特别是BERT4GCN模型在GPU内存消耗方面表现较高。此对比表明,在保证较高性能的前提下,AdaptWin-ABSA在推理效率和资源消耗上具有一定的优势,适用于资源受限的环境。
Table 4. Comparison of model parameters, inference speed, and GPU memory consumption
表4. 模型参数量、推理速度与GPU内存消耗对比
模型 |
参数量(M) |
推理速度(ms/sample) |
GPU内存消耗(MB) |
AdaptWin-ABSA |
110.52 |
13.5 |
800 |
AEN-BERT |
110 |
12.2 |
850 |
BERT4GCN |
122 |
15.0 |
900 |
图3展示了λ_contrast和β两个超参数变化对模型F1分数的影响。图表示λ_contrast超参数与F1分数之间的关系,随着λ_contrast从0.1增加到1.0,模型的F1分数逐渐提升并趋于稳定,表明该超参数在优化模型性能中起到了积极作用。下图展示了β超参数与F1分数的敏感性,随着β值的增加,F1分数逐步提升,表明β对情感建模有着重要影响。这些结果为进一步调整超参数以优化模型提供了有力依据。
Figure 3. Sensitivity analysis of the hyperparameters λ_contrast and β
图3. λ_contrast和β超参数敏感性分析
4.7. 句子长度影响分析
为了验证AdaptWin-ABSA模型在解决语义不匹配问题上的效果,特别考虑了长句子往往包含更多无关词汇,从而更易导致语义偏差的现象。基于这一考虑,将Laptop、Restaurant和Twitter数据集的测试集按照句子长度划分为长句和短句组,定义方式为句子长度大于或等于平均长度的为长句,反之为短句。通过这种划分,比较了AdaptWin-ABSA模型与AEN-BERT和BERT4GCN模型在不同句子长度下的表现,其中AEN-BERT在语义理解上表现较好,而BERT4GCN在结构化信息的建模上具有优势。
如图4所示实验结果表明,AdaptWin-ABSA在长句和短句数据集上整体优于对比模型,尤其是在长句子上表现出显著的提升。相比其他模型,AdaptWin-ABSA在处理长句子时更具优势,这也验证了其在缓解语义不匹配方面的有效性。总体来看,AdaptWin-ABSA在长短句场景下都展示了稳健的性能提升,对提升情感分析任务的准确性具有意义。
Figure 4. Accuracy performance of different methods across datasets (short phrases on the left, long descriptions on the right)
图4. 各方法在不同数据集上的准确率表现(短句在左,长句在右)
Figure 5. The sliding-window mechanism enhances attention distribution in specific aspects
图5. 滑动窗口机制优化了特定方面的注意力分布
基于图5的可视化结果可以看出,滑窗机制在ABSA任务中对方面词的情感权重分布有显著提升。在滑窗应用之前,各词的权重分布较为均匀,包含了许多无关词汇;而在滑窗应用之后,靠近方面词的词(如“slow”对于“Service”,“friendly”对于“People”)权重显著增加,远离方面词的词权重则明显降低。滑窗机制有效聚焦了与方面词相关的关键情感信息,增强了模型在ABSA任务中的情感识别精度。
图6展示了不同训练目标下的损失变化,包括交叉熵损失(L_CE)和对比损失(L_contrast),可以看到随着训练轮次的增加,损失逐渐下降,表明模型在不断优化。下图则展示了不同数据集(如笔记本电脑和餐馆)上的验证集评估指标(如准确率)随训练轮次的变化,随着训练的进行,模型在这些数据集上的表现逐步提升,进一步验证了模型的有效性和泛化能力。
Figure 6. Training loss curves and validation evaluation metrics
图6. 训练损失曲线与验证集评估指标
5. 结束语
本文提出的AdaptWin-ABSA模型通过结合BERT、变分自编码器(VAE)、自适应滑窗机制和对比学习策略,显著提升了方面级情感分析任务中的情感区分能力和上下文特征建模效果。在多个公开数据集(SEMEVAL 2014和ACL14)上的实验表明,AdaptWin-ABSA在准确率和F1值方面均优于现有的主流方法,展示了其在多方面情感分析中的卓越性能和鲁棒性。
尽管AdaptWin-ABSA在多项实验中取得了良好表现,但模型仍存在一些局限性。首先,由于包含 BERT与VAE结构,整体计算成本较高,在推理效率和资源占用方面仍有优化空间。其次,模型对噪声文本较为敏感,在非结构化或口语化数据上性能波动较大。此外,自适应滑窗机制在处理极长句或复杂句式时仍可能遗漏跨距离的关键情感依赖。
未来研究可从三方面推进:其一,探索模型轻量化策略(如剪枝、蒸馏、低秩分解)以降低计算成本;其二,引入更强的噪声鲁棒性方法(如对抗训练、噪声建模);其三,结合图结构或跨句上下文增强模块,以更好地建模长程依赖,从而进一步提升多方面情感识别的稳定性与泛化能力。