1. 引言
随着社交网络的普及,人们日益习惯在互联网上分享各类信息,如文本、数字图像和视频等。在这些信息中,文本扮演着举足轻重的角色,人们倾向于分享关于社交科学、热门话题、电影等领域的观点和见解,这些观点通常以短文本的形式呈现 [1] 。短文本具有简洁、有效的特点,然而,理解和分析其中的情感类型却颇具挑战性 [2] 。情感分析在理解文本核心内容及获取有价值信息方面具有关键作用,其目的在于挖掘和提取文本中的客观或主观信息 [3] 。但当前研究多把该问题作为一种通用类型处理,往往忽视了句子类型的差异。一些研究着重对包含明确情感目标的文本进行情感极性分类 [4] ,而另一些研究则通过比较句子内容来确定其具有积极的情感极性 [5] 。
评论是对特定主题(如电影或产品)的观点和情感反应的简短表述。这些评论有助于负责人理解反馈和对他人的影响,从而判断是否购买产品或观看电影。应用情感分析有助于总结评论者所表达的观点。然而,评论在长度、包含的主题多样性、样本大小以及更多或更少明确的情感、强调情感的词汇和无关信息等方面存在差异。因此,对这些评论进行详细分析并提取所描绘的情感框架可能对推荐系统有所帮助。在将这些评论作为任何模型的数据集之前,需要进行预处理。迁移学习已成为实现高准确处理自然语言的重要方法之一,无需大量处理单元和大型数据集。自然语言处理(NLP)模型,如词向量、段落向量和BERT,已被应用于迁移学习,在自然语言处理有重大贡献。
本文旨在探索通过整合传统深度学习模型是否能在提高准确性的同时取得更好的效果。将各个模型的优点结合起来,以弥补单个模型所存在的不足,以获得更优异的性能。
2. 相关工作
2.1. 情感分类
近年来,情感分析已经成为自然语言处理(NLP)领域的一个重要研究方向,并得到了广泛关注。在评论中弥合词汇差异对于增强数据上下文理解具有关键意义。由于情感分析涉及多个层面,许多研究采用不同类型的分析方法,如主观情感分类、目标导向情感分析、比较性情感分析和条件句情感分析等。
主观情感分类主要关注区分表达观点类型与事实信息类型。为了评估情感文本的极性和强度,APPEL等人 [6] 提出了一种混合方法,结合了SentiWordNet和Fuzzy模型,进一步分析句子的情感。此外,Gavilanest等人 [7] 提出采用无监督文本分类方法预测在线句子中的情感,以提高情感分析的效果。
2.2. 情感分类的深度学习方法
随着技术和计算机视觉的发展,基于深度学习的架构在准确性和复杂度方面已经超越了现有方法。相较于其他自然语言处理(NLP)和机器学习(ML)架构,深度神经网络(DNN)模型已经达到了较高的成熟度。唐等人 [8] 对各种基于深度学习的情感分类方法进行了详细的调查。通过从大量未标记的文本中训练连续的语义表示,可以进一步用于下游任务的训练。Bojanowski等人 [9] 还采用了将单词拆分为字符n-gram的技术,以加快训练速度并减小词汇量。Alaparthi和Mishra [10] 提出了一种基于Bert模型的情感分类方法,并将其与其他模型(如LSTM、逻辑回归等)进行了比较。王等人 [11] 将评论和方面信息拼接为句子对输入BERT模型,结合BiGRU和CNN进行文本分析。杨等人 [12] 通过优化情感词典的特征词的权,结合BiLSTM、CNN和注意力机制。因此,本文提出了一种混合BiLSTM-BiGRU模型,结合BERT嵌入和自注意层,以更好地对评论进行分类。
3. 模型构建
本文提出了一种融合混合双向长短时记忆网络(BiLSTM)、双向门控循环单元(BiGRU)和一维卷积神经网络(CNN)以及其他几个层的方法。该方法采用了基于BERT嵌入 + BiLSTM-BiGRU + 自注意力和一维CNN的框架,用于情感分类和分析,如图1所示。

Figure 1. BERT + BiLSTM-BiGRU + self-attention and CNN model
图1. BERT + BiLSTM-BiGRU + 自注意力和CNN模型
3.1. BERT和词嵌入
独热编码在表示词的类别数量很多时,特征空间会变得非常大。在实际应用中可能不太现实。相比之下,词嵌入以较低密度的数字向量表示单词和短语,降低了维度。许多NLP任务已经采用了词嵌入技术,例如GloVe和Word2Vec。在对不同的嵌入和架构进行实验之后,发现BERT嵌入相对于其他嵌入有更好的效果,因此在模型中采用了BERT嵌入,如图2所示。
BERT具有两种任务:一是掩码语言模型,被屏蔽的输入单词序列的百分比为15%,完整的序列被馈送到深度双向Transformer编码器,然后对被屏蔽的单词进行学习;二是邻句预测模型,BERT接受两个句子作为输入,以理解句子之间的关系,并了解两者中的一个是否跟随另一个或没有关系。
注意力架构采用整个输入序列并行处理所有输入标记,以找到它们之间的关系。此外,BERT需要特定结构的输入。该格式由作为第一个标记的分类标记(CLS)和每个句子后面附加的分离标记(SEP)组成。输出是序列嵌入,可以帮助对整个序列进行分类。可以对其进行微调以获得良好的结果。
3.2. 混合BiLSTM-BiGRU层
本文提出的BiLSTM-BiGRU的体系结构模型,如图3所示。该模型通过将BiLSTM和BiGRU模型以串联的方式相互连接,实现了模型的集成。具体而言,BiLSTM-BiGRU模型由LSTM和GRU两个子模型组成,这两个子模型在正向和反向方向上相互连接,从而形成了一个完整的模型结构。该模型的设计旨在提高模型的表达能力和学习能力,以更好地应对复杂的序列数据分析任务。
LSTM/GRU模型采用双向处理方式,从两端开始处理数据,并向中间逐步推进。根据图3所示,左侧方块表示BiLSTM-BiGRU模型在正向方向上进行操作,右侧方块表示BiLSTM-BiGRU模型在反向方向上进行操作。
在每个时间步t,LSTM/GRU的前向隐藏层通过先前的隐藏状态
和当前输入值
计算得出,其隐状态函数为
。在后向LSTM/GRU中,其隐状态
通过未来的隐藏状态
和当前输入值
计算得出。
因此,前向层的隐层值可表示为:
同样地,后向层的隐层值可表示为:
为了提取预测目标特征,将前向隐藏层输出
和后向隐藏层输出
相结合。在此之后,通过注意力层、一维CNN层和其他几个层进行情感分类处理。
3.3. 注意力层
将BiLSTM-BiGRU模型与自注意力机制相结合,以提取文本特征。这种结合可以确保全面提取文本特征并重点保留关键信息。在目标提取输出中,如果所有单词的贡献不相等,注意力层将被用来提取重要单词并聚合它们的表示形式以形成句子向量。为此,首先定义了权重矩阵 、偏置向量 和上下文向量,并通过让算法学习所有权重来计算单词的注意力相似度分数。
经过BiLSTM-BiGRU生成词向量
,
之后,
,
……由以下公式得出:
其中,W和b是随机初始化的,u可以看成是非线性的,应用于循环神经网络(RNN)的输出,v1,v2……由以下公式得出:
其中,u是随机初始化的上下文向量,v可以被视为相似性向量,当u和u1之间的相似度较高时,v的值也会较高。最后,特定词汇s1的注意力相似性指数可通过如下公式得出:
这个输出会依次经过Dropout层、Dense层和ReLU层的处理。
4. 结果和讨论
4.1. 数据集
论本实验使用了Kaggle的“Amazon reviews for sentiment analysis”数据集。该数据集以输入文本的形式包含了亚马逊客户的评论,而星级评级则作为输出标签。数据集分为训练集和测试集,评论标签包括积极评论、消极评论。实验数据的统计情况如表1所示。

Table 1. System resulting data of standard experiment
表1. 标准试验系统结果数据
4.2. 对比试验
为了验证分类算法BERT-Att-BiLSTM + BiGRU + CNN的有效性,本文选择了多个基准分类算法进行比较,并使用精确率、召回率和F1值来评估不同模型的分类效果。具体的实验设计如下:
1) Att-BiLSTM:将BiLSTM与Attention机制相结合,通过BiLSTM捕获文本序列的信息。根据各特征的重要性,利用Attention机制关注关键内容。
2) Word2vec-Att-BiLSTM:该方法改进了基于Word2vec的文本向量表示,并将Attention与BiLSTM模型结合应用于短文本情感分析算法。
3) BERT-LSTM:该模型通过LSTM网络将BERT不同隐藏层的输出的[CLS]表征向量进行融合。
4) BERT-Att-CNN:该模型使用BERT词向量模型训练得到的词向量作为输入文本的表示,引入Attention机制,并使用CNN神经网络进行特征提取和分类。
5) BERT-Att-BiGRU:该模型在BERT的基础上融合了BiGRU和注意力机制。
6) BERT-Att-BiLSTM:该模型使用BERT词向量模型训练得到的词向量作为输入文本的表示,结合Attention机制,并使用双向BiLSTM神经网络进行特征提取和分类。
本文采用准确率、召回率和F1值指标来评估所提出的BERT嵌入 + BiLSTM-BiGRU + 自注意力 + 1-D CNN模型的性能。通过与上述6个模型进行对比,可以验证BERT、BiLSTM和Attention机制的有效性,并将计算得到的各种性能指标列在表2中。

Table 2. Comparison table of results data
表2. 结果数据对比表
4.3. 实验结果及分析
根据实验结果表格,本文提出的模型在精确度、召回率和F1值方面分别达到了91.98%、91.07%和91.52%,明显优于所有对比模型。在比较ATT-BiLSTM与Word2Vec-ATT-BiLSTM算法时,发现采用Word2Vec词向量表示有助于保留词汇间的语义信息,并减少语义损失的风险,从而在一定程度上提高了模型的表现。
将BERT-BiLSTM与BERT-Att-BiLSTM算法进行比较时,可以看出引入注意力机制有助于有效捕获句子中的局部信息。相较于BERT-BiLSTM模型,BERT-Att-BiLSTM模型在准确率、召回率和F1值方面分别提升了1.21%、0.93%和1.07%。
通过比较BERT-Att-CNN和BERT-Att-BiLSTM,发现CNN确实有助于在词的水平上产生空间局部相关性,但对于推断诸如“环境不太好,但还行”这类代表矛盾观点的评论时,表现不尽如人意。相比之下,LSTM能够捕获全局特征,因此在模型准确率、召回率和F1值方面分别提升了1.33%、2.2%和1.77%。
对Word2Vec-Att-BiLSTM和BERT-Att-BiLSTM的比较分析表明,基于BERT的模型优于Word2Vec。这主要归因于Word2Vec在表示文本时存在特征稀疏和隐含语义缺失的问题。相较之下,BERT在短文本预训练中使用的掩码策略更易于提取低层次语义信息,从而在提出的模型中发挥更大的作用。因此,模型的准确率、召回率和F1值分别提升了1.33%、2.2%和1.77%。
本文提出的混合模型在处理亚马逊数据集中的评价情感分类任务上表现出了优越性。通过将BERT嵌入与BiLSTM和BiGRU相结合,BERT嵌入发挥了关键作用。它能够有效地捕捉词语之间的隐含关系,并为后续层提供丰富的语义信息。
在混合模型中使用BiLSTM-BiGRU相较于单独使用它们能够获得更好的结果。这得益于BiLSTM和BiGRU之间的协同作用,它们能够相互弥补彼此的不足。BiLSTM和BiGRU分别从两个方向捕获上下文信息,使得模型能够更好地理解文本的含义。重置门的引入加快了遗忘不必要信息的速度,共同提高了模型在文本分类任务中的准确率、召回率和F1值。
5. 结论
本文提出的情感分析模型Bert-BILSTM-BIGRU-CNN,将BERT预训练语言模型、双向长短期记忆网络(BiLSTM)和双向门控循环单元(BiGRU)集成用于提取文本特征,并添加了自注意力机制以更好地理解上下文。能够更准确地对亚马逊数据集中的评价情感类型进行分类。这一成果表明,通过合理地整合现有的模型和技术,可以在自然语言处理领域实现更高效和准确的文本分类。
基金项目
国家自然科学基金资助项目(12371508, 11701370);上海市“系统科学”高峰学科建设项目。
参考文献
NOTES
*通讯作者。