1. 引言
近年来,在网络的影响下,人们可以通过各大电商平台在网络上进行购物,并在使用后对商品进行评论,或在社交平台上表达自己对于某件事的看法、感想等。我们可以通过提取网络上的这些情感信息从而分析消费者的想法以及舆论的倾向等,为后续改进的方向与决策的实施提供便利。情感分析主要以计算机技术为基础,分析电商平台与社交平台评论的情感倾向 [1] [2],从而挖掘出更多重要信息。目前该项技术已经广泛应用于政治与经济等领域 [3]。
本文利用深度学习方法构建了情感分类模型,提出基于长短期记忆(Long Short-Term Memory, LSTM)神经网络模型的情感分类方法,通过实验分析比较了本文方法与卷积神经网络(CNN)、循环神经网络(RNN)性能的差异,实验结果表明本文方法可以很好地解决长距离依赖问题,具有较好的分类效果。
2. 相关工作
情感分析的研究历程主要分为基于情感词典的方法、基于传统机器学习的方法、基于深度学习的方法三个阶段。
基于情感词典 [4] 的情感分类方法主要是将文本中的单词与情感词典中的词进行匹配从而得到文本的情感倾向。该方法的分类质量主要取决于情感词典是否全面且精确。然而,由于分类结果对情感词典的依赖性较高,网络时代新的词语与文本诞生的速度很快,使得该方法不能很好地应用于实时评论数据分析。
基于机器学习的情感分类算法 [5] [6] 是利用训练好的分类器对文本的情感倾向进行分类。比较常用的方法有朴素贝叶斯方法,主要通过计算先验概率、后验概率、条件概率等来对文本的情感进行分类,该方法对小规模数据表现良好;最大熵方法主要通过计算文本的熵值来进行分类;支持向量机方法通过核方法来进行优化,并加入了正则项来提高模型的泛化能力。与基于情感词典的方法相比,机器学习方法提高具有一定的自主性,不需要制作特定词典进行分类,只需要对标记好的语料库进行训练即可。但对语料进行标注需要花费大量人力与物力 [7]。
随着网络的发展,传统的情感分析方法在处理文本数据时效率低下。而随着深度学习的出现与发展,基于深度学习的情感分析模型逐渐发展壮大。常用的基于深度学习的情感分析算法主要包括:卷积神经网络CNN [8]、循环神经网络RNN [9] 以及由RNN改进而来的长短期记忆网络LSTM [10]。其中,CNN模型存在许多局限性,虽然其通过卷积层对特征图进行了提取,获取了文本中最重要的特征,但同时也失去了该特征的位置信息,而位置信息在文本情感分析中往往十分重要。RNN的出现使文本序列问题有了解决方法,但还是无法解决文本的长距离依赖问题。而LSTM网络通过添加记忆单元使得网络能够处理长距离信息,适用于文本情感分析问题。因此,本文基于LSTM构建文本情感分类模型,对文本的情感倾向进行预测与分类。
3. 基于LSTM的情感分类模型
LSTM的主要原理是在隐藏层添加一种特殊的记忆单元来保存长距离信息,并加上了特殊的门结构,包括输入门、输出门和遗忘门,这些门结构会协助处理信息在网络中的传递,并且记忆单元的状态更新也依赖于三个门结构的控制 [11]。图1为LSTM的单元结构图。
LSTM的关键在于记忆单元,首先该单元需要决定丢弃哪些无用的信息,这一步操作主要通过遗忘门来实现。遗忘门采用的激活函数σ为sigmoid函数,如公式(1)所示:
(1)
其中,Wf表示遗忘门的权重矩阵,bt表示遗忘门的偏置。获得的结果ft的值域为[0,1],ft通过t时刻的输入xt以及t-1时刻的输出ht-1的内容来决定该单元需要丢弃的信息。当ft的取值为0时,该单元则会丢弃过往传递来的所有信息;当ft的取值为1时,该单元则会保留所有的信息;而当ft的取值为0.5时,该单元则会丢弃部分信息。相比于RNN网络始终保留所有信息的特点,遗忘门的操作使得LSTM网络能够控制依赖信息的取舍。
记忆单元经过遗忘门的处理后,第二步则是选择需要选择向信息传送带中加入的哪些新的信息,主要通过输入门来实现。添加的新信息主要分为两个部分,首先,采用σ函数对两个输入信息xt和ht-1进行处理,根据公式(2)获取有用的新信息it。其次,利用公式(3)计算需要加入的候选信息C̃t。
(2)
(3)
其中,Wi和Wc分别表示输入门和候选信息的权重矩阵,C̃t和bc则表示输入门和候选信息的偏置。
在通过输入门获取了新的信息后,根据公式(4)来更新当前时刻的记忆信息Ct。
(4)
其中,Ct-1为上一时刻的记忆单元保存并传递过来的信息。
信息更新后便是信息的输出,主要由输出门来完成。输出门分为两个部分,首先根据输入信息xt和ht-1来获得门函数ot,如公式(5)所示:
(5)
其中,Wo表示输出门的权重矩阵,bo表示输出门的偏置。
其次,将上一步获取的Ct与门函数ot相乘,从而得到本单元的的输出ht,如公式(6)所示::
(6)
正是由于以上的三种门结构使得LSTM网络能够很好的控制信息在记忆单元之间的流通,在许多自然语言处理问题中表现优秀 [12]。
基于LSTM的文本情感分类方法流程图如图2所示。首先,将从社交平台上爬取的评论数据按7:3比例分为训练集与测试集。其次,将经过文本预处理和文本向量化操作后的文本数据导入神经网络,形成Embedding层。之后再进入神经网络的LSTM层,在这一层可以对窗口大小、迭代次数、等超参数进行调节,来优化模型的训练,同时为了防止模型产生过拟合,该层也添了Dropout方法,从而避免导致过拟合。
Figure 2. Flow chart of text sentiment classification method based on LSTM
图2. 基于LSTM的文本情感分类方法流程图
4. 实验结果与分析
4.1. 实验数据
实验所用的设备与环境如表1所示。
本文的语料数据集来自亚马逊的审查数据集,其主要信息如表2所示。该数据集共有10,000条样本,其中积极情感样本5097条,消极情感样本4903条,其中70%的文本样本作为训练数据集,30%的文本样本作为测试数据集。
Figure 3. Flow chart of text sentiment analysis
图3. 文本情感分析流程图
4.2. 实验流程与参数设置
文本情感分析实验分为四个步骤,如图3所示。
首先,从网络上整理数据获取数据集,并对数据集进行数据预处理,去除文本中存在的大量噪声,通常会先消除文本的格式,再对文本进行分词处理并删除无意义的停用词。将清洗好的数据采用Word2Vec算法或Glove算法进行文本特征提取,获取低维稠密的词向量。然后,建立文本情感分析模型,将词向量或句向量输入模型中进行训练。最后,将测试集输入到模型中获取测试结果。
本文采用CNN、RNN和LSTM模型分别进行了实验,三种模型所使用的参数如表3所示。
4.3. 实验结果与分析
对本文数据进行情感二分类的实验结果如表4所示,观察表中的数据可以发现,基于LSTM的情感分类方法各项指标表现最优,说明在文本情感分析问题中,LSTM模型本身的特点保证了情感分类的准确性和实时性。通过对比表4中各个模型的结果可以看出,基于CNN的方法效果并不理想,主要原因在于文本数据是存在密切联系的序列结构,卷积操作所产生的负面影响可能会高于其提取特征的效果,从而导致整体效果较差。而RNN和LSTM是专门处理序列数据的网络结构,保留了词与词之间的位置信息,因此RNN和LSTM的分类效果优于基于CNN的方法。然而,RNN模型由于只能获取较短时间的信息,而基于LSTM的情感分类方法在RNN的基础上增加了记忆单元,能够有效解决长距离依赖问题,从而记住长期的信息。因此,基于LSTM的情感分类方法性能更好,各项评价指标均为最优。
5. 结论
针对RNN在处理长距离依赖问题时的不足,本文提出了基于LSTM的情感分类方法,在隐藏层添加记忆单元以达到长久记忆信息的目的。采用三种模型对文本情感倾向进行分类。实验结果表明卷积神经网络容易丢失文本的结构信息导致各项指标偏低。而RNN和LSTM保留了词与词之间的位置信息,在处理序列信息时具有较大优势。在三种模型中,基于LSTM的情感分类方法由于添加记忆单元,可以很好地解决长距离依赖问题,具有较好的分类效果。
今后可以进一步研究多分类模型,对文本情感进行更细致的分析。同时,研究更有效的分类方法,从而提高模型对于情感倾向的识别精度。
基金项目
大学生创新训练项目(S202110500067)。