1. 引言
随着科学技术的进步和互联网的普及,越来越多的网民不仅可以在互联网平台浏览文字新闻等信息,而且可以在互联网平台发表自己的观点和看法,比如电子商务网站中包含了众多商家对产品或服务的在线评论,文本信息呈爆炸性增长。从这些海量的文本信息中获取用户的首要选择或建议对于产品更新和服务改进至关重要,这就需要对文本进行情感分析。而情感分析是自然语言处理技术中文本分类的应用,是提取和识别文本中表达的观点或评价的情感极性的任务 [1] 。该技术在Web搜索、主题词提取、垃圾邮件或不良信息检测等领域有着广泛的应用。根据粒度的不同,可在文档级、句子级和方面级三个不同层次上考虑情感分类。
大量的文本数据如果只依靠人工进行筛选标注,会非常耗时耗力。目前,主要是用机器学习深度学习等方法,将收集数据集通过模型训练预测情感极性。张德阳 [2] 等提出了一种与主题相关的关键词提取算法,对微博情感倾向进行研究,得到微博句子情感极性。谷歌Devlin [3] 等提出BERT (Bidirectional Encoder Representation from Transformers)模型,在自然语言处理任务中大放异彩,而且在情感分析任务中取得了良好的效果。主要是增加了掩码遮蔽策略并保留了传统的预测策略,该模型能获得比较完整的语义信息。但是,该模型随着语料库的增加和模型非常多而繁琐,训练时间和成本增加。因此谷歌Lan [4] 等在BERT模型基础上进行了改进,提出了ALBERT (A Lite BERT)模型,该模型大大降低了参数量,提高了训练速度,而且效果不相上下。Kun [5] 等为使学习任务能够主动适应预训练模型,可以通过添加模板改变模型输入,从而促进预训练模型的创新和适用性,促进预训练模型在情感分析等任务中的有效利用。对于传统的卷积神经网络(Convolutional Neural Network, CNN)、循环神经网络(Recurrent Neural Network, RNN)和长短期记忆网络(Long Short-Term Memory, LSTM),在情感分析任务中有较好的性能和突破 [6] ,但是受欧式结构化数据的限制。因此原本是非欧式结构化的文本等数据,只能单独对文本自身的上下文进行语义提取,而不能够对文本之间的相关信息进行表示,从而无法提取文本句法结构、空间等信息。Yao [7] 等对于文本分析任务,首次提出文本图卷积网络(Text Graph Convolutional Network, TextGCN),该模型非常适合处理这类非欧式结构化数据。Lin [8] 等先对数据集用BERT预训练,作为文本图节点特征,输入到图卷积网络中进行训练,弥补了TextGCN不能充分提取语义信息的不足,但是BERT参数大和文本图节点多,迭代更新会非常耗时。本文提出了ABGCN模型,首先用轻量级语言模型ALBERT预训练,作为所构造文本图的节点特征,可以提取文本语义特征信息。然后输入到文本图卷积网络中训练,能够提取节点更深层的特征信息并且去除无用信息的干扰,可增强文本特征。最终实现在线商品评论文本的情感分类,并有较好的性能。
2. 数据采集及预处理
本实验数据集使用网络爬虫技术爬取京东平台上各类商品的用户评价数据,采集时间为2023年11月1日,共包含19,742条数据,4列,每行包含:用户名;评价星级(star 1~5);用户评价内容;评价时间。数据示例见表1所示。
首先需要对数据进行预处理,在线商品评论会存在大量复制粘贴的情况,为了降低训练时间和复杂度,对数据进行去重,去重后数据共有16,507条。将评价星级转为评价类型,分别为好评和差评,将star 4~5划分为好评,并设置标签为“1”;star 1~3划分为差评,并设置标签为“0”,其中标签类别统计见图1。
删除数据中除字母、数字、汉字以外的所有符号,中文数据集需要用jieba进行分词处理,可以通过采用专门的算法和字典,能够将中文文本切分成有意义的词语,方便进行后续的处理和分析。去掉文本数据中被过滤或忽略的常见词语即停用词,如“的”、“是”、“我”等这些词语通常不携带太多的语义信息,因此去除它们可以减少数据中的噪声,使得后续的分析更加准确和可靠,数据集语料生成的词云见图2。
3. 基于文本图卷积网络的情感分析模型
本文基于图卷积网络的ABGCN模型使用ALBERT模型预训练词向量得到文本语义信息特征,构造文本图并将预训练的向量作为文本图节点特征向量,输入到两层文本图卷积网络模型训练,最后发送给softmax分类器进行情感分类。该模型可以充分提取文本的语义信息等,从而提高模型分类的准确率。
3.1. ALBERT模型
3.1.1. 模型基本架构
ALBERT模型是对采用了多层双向编码Transform编码的传统BERT模型轻量级改进 [4] ,模型图见图3,预训练后的特征向量用
表示。除了保留了BERT模型优点外,还主要通过词嵌入参数因式分解和跨层参数共享两大机制进行了改进。
首先对词嵌入参数进行了因式分解,分解为两个小矩阵。将向量映射到一个低维词嵌入空间E (BERT模型H = E,参数多),然后再映射到隐藏空间,在词嵌入和隐藏层之间加入一个project层,连接两个层。其次跨层参数共享的机制是单独用一个自注意机制循环12次,每一层使用相同的参数。该模型还采取了句间语序预测SOP (sentence-order prediction)方法,其组要是句子顺序预测,正样本为正常顺序的2个相邻句子,负样本为调换顺序的2个相邻句子,所以此任务能够让模型学习到更多的信息 [9] 。
3.1.2. ABGCN模型词嵌语义提取层
给定
是评论文本一个句子中词语序列化的n个字符,是组成句子的n个词语,被映射到一个嵌入向量中进行输入。词嵌入是用ALBERT模型将句子中的每个词映射成词向量,该模型减小了传统BERT模型参数量,解决了传统模型太复杂参数过多会消耗大量时间的问题。该模型更加适合获取文本图节点特征对于文本图卷积网络节点多等较为复杂的模型。所有的文本形成一个词嵌入矩阵
,其中v是所含词语的个数,d是单词向量的维数。
3.2. 文本图卷积神经网络
3.2.1. 构造文本图
首先要将文本转换为图,形成无向图
,图网络中有两种节点类型,文本document、词word。词是文本中的不重复的词,边一共有两种边:文本和单词的边;单词和单词的边。
将ALBERT生成后的特征向量作为文本图节点特征输入到构建的文本图之中,可提取文本语义信息,然后整合输入到改进的文本图卷积网络模型,可提取语句全局结构信息,最终将语义信息和全局结构信息进行联合特征融合。过程图见图4,其中示例O1文本:灯造型大方美观,性价比高,O2文本:电脑轻薄,性价比高,O3文本:电脑外观美观大方。O为文本节点,其他是词节点,粗边实线是文本和词节点边,细边实线是词节点边,
表示x通过预训练模型后特征向量嵌入。

Figure 4. Text graph node feature extraction
图4. 文本图节点特征提取
在无向图中我们利用点互信息PMI (Point-wise Mutual Information)来计算两个词节点之间的权重,PMI的实验效果比用简单的单词共现频次作为边权重效果好。公式为式(1)~(3),其中
是所有滑动窗口中包含单词i窗口个数,
是指包含词i与词j的窗口个数,
是总的滑动窗口个数。然后通过下面公式计算边权重。
(1)
(2)
(3)
其中各边都带有不同的权重,本文和词节点的边权重用Tfidf Transformer定义,并加入自循环,边的权重
总结通过式(4)来定义。
(4)
3.2.2. 图卷积层
图卷积网络是一个多层神经网络,它直接在图上运行,并根据节点的邻域属性诱导节点的嵌入向量。在形如
图中,
和E是节点和边的集合,
是包含n的节点的特征矩阵,其中m是特征向量的维度。在图结构中引入邻接矩阵
,由于自循环对角元素设置为1,
为顶点的度矩阵
。对于单层图卷积网络,k维度特征节点矩阵,迭代公式为式(5)。
(5)
其中
,
是归一化的邻接矩阵,激活函数使用ReLU,本文ABGCN模型使用有两
层GCN,使用图卷积运算对文本图进行卷积,来合并高阶邻域信息,其中
,则j层卷积迭代公式为式(6),
为第k层的权重矩阵;
为第k层GCN的输出,经线性变换得到图卷积层整个更新迭代最后的输出为式(8)。
(6)
(7)
3.2.3. 模型训练
用Softmax分别输出ALBERT层和GCN层的分类概率为式(8)~(9),最后输出ABGCN模型和ALBERT模型输出分类概率的线性插值,可以平衡两个模型的分类效果从而提高ABGCN的模型情感分类性能。并加入dropout层来防止数据过拟合,提升模型的泛化能力,优化器选用Adam。图模型有助于捕获句法全局信息,以提高情感分类性能。
(8)
(9)
(10)
损失函数采用交叉熵,
是交叉熵的文本索引集,F是输出的类别数,本文数据集是二分类,Y是标签指示器矩阵,如式(11)。
(11)
4. 实验分析
4.1. 实验条件环境和参数
实验操作系统是在Ubuntu20.04,显存:32 GB,处理器是GPU:V100-32GB,CPU为10 vCPU Intel Xeon Processor (Sky-lake, IBRS),采用python语言在pycharm工具下实现,开发环境为python3.8、pytorch1.5.1。实验设置训练集测试集验证集比例为8:1:1。实验模型中ALBERT采用albert-Chinese-small,实验参数设置见表2所示。
4.2. 对比实验设计
根据本文介绍为验证此模型的优越性,与现有基础模型作对比模型实验,共设计6种。
1) CNN:卷积网络CNN提取文本特征,最后用softmax情感分类。
2) LSTM_att:长短时记忆网络LSTM进行文本特征提取,并加入注意力机制。
3) BiLSTM_att:使用双向长短时记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)进行文本特征提取,并加入注意力机制。
4) BERT:使用bert-base-chinese预训练模型 [3] 。
5) ALBERT:使用albert-chinese-small预训练模型 [4] 。
6) BERTGCN:使用BERT模型输出作为文本图的节点特征,输入到文本图卷积网络中 [8] 。
4.3. 评估指标
本模型主要用以下评价指标,分别为准确率(Accuracy, Acc)、精确率(Precision, P)、召回率(Recall, R)和F1值,准确率是分类正确文本占总文本的比例,精确率判断为正例子中被正确分类的文本比例,回召率是指真实为正例子中正确判断的比例,而F1分数值是综合性评价指标,可以表示模型整体文本情感的预测效果并且能衡量整个分类模型的整体性能,其计算公式为式(12)~(14)。
(12)
(13)
(14)
4.4. 实验结果分析
记录本文模型与其它6种模型的测试集平均分类准确率和F1值其结果见表3和图5,本文模型训练准确率和损失值见图6。

Figure 5. Compare each index value of model results
图5. 对比模型结果各个指标值

Figure 6. Models training accuracy graph
图6. 模型训练准确率和损失值图
根据表3和图5,分析本章模型和其它6组对比模型实验结果,通过实验1、2、3、4验证了本文模型比现有的卷积模型有更高的准确率和F1值。通过实验5 [3] 和实验6 [4] ,BERT模型准确率和F1值比ALBERT模型略高,但是通过实验7 [8] 和实验1,将ALBERT预训练模型替换BERT模型作为文本图节点特征向量,准确率和F1值分别升高了0.12%、0.06%;根据图6所示,在模型训练达到稳定后ABGCN具有较高的准确率,并且其损失值更低,而且本文模型的模型参数量是实验7模型参数量的0.05%,提高了运行效率。验证了ALBERT模型较适合作为图卷积网络节点特征向量,输入到文本图节点多而较复杂的图卷积网络。实验6模型和本章模型、实验5模型和实验7模型相比,去除了图卷积网络模块,发现准确率分别下降了0.79%、0.37%,F1值分别下降了0.72%、0.37%,验证了图卷积网络的重要性。将节点进行特征表示能提取更深层语义特征信息,输入到图卷积网络中训练充分提取文本全局结构信息。综上所述,本文ABGCN模型准确率和F1值均高于对比模型,本章提出的模型可以更好提取文本语义和全局结构信息,对于在线商品评论文本情感分类有较好的性能。
5. 结论与展望
本文提出了ABGCN情感分析模型,本文实验数据集使用网络爬虫获取的19,742条京东商品评论文本,经过实验分析验证了以下结论。使用ALBERT预训练模型作为文本图特征节点输入,解决了传统模型不能充分提取文本语义信息和全局结构信息的问题,实验结果准确率和F1值分别达到了92.37%、92.20%,相比传统模型提高了其性能,并且ABGCN较文献 [8] BERTGCN准确率和F1值分别提高了0.12%、0.06%,ALBERT模型参数少较适合联合训练图卷积网络文本图节点多等复杂的模型。本文模型可以更好提取文本语义和全局结构信息,通过实验验证了本文模型对在线商品评论文本情感分析有较好的性能。但是目前在构建文本图过程中还缺少使用其他外部语料知识等信息,后续研究可以进一步提升这类信息的特征提取能力,可以有更好的性能。