1. 引言
随着数据时代的来临,对大量数据的正确处理分析可以起到促进消费的作用。计算机技术的蓬勃发展催生了大数据技术和相关挖掘信息方法的发展与应用。随着网络的发展,线上消费购物给人们带来了诸多便利的服务,足不出户就能轻松收到货物。
国外对商品评论评分的研究集中体现以下三个方面,第一:主观语言识别 [1] 。商品评论的文本属于自然语言,用来表达人类对这个事物的看法,褒贬不一,情感类别不一,也称为语言的倾向或极性。第二:情感倾向分类 [2] 。对商品评价文本处理时可以按照情感类别关键词来划分,大致可以划分为积极评价与消极评价。第三:通过挖掘商品之间的联系来分析商品间的相关性。多项研究表明,商品评论情感分析能够表达消费者对于产品的认知。但当前的研究主要是围绕商品评论和用户推荐,但少有学者综合其他变量来统计商品评价分数的变化。
因此,对商品评论的情感分析研究十分重要,要考虑综合文本数据。Saranya等人 [3] 利用情绪来扩展见解,基于用户的信任偏好来分析用户的情感相互性,研究内部的潜在联系。刘永芬 [4] 改进了以往的支持向量机方法,提出了一种基于特征选择的多分类支持向量机方法。该方法可以有效地选取对分类有贡献的特征,提高了分类的精度和效率,在中文文章数据集中有良好的表现。曾小芹等人 [5] 利用Selenium爬虫索引,并使用Jieba单词分类器对评论文本进行分离和标记。在此基础上还利用snowNLP库进行情感分析,并将结果可视化,同时使用精确率和召回率对结果进行评估和分析。
基于此背景,本文提出:基于LDA模型的商品评论情感分析研究。首先进行数据清洗,再利用LDA模型得出主题词。其次利用TF-IDF词向量的方法将文本向量化,以评论正、负面作为标签,分别通过伯努利朴素贝叶斯模型、多项式朴素贝叶斯模型和逻辑回归模型进行初步文本情感分类,并利用精确率、召回率、F1度量、ROC曲线四种指标来评价三种模型预测评论为正面的效果,得出逻辑回归模型的预测效果最优。最后综合实际打分、预测出的评论为正面的概率、“有用”比例、是否购买、是否是会员五项指标计算出评论文本的综合情感得分。并通过以上研究提出相关商品改进建议,从而提高商品销售率。
2. 算法步骤
2.1. 数据处理
原始数据集中存在很多的无用信息,这对未来的研究挖掘有很大的影响,所以在进一步研究前首先要进行数据清洗。首先去除与数据分析无关的字段,如市场代码(marketplace)等字段,保留评论星级(star_rating)等字段。其次去除没有认证购买的商品评价,将数据标记“n”、“y”转换为“0”、“1”,将字符串数据转换成浮点数,便于下一步的统计分析和预测。最后将评价标题与正文拼接起来,去除无关的标点符号,将缺失值填充为0,将字母统一转换为小写,便于后续的文本分析。
2.2. 主题词提取
LDA由David M. Blei,Andrew Y. Ng,Jordan于2003年提出 [6] ,用于推测文本文件围绕主题分布的情况。利用使用LDA方法进行主题建模。LDA模型能够从大量的文本中挖掘出潜在的主题信息,而且这种模型具有良好的数据降维能力和模型扩展性,已经被广泛应用于各种文本分析的重要任务中。本研究找到了每种商品的最差评价(一星)和最好评价(五星)的三类主题词。
2.3. 初步情感分类
TF-IDF是一类常用于海量信息精确检索和文本准确挖掘的加权方法 [7] 。其中,TF意思是词句频率,IDF代表逆文本内容的频率指数。该方法适用于评估某个词句对于文本或语句资料库的特殊性。其中TF-IDF的计算公式,如公式2-1所示:
(2-1)
其中TF的计算公式如公式2-2所示:
(2-2)
其中IDF的计算公式如公式2-3所示:
(2-3)
2.4. 模型构建
朴素贝叶斯算法中有一种变式被称为多项式朴素贝叶斯,其可用于处理多个分布数据,并被广泛应用于文本分类。通过研究得出多项式朴素贝叶斯模型的预测精度为0.8307692307692308。伯努利朴素贝叶斯模型实现了针对多个伯努利分布数据的朴素贝叶斯训练和分类算法,即具有多个特征,但每个特征都假定是一个二元变量。通过研究得出伯努利朴素贝叶斯模型的预测精度为0.8402714932126697。逻辑回归是一种广义的逻辑回归分析的实用模型,属于机器学习中的监督学习 [8] 。它是通过给定的x组数据(训练集)进行模型训练,然后对给定的一组或多组数据(测试集)进行分类。通过研究得出逻辑回归模型的预测精度为0.8927601809954752。
通过对比伯努利朴素贝叶斯模型、多项式朴素贝叶斯模型和逻辑回归模型进行文本情感分析,可以采用精确率、召回率、F1度量和ROC曲线等指标来评估各类模型的效果,通过研究可知在ROC曲线对比中逻辑回归模型表现最优。精确率是表示预测样本中实际为正样本的比例。根据研究可知多项式朴素贝叶斯模型预测评论为正面的精确率为1.00;伯努利朴素贝叶斯模型预测评论为正面的精确率为0.58;逻辑回归模型的精确率为0.74。召回率指的是样本中的所有正样本中,有多少正样本被模型正确预测。通过研究可知多项式朴素贝叶斯模型预测评论为正面的召回率为0.02;伯努利朴素贝叶斯模型预测评论为正面的召回率为0.27;逻辑回归模型的召回率为0.59。F1度量基于精确率与召回率的调和平均定义的。通过研究可知多项式朴素贝叶斯模型预测评论为正面的F1度量为0.04;伯努利朴素贝叶斯模型预测评论为正面的F1度量为0.37;逻辑回归模型的F1度量为0.66。
由于本研究是利用模型来预测评论为正面的概率,在挑选模型时会更加看重预测精度和F1度量的数值,故经过对模型预测精度、精确率、召回率、F1度量和ROC曲线的综合考虑,最终选择逻辑回归模型作为最终的预测评论为正面的模型,并将solver设置为'lbfgs'。
3. 实验结果及分析
3.1. 实验数据集
本文的数据条数约三万余条,分别来自亚马逊购物网站的三类商品,即微波炉、吹风机、婴儿奶嘴。这些数据包括商品的名称、类目、评价内容、星级评分、评价时间等信息。
3.2. 评分标准
本文的研究文本计算是基于综合实际打分、预测出的评论为正面的概率、“有用”比例、是否购买、是否是会员的这五项重要指标来计算出文本数据综合得分。
利用训练出的逻辑回归模型去预测每条商品评价为正面评价的概率。首先定义“final_rate”为文本数据综合得分,再利用评论中的星级评定(star_rating)、预测出的评论为正面的概率(pos_prob)、“有用”比例(helpful_rate)、是否购买(verified_purchase)、是否是会员(vine)。从而利用权重公式3-1计算出综合得分:
(3-1)
3.3. 实验结果分析
本文是基于LDA模型研究商品评论的情感,首先进行数据处理,如去除无关字段等;再利用LDA模型提取三种商品的一星和五星评价主题词;在此基础上利用TF-IDF词向量将主题词向量化,并使用逻辑回归模型来预测商品评论为正面的概率;最后利用上文提出的权重公式计算评价综合得分。由权重公式可以看出综合得分较高的评论是可信度较高的评论。
综上,根据计算出的文本数据综合得分,关于吹风机类可以得出四点建议。建议一:设计一款便于旅行携带的小尺寸的吹风机。建议二:保证吹风机有足够大的风力以便快速吹干头发。建议三:吹风机应当设计安全装置。建议四:首先应该控制成本,制定合理的出厂价格。
根据计算出的文本数据综合得分,关于婴儿奶嘴类可以得出四点建议。建议一:保证安全的前提下设计更加可爱的造型。建议二:原材料应当是无毒无害的。建议三:提高奶嘴的安全系数。
根据计算出的文本数据综合得分,关于微波炉类可以得出四点建议。建议一:设计恰好可以放进灶台角落的微波炉。建议二:硬件质量应该升级。建议三:设计足够大的火力。建议四:微波炉的控制程序应该设计得简明清晰并且易于使用。建议五:做好售后服务。
4. 总结与展望
在线评论评分是获取用户需求的一种信息来源,而且可以帮助潜在买家做出正确的购买决策。本文提出了一种基于LDA主题的评论情感分析方法。该方法通过结合亚马逊网站上三种商品评论的文本、用户是否为会员等信息来分析商品评论的情感,并提出了一些建议。在未来研究中,将该情感分析方法应用于医疗服务评论情感分析中。