1. 引言
随着信息技术的快速发展和Web 2.0技术的深入应用,加快了电子商务发展的速度。为了应对COVID-19的传播而实施的封锁隔离等措施改变了消费者的消费方式,人们的购物场所逐渐从线下实体店转向线上消费平台。但由于网络的虚拟性,导致产品的质量难以得到保证。消费者可以通过商家给出的产品信息和其他消费者的在线评论来了解和挑选产品,相对于商家,人们会更愿意相信其他消费者 [1] 。尽管现在有很多购物网站也提供了产品的量化标准,由于其主观性和可变性,还是建议消费者通过在线评论来做出购买决策。在线评论不仅可以帮助消费者了解产品的具体信息,降低网上购物的不确定性;同时也能帮助企业获得消费者的真实反馈,从而了解消费者的偏好和需求 [2] 。
根据中国互联网络信息中心(CNNIC)在京发布第50次《中国互联网络发展状况统计报告》显示,仅2022年上半年,全国网上零售额6.3万亿元,同比增长3.1%。网上购物量的增大,会导致每天都会有新增的大量的评论,这会导致消费者和商家从在线评论中提取信息是非常困难的。所以提出一种基于在线评论的决策支持框架,就显得极具意义和价值。
目前对于通过在线评论的研究主要分为两个部分,第一个部分就是如何挖掘出在线评论的信息,第二个部分就是如何利用在线评论来帮助决策。从在线评论文本中挖掘信息的过程也就是情感分析,最早是由Sanjiv提出,从股票留言板中提取投资者情绪,用于评估管理公告、新闻稿等对投资者意见的影响 [3] 。早期比较传统的情感分析方法主要分为两类:基于字典的情感分析技术 [4] [5] [6] ,基于语料库的情感分析技术 [7] [8] [9] 。但是其本质上依赖于情感词典和判断规则的质量,结果的准确度受限于情感词典的覆盖率和准确率。随着在线评论数据量的增加和网络用词的出现,扩充语料库需要花费大量的时间和资源,情感分类时的灵活度不高,导致其无法跟上日益复杂的文本情感分类问题。这也就诞生了基于机器学习的情感分析方法,经典的分类模型包括支持向量机(SVM) [10] [11] ,朴素贝叶斯(NB) [12] ,最大熵模型 [13] 等。目前已有研究证明在情感分析任务上,基于机器学习的情感分析方法相对于基于词典的情感分析方法,可以获得更高的准确率 [14] ,所以本文采取机器学习中的加权朴素贝叶斯对在线评论进行情感分析。第二部分是如何利用在线评论来帮助决策的研究,主要是通过分析在线评论,来帮助商家分析产品需要改进的地方,以及帮助消费者做出购买决策。常见的研究方法有TOPSIS [15] [16] ,VIKOR [17] ,TODIM [18] 和其他对产品进行排名的方法。但是这些方法的评价指标通常都是给定的,不符合客观实际情况,并且操作步骤比较复杂,消费者难以实现。DEA是一种衡量具有多输入和多输出的决策单元效率的非参数方法,我们也可以根据效率对决策单元进行排名。
针对上述情况,本文提出一种基于在线评论的决策支持框架,该框架利用机器学习的方法从在线评论文本中挖掘有用信息,再通过基准分析来帮助消费者和商家做出正确的决策,主要贡献如下:
1) 利用机器学习中的加权朴素贝叶斯对在线评论进行情感分析,RDEA模型考虑数据的不确定性对可替代产品进行基准分析;
2) 从在线评论中提取关键属性作为评价指标,从消费者的角度出发,更加客观和符合实际情况;
3) 利用python从京东(JD.COM)爬取15款笔记本电脑的101,405条在线评论进行数值实验,验证提出的决策框架的有效性和适用性。
本文的其余部分如下所示。第二节是预备知识;第三节是提出的决策支持框架;第四节是实证分析,以从京东上爬取的15款笔记本电脑的在线评论为例,验证提出的决策框架的有用性和适用性;第五节就是比较分析;第六节是结论,强调本文的主要贡献和研究的局限性以及未来的工作。
2. 预备知识
2.1. 朴素贝叶斯(NB)相关知识
朴素贝叶斯(NB)是一种机器学习的情感分析方法,属于监督学习。加权朴素贝叶斯是朴素贝斯的一个扩展,其中的属性具有不同的权重 [19] 。情感分析的过程为:首先对向量进行转化,再对分类器进行训练,为了防止模型过度拟合,按照80%:20%的比例将数据集划分为训练集和测试集,最后进行预测分类。本文利用的是pysenti库(利用的是加权朴素贝叶斯),结合句子结构给各情感词语的情感极性赋予权重,然后加权求和得到文本的情感极性得分。
朴素贝叶斯基于贝叶斯定理的概率分类技术,假设属性之间相互独立,互不干扰,利用带类别标签的训练集文本计算得到数据的先验概率,然后基于贝叶斯定理求出测试集文本属于某一类别的概率,公式如下所示:
(1)
其中,
说明数据被分为m个类别,本文设为3个类别,分为积极、中性和消极;X表示属性集合,有
,即说明总共有个n属性,对应到文本数据中为特征词的数量;若
时,未知样本的类别就判断为
类别。
表示训练集中各类别数据出现的概率,可通过计算
类别数据数量
占总样本数量N的比例来获得,
。
可通过训练文本中某类别下各属性出现的先验概率来计算得到,因朴素贝叶斯中假定不同属性之间相互独立,因此
可表示为:
。分母
对于
均为固定值,
。
由于上式具有相同的分母
,可以将
可看成是标准化因子,所以将上式化简可以得到简化的朴素贝叶斯分类器。
令
为基于朴素贝叶斯归类后的最大类别,定义如下:
(2)
由于条件独立性假设在现实中很少成立,因此需要扩展朴素贝叶斯来放松条件独立性假设,其中一种方法就是属性的加权方式不同,由此产生的模型称为加权朴素贝叶斯。加权朴素贝叶斯(WNB)的定义如下:
(3)
其中,
为加权朴素贝叶斯归类后的最大类别,并且
为属性
的权重。
2.2. 区间DEA相关知识
传统DEA模型中的输入输出数据使用的是标称数据,考虑的是数据是确定性的情况。但在实际生活中,决策单元的输入输出通常是不确定性的。因此Wang等人 [20] 提出了区间DEA模型,与传统的DEA模型不同,区间DEA模型的输出和输入处于一定的有界区间内,假设输出的取值范围为
,输入的取值范围为
,并且
。
首先,考虑对目标决策单元最有利的情况,也就是使得决策单元的输出最大化,输入最小化,此时传统DEA模型可以转化为下面的模型(4),我们可以根据模型(4)得到区间DEA模型的效率值的上限
,
是在最有利的条件下最差的相对效率。
(4)
同理,当决策单元的输出最小化,输入最大化时,传统DEA模型可以转化为以下的模型(5),此时是对目标决策单元最不利的情况,我们可以根据模型(5)来得出区间DEA模型效率值的下限
,
是在最不利的条件下最差的相对效率。
(5)
也就是说,区间DEA模型悲观的效率区间是
。
2.3. RDEA相关知识
传统DEA模型中的输入输出数据使用的是标称数据,考虑的是数据是确定性的情况。但在实际生活中,决策单元的输入输出通常是不确定性的。鲁棒优化是一种求解不确定问题中常用的方法,也就是在最坏的情况下寻找最优解。RDEA模型就是考虑不确定的输入输出,使得在最坏的情况下仍能保持鲁棒性。具有不确定性的输入输出变量通常表示为:
其中
,
,
是给定的偏离标称值,
与标称值
的扰动百分比,
是输入和输出的不确定扰动因子。
所以具有不确定输入输出
的决策单元的RDEA模型如下所示 [21] :
(6)
3. 研究框架
本研究引入了一个全面的基于在线评论决策支持框架,通过在线消费者评论来对替代产品进行排名,以供决策者更好的做出购买决策。本文提出的决策支持框架主要分为三个部分,即数据预处理、情感分析和基准分析,如图1所示。每个模块的过程和基本作用会在下面进行详细的描述。
1) 数据处理:使用python从京东平台抓取产品的在线消费者评论,对抓取到的数据进行数据清洗和预处理,然后提取出关键属性,作为判断替代产品排名的评价指标。
2) 情感分析:将清洗后的在线评论句子聚类到提取出的关键属性群组中,然后基于朴素贝叶斯对在线评论进行情感分析。
3) 基准分析:利用提出的RDEA模型来计算可替代方案的效率得分,然后根据效率得分对可替代产品进行排名。

Figure 1. Flow chart of decision-making framework
图1. 决策框架流程图
3.1. 数据处理
尽管现在很多购物网站上都提供了对商品量化标准,但是由于其主观性和可变性导致的意见两极化,还是建议消费者通过在线评论来了解商品的具体情况。数据处理的过程如下:
1) 使用python从京东JD.COM (https://www.jd.com/)爬取了戴尔、宏基、华为、惠普和联想等品牌的15款笔记本电脑的在线评论数据,可替代商品的集合表示为
。本文主要是爬取前100页的产品在线评论(京东限制最多查看前100页,不足则全部获取),得到的在线评论数据以xls格式进行存储,方便计算机程序导入数据。
2) 对在线评论数据进行预处理。先进行数据清洗,进行重新审查和校验,保证数据的一致性;然后使用jieba中文分词程序对文本的句子进行中文分词;去停用词(通常包括连词,介词、代词、标点符号、逻辑字符和特殊字符),参考哈工大停用词库;结合上下文语境对在线评论中的词语进行性质的确定以及标注,将词语分类为形容词、名词、动词等。
3) 提取关键属性。通过计算每条评论对应的Term-Frequency-Inverse Document Frequency (TF-IDF)值,选取在线评论中的候选关键词。使用word2vec,训练词向量权重,之后通过分词,去除不符合条件的词,获取频率最高的Top 200词。然后利用K-means聚类算法对获取词的词向量进行聚类,提取出关键属性,创建归一化标签。
3.2. 情感分析
情感分析是对人们的意见、情感、情绪和态度的研究,通过对文本上下文的挖掘,来识别和提取文本数据中的主观信息 [22] 。朴素贝叶斯是用来进行情感分析常用的一种机器学习的方法,而加权朴素贝叶斯是朴素贝斯的一个扩展,其中的属性具有不同的权重 [19] 。
本节旨在计算产品各关键属性的情感得分,所以首先是利用R语言中的模式匹配“match”函数,利用算法1根据关键属性对爬取的在线评论数据进行聚类。然后利用朴素贝叶斯对在线评论进行情感分析。首先对向量进行转化,再对分类器进行训练,为了防止模型过度拟合,按照80%:20%的比例将数据集划分为训练集和测试集,最后进行预测分类。本文利用的是pysenti库(加权朴素贝叶斯),结合句子结构给各情感词语的情感极性赋予权重,然后加权求和得到文本的情感极性得分。我们将情感极性得分位于
,分别分类为消极中性和积极意见。
从原始的情感极性结果中(图3)可以看出,更多的积极意见反映了更高的客户满意度,所以本文采用优势比 [23] 的定义来表示积极意见相对于其他类型意见的程度,用
来表示。
(7)
其中,
代表积极意见在在线消费评论中的概率,
代表极性为中性和消极的概率之和。
的值越大,代表积极意见的占比也就越高。
时,代表积极意见的概率等于中性意见和消极意见的概率之和。根据公式(7)变形,可以得到
。
算法1. 根据产品对在线评论进行聚类
3.3. 基准分析
DEA是一种典型的非参数线性规划性能评估模型,鲁棒数据包络分析(RDEA)是一种基于DEA的保守的方法,用于对决策单元的输入和输出数据中的不确定性建模。输入输出数据的不确定性有多种情况,结合在线评论的实际情况,本文主要考虑输出数据的不确定性,由两部分组成,一部分是确定的值,另一部分是不确定的值。输出的不确定性描述如下:
本文主要考虑输出数据的是盒子集不确定集合的情况,然后构造了输出数据是盒子集的RDEA模型。
定理1:基于盒子不确定集合的RDEA可以构造为:
(8)
其中的盒子集不确定集合定义为:
,其中
是不确定输出的鲁棒参数,用于衡量盒子不确定集的不确定度。
,
是给定的偏离标称值,
与标称值
的扰动百分比。
是输出的不确定扰动因子,L是不确定因子的个数。
分别表示第j个决策单元的输入和输出。具体的证明如下:
证明:该模型仅考虑输出数据是不确定性的,也就是说
,所以模型(4)可转化为:
(9)
并且
属于盒子不确定集合,满足
,模型(6)中的约束
,等价于下面的问题:
(10)
所以第一个约束可以转化为
,同理第三个约束可以转化为
。□
4. 实证分析
为了验证所提出的决策框架的有效性和适用性,将其应用于基于在线评论数据的实际案例中。利用python从京东JD.COM (https://www.jd.com/)抓取了15款笔记本电脑的在线消费者评论数据,包括戴尔灵越5000,戴尔游匣5515,戴尔游匣G15,宏基暗影骑士、宏基非凡S3、宏基掠夺者、华为mate book 14S 2021、华为mate book D15、华为mate book X pro 2021、惠普暗影精灵、惠普星15、惠普战99、联想小新Air 14 2021、联想拯救者Y9000K2021、联想拯救者Y9000P,可替代商品的集合表示为
,表3显示了爬取到的在线消费者评论在数据清洗之后的101,405条数据集。
4.1. 数据处理
首先对数据清洗之后的在线消费者评论数据进行预处理。预处理过程需要先进行中文分词,去停用词,以及对词性进行标注。然后用TF-IDF算法提取在线消费者评论中的候选关键词,留取频率最高的Top 200词。去除不符合条件的词之后,用K-means聚类算法,基于点与点之间的距离的相似度计算最佳类别归属,创建归一化标签,K-means聚类图如下图2所示。

Figure 2. Clustering effect when K = 6
图2. K = 6时,聚类效果图
从图2中可以看出当K = 6时,聚类的效果比较好,分类也比较明显。聚类过程将具有相似含义的单词分类到同一组中,总共聚类为六个关键属性:售后服务、质量、物流、价格、外观、赠品,分别用
表示。
4.2. 情感分析
本节旨在对抓取到的可替代产品的在线消费者评论进行情感分析,情感极性分为积极、中性和消极。情感分析的过程就是在将线消费者评论的文本信息转化为可以进行分析和处理的数据。
首先利用R语言中的“match”函数,根据关键属性对数据清洗后的可替代产品的在线消费者评论进行聚类。然后对预处理后的词向量进行转化,对分类器进行训练。最后利用加权朴素贝叶斯,结合句子结构给各情感词语的情感极性赋予权重,然后加权求和得到线消费者评论的情感极性得分。情感分析的极性结果如表1所示,其中Pos,Neu,Neg分别代表情感极性为积极,中性和消极的在线消费者评论的数量。
本文对表1中的可替代产品的在线消费者评论数据进行归一化处理,为了说明在线消费者评论中,积极意见更能代表顾客的满意度。归一化的处理结果如表2。

Table 1. Results of emotional polarity
表1. 情感极性的结果

Table 2. Normalized results of emotional polarity
表2. 情感极性归一化结果
将表2中在线消费者评论的归一化结果画出如下条形图,能更加清楚地看出在线消费者评论中,积极意见占比最多,总的积极意见占比为85.407%,中性意见的占比为1.202%,消极意见的占比为13.391%。

Figure 3. Polarity results of online reviews of alternative products before clustering
图3. 聚类之前可替代产品在线评论的极性结果
从图3中可以看出积极意见的占比最大,所以根据公式(6)将上述表中积极意见的数据转化成积极意见的优势比,结果如下表3所示:

Table 3. Advantage ratio of key attributes
表3. 关键属性的优势比
4.3. RDEA结果
本文仅考虑了输出数据的不确定性,将表3中关键属性积极意见的优势比作为RRDEA模型一类输出。同时DEA模型要求决策单元必须有输入变量,所以本文将所有决策单元均赋予相同的虚拟输入变量
。因为本文考虑所有输出的不确定性,所以
。从以前的参数设置中,我们可以知道扰动范围从0到0.1,所以本文设置扰动变量
。
当不确定集合为盒子集时,15个可替代商品的RDEA效率如表4所示。
时,此时的模型(6)等价于传统的DEA,也就是输入输出数据没有受到扰动的标称值问题,可替代产品的效率值和排名结果在表5中的第2列和第3列。当不确定参数
时,可替代产品的效率值和排名结果在表5中的第4列和第5列。

Table 4. Efficiency and ranking results
表4. 效率和排名结果
5. 比较分析
为了证明提出方法的有效性,在本节进行两个方面的比较,首先是是否考虑数据的不确定性,其次是在考虑数据的不确定时的区间DEA之间的比较。
正如前面所说,传统的DEA没有考虑数据扰动,现实生活的不确定性使得结果的准确性很难保证。本文提出的一种根据在线评论对可替代产品进行排序的决策支持框架,不仅考虑了数据的不确定性,而且避免了人为给定关键属性权重的主观性。本文提出的该框架可以帮助消费者在在线评论信息过载的情况下,在多种商品之间轻松的做出购买决策。
为了考虑数据的不确定性,有研究提出了区间DEA模型,为了保证对比结果的公平性,本文在求解区间DEA模型的结果时,输出数据是在表3中积极意见的优势比的基础上,
。区间DEA的输出数据如表5所示。将表5中的数据代入模型4和模型5中,计算得出的区间DEA效率和排名结果在表4中的第6列和第7列。

Table 5. Interval DEA output data
表5. 区间DEA输出数据
为了能更清晰地展示不同方法的排名结果,本文画了折线图如下图4所示。
从图4排名结果折线图中可以看出,本文提出的方法与区间DEA的排名结果重合,与传统DEA的方法得到的排名结果的趋势相同,这能说明本文提出的决策支持框架的基准分析部分的方法的适用性。
本文提出决策支持框架的基准分析部分的方法的优越性体现在,相对于传统DEA方法来说,本文提出的方法考虑了数据的不确定性,更符合客观现实情况;相对于区间DEA方法来说,本文提出的方法更加简便,操作更易上手。而且区间DEA方法需要知道数据的具体分布,但是这在现实中的实现是比较困难的。而RDEA方法不需要提前知道数据的分布情况,并且这些方法之间的比较是基于本文提出的决策支持框架的数据处理和情感分析之上。
6. 结论
随着大数据爆炸式的增长,在线消费者评论数量也越来越多,如何使用这些在线评论来帮助决策变得越来越复杂。消费者和商家需要耗费大量的时间来阅读在线评论,识别在线评论中的有效信息之后,再从众多可替代产品中做出决策。所以在本研究中,我们提出了一种新的决策支持框架,该方法充分利用情感分析和RDEA通过在线评论对替代产品进行排序,帮助消费者和商家做出决策。
本文提出的决策支持框架总共包括三个部分,分别是数据处理、情感分析和基准分析。首先我们使用python从京东平台上抓取产品的在线消费者评论,对抓取到的数据进行预处理并且提取出关键特征作为评价指标。然后基于朴素贝叶斯对在线评论进行情感分析,由于积极意见的在线消费者评论更能代表消费者的满意度,所以本文将积极意见的优势比作为模型的输出。最后利用提出的RDEA模型求出可替代产品的RDEA效率,然后根据效率得分对可替代产品进行排名。比较研究的分析结果也说明我们提出的方法考虑的问题更加全面客观,也更符合客观实际情况。本文提出的基于在线评论的决策支持框架的主要贡献如下:
1) 使用机器学习中的加权朴素贝叶斯对在线评论进行情感分析,可以获得更高的准确率;通过 RDEA模型考虑数据的不确定性对产品进行排名,鲁棒优化是处理不确定性的一种常见的方法,我们通过盒子不确定集来考虑数据的不确定性,最后通过求出的RDEA效率来对可替代产品进行排名;
2) 从在线评论中提取关键属性作为评价指标。相对于以往给定的评价指标,本文从消费者的角度出发,利用TF-IDF算法提取在线消费者评论中的消费者关心的商品的关键词,再通过K-means聚类出关键属性作为评价指标。考虑消费者的偏好,更加客观符合实际情况;
3) 从京东(JD.COM)上爬取的15款笔记本电脑的101,405条在线评论进行数值实验,来验证提出模型的有效性和适用性。本文提出的决策框架的基准分析部分,与传统的DEA模型相比,本文提出的方法考虑了数据的不确定;与区间DEA模型相比,本文提出的方法步骤更加简便,易于操作。在信息爆炸的时代,帮助消费者从商品的在线消费者评论中做出购买决策。
目前,在线评论已用于不同场景现实生活中的。本文中提出的方法不仅适用于替代产品排名基于电子商务中的在线评论来帮助消费者做出购买决策,还对商家提供低成本和时效性的信息来帮助做出管理决策,还可以应用于具有类似流程的,比如在旅游业,在医疗行业、电影和电视等其他行业。本研究也有一些局限性,只识别了在线评论的文本信息,未来可以改进该方法以识别更多形式的在线评论,如表情符号和视频等。
NOTES
*通讯作者。