基于在线评论的决策支持框架

doi:10.12677/ORF.2023.132052

期刊菜单

基于在线评论的决策支持框架
Decision Support Framework Based on Online Review

DOI: 10.12677/ORF.2023.132052, PDF, HTML, XML,
作者: 耿瑞娟^*, 张洋：上海理工大学理学院，上海；纪颖：上海大学管理学院，上海
关键词: 在线评论；情感分析；数据包络分析；最优化决策；Online Review； Sentiment Analysis； Data Envelopment Analysis； Optimization Decision

摘要: 在数字信息化时代，消费者在网上购物时越来越依赖在线评论，大数据爆炸式增长也导致消费者要花费大量的时间来阅读在线评论，筛选信息并做出决策。所以本研究旨在提出一个新的基于在线评论的决策支持框架，用于帮助消费者依据在线评论对可替代产品进行评估和选择。决策支持框架主要包括三个部分，1) 数据处理，用python抓取在线消费者评论进行数据清洗和预处理，提取出关键特征作为评价标准；2) 情感分析，利用朴素贝叶斯对在线评论进行情感分析，用积极意见的优势比作为模型的输出数据；3) 基准分析，利用RDEA模型来计算可替代产品的效率得分，根据效率得分进行排名。最后，对京东平台上爬取的15款笔记本电脑的在线评论进行实证分析，来验证所提出的决策支持框架有用性和适用性，并进行了对比分析，结果证明提出的方法更符合客观实际情况，并且步骤更简单，易于操作。

Abstract: In the era of digital information, consumers increasingly rely on online reviews when shopping online. The explosive growth of big data also leads to consumers spending a lot of time reading online reviews, screening information, and making decisions. Therefore, this study aims to propose a new decision support framework based on online reviews to help consumers evaluate and select alternative products based on online reviews. The decision support framework mainly includes three parts: 1) Data processing, which uses python to capture online consumer reviews for data cleaning and preprocessing, and extracts key features as evaluation criteria; 2) Emotional analysis, which uses naive Bayes to conduct emotional analysis on online reviews, and uses the advantage ratio of positive opinions as the output data of the model; 3) Benchmark analysis, which uses RDEA model to calculate the efficiency score of alternative products, and rank according to the efficiency score. Finally, an empirical analysis is conducted from the online comments of 15 laptops crawled on the JD platform to verify the usefulness and applicability of the proposed decision support framework, and a comparative analysis is conducted. The results show that the proposed method is more in line with the objective reality, and the steps are simpler and easier to operate.

文章引用：耿瑞娟, 纪颖, 张洋. 基于在线评论的决策支持框架[J]. 运筹与模糊学, 2023, 13(2): 528-542. https://doi.org/10.12677/ORF.2023.132052

1. 引言

随着信息技术的快速发展和Web 2.0技术的深入应用，加快了电子商务发展的速度。为了应对COVID-19的传播而实施的封锁隔离等措施改变了消费者的消费方式，人们的购物场所逐渐从线下实体店转向线上消费平台。但由于网络的虚拟性，导致产品的质量难以得到保证。消费者可以通过商家给出的产品信息和其他消费者的在线评论来了解和挑选产品，相对于商家，人们会更愿意相信其他消费者 [1] 。尽管现在有很多购物网站也提供了产品的量化标准，由于其主观性和可变性，还是建议消费者通过在线评论来做出购买决策。在线评论不仅可以帮助消费者了解产品的具体信息，降低网上购物的不确定性；同时也能帮助企业获得消费者的真实反馈，从而了解消费者的偏好和需求 [2] 。

根据中国互联网络信息中心(CNNIC)在京发布第50次《中国互联网络发展状况统计报告》显示，仅2022年上半年，全国网上零售额6.3万亿元，同比增长3.1%。网上购物量的增大，会导致每天都会有新增的大量的评论，这会导致消费者和商家从在线评论中提取信息是非常困难的。所以提出一种基于在线评论的决策支持框架，就显得极具意义和价值。

目前对于通过在线评论的研究主要分为两个部分，第一个部分就是如何挖掘出在线评论的信息，第二个部分就是如何利用在线评论来帮助决策。从在线评论文本中挖掘信息的过程也就是情感分析，最早是由Sanjiv提出，从股票留言板中提取投资者情绪，用于评估管理公告、新闻稿等对投资者意见的影响 [3] 。早期比较传统的情感分析方法主要分为两类：基于字典的情感分析技术 [4] [5] [6] ，基于语料库的情感分析技术 [7] [8] [9] 。但是其本质上依赖于情感词典和判断规则的质量，结果的准确度受限于情感词典的覆盖率和准确率。随着在线评论数据量的增加和网络用词的出现，扩充语料库需要花费大量的时间和资源，情感分类时的灵活度不高，导致其无法跟上日益复杂的文本情感分类问题。这也就诞生了基于机器学习的情感分析方法，经典的分类模型包括支持向量机(SVM) [10] [11] ，朴素贝叶斯(NB) [12] ，最大熵模型 [13] 等。目前已有研究证明在情感分析任务上，基于机器学习的情感分析方法相对于基于词典的情感分析方法，可以获得更高的准确率 [14] ，所以本文采取机器学习中的加权朴素贝叶斯对在线评论进行情感分析。第二部分是如何利用在线评论来帮助决策的研究，主要是通过分析在线评论，来帮助商家分析产品需要改进的地方，以及帮助消费者做出购买决策。常见的研究方法有TOPSIS [15] [16] ，VIKOR [17] ，TODIM [18] 和其他对产品进行排名的方法。但是这些方法的评价指标通常都是给定的，不符合客观实际情况，并且操作步骤比较复杂，消费者难以实现。DEA是一种衡量具有多输入和多输出的决策单元效率的非参数方法，我们也可以根据效率对决策单元进行排名。

针对上述情况，本文提出一种基于在线评论的决策支持框架，该框架利用机器学习的方法从在线评论文本中挖掘有用信息，再通过基准分析来帮助消费者和商家做出正确的决策，主要贡献如下：

1) 利用机器学习中的加权朴素贝叶斯对在线评论进行情感分析，RDEA模型考虑数据的不确定性对可替代产品进行基准分析；

2) 从在线评论中提取关键属性作为评价指标，从消费者的角度出发，更加客观和符合实际情况；

3) 利用python从京东(JD.COM)爬取15款笔记本电脑的101,405条在线评论进行数值实验，验证提出的决策框架的有效性和适用性。

本文的其余部分如下所示。第二节是预备知识；第三节是提出的决策支持框架；第四节是实证分析，以从京东上爬取的15款笔记本电脑的在线评论为例，验证提出的决策框架的有用性和适用性；第五节就是比较分析；第六节是结论，强调本文的主要贡献和研究的局限性以及未来的工作。

2. 预备知识

2.1. 朴素贝叶斯(NB)相关知识

朴素贝叶斯(NB)是一种机器学习的情感分析方法，属于监督学习。加权朴素贝叶斯是朴素贝斯的一个扩展，其中的属性具有不同的权重 [19] 。情感分析的过程为：首先对向量进行转化，再对分类器进行训练，为了防止模型过度拟合，按照80%:20%的比例将数据集划分为训练集和测试集，最后进行预测分类。本文利用的是pysenti库(利用的是加权朴素贝叶斯)，结合句子结构给各情感词语的情感极性赋予权重，然后加权求和得到文本的情感极性得分。

朴素贝叶斯基于贝叶斯定理的概率分类技术，假设属性之间相互独立，互不干扰，利用带类别标签的训练集文本计算得到数据的先验概率，然后基于贝叶斯定理求出测试集文本属于某一类别的概率，公式如下所示：

$P (C_{i} | X) = \frac{P (X | C_{i}) P (C_{i})}{P (X)}$ (1)

其中， $C_{i} (i = 1, 2, \dots, m)$ 说明数据被分为m个类别，本文设为3个类别，分为积极、中性和消极；X表示属性集合，有 $X = {x_{1}, x_{2}, \dots, x_{n}}$ ，即说明总共有个n属性，对应到文本数据中为特征词的数量；若 $P (C_{i} | X) = \max {P (C_{j} | X)} (j = 1, 2, \dots, m, i \neq j)$ 时，未知样本的类别就判断为 $C_{i}$ 类别。 $P (C_{i})$ 表示训练集中各类别数据出现的概率，可通过计算 $C_{i}$ 类别数据数量 $N_{i}$ 占总样本数量N的比例来获得， $P (C_{i}) = N_{i} / N$ 。 $P (X | C_{i})$ 可通过训练文本中某类别下各属性出现的先验概率来计算得到，因朴素贝叶斯中假定不同属性之间相互独立，因此 $P (X | C_{i})$ 可表示为： $P (X | C_{i}) = P (x_{1} x_{2} \dots x_{n} | C_{i}) = \prod_{k = 1}^{n} P (x_{k} | C_{i})$ 。分母 $P (X)$ 对于 $x_{k}$ 均为固定值， $P (X) = P (x_{1} x_{2} \dots x_{n}) = \prod_{k = 1}^{n} P (x_{k})$ 。

由于上式具有相同的分母 $P (X) = P (x_{1} x_{2} \dots x_{n}) = \prod_{k = 1}^{n} P (x_{k})$ ，可以将 $P (X)$ 可看成是标准化因子，所以将上式化简可以得到简化的朴素贝叶斯分类器。

令 $V_{n b} (C)$ 为基于朴素贝叶斯归类后的最大类别，定义如下：

$V_{n b} (C) = \arg \max_{x_{k}} P (C_{i}) \prod_{k = 1}^{n} P (x_{k} | C_{i})$ (2)

由于条件独立性假设在现实中很少成立，因此需要扩展朴素贝叶斯来放松条件独立性假设，其中一种方法就是属性的加权方式不同，由此产生的模型称为加权朴素贝叶斯。加权朴素贝叶斯(WNB)的定义如下：

$V_{w n b} (C) = \arg \max_{x_{k}} P (C_{i}) \prod_{k = 1}^{n} P {(x_{k} | C_{i})}^{w_{i}}$ (3)

其中， $V_{w n b} (C)$ 为加权朴素贝叶斯归类后的最大类别，并且 $w_{i}$ 为属性 $X_{i}$ 的权重。

2.2. 区间DEA相关知识

传统DEA模型中的输入输出数据使用的是标称数据，考虑的是数据是确定性的情况。但在实际生活中，决策单元的输入输出通常是不确定性的。因此Wang等人 [20] 提出了区间DEA模型，与传统的DEA模型不同，区间DEA模型的输出和输入处于一定的有界区间内，假设输出的取值范围为 $[y_{i j}^{L}, y_{i j}^{U}]$ ，输入的取值范围为 $[x_{i j}^{L}, x_{i j}^{U}]$ ，并且 $x_{i j}^{L} > 0, y_{r j}^{L} > 0$ 。

首先，考虑对目标决策单元最有利的情况，也就是使得决策单元的输出最大化，输入最小化，此时传统DEA模型可以转化为下面的模型(4)，我们可以根据模型(4)得到区间DEA模型的效率值的上限 $θ^{U}$ ， $θ^{U}$ 是在最有利的条件下最差的相对效率。

$\begin{array}{l} \max θ^{U} = \sum_{r = 1}^{s} u_{r} y_{r o}^{U} \\ s .t . \sum_{i = 1}^{m} v_{i} x_{i o}^{L} \leq 1 \\ \sum_{r = 1}^{s} u_{r} y_{r j}^{L} - \sum_{i = 1}^{m} v_{i} x_{i j}^{U} \leq 0, \forall j \\ u_{r}, v_{i} \geq 0. \end{array}$ (4)

同理，当决策单元的输出最小化，输入最大化时，传统DEA模型可以转化为以下的模型(5)，此时是对目标决策单元最不利的情况，我们可以根据模型(5)来得出区间DEA模型效率值的下限 $θ^{L}$ ， $θ^{L}$ 是在最不利的条件下最差的相对效率。

$\begin{array}{l} \max θ^{L} = \sum_{r = 1}^{s} u_{r} y_{r o}^{L} \\ s .t . \sum_{i = 1}^{m} v_{i} x_{i o}^{U} \leq 1 \\ \sum_{r = 1}^{s} u_{r} y_{r j}^{U} - \sum_{i = 1}^{m} v_{i} x_{i j}^{L} \leq 0, \forall j \\ u_{r}, v_{i} \geq 0. \end{array}$ (5)

也就是说，区间DEA模型悲观的效率区间是 $θ \in [θ^{L}, θ^{U}]$ 。

2.3. RDEA相关知识

传统DEA模型中的输入输出数据使用的是标称数据，考虑的是数据是确定性的情况。但在实际生活中，决策单元的输入输出通常是不确定性的。鲁棒优化是一种求解不确定问题中常用的方法，也就是在最坏的情况下寻找最优解。RDEA模型就是考虑不确定的输入输出，使得在最坏的情况下仍能保持鲁棒性。具有不确定性的输入输出变量通常表示为：

$U = {{\tilde{x}}_{i j} = x_{i j} + ξ_{i j}^{x} {\hat{x}}_{i j}, {\tilde{y}}_{r j} = y_{r j} + ξ_{r j}^{y} {\hat{y}}_{r j}, {\hat{x}}_{i j}, {\hat{y}}_{r j} \in Z}$

其中 ${\hat{x}}_{i j} = δ^{x} x_{i j}$ ， ${\hat{y}}_{r j} = δ^{y} y_{r j}$ ， $ξ_{i j}^{x}, ξ_{i j}^{y}$ 是给定的偏离标称值， ${\hat{x}}_{i j}, {\hat{y}}_{r j}$ 与标称值 $x_{i j}, y_{r j}$ 的扰动百分比， $δ^{x}, δ^{y}$ 是输入和输出的不确定扰动因子。

所以具有不确定输入输出 ${\tilde{x}}_{i j}, {\tilde{y}}_{r j} \in U$ 的决策单元的RDEA模型如下所示 [21] ：

$\begin{array}{l} \max θ = \sum_{r = 1}^{s} u_{r} {\tilde{y}}_{r o} \\ s .t . \sum_{i = 1}^{m} v_{i} {\tilde{x}}_{i o} \leq 1, \forall {\tilde{x}}_{i o} \in U \\ \sum_{r = 1}^{s} u_{r} {\tilde{y}}_{r j} - \sum_{i = 1}^{m} v_{i} {\tilde{x}}_{i j} \leq 0, \forall {\tilde{x}}_{i j}, {\tilde{y}}_{r j} \in U \\ u_{r}, v_{i} \geq 0. \forall_{r}, \forall_{i} \end{array}$ (6)

3. 研究框架

本研究引入了一个全面的基于在线评论决策支持框架，通过在线消费者评论来对替代产品进行排名，以供决策者更好的做出购买决策。本文提出的决策支持框架主要分为三个部分，即数据预处理、情感分析和基准分析，如图1所示。每个模块的过程和基本作用会在下面进行详细的描述。

1) 数据处理：使用python从京东平台抓取产品的在线消费者评论，对抓取到的数据进行数据清洗和预处理，然后提取出关键属性，作为判断替代产品排名的评价指标。

2) 情感分析：将清洗后的在线评论句子聚类到提取出的关键属性群组中，然后基于朴素贝叶斯对在线评论进行情感分析。

3) 基准分析：利用提出的RDEA模型来计算可替代方案的效率得分，然后根据效率得分对可替代产品进行排名。

Figure 1. Flow chart of decision-making framework

图1. 决策框架流程图

3.1. 数据处理

尽管现在很多购物网站上都提供了对商品量化标准，但是由于其主观性和可变性导致的意见两极化，还是建议消费者通过在线评论来了解商品的具体情况。数据处理的过程如下：

1) 使用python从京东JD.COM (https://www.jd.com/)爬取了戴尔、宏基、华为、惠普和联想等品牌的15款笔记本电脑的在线评论数据，可替代商品的集合表示为 $A = {A_{1}, A_{2}, \dots, A_{n}}$ 。本文主要是爬取前100页的产品在线评论(京东限制最多查看前100页，不足则全部获取)，得到的在线评论数据以xls格式进行存储，方便计算机程序导入数据。

2) 对在线评论数据进行预处理。先进行数据清洗，进行重新审查和校验，保证数据的一致性；然后使用jieba中文分词程序对文本的句子进行中文分词；去停用词(通常包括连词，介词、代词、标点符号、逻辑字符和特殊字符)，参考哈工大停用词库；结合上下文语境对在线评论中的词语进行性质的确定以及标注，将词语分类为形容词、名词、动词等。

3) 提取关键属性。通过计算每条评论对应的Term-Frequency-Inverse Document Frequency (TF-IDF)值，选取在线评论中的候选关键词。使用word2vec，训练词向量权重，之后通过分词，去除不符合条件的词，获取频率最高的Top 200词。然后利用K-means聚类算法对获取词的词向量进行聚类，提取出关键属性，创建归一化标签。

3.2. 情感分析

情感分析是对人们的意见、情感、情绪和态度的研究，通过对文本上下文的挖掘，来识别和提取文本数据中的主观信息 [22] 。朴素贝叶斯是用来进行情感分析常用的一种机器学习的方法，而加权朴素贝叶斯是朴素贝斯的一个扩展，其中的属性具有不同的权重 [19] 。

本节旨在计算产品各关键属性的情感得分，所以首先是利用R语言中的模式匹配“match”函数，利用算法1根据关键属性对爬取的在线评论数据进行聚类。然后利用朴素贝叶斯对在线评论进行情感分析。首先对向量进行转化，再对分类器进行训练，为了防止模型过度拟合，按照80%:20%的比例将数据集划分为训练集和测试集，最后进行预测分类。本文利用的是pysenti库(加权朴素贝叶斯)，结合句子结构给各情感词语的情感极性赋予权重，然后加权求和得到文本的情感极性得分。我们将情感极性得分位于 $[0, 0.45], [0.45, 0.55], [0.55, 1]$ ，分别分类为消极中性和积极意见。

从原始的情感极性结果中(图3)可以看出，更多的积极意见反映了更高的客户满意度，所以本文采用优势比 [23] 的定义来表示积极意见相对于其他类型意见的程度，用 $Ω p o s$ 来表示。

$Ω p o s = \frac{P p o s}{1 - P p o s}$ (7)

其中， $P p o s$ 代表积极意见在在线消费评论中的概率， $1 - P p o s$ 代表极性为中性和消极的概率之和。 $Ω p o s$ 的值越大，代表积极意见的占比也就越高。 $Ω p o s = 1$ 时，代表积极意见的概率等于中性意见和消极意见的概率之和。根据公式(7)变形，可以得到 $P p o s = Ω p o s / (1 + Ω p o s)$ 。

算法1. 根据产品对在线评论进行聚类

3.3. 基准分析

DEA是一种典型的非参数线性规划性能评估模型，鲁棒数据包络分析(RDEA)是一种基于DEA的保守的方法，用于对决策单元的输入和输出数据中的不确定性建模。输入输出数据的不确定性有多种情况，结合在线评论的实际情况，本文主要考虑输出数据的不确定性，由两部分组成，一部分是确定的值，另一部分是不确定的值。输出的不确定性描述如下：

$U = {{\tilde{y}}_{r j} = y_{r j} + \sum_{l = 1}^{L} δ_{l} y_{r j}^{R}, δ_{l} \in Z}$

本文主要考虑输出数据的是盒子集不确定集合的情况，然后构造了输出数据是盒子集的RDEA模型。

定理1：基于盒子不确定集合的RDEA可以构造为：

$\begin{array}{l} \max θ \\ s .t . θ - \sum_{r = 1}^{s} u_{r} y_{r o} - Φ \sum_{l = 1}^{L} \sum_{r = 1}^{s} u_{r} y_{r o}^{R} \leq 0 \\ \sum_{i = 1}^{m} v_{i} x_{i o} \leq 1 \\ \sum_{r = 1}^{S} u_{r} y_{r j} - \sum_{i = 1}^{m} v_{i} x_{i j} + Φ \sum_{l = 1}^{L} \sum_{r = 1}^{s} u_{r} y_{r j}^{R} \leq 0 \\ u_{r}, v_{i} \geq 0. \forall_{r}, \forall_{i} \end{array}$ (8)

其中的盒子集不确定集合定义为： $Z^{b o x} = {δ_{l} \in ℝ^{L} : ‖ δ_{l} ‖ \leq Φ}$ ，其中 $Φ$ 是不确定输出的鲁棒参数，用于衡量盒子不确定集的不确定度。 $y_{r j}^{R} = ξ_{r j}^{y} y_{r j}$ ， $ξ_{r j}^{y}$ 是给定的偏离标称值， ${\hat{x}}_{i j}, {\hat{y}}_{r j}$ 与标称值 $x_{i j}, y_{r j}$ 的扰动百分比。 $δ_{l}$ 是输出的不确定扰动因子，L是不确定因子的个数。 $x_{i j}, y_{r j}$ 分别表示第j个决策单元的输入和输出。具体的证明如下：

证明：该模型仅考虑输出数据是不确定性的，也就是说 ${\tilde{y}}_{r j} = y_{r j} + \sum_{l = 1}^{L} δ_{l} y_{r j}^{R}$ ，所以模型(4)可转化为：

$\begin{array}{l} \max θ \\ s .t . θ - \sum_{r = 1}^{s} u_{r} y_{r o} - \sum_{l = 1}^{L} \sum_{r = 1}^{s} u_{r} δ_{l} y_{r o}^{R} \leq 0 \\ \sum_{i = 1}^{m} v_{i} x_{i o} \leq 1 \\ \sum_{r = 1}^{s} u_{r} y_{r j} - \sum_{i = 1}^{m} v_{i} x_{i j} + \sum_{l = 1}^{L} \sum_{r = 1}^{s} u_{r} δ_{l} y_{r j}^{R} \leq 0 \\ u_{r}, v_{i} \geq 0. \forall_{r}, \forall_{i} \end{array}$ (9)

并且 $δ_{l}$ 属于盒子不确定集合，满足 $Z^{b o x} = {δ_{l} \in ℝ^{L} : ‖ δ_{l} ‖ \leq Φ}$ ，模型(6)中的约束 $θ - \sum_{r = 1}^{s} u_{r} y_{r o} - \sum_{l = 1}^{L} \sum_{r = 1}^{s} u_{r} δ_{l} y_{r o}^{R} \leq 0, \forall {δ_{l} : ‖ δ_{l} ‖ \leq Φ}$ ，等价于下面的问题：

$\begin{array}{l} \max \sum_{l = 1}^{L} \sum_{r = 1}^{s} u_{r} δ_{l} y_{r o}^{R} \leq θ - \sum_{r = 1}^{s} u_{r} y_{r o}, \forall {δ_{l} : ‖ δ_{l} ‖ \leq Φ} \\ \max_{‖ δ_{l} ‖ \leq Φ} \sum_{l = 1}^{L} \sum_{r = 1}^{s} u_{r} δ_{l} y_{r o}^{R} = Φ \sum_{l = 1}^{L} \sum_{r = 1}^{s} u_{r} y_{r o}^{R} \end{array}$ (10)

所以第一个约束可以转化为 $θ - \sum_{r = 1}^{s} u_{r} y_{r o} - Φ \sum_{l = 1}^{L} \sum_{r = 1}^{s} u_{r} y_{r o}^{R} \leq 0$ ，同理第三个约束可以转化为 $\sum_{r = 1}^{S} u_{r} y_{r j} - \sum_{i = 1}^{m} v_{i} x_{i j} + Φ \sum_{l = 1}^{L} \sum_{r = 1}^{s} u_{r} y_{r j}^{R} \leq 0$ 。□

4. 实证分析

为了验证所提出的决策框架的有效性和适用性，将其应用于基于在线评论数据的实际案例中。利用python从京东JD.COM (https://www.jd.com/)抓取了15款笔记本电脑的在线消费者评论数据，包括戴尔灵越5000，戴尔游匣5515，戴尔游匣G15，宏基暗影骑士、宏基非凡S3、宏基掠夺者、华为mate book 14S 2021、华为mate book D15、华为mate book X pro 2021、惠普暗影精灵、惠普星15、惠普战99、联想小新Air 14 2021、联想拯救者Y9000K2021、联想拯救者Y9000P，可替代商品的集合表示为 $A = {A_{1}, A_{2}, \dots, A_{15}}$ ，表3显示了爬取到的在线消费者评论在数据清洗之后的101,405条数据集。

4.1. 数据处理

首先对数据清洗之后的在线消费者评论数据进行预处理。预处理过程需要先进行中文分词，去停用词，以及对词性进行标注。然后用TF-IDF算法提取在线消费者评论中的候选关键词，留取频率最高的Top 200词。去除不符合条件的词之后，用K-means聚类算法，基于点与点之间的距离的相似度计算最佳类别归属，创建归一化标签，K-means聚类图如下图2所示。

Figure 2. Clustering effect when K = 6

图2. K = 6时，聚类效果图

从图2中可以看出当K = 6时，聚类的效果比较好，分类也比较明显。聚类过程将具有相似含义的单词分类到同一组中，总共聚类为六个关键属性：售后服务、质量、物流、价格、外观、赠品，分别用 $C = {C_{1}, C_{2}, \dots, C_{6}}$ 表示。

4.2. 情感分析

本节旨在对抓取到的可替代产品的在线消费者评论进行情感分析，情感极性分为积极、中性和消极。情感分析的过程就是在将线消费者评论的文本信息转化为可以进行分析和处理的数据。

首先利用R语言中的“match”函数，根据关键属性对数据清洗后的可替代产品的在线消费者评论进行聚类。然后对预处理后的词向量进行转化，对分类器进行训练。最后利用加权朴素贝叶斯，结合句子结构给各情感词语的情感极性赋予权重，然后加权求和得到线消费者评论的情感极性得分。情感分析的极性结果如表1所示，其中Pos，Neu，Neg分别代表情感极性为积极，中性和消极的在线消费者评论的数量。

本文对表1中的可替代产品的在线消费者评论数据进行归一化处理，为了说明在线消费者评论中，积极意见更能代表顾客的满意度。归一化的处理结果如表2。

Table 1. Results of emotional polarity

表1. 情感极性的结果

Table 2. Normalized results of emotional polarity

表2. 情感极性归一化结果

将表2中在线消费者评论的归一化结果画出如下条形图，能更加清楚地看出在线消费者评论中，积极意见占比最多，总的积极意见占比为85.407%，中性意见的占比为1.202%，消极意见的占比为13.391%。

Figure 3. Polarity results of online reviews of alternative products before clustering

图3. 聚类之前可替代产品在线评论的极性结果

从图3中可以看出积极意见的占比最大，所以根据公式(6)将上述表中积极意见的数据转化成积极意见的优势比，结果如下表3所示：

Table 3. Advantage ratio of key attributes

表3. 关键属性的优势比

4.3. RDEA结果

本文仅考虑了输出数据的不确定性，将表3中关键属性积极意见的优势比作为RRDEA模型一类输出。同时DEA模型要求决策单元必须有输入变量，所以本文将所有决策单元均赋予相同的虚拟输入变量 $x_{i j} = 1$ 。因为本文考虑所有输出的不确定性，所以 $L = 6$ 。从以前的参数设置中，我们可以知道扰动范围从0到0.1，所以本文设置扰动变量 $ξ_{r j}^{y} = 0.02$ 。

当不确定集合为盒子集时，15个可替代商品的RDEA效率如表4所示。 $Φ = 0$ 时，此时的模型(6)等价于传统的DEA，也就是输入输出数据没有受到扰动的标称值问题，可替代产品的效率值和排名结果在表5中的第2列和第3列。当不确定参数 $Φ = 1$ 时，可替代产品的效率值和排名结果在表5中的第4列和第5列。

Table 4. Efficiency and ranking results

表4. 效率和排名结果

5. 比较分析

为了证明提出方法的有效性，在本节进行两个方面的比较，首先是是否考虑数据的不确定性，其次是在考虑数据的不确定时的区间DEA之间的比较。

正如前面所说，传统的DEA没有考虑数据扰动，现实生活的不确定性使得结果的准确性很难保证。本文提出的一种根据在线评论对可替代产品进行排序的决策支持框架，不仅考虑了数据的不确定性，而且避免了人为给定关键属性权重的主观性。本文提出的该框架可以帮助消费者在在线评论信息过载的情况下，在多种商品之间轻松的做出购买决策。

为了考虑数据的不确定性，有研究提出了区间DEA模型，为了保证对比结果的公平性，本文在求解区间DEA模型的结果时，输出数据是在表3中积极意见的优势比的基础上， $y_{i j} \in [y_{i j} - 0.02 y_{i j}, y_{i j} + 0.02 y_{i j}]$ 。区间DEA的输出数据如表5所示。将表5中的数据代入模型4和模型5中，计算得出的区间DEA效率和排名结果在表4中的第6列和第7列。

Table 5. Interval DEA output data

表5. 区间DEA输出数据

为了能更清晰地展示不同方法的排名结果，本文画了折线图如下图4所示。

从图4排名结果折线图中可以看出，本文提出的方法与区间DEA的排名结果重合，与传统DEA的方法得到的排名结果的趋势相同，这能说明本文提出的决策支持框架的基准分析部分的方法的适用性。

本文提出决策支持框架的基准分析部分的方法的优越性体现在，相对于传统DEA方法来说，本文提出的方法考虑了数据的不确定性，更符合客观现实情况；相对于区间DEA方法来说，本文提出的方法更加简便，操作更易上手。而且区间DEA方法需要知道数据的具体分布，但是这在现实中的实现是比较困难的。而RDEA方法不需要提前知道数据的分布情况，并且这些方法之间的比较是基于本文提出的决策支持框架的数据处理和情感分析之上。

Figure 4. Ranking result line chart

图4. 排名结果折线图

6. 结论

随着大数据爆炸式的增长，在线消费者评论数量也越来越多，如何使用这些在线评论来帮助决策变得越来越复杂。消费者和商家需要耗费大量的时间来阅读在线评论，识别在线评论中的有效信息之后，再从众多可替代产品中做出决策。所以在本研究中，我们提出了一种新的决策支持框架，该方法充分利用情感分析和RDEA通过在线评论对替代产品进行排序，帮助消费者和商家做出决策。

本文提出的决策支持框架总共包括三个部分，分别是数据处理、情感分析和基准分析。首先我们使用python从京东平台上抓取产品的在线消费者评论，对抓取到的数据进行预处理并且提取出关键特征作为评价指标。然后基于朴素贝叶斯对在线评论进行情感分析，由于积极意见的在线消费者评论更能代表消费者的满意度，所以本文将积极意见的优势比作为模型的输出。最后利用提出的RDEA模型求出可替代产品的RDEA效率，然后根据效率得分对可替代产品进行排名。比较研究的分析结果也说明我们提出的方法考虑的问题更加全面客观，也更符合客观实际情况。本文提出的基于在线评论的决策支持框架的主要贡献如下：

1) 使用机器学习中的加权朴素贝叶斯对在线评论进行情感分析，可以获得更高的准确率；通过 RDEA模型考虑数据的不确定性对产品进行排名，鲁棒优化是处理不确定性的一种常见的方法，我们通过盒子不确定集来考虑数据的不确定性，最后通过求出的RDEA效率来对可替代产品进行排名；

2) 从在线评论中提取关键属性作为评价指标。相对于以往给定的评价指标，本文从消费者的角度出发，利用TF-IDF算法提取在线消费者评论中的消费者关心的商品的关键词，再通过K-means聚类出关键属性作为评价指标。考虑消费者的偏好，更加客观符合实际情况；

3) 从京东(JD.COM)上爬取的15款笔记本电脑的101,405条在线评论进行数值实验，来验证提出模型的有效性和适用性。本文提出的决策框架的基准分析部分，与传统的DEA模型相比，本文提出的方法考虑了数据的不确定；与区间DEA模型相比，本文提出的方法步骤更加简便，易于操作。在信息爆炸的时代，帮助消费者从商品的在线消费者评论中做出购买决策。

目前，在线评论已用于不同场景现实生活中的。本文中提出的方法不仅适用于替代产品排名基于电子商务中的在线评论来帮助消费者做出购买决策，还对商家提供低成本和时效性的信息来帮助做出管理决策，还可以应用于具有类似流程的，比如在旅游业，在医疗行业、电影和电视等其他行业。本研究也有一些局限性，只识别了在线评论的文本信息，未来可以改进该方法以识别更多形式的在线评论，如表情符号和视频等。

NOTES

^*通讯作者。

参考文献

[1]	Park, D.H., Lee, J. and Han, I. (2007) The Effect of On-Line Consumer Reviews on Consumer Purchasing Intention: The Moderating Role of Involvement. International Journal of Electronic Commerce, 11, 125-148. [Google Scholar] [CrossRef]
[2]	Zhan, Y., Tan, K.H., Li, Y. and Tse, Y.K. (2018) Un-locking the Power of Big Data in New Product Development. Annals of Operations Research, 270, 577-595. [Google Scholar] [CrossRef]
[3]	Das, S.R. and Chen, M.Y. (2007) Yahoo! for Amazon: Sen-timent Extraction from Small Talk on the Web. Management Science, 53, 1375-1388. [Google Scholar] [CrossRef]
[4]	Moreo, A., Romero, M., Castro, J.L. and Zurita, J.M. (2012) Lexicon-Based Comments-Oriented News Sentiment Analyzer System. Expert Systems with Applications, 39, 9166-9180. [Google Scholar] [CrossRef]
[5]	Jiao, J. and Zhou, Y. (2011) Sentiment Polarity Analysis Based Multi-Dictionary. Physics Procedia, 22, 590-596. [Google Scholar] [CrossRef]
[6]	Jurek, A., Mulvenna, M.D. and Bi, Y. (2015) Improved Lexicon-Based Sentiment Analysis for Social Media Analytics. Security Informatics, 4, Article No. 9. [Google Scholar] [CrossRef]
[7]	Medhat, W., Hassan, A. and Korashy, H. (2014) Sentiment Analysis Algorithms and Applications: A Survey. Ain Shams Engineering Journal, 5, 1093-1113. [Google Scholar] [CrossRef]
[8]	Zhang, W., Xu, H. and Wan, W. (2012) Weakness Finder: Find Product Weakness from Chinese Reviews by Using Aspects Based Sentiment Analysis. Expert Systems with Ap-plications, 39, 10283-10291. [Google Scholar] [CrossRef]
[9]	Xu, K., Liao, S.S., Li, J. and Song, Y. (2011) Mining Com-parative Opinions from Customer Reviews for Competitive Intelligence. Decision Support Systems, 50, 743-754. [Google Scholar] [CrossRef]
[10]	Zhang, D., Xu, H., Su, Z. and Xu, Y. (2015) Chinese Comments Sentiment Classification Based On Word2vec and SVMperf. Expert Systems with Applications, 42, 1857-1863. [Google Scholar] [CrossRef]
[11]	Tian, F., Wu, F., Chao, K.-M., Zheng, Q., Shah, N., Lan, T. and Yue, J. (2016) A Topic Sentence-Based Instance Transfer Method for Imbalanced Sentiment Classification of Chinese Product Reviews. Electronic Commerce Research and Applications, 16, 66-76. [Google Scholar] [CrossRef]
[12]	Kang, H., Yoo, S.J. and Han, D. (2012) Senti-Lexicon and Improved Naïve Bayes Algorithms for Sentiment Analysis of Restaurant Reviews. Expert Systems with Applications, 39, 6000-6010. [Google Scholar] [CrossRef]
[13]	Duric, A. and Song, F. (2012) Feature Selec-tion for Sentiment Analysis Based on Content and Syntax Models. Decision Support Systems, 53, 704-711. [Google Scholar] [CrossRef]
[14]	Li, F. (2010) The Information Content of Forward-Looking Statements in Corporate Filings—A Naïve Bayesian Machine Learning Approach. Journal of Accounting Research, 48, 1049-1102. [Google Scholar] [CrossRef]
[15]	Liu, Y., Bi, J.-W. and Fan, Z.-P. (2017) A Method for Ranking Products Through Online Reviews Based on Sentiment Classification and Interval-Valued Intuitionistic Fuzzy TOPSIS. International Journal of Information Technology & Decision Making, 16, 1497-1522. [Google Scholar] [CrossRef]
[16]	Yang, L. and Li, Y. (2022) A New Method for Ranking the Usefulness of Negative Online Reviews Based on Combined Weighting Method and Improved TOPSIS. Journal of Intelligent & Fuzzy Systems, 42, 3719-3736. [Google Scholar] [CrossRef]
[17]	Liang, X., Liu, P. and Wang, Z. (2019) Hotel Selection Utilizing Online Reviews: A Novel Decision Support Model Based on Sentiment Analysis and Dl-Vikor Method. Techno-logical and Economic Development of Economy, 25, 1139-1161. [Google Scholar] [CrossRef]
[18]	Zhang, D., Li, Y. and Wu, C. (2020) An Extended TODIM Method to Rank Products with Online Reviews under Intuitionistic Fuzzy Environment. Journal of the Operational Research Society, 71, 322-334. [Google Scholar] [CrossRef]
[19]	Zhang, H. and Sheng, S. (2004) Learning Weighted Naive Bayes with Accurate Ranking. Proceedings of the Fourth IEEE International Conference on Data Mining, Brighton, 1-4 November 2004, 567-570.
[20]	Wang, Y.-M., Greatbanks, R. and Yang, J.-B. (2005) Interval Effi-ciency Assessment Using Data Envelopment Analysis. Fuzzy Sets and Systems, 153, 347-370. [Google Scholar] [CrossRef]
[21]	Mensah, E.K. (2020) Robust Data Envelopment Analysis via Ellipsoidal Uncertainty Sets with Application to the Italian Banking Industry. Decisions in Economics and Finance, 43, 491-518. [Google Scholar] [CrossRef]
[22]	Zhao, J., Liu, K. and Xu, L. (2016) Sentiment Analysis: Mining Opinions, Sentiments, and Emotions. Computational Linguistics, 42, 595-598. [Google Scholar] [CrossRef]
[23]	Park, J. and Lee, B.K. (2021) An Opinion-Driven Deci-sion-Support Framework for Benchmarking Hotel Service. Omega, 103, Article ID: 102415. [Google Scholar] [CrossRef]

为你推荐

友情链接