1. 引言
随着互联网的成熟,网络购物优点愈加突出,在电子商务时代,顾客对于商品的选择范围逐渐扩大,选择需要的成本也逐渐降低。顾客在进行商品选择的主动性进一步扩大。而在线市场为顾客所提供的广大反馈平台以及其含有的大量的商品反馈数据有利于结合实际消费者的具象化评价、需求以及整体性产品感知来获得对商品的各项内容的定性。如今已有许多研究者致力于分析在线产品的价值评估,如丁乃鹏等 [1] 从研究中文在线产品评论的有用性评估入手,结合中文在线评论的特点,构建了评论有用性评估特征体系;江晓东 [2] 基于可达性–可诊断性模型和不确定性降低理论,构建了产品评论有用性影响因素模型;马坤云 [3] 提出了以最广大消费者最直接的用户评论为基础的质量风险评估与预警方法。这些都对在线产品价值有一定的评估,但没有综合运用评论、评级等对产品本身的价值进行评估。本文选题为2020年国际大学生数学建模竞赛C题,基于对亚马逊商城设置的客户所反馈的星级、评论以及帮助等级等数据,来了解和分析产品的市场、当前的发展事态以及其潜在可能性等各个问题。根据本文的分析,商家可对产品进行市场预测、销售规划或者产品设计的调整等处理 [4]。
2. 在线评论文本的提取
2.1. 数据处理
通过分析亚马逊商城的吹风机、微波炉和奶嘴的数据,以10,915个品牌的文本评价,星级评价,帮助等级等各项与产品反馈相关的内容为主进行了本文的分析研究。其中含有部分存在误导性的信息和极大量的繁杂数据信息,不利于对数据进行组合和分析。为提取有效数据,识别主题信息以及简化内容,需采用LDA模型 [5] 对繁杂无序的评论内容进行识别和量化分级。
2.2. 在线评论文本指标提取模型
由于数据集中的评论多为用户对所购商品的价格、质量等做出的主观评价,且用户在表达自己观点时的多样化语言以及缺少相应的规范,故而存在用户噪音。需要将评论文本中与星级评价存在逻辑冲突的噪音排除并删除无效的评论文本以保证分析的科学性与严谨性。
针对经过数据处理与指标量化分析后的评论文本数据,使用LDA模型对三种商品的评论文本进行聚类,生成其主题词分布概率,其中LDA模型中的参数 和 依据经验值设定为0.13和0.01,迭代次数为1500次。在得到概率p的基础上对文本进行聚类,列出k个主题的概率分布,如表1所示。选取前6个高频关键词(price,power,size等相关词汇)作为每种商品评论的主题信息 [6]。
Table 1. p (world/topic) under the LDA-Gibbs model
表1. LDA模型下的p值
上表中我们使用LDA模型进行主题聚类得到了三种商品前6个高频词从而分析客户对商品的主要评价信息,但仍存在词与词之间表达信息相似的情况,且为了更好地预测商品的未来发展趋势,我们需要在LDA模型主题聚类的基础上,结合评论属性指标,对评论文本做进一步的提取分析,最终选取关键词中的价格、质量、外观以及指标中的时效性、评论长度、修饰词数量六个参数用于评论文本评价。在下文中将综合运用评论文本、星级评价来对在线产品进行声誉综合评估。
3. 基于模糊神经网络的产品声誉评估模型
3.1. 影响产品声誉的关键指标
为了能分析产品的声誉在产品使用过程中的变化规律,我们通过LDE模型获取和对比评论的属性信息的相关数据,从评论文本、星级评价这二方面考虑,构建影响产品声誉(y)的七项指标,其中评论文本包括外观、质量、价格、评论长度、修饰词数量、时效性六个方面。这些指标能够有效体现产品自身声誉,构建基于模糊神经网络的产品声誉模型 [7]。
本文利用评论指标和产品属性来量化声誉,综合前人的研究及数学模型,提取六个评论文本特征(A1~A6)和一个星级评价特征(B1),其中A1~A6分别代表外观、质量、价格、评论长度、修饰词数量、时效性。计量方式如表2所示。
Table 2. Attribute description of product reputation index
表2. 产品信誉指数的属性描述
3.2. 指标量化分析
指标量化分析是产品声誉评价有用性计算前的重要基础工作,指标量化值表示指标在多大程度上能够正确反映产品声誉的价值。指标量化分析以亚马逊网站的相关数据为实验样本,经过预处理和数据处理后得到各指标量化数据进行指标效用分析,确定指标的合理划分规则。根据样本数据分析 [8],本文通过5分量法将产品声誉的有用指标量化为1~5的评分等级,以区间划分法将有用指标进行评分等级计算。最终确定的指标量化方式如表3所示。
Table 3. Quantitative evaluation of indicators
表3. 指标量化评价
3.3. 模型的求解
产品的声誉的主要作用是给用户提供一个产品的属性从而减少其在购买决策中的不确定风险。为了能体现基于时间的度量和模式,产品声誉的变化规律,我们应用上述建立的模糊神经网络模型,对其进行进一步研究分析 [8],得到了产品声誉价值(y)与各个指标之间的模型:
其中,
,
为输入层神经元个数,
,
为规则数,
是规则化层与输出层间的连接权值。在本文中,影响因素为
个,因而设定
。
我们考虑到同一种产品的牌子较多,且部分牌子的数据较少,所以我们把同一产品的所有品牌结合在一起进行分析,得到了以下三个基于时间的度量和模式对产品声誉的影响图(图1)。
Figure 1. The reputation of the three products based on time measurements and pattern change diagrams
图1. 基于时间测量和模式变化图的三种产品声誉
从图中我们可以发现,吹风机总体的声誉随着时间的推移在4附近波动,奶嘴、微波炉总体的声誉随着时间的推移呈上升趋势,但是微波炉在2006、2007年存在着很大的摆动,这可能与评论和星级评定相关。
3.4. 模型检验
为了对建立的模糊神经网络模型进行检验,我们用200组数据训练模糊神经网络,训练误差为0.0001,期望输出与实际输出如图2所示。
Figure 2. The expected output versus the actual output
图2. 期望输出与实际输出对比
由图像可知,两曲线几乎重合,故我们认为建立的模糊神经网路模型是比较可靠的,运用该模型进行分析的效果是比较好的。
4. 结论
通过利用亚马逊商城的三个在线产品评论的数据分析,我们建立了三个产品的综合评估模型,其中就包含了产品评论对于其评估值的影响。同时其评估值也会随其他部分指标的变动而产生相应的变化。以产品声誉代表产品综合评估值,我们发现,在时间维度上,产品声誉会随着消费者所反馈的评级和评论信息的变化而变化。如从整体上看,奶嘴的声誉在2003~2015年呈上升趋势,这表明它具有更加广阔的潜在市场。然而从局部看,吹风机的声誉在2004~2006年间出现较大的波动,但在2007年之后趋于平稳。阳光公司可以根据其变化趋势,进行一定的改正,从而取得线上产品的成功。例如:奶嘴的声誉较好,商家可增加奶嘴的商品库存,吹风机声誉起伏较为平缓,可基于评论进行优点巩固以缺点纠正。微波炉的声誉总体呈现疲态,需要减少不必要的产品生产以及依据消费者反馈的评论进行产品的再设计。
NOTES
*通讯作者。