1. 引言
在线评论是消费者关于产品或服务的意见表达,是潜在消费者的重要信息来源,也是平台提高用户粘性并实现可持续发展的关键。现有研究表明,在线评论的作用在体验型产品的购买决策过程中格外显著 [1] 。根据Power Reviews的一项研究,超过85%的消费者在购买体验型产品之前会查看在线评论 [2] 。感知风险理论指出,由于体验型产品的质量在消费之前难以准确评估,因此人们对其感到的不确定性比搜索型产品更高。而在线评论能通过消费者的意见表达,有效降低消费者的感知风险 [3] 。然而,随着互联网的发展,体验型产品在线评论的数量飞速增长,海量的评论给消费者带来严重的信息过载问题。全球知名旅游分享网站TripAdvisor累计评论数超8亿条 [4] ,携程的评论量累计已超1.2亿条 [5] 。因此,如何帮助消费者在大量评论中快速找到有用评论已成为有价值的研究问题。
解决评论信息过载的方法之一是评论排序。亚马逊最早推出“有用性投票”排序机制,平台根据有用性投票数对评论进行降序排列。虽然此举为亚马逊带来超过27亿美金的额外收入 [6] ,但是有用性投票排序机制存在马太效应的问题——有用性投票数多的评论会得到更高的排名,而更高的排名也容易被消费者看见而带来更多的投票数,相反,较少的投票数评论则可能被埋没或忽略。实际上,获票数少的评论也可能对消费者“有用”。除了马太效应等问题,现有的评论排序还存在同质化的问题,即不同消费者看到的评论排序是一样的。这忽略了消费者对体验型产品的个性化偏好。事实上,不同的消费者对于同一评论的感知有用性是存在差异的,因此相同的评论排序并不能满足所有消费者的需求。
基于上述内容,本研究提出以下3个研究问题:
1) 如何全面地概括体验型产品的产品特征;
2) 如何根据消费者的体验型产品特征偏好构建个性化评论排序方法;
3) 个性化评论排序方法能否提高消费者的评论感知有用性。
为了回答这些问题,我们采用了以下方法:
首先,本研究利用LDA2Vec分析体验型产品的评论,通过主题一致性确定最佳主题数量,解决产品特征受限于研究人员先验知识的问题。同时,利用Word2Vec实现产品特征向量化,并利用LDA2Vec实现评论主题分配,避免LDA忽略上下文语义的缺陷,全面、有效地概括体验型产品的产品特征。其次,引入LCR模型,基于消费者体验型产品特征偏好实现消费者类建模,并构建每个消费者类别的评论有用性预测模型,基于差异化的有用性得分实现消费者个性化评论排序。最后,通过Hamming距离和Levenshtein距离验证个性化评论排序方法下消费者评论感知有用性的提高,为个性化评论排序提供有力证据,为精准营销领域的研究提供新的视角和思路。
2. 文献综述
2.1. 在线评论有用性排序
评论有用性是一个备受关注的话题,因为它反映了消费者对评论的价值感知程度。然而,当前大多数关于评论有用性的研究主要集中在研究其影响因素。先前的影响因素研究主要集中在评论特征和评论发布者特征上,如评论长度 [7] 、评论星级 [8] 、评论时效性 [9] 、评论者信息披露 [10] 以及是否为专家 [11] 等。近年来,一些新的预测变量被引入到评论有用性的研究中,如评论情感 [12] [13] 、图片 [14] 和评论可读性 [15] 。
随着评论信息过载问题日渐加剧,评论有用性排序引起大家的研究兴趣。现有的评论排序研究大多针对评论者特性和评论内容特性提出综合排序方法 [16] [17] 。还有部分研究基于机器学习通过训练大量的评论数据集,结合文本特征、用户属性和社交网络等信息来提高排序的准确性和效率 [18] [19] 。在研究内容方面,不少研究的重心在于关键指标的选取和权重的分配上。郭顺利等在餐饮评论的排序上,通过文献调研和专家咨询选取在线评论有用性的8项指标,采用模糊层次分析法和加权灰色关联分析进行指标赋权和排序计算 [20] 。张艳丰等则以亚马逊手机评论为例,结合并改进TOPSIS分析法构建评论有用性排序模型 [21] 。
综合来看,现有评论排序研究依然存在不足。在评论有用性影响因素模型上,大部分模型只考虑评论特征和评论者特征,少有研究考虑到消费者特征,仅有的研究也只是根据先验知识将消费者分为“专家”或“新手” [22] ,而未充分考虑到消费者多样化的分类。换言之,现有的评论排序模型大多是静态的,无法适应消费者的动态需求,即消费者的个性化需求。在研究内容上,不少研究使用了机器学习算法来预测评论有用性排序,但目前大多数模型都是监督学习模型,这意味着它们需要大量的标注数据。这对于少量产品评论排序甚至单一产品的评论排序而言适用性较差,且基于机器学习或深度学习的模型的可解释性也较差,人们难以从中得到实践启发。因此,真正有用的评论排序应该考虑到消费者的个性化需求和偏好,以提供更加个性化和精准的评论推荐,且无论是单一产品或多产品均能适用。
2.2. 体验型产品特征
体验型产品和搜索型产品的区别在于消费者在购买前能否获得完全的产品信息。搜索型产品的特征可以在购买前完全了解,而体验型产品的特征则需要通过实际使用或体验后才能完全了解。在线评论作为消费者决策的重要参考依据,在这两种产品类型中表现出明显的差异。
对于搜索型产品,消费者可以根据产品广告等客观描述来获取信息,评论更多作为一种补充内容辅助消费者决策。因为搜索型产品的特征则更为明确(如电脑的产品特征——显示、存储等),消费者更容易比较和分析。相比之下,体验型产品的特征通常比较抽象和主观,例如美容产品的效果、餐厅的服务质量等。消费者需要通过其他消费者的评价和反馈来了解产品的真实情况。因此,消费者更注重对产品使用场景和目的的评价 [23] 。对于体验型产品,消费者的使用经验和情感分享变得尤为重要,这有助于消费者对其他消费者的评价产生信任感。因此,体验型产品的个性化评论率远高于搜索型产品。
李宗伟和张艳辉以淘宝的在线评论作为实验对象 [24] ,通过实证分析来探讨不同类型商品在线评论的差异性。实验结果表明,体验型产品的个性化评论率远高于搜索型产品。对于搜索型产品,消费者的购买决策主要依赖于客观信息,而评论的作用更多是作为一种补充内容;而对于体验型产品,消费者的购买决策主要依赖于其他消费者的评价和反馈,评论的有用性主要体现在帮助消费者做出决策。
然而,现有的大部分研究聚焦于不同产品类型的作用,而以体验型产品偏好为立足点的研究较少。仅有的研究常常根据先验知识将评论阅读者分为“专家”和“新手”,但这样的分类未考虑到消费者的体验型产品特征偏好。此外,学者们通常采用LDA方法进行体验型产品特征提取,但这种方法也存在一些问题。首先,LDA主题模型没有充分利用词间语义关系和上下文语境,因此会导致主题可解释性差的问题;其次,大部分学者在LDA模型的使用中提前设定了主题数量,但这对于体验型产品特征来说并不十分适用。鉴于体验型产品特征个性化较强的特点,学者难以预先设定其主题数量,换言之,预先设定的主题数量往往融入了较强的研究者个人的主观因素,无法客观、全面地反映消费者的个性化偏好。
3. 数据和模型
为了回答研究问题1,本文基于携程酒店数据,采用LDA2Vec技术对酒店评论进行分析,通过主题一致性确定最佳主题数量,并结合Word2Vec使特征向量化,从而全面、客观地获取体验型产品特征,同步获取评论情感极性、可读性等特征;为了回答研究问题2,本文将LCR引入体验型产品评论领域,实现基于消费者体验型产品特征偏好的消费者类构建,并构建各类别消费者的有用性预测模型,而后将评论根据有用性得分排序。总的来说,本文通过以下步骤实现考虑消费者体验型产品特征偏好的评论个性化排序:体验型产品特征提取、消费者类建模、评论个性化(如图1)。

Figure 1. Personalized review ranking considering consumers’ experiential product feature preferences
图1. 考虑消费者体验型产品特征偏好的评论排序
3.1. 体验型产品特征提取
本研究以酒店评论为例,参考《HOTELS》2022年酒店排行及各酒店品牌在中国的受众情况,选取豪华型酒店。平台选择方面,本研究最终以携程为数据平台,因为携程作为全球第三、亚洲最大的OTA平台,涵盖的酒店数据丰富,拥有完善的在线评论系统和海量的评论数据,常作为国内学者的研究对象 [25] 。最终,本文通过Python爬虫获取上海外滩某著名酒店的评论,共计获得2507条评论。对评论进行清洗和预处理后,共计获得2275条有效评论。
在体验型产品特征提取上,本文首先基于LDA模型揭示酒店评论的潜在主题,即酒店评论的体验型产品特征。相较于现有的预先设定主题数量的研究,本研究结合主题一致性,通过相似度计算确定最佳主题个数,从而确定最佳体验型产品特征,这可以避免在确定主题数量时受限于研究人员先验知识的问题。再通过Word2Vec实现主题和评论的向量化,最后计算评论在各体验型产品特征下的分布。
最终,本研究确定了6个主题并确定了每条评论在各产品特征下的分布情况。每个主题涵盖了一些高频词汇,这些词汇对应了不同的产品特征。各变量及其所涵盖的高频词汇如表1所示。

Table 1. Product feature and words
表1. 产品特征及高频词汇
本研究以大连理工大学汉语情感词典为基础情感词典,整合程度副词和否定词等,并结合点互信息(SO-PMI)对基础词典进行情感极性判别,人工整理后得到酒店领域情感词典,从而准确判断情感极性。该词典包含2177个情感词,其中褒义词1341个,贬义词836个。除了情感极性,评论的可读性也是预测模型的重要自变量之一。评论的可读性反映了评论在多大程度上能被消费者理解。除此之外,文本长度、评论星级、是否含图片、评论发布天数、评论者的历史评论数等也被证明在评论有用性预测中有显著作用,因此本文也将这些变量作为评论有用性预测模型的自变量。最终,本研究的预测模型包括了评论基本信息、情感极性和可读性等多类自变量,具体如下表2所示。

Table 2. Parameters of prediction model
表2. 预测变量
3.2. 消费者类建模
传统的评论有用性预测研究通常将消费者分为预先定义的类别,例如专家和新手消费者。本研究采用LCR,根据消费者在体验型产品特征上的偏好,将消费者分为不同的类别。这种方法可以更精准地反映消费者之间的差异,从而提高评论有用性预测模型的准确性。具体来说,LCR [26] 具备的优势如下:第一,该模型可以识别观测变量下的隐藏的异质性,而传统的线性回归和判别分析等模型仅描述观测变量之间的关系。第二,LCR模型还能为同步地为每一类别的消费者生成基于类的评论有用性预测模型,它的优势是无需执行通常的第二阶段的判别分析以将识别的类别与协变量相关联,同样也不需要使用传统聚类方法(如K-Means)来确定聚类数目,毕竟这一方法可能会受到启发式先验的影响。第三,LCR模型可以处理非平衡数据集,由于大部分在线评论的有用性投票数为0,不同类别的样本数量差异很大,传统的分类模型在处理非平衡数据集时容易出现偏差和误差。最后,LCR模型的可解释性强,即通过分析模型的参数来解释模型的预测结果,这有助于更好地理解模型的内在机制。
具体来说,假设消费者被归类于一组类别C中的一个,其概率分布表示为
,不同类别中的成员资格未知但已知
。每个类别具有特定的回归模型来预测观察向量
,即评论有用性预测得分。类成员模型依据消费者关心的不同体验型产品特征而将消费者归为不同的类别,并为不同类别的消费者构建基于类别的评论有用性预测模型。本研究采用的类成员模型是基于多项式逻辑回归的模型,写作:
(1)
其中,
是消费者n的体验型产品特征向量,这决定了消费者n归属于哪个类别,
为类别c的系数向量,C为类别总数。
基于类别的观测变量预测模型如下:
(2)
其中
,K代表评论总数,
是关于评论k的评论有用性预测得分,
表示基于各消费者类别预测所得的评论有用性得分的概率。因此,一条评论的有用性等于消费者n属于c类的概率乘以c类成员条件下该评论的有用性概率,再求和。
本文借助LatentGold [27] 软件,分别构建1~5个类的模型,结果如表3所示。结果显示,Model 3的BIC最小,并且该模型的R^2值达到0.9412,P值2.2e−7(<0.001),显著性强。因此,我们选择Model 3。
Notes:***p < 0.001。
同步地,LCR模型在迭代中也生成了类成员模型,如表4所示。结果显示,景观 & 餐饮、环境 & 设施 & 位置、酒店管理这3个特征在分类模型中的贡献较大,这3个变量对消费者分类有显著影响。结合公式(1),
代表不同类别的系数,由于分母均相同,可简化理解为
越大,属于该类的概率也越大。举个例子,当消费者只关注景观 & 餐饮模块(即,给定特征权重关注矩阵为(0, 0, 0, 0, 1, 0),则他被归为class 1的概率也越大,因为class 1景观 & 餐饮的系数最大。值得注意的是,成员类判别模型给出的是类别概率,这并不意味着消费者一定归属于某类。

Table 4. Coefficients for the class membership model
表4. 类成员模型系数
Notes:***p < 0.001;**p < 0.01;*p < 0.05。
基于类的评论有用性预测模型则如表5所示。结果显示,历史评论数、评论星级、是否含有图片、文本长度、评论发布天数、情感极性、评论可读性均对评论有用性预测有显著影响。

Table 5. Coefficients of the review helpfulness prediction model
表5. 评论有用性预测模型系数
Notes:***p < 0.001。
3.3. 评论个性化
评论个性化的实现依赖于消费者类别C的分配以及基于该类别建立的回归模型。
首先,根据消费者的产品特征偏好,将消费者分配到消费者类别C中的某一类。然后,基于类的评论有用性预测模型确定每条在线评论对该消费者的有用性得分,即该评论对消费者的帮助程度。最终,所有的评论将按照其帮助程度分数的降序进行排序,参考公式(4)。这意味着对消费者帮助程度越高的评论将被排在前面,而帮助程度较低的评论则会被排在后面。这样的排名方式能够更好地满足消费者的个性化需求,提高评论的有用性和参考价值。
(4)
4. 假设和检验
4.1. 实验设计
为了检验模型效果,本文举行了一场实验。本实验的目的在于获取用户预期排序,被试只需给出他们认为的最佳结果即可,因此模拟实验的方法在不会带来高额的投入下就能很好地满足实验目的。在模拟酒店预定环境下,被试被要求从评论相关性、完整性、诊断性和消费者满意度方面 [28] 对给定评论进行排序。通过比较“考虑消费者体验型产品特征偏好的评论排序结果和用户预期评论排序结果之间的距离”及“基于有用性投票的评论排序结果和用户预期评论排序结果之间的距离”,证明考虑消费者体验型产品特征偏好的评论排序机制是否能提高消费者的评论感知有用性,从而回答RQ 3。
我们招募了93名被试,每位被试仅能参与一次实验,实验后给与一定报酬。排除19份不合格样本后,最终得到74份有效样本。有效样本中,46%的被试每次预定酒店前都会看评论,27%的人大部分时候会看评论。
为了尽可能控制变量,我们选择了评论长度在90~110之间的评论。评论阅读数量方面,暂无研究给出明确阅读数量偏好,本研究综合了各研究成果,取相对折中的13作为评论数量 [29] [30] [31] 。在评论所属的酒店特征方面,我们确保6个酒店特征下各涵盖2~3条评论,且控制评论情感为褒贬均有。此外,为了更直观得到结果,我们选择的13条评论中大约二分之一是投票数多但有用性得分低,另外二分之一则是高有用性得分但投票数少。考虑消费者体验型产品特征偏好的排序模型的优势在于,投票数少但有用性较强的评论往往能被发现,这些评论在按照有用性投票的排序中往往是被忽视的。
4.2. 实验过程
在实验中,被试置身于模拟酒店预定环境下。以上海某高档酒店为例,假设被试正通过在线预定的方式了解酒店信息并计划通过查看评论决定是否预定该酒店,实验中明确说明假设排除价格、品牌、预定平台等偏好。我们要求被试对酒店的6个特征(酒店管理、酒店服务、总体 & 性价比、环境 & 设施 & 地理位置、景观 & 餐饮、房间内部)给出权重矩阵,权重之和为10,权重越大代表该被试在查看评论时越关注该特征。
被试被要求对给定的13条的评论分别从相关性、完整性、诊断性、满意度4个方面进行排序。为了避免评论展示顺序的影响,所有评论均以随机顺序呈现。在评论排序上,为了方便被试得出最终排序结果,实验要求被试在系统性地看完所有评论后先将评论依照相关性高低(以相关性为例)分为高相关性、中相关性、低相关性3大类,而后再对各个大类中的评论进行相关性由高到低排序,最终综合得到最终13条评论的排序。这种做法有两个好处:一方面,它可以避免被试直接对13条评论进行排序时难以抉择,因为通常情况下,人们对第8名和第9名的敏感性并不高。将评论分成大类后,被试只需要对每个大类中的3~5条评论进行排序,这样可以减轻被试的负担,避免长时间集中注意力。另一方面,被试在对各个大类进行排序时,相当于对评论排序进行了二次检查,这有助于确保评论排序结果的准确性。
4.3. 结果讨论
我们将序列间距离视为评论结果之间的距离。为了得到更科学、权威的结果,本文采用了两种序列距离计算方式计算评论排序的距离:Hamming 距离和Levenshtein距离。
Hamming距离是最常用的计算等长序列间距离的计算方式 [32] 。它通过计算两个序列在相同位置上不同元素的个数来衡量它们的差异。该计算方式简单且直观,计算的复杂度也较低,计算速度快,加之鲁棒性较强,对噪声和缺失数据不敏感,常被用于文本相似度计算。本文首先采用Hamming距离计算不同排序结果(归一化后)之间的距离,结果如下表6所示。其中,“个性化排序距离”代表考虑消费者体验型产品特征偏好的评论排序结果和用户预期评论排序结果之间的距离,“有用性投票排序距离”代表基于有用性投票的评论排序结果和用户预期评论排序结果之间的距离。

Table 6. Distance comparison based on Hamming
表6. 基于Hamming距离的排序方法距离比较
Notes:***p < 0.001;**p < 0.005;*p < 0.05。
结果显示,在评论相关性上,考虑消费者体验型产品特征偏好的评论排序结果距离均值为0.735,小于基于有用性投票模型的距离(Mean = 0.870),p值0.000,十分显著,这表明个性化排序结果距用户预期的排序结果更近。同理,在完整性、诊断性、满意度方面,个性化排序结果也优于基于投票数排序的模型。
Hamming距离虽然计算方式简单,但其忽略了元素的顺序信息。与Hamming距离不同,Levenshtein距离在计算过程中考虑了操作的顺序,这种特性在考虑序列元素排列关系的评论序列距离计算中尤为有用。此外,Levenshtein距离在考虑了序列中的插入、删除和替换操作时,将三种操作看作不同的操作,并分配不同的代价。这使得该算法能更准确地描述序列间的相似性和差异性,在自然语言处理中的应用尤为广泛 [33] 。因此,本文采用Levenshtein距离二次验证,结果如下表7所示。

Table 7. Distance comparison based on Levenshtein
表7. 基于Levenshtein距离的排序方法距离比较
Notes:***p < 0.001;**p < 0.005;*p < 0.05。
结果表明,个性化排序结果在评论相关性、完整性、诊断性、消费者满意度上与用户预期结果的距离均小于基于投票的模型,且p值均小于0.05或0.001,假设1~4得到验证。
综上,无论是Hamming距离还是Levenshtein距离,考虑消费者体验型产品特征偏好的评论排序在评论相关性、完整性、诊断性、满意度上均显著优于基于有用性投票的排序方式。
5. 研究贡献
5.1. 理论贡献
本研究主要有4个方面的研究贡献。首先,在体验型产品评论领域引入了LCR模型,为体验型产品的评论排序研究丰富了新的思路并提供了新的理论依据。与以往基于TOPSIS、AHP的评论排序研究不同,本研究首次尝试将潜在类别回归(LCR)引入体验型产品评论领域,并通过实证检验证明了方法的可行性。这一研究不仅拓宽了LCR模型的应用领域,也丰富了体验型产品评论排序的研究思路。其次,在研究过程中,派生了消费者类,有助于识别不同消费者群体,拓展了精准营销领域的研究视角。传统的市场营销方法往往根据基本的人口统计学特征来划分消费者群体,本文通过消费者关注的不同产品特征,将消费者分类,细化了消费者群体的划分。此外,为酒店评论排序问题中如何识别产品特征并构建消费者产品特征偏好提供了具体的方法。本文尝试用LDA方法解决体验型产品难以精准描述产品特征的问题,并用LCR回归解决消费者细分的问题。这为酒店评论排序问题中的产品特征识别和消费者产品特征偏好构建提供了具体的方法和技术支持,为相关领域的研究和实践提供了新的思路和理论依据。最后,通过实证检验,揭示了产品特征和评论特征对评论感知有用性的显著影响。研究结论与先前的评论有用性影响因素研究是一致的,进一步证明评论长度、评论情感、是否有图片、历史评论数、评论可读性等因素对评论感知有用性的显著影响,这一发现为评论有用性研究提供了更充足的证据和支持,丰富了相关领域的研究内容。同时,也证明了体验型产品特征对评论感知有用性的显著影响。传统的评论有用性研究往往忽略了体验型产品的特殊性质,无法充分反映消费者对体验型产品的真实感受。本研究通过对酒店评论数据的分析,成功揭示了体验型产品特征对评论感知有用性的显著影响,为体验型产品评论研究提供了新的理论依据。
5.2. 管理启示
本研究在评论的分类、排名、呈现上具有重要意义。在消费者层面,本文基于消费者的个性化偏好进行评论排序,有助于帮助消费者快速找到有用评论,缓解信息过载问题,提高信息检索效率,同时也能协助消费者更为科学地进行酒店预订决策。在平台层面,本文的研究为在线评论平台提供了更加准确和个性化的评论管理服务。个性化评论排序有助于提高评论的质量和可信度,从而提高平台的用户粘性和满意度。在酒店层面,本研究的发现为企业提供了更加准确的评论管理和营销策略制定的依据。通过消费者个性化偏好识别,企业可以更加准确地把握消费者的需求和偏好,并依此进行个性化评论排序,从而制定更加精准的评论管理和营销策略,提高销售额和市场份额。
6. 局限性和未来展望
本研究在探究如何缓解消费者购买体验型产品时的信息过载问题取得了一定的研究进展。然而,本研究仍存在一些不足之处。首先,在消费者个性化偏好层面,本研究着重考虑了消费者产品特征偏好,而未考虑其他相对重要的特征变量;其次,在评论有用性预测模型方面,本研究采用的预测变量大多为评论特征,但在评论发布者特征方面相对欠缺;第三,本研究在实验过程中由被试主动提供产品特征偏好而缺乏进一步的自动化方法。
针对以上局限性,未来的研究可以从以下几个方面进行改进:首先,更加关注消费者的个性化需求和偏好,将更多的消费者特征纳入研究中;其次,采用更加全面和准确的预测模型,结合更多的技术手段和数据源;最后,可以结合用户行为日志分析等技术,自动识别消费者偏好,从而更好地缓解消费者购买体验型产品时的信息过载问题。