1. 引言
随着电子商务平台的快速发展和用户生成内容(User-Generated Content, UGC)的爆炸式增长,在线评论已成为消费者决策的核心信息源之一。然而,面对纷繁复杂的评论内容,普通用户难以快速、准确地辨别哪些评论更具参考价值;同时,商家与平台运营方也难以在大规模信息中高效筛选出优质评论以指导商品推荐与营销策略[1]。在此背景下,如何构建一个自动化且高效的评论感知有用性预测(Review Helpfulness Prediction, RHP)模型成为一个重要问题。
已有研究在评论有用性预测领域中取得了一定进展,早期学者主要基于评论文本与评论者特征构建预测模型。例如,一些研究将评论长度、可读性、星级评分、评论者声誉等变量纳入回归模型中预测评论有用性[2]。也有学者结合文本挖掘与自然语言处理手段,对评论文本进行更细致的特征提取,进一步提升模型的预测性能[3]。然而,当前的方法在实际应用中仍面临两大主要局限:第一,模型的可解释性不足,使得评估者难以直观理解模型为何判定某些评论更具帮助性;第二,深度学习在评论有用性预测模型中的运用尚不充分。
基于此,本研究基于认知失调理论并结合深度学习技术,提出了一种兼具可解释性与高预测准确率的评论感知有用性预测方法。本文首先通过文本分析从用户的评论文本中提取评论的情感极性特征,并计算情感偏离度(Sentiment Deviation),即评论文本中的情感极性与评论者星级评分之间差值的绝对值。该指标能够反映评论者情感表达与评分行为的矛盾性。当该值较高时,此类评论可能因信息混乱而降低感知有用性。同时,我们设计了一个结合attention机制的LSTM (Long Short-Term Memory, LSTM),通过输入传统特征与情感偏离度以预测评论有用性。
经过严格的算法实验发现,我们设计的深度学习模型的准确率高于所有基准模型,且情感偏离度显著提升了所有模型的预测准确率。实验结果表明,我们设计的深度学习模型显著提升了评论有用性预测模型的性能,且情感偏离度在评论有用性预测中起到关键作用。本研究不仅能够揭示评论有用性形成的关键机制,还可以为电商平台与消费者提供更加透明且高效的决策参考。
本研究的主要贡献体现在以下方面:在理论层面,本研究系统地将认知失调理论应用于评论有用性预测,扩展了该理论在电子商务情境下的适用范围与解释力;在实践层面,基于深度学习的可解释模型方案能帮助电商平台有效识别高价值评论,优化其内容推荐与展示机制,为消费者决策过程提供更有针对性的信息支持。
2. 理论背景
2.1. 评论有用性预测
评论有用性指用户对评论在决策过程中所发挥参考价值的主观评价[1]。有用性高的评论能够减少消费者购买决策中的不确定性,同时能帮助企业高效筛选高质量评论进行需求识别和预测。越来越多的研究开始关注如何自动化预测评论的感知有用性。
最早的研究多集中于利用线性回归或Logistic回归等传统统计模型,将评论长度、评论星级、评论者声誉等变量纳入模型中进行预测[4]。此后,研究者逐渐引入文本挖掘与自然语言处理(NLP)技术,对评论的词频、情感倾向等特征进行提取,以优化模型的预测性能[5]。但多数研究仍停留在模型的准确度提升层面,对深度学习模型和模型可解释性的关注尚不充分。
2.2. 情感偏离度
情感偏离度(Sentiment Deviation)主要用于衡量评论文本实际表达的情感倾向与评论星级评分(或显性评分)之间的差异[6]。一般通过计算文本情感评分与评分级别之间的绝对差值来度量。如果评论文本所表现出来的情感极性与评论者给出的星级不一致,则代表一种潜在的“冲突”或“偏离”,这种偏离可能会影响其他阅读者对评论真实性或可靠度的判断[6]。现有研究表明,当评论中描述的内容与评分形成显著落差时,可能引发读者对评论内容的进一步审视,从而影响对评论有用性的主观评定[7]。
2.3. 认知失调理论
认知失调理论(Cognitive Dissonance Theory)表明,当个体所持有的态度、信念或认知之间出现不一致时,会产生心理上的失调,从而导致个体采取一系列策略来缓解或降低这种失调,包括改变态度或寻找额外的证据来合理化不一致[8]。
在电子商务领域,现有研究表明当消费者在评论中看到评分与评论内容存在冲突时,往往会花费更多认知资源来审视评论的真实性与合理性[6]。例如,评论者对一款产品打出了较低的评分,但评论文本却极力赞扬产品的优点,这种不一致很可能引发读者的警觉,从而对评论的可信度产生质疑。基于这一理论视角,本文所引入的情感偏离度可以被视作一种“信息不一致”的具体表现形式,当消费者看到情感偏离度高的评论时,可能增加认知负担从而不认为该评论有用。
2.4. 研究差距和动机
综上所述,尽管已有文献在评论有用性预测方面取得了可观的进展,但仍存在若干亟待解决的研究差距。首先,现有研究多集中于利用传统特征(如评论长度、评论者声誉、星级评分等)与常规文本挖掘手段来提升模型的预测准确度,这种做法虽在一定程度上有效,但往往忽视了用户决策过程中潜在的心理学机制,如认知失调对用户感知与判断产生的影响。其次,已有研究也多停留在统计相关或模型性能提升层面,而在模型可解释性与理论支撑方面,则缺少系统化的探讨,当前评论有用性预测模型在实际运用中面临“黑箱式”预测的难题。为解决这些问题,需要在深度学习框架下同时兼顾模型的预测性能与可解释性,进一步揭示用户在评论有用性评价中的心理过程,从而为平台与消费者提供更加透明、可行的决策依据。
3. 方法
模型构建
本研究分为两个核心步骤。第一步是构建计算评论文本的情感偏离度,第二步是构建评论有用性的预测模型。具体来说,第一步中评论文本的情感偏离度的计算方式是取文本情感得分的绝对值减去用户评分的绝对值,如公式(1)所示。
(1)
其中,
表示第i条评论的情感极性得分,其取值范围在[−1, 1]之间,数值越大表示文本情感越积极,越小则表示情感越消极;
代表用户对商品的评分,取值范围为1至5。该变量反映了用户在评论文本与评分之间的主观一致性,当
值较大时,意味着评论的情感表达与评分存在较大偏离,从而可能影响其他消费者对该评论的可信度。
研究的第二步是构建深度学习模型以精准地预测感知有用性得分。在本研究中,我们采用了长短时记忆网络结合注意力机制的深度学习架构(如图1所示),以充分挖掘输入特征中的重要信息。LSTM作为递归神经网络(Recurrent Neural Network, RNN)的一种改进形式,能够有效解决标准RNN在处理长序列数据时易出现的梯度消失问题[9]。其核心机制包括遗忘门、输入门和输出门,这些门控单元控制信息的更新与遗忘,从而实现对数据长期依赖关系的建模。
Figure 1. Framework of the review helpfulness prediction model
图1. 评论有用性预测模型的框架
4. 实验设置与结果分析
4.1. 数据集
本文采用Kaggle平台提供的亚马逊图书评论公开数据集1作为实证研究基础。Kaggle作为全球领先的数据科学社区与开放数据仓库,其收录数据集有较强的质量保障,已成为计算机科学、信息管理等领域学者广泛采纳的权威数据源,故本研究选取其发布的亚马逊评论数据以保障实证结果的稳健性与可复现性。
选择亚马逊图书评论作为研究对象原因有两点:其一,亚马逊作为全球规模最大的综合性电商平台,其用户基数与商品多样性保障了评论文本的丰富性与代表性;其二,亚马逊自2003年起即建立完善的评论有用性投票机制,用户可通过“Helpful Votes”对评论价值进行民主化评估,该机制积累了海量经过群体智慧筛选的标注数据,为感知有用性预测研究提供了高信效度的因变量测量基准。
经数据清洗与过滤后,本研究最终纳入分析的评论样本共计12000条。数据集涵盖多维结构化与非结构化信息,具体包括:产品元数据、用户信息、评论发布时间戳、显式评分(1~5星评级)以及原始评论文本。
4.2. 特征选取
根据以往的研究结论,我们选取了评论者对产品的评分、评论文本长度、情感极性、可读性、评论存在时间作为预测变量[10]。特征含义及选取理由如表1所示。
Table 1. System resulting data of standard experiment
表1. 特征含义及选取理由
模型名称 |
特征含义 |
选取理由 |
产品评分 |
用户对商品或服务给出的显式星级评分 |
评分可能预示着评论质量 |
评论文本长度 |
评论文本包含的字符数或词数 |
长文本可能预示高信息价值 |
情感极性 |
评论文本表达的情感倾向强度 |
情感表达影响用户感知 |
文本可读性 |
评论的易读性水平 |
可读性高的评论降低用户信息处理难度,
提升感知有用性 |
评论存在时间 |
评论自发布至今的时间跨度 |
早期评论可能积累更多“有用”投票 |
情感偏离度 |
评论文本情感得分与产品
评分间差异的绝对值 |
评分与情感矛盾,可能引发用户不信任降低有用性投票 |
4.3. 评估
本研究采用五折交叉验证来验证模型性能。五折交叉验证通过将数据集划分为五个子集,每次选择其中一个子集作为测试集,其余四个子集作为训练集,重复五次,以此提高模型评估的稳定性和泛化能力。同时,我们使用监督回归中常用的均方误差(Mean Squared Error, MSE)对模型进行评估。均方误差是一种常用的回归评估指标,它计算预测值与真实值之间误差的平方平均值。均方误差反映了模型的整体误差大小,数值越小表示预测越精确。且由于平方项的存在,MSE对较大误差更为敏感。均方误差的计算方式如公式(2)所示。
(2)
4.3. 基准模型
Lasso回归:利用
正则化进行特征选择,但难以捕捉复杂的非线性关系和时序依赖[11]。
随机森林回归:基于决策树集成学习,具有较强的泛化能力,但难以建模长期依赖关系且计算成本高[12]。
XGBoost回归:通过梯度提升增强预测性能,但对数据的长期依赖建模能力有限,且超参数调优复杂[13]。
支持向量回归:利用核方法处理非线性关系,但在大样本情况下表现一般[14]。
4.4. 结果与讨论
本节分析了所提出的评论有用性预测模型和前面提到的基准方法的实验结果。表2分别给出了加入情感偏离度特征之前和之后各模型的MSE值。
如表2所示,无论是否加入情感偏离度特征,所提出的融入attention机制的LSTM模型的表现均优于基准模型。具体来说,加入情感偏离度特征前,我们提出的模型的MSE值与支持向量回归、随机森林回归、XGBoost、套索回归相比分别下降了1.00、0.72、1.24、0.81。加入情感偏离度特征后,我们提出的模型的MSE值与支持向量回归、随机森林回归、XGBoost、套索回归相比分别下降了0.92、0.81、1.26、0.71。实验结果证明本研究提出的评论有用性预测模型的性能均优于基准模型。
同时,在加入情感偏离度特征后,我们提出的模型和选用的基准模型性能都得到提升。以本研究提出的模型为例,加入情感偏离度特征后,模型的MSE相比此前下降了0.14,这表明本研究所关注的情感偏离度特征在揭示评论文本与评分之间信息不一致性、降低预测误差方面发挥了关键作用,为构建更加精准与稳定的评论有用性评价体系提供了有力的实证支持。
Table 2. Prediction performance of benchmark methods and our model (MSE)
表2. 基准方法与本模型的预测性能(MSE)
模型名称 |
未加入情感偏离度前的MSE值 |
加入情感偏离度后的MSE值 |
支持向量回归 |
6.60 |
6.38 |
随机森林回归 |
6.32 |
6.27 |
XGBoost |
6.84 |
6.72 |
套索回归 |
6.41 |
6.17 |
本研究模型 |
5.60 |
5.46 |
5. 研究结论与讨论
5.1. 研究结论
本文所设计的基于注意力机制的长短时记忆网络模型在实证研究中表现出极高的预测精度。通过严谨的五折交叉验证和均方误差评估,该模型充分捕捉了评论文本中隐含的时序特征及语义关联,从而有效预测了评论有用性得分,并在各项指标上均显著优于传统统计和机器学习方法,验证了深度学习在大规模文本数据分析中的卓越应用价值。
此外,情感偏离度作为衡量评论文本情感倾向与用户显性评分间不一致性的重要指标,其引入进一步增强了模型的预测能力。实验结果表明,将情感偏离度纳入特征体系后,模型能够更精准地捕捉消费者对评论有用性的主观感知,从而显著降低预测误差,证明了情感偏离度在反映信息不一致性和影响用户判断方面具有关键作用。综上所述,本研究不仅验证了基于深度学习的模型在预测评论有用性得分方面的有效性,而且确认了情感偏离度对提升预测准确性的实质性贡献,为电子商务平台实现高效、精准的评论筛选提供了坚实的理论与方法支持。
5.2. 理论贡献
本研究在理论层面的主要贡献在于首次将认知失调理论引入评论有用性预测的研究中,通过构建情感偏离度这一衡量指标,系统地探讨了评论文本情感与用户显性评分之间的不一致性对消费者认知与判断的影响。传统研究多侧重于评论长度、星级评分、评论者声誉等传统变量,而本研究则从心理学视角出发,揭示了当评论中的情感表达与评分存在显著偏离时,消费者在信息处理过程中可能产生的认知负担和疑虑,从而为理解在线评论中信息不一致现象提供了新的理论视角。
此外,本研究在深度学习模型的构建过程中融入了情感偏离度特征,不仅提升了模型对评论有用性得分的预测精度,也为深度学习方法在文本信息处理中的可解释性问题提供了理论上的突破。通过结合注意力机制的长短时记忆网络,该模型不仅有效捕捉了评论文本中的语义和时序特征,还能够揭示情感偏离度在信息不一致性传递中的中介作用,从而为后续研究搭建了一个兼顾高预测性能与理论解释力的研究框架,丰富了电子商务领域中消费者行为理论与文本分析方法的交叉研究。
5.3. 实践意义
本研究提出的深度学习模型在实际应用中具有显著的商业与运营价值。通过对大规模电商评论数据的高效处理,该模型能够实现对用户评论的自动筛选和精准排序,为平台优化内容推荐、商品展示和营销策略提供了有力支持。借助模型捕捉评论文本中的时序特征和深层语义信息,平台可以迅速识别出高价值评论,降低信息冗余和用户认知负担,从而提升消费者的决策效率和购物体验,最终助力平台提高用户粘性与转化率。
此外,情感偏离度作为衡量评论文本情感与用户评分不一致性的量化指标,为平台在内容审核和异常检测方面提供了新的实用工具。该指标不仅有助于及时识别潜在误导性或虚假评论,增强信息可信度,而且其直观性和可操作性也便于在现有系统中集成应用。基于注意力机制的LSTM模型进一步保障了模型的实时运行和高精度预测,为构建智能化、透明化的评价体系提供了实践范式,对电商平台实现智能决策和市场反馈分析具有重要的推动作用。
5.4. 研究局限与展望
本研究在构建结合情感偏离度与深度学习技术的评论有用性预测模型方面虽取得了积极成果,但仍存在一定局限性。首先,本研究数据主要来源于单一平台(亚马逊图书评论),且有用性得分分布呈现明显的偏态与长尾特征,故在其他平台或产品类型下的推广与适用性尚需进一步验证;其次,情感偏离度的计算依赖于现有情感分析方法,可能无法全面捕捉评论中复杂的情感表达和细微差异;此外,尽管深度学习模型在预测准确性上表现优异,但其“黑箱”特性限制了对内部决策机制的深入解释。未来研究可通过拓展数据来源、引入更精细的情感分析技术以及开发具有更高解释性的模型架构,进一步提升预测性能与透明度,同时结合多模态信息和用户行为动态,构建更为完善的评论筛选与推荐系统。
基金项目
本研究由国家大学生创新创业训练计划(202410497075)资助。
NOTES
*通讯作者。
1https://www.kaggle.com/datasets/meetnagadia/amazon-kindle-book-review-for-sentiment-analysis?select=all_kindle_review+.csv