1. 引言
推荐系统(Recommender System)作为个性化服务的核心技术,通过分析用户行为数据和群体相似性,构建智能化的内容筛选机制。其核心功能在于预测用户潜在需求,并广泛应用于电子商务、社交网络及数字内容平台,有效提升用户体验与商业转化率。在此基础上衍生的可解释推荐系统(Explainable Recommender System),通过提供透明的推荐依据,实现了算法决策过程的可视化,成为当前推荐领域的重要研究方向。
可解释推荐系统的研究进展主要体现在三大技术路径的突破。首先,自然语言生成技术的突破推动了推荐解释的智能化生成。以Transformer为核心的序列建模技术通过自注意力机制生成连贯的文本解释[1]-[3],变分自编码器(VAE)利用潜在变量控制生成内容的多样性[4] [5],而扩散模型则通过迭代优化机制提升了解释文本的质量[6] [7]。这些技术的协同应用使得推荐解释具备了拟人化表达能力。
其次,大语言模型(LLMs [8])的兴起重构了解释生成的范式架构。以GPT系列[9]-[11]和BERT [12]为代表的预训练模型,通过海量语料库习得的语言表征能力,能够生成符合用户认知逻辑的解释文本[13]-[18]。特别是其上下文理解能力,使得复杂场景下的推荐依据呈现多维度解析特征[19] [20],在解释深度和语义连贯性层面实现了跨越式发展。
最后,多源信息融合策略显著增强了解释的精准性与可信度。知识图谱技术通过结构化知识网络为解释提供实体关联支持[21]-[23],方面分析方法[24] [27]聚焦用户偏好细粒度特征,而多模态融合技术[28]则整合文本、视觉等多维度信息,构建起立体化的解释体系。这种融合创新不仅提升了推荐系统的透明度,更形成了用户需求与算法决策之间的可验证映射关系。
尽管可解释推荐领域已取得显著进展,但当前仍面临以下挑战需要突破:
a) 计算成本与模型效果的权衡:高效的推荐模型通常需要大量的计算资源,而复杂模型虽然能够提供更佳的推荐效果,却会显著增加计算成本。因此,如何在确保推荐效果的同时降低计算成本,是当前亟待解决的关键问题[29]。
b) 数据稀疏场景下的生成瓶颈:基于Transformer的文本生成技术虽能产生流畅的自然语言解释,但其性能表现与训练数据密度呈现强相关性。在现实应用中普遍存在的长尾分布和稀疏交互场景下,该技术的解释生成质量存在显著退化风险,这已成为制约实际部署的重要障碍。
c) 评估体系的标准化缺失:传统评价指标(如BLEU等)在可解释推荐场景中存在适用性局限,难以全面评估解释的语义合理性、逻辑连贯性及用户感知价值。建立多维度、细粒度的评估框架已成为推进领域发展的迫切需求[30]。
d) 多模态需求:面对文本、图像、音频等多模态数据的处理需求,推荐系统需要构建跨模态的可解释机制,这种多模态需求增加了系统的复杂性,并使得解释过程变得更加困难[29]。
本文针对可解释推荐系统中存在的模型性能不足及数据稀疏场景下解释生成受限等挑战,做出了如下贡献:
a) 本文通过整合历史评论文本数据来增强生成模型的方法,构建基于评论编码的用户–项目潜在语义表征,有效增强推荐解释的语义相关性和个性化程度。
b) 本文设计并实现了一种基于历史评论反馈建模的可解释推荐框架PER-HR (Personalized Explainable Recommendation via Historical Reviews),该框架通过建立历史评论反馈机制,实现了评分预测与解释生成的协同优化。
c) 本文评估验证了所提方法的有效性。实验结果表明,与现有基线模型相比,PER-HR在评分预测和解释生成任务上分别取得显著提升,特别是在大规模数据场景下,能有效缓解了数据稀疏性对模型性能的制约。
d) 本文揭示了通过潜评论表征和在语义空间的迁移学习,可以增强模型生成效果,有效缓解数据稀疏性对模型性能的制约。
2. 相关工作
为实现历史评论文本数据与生成模型的深度融合,本研究构建了基于反馈建模、表示学习与Transformer技术的增强框架。
反馈建模(Feedback Modeling)是指通过解析用户显式/隐式反馈数据构建动态偏好表征。传统上,推荐系统根据显式反馈(如评分、点击等)或隐式反馈(如浏览、购买历史等)来进行训练。然而,最新的研究扩展了反馈建模的范围,涵盖了更多细粒度的反馈信号,如情感分析结果、用户评论、时序变化等。这些反馈不仅能反映用户的偏好,还可以揭示用户对推荐结果的态度与反应。研究表明,结合用户的情感反馈与个性化的上下文信息能够进一步提升推荐的准确性和多样性。在可解释推荐系统中,理解用户的反馈有助于生成符合用户期望和需求的推荐理由。因此,本文将用户和物品的历史评论文本作为反馈信息,通过增强的反馈建模框架来进一步提高推荐解释的个性化和相关性,确保推荐理由更贴合用户的实际需求和情感。
表示学习(Representation Learning)是一种机器学习技术,旨在从原始数据中提取有效的低维特征表示,捕捉数据的潜在结构和语义。近年来,表示学习和多模态融合方法显著提升了语义表征的细粒度建模能力,如CLIP模型通过跨模态对齐实现了文本–图像联合嵌入。本文通过表示学习对用户和物品的历史交互进行建模,通过训练一个联合表示学习框架,捕捉用户和物品的语义关系,从而为生成推荐解释提供更加精准的信息基础。
Transformer模型是一种基于自注意力机制的深度学习架构,可有效建模长距离依赖关系,在序列生成任务中展现出显著优势。最新的研究表明,基于Transformer的深度生成模型(如GPT)可用于生成个性化的推荐解释,该方法不仅能提高推荐系统的精准度,还能够为每个推荐提供清晰的理由和背景信息。在本文中,基于Transformer架构,结合用户和物品的历史评论信息,通过一个额外的编码器来处理和融合这些评论数据,提升生成推荐的质量,包括在评分预测和解释生成任务上。
上述三项核心技术在本研究中形成有机整体:引入用户–物品的历史评论文本作为反馈信息,使用表示学习捕捉用户–物品特征和文本语义特征,增强Transformer生成模型在评分预测和解释生成任务中的效果。
3. 研究方法
在可解释推荐系统研究中,评分预测与解释生成构成核心研究维度。形式化定义如下:给定用户集合
与物品集合
,评分预测任务致力于构建模型
以建模用户
与未交互物品
的潜在关联,进而预测离散评分
,其优化目标通常为最小化预测值
与真实评分
之间的差异,如公式(1)所示:
(1)
另一方面,解释生成任务需要构建模型
以产生自然语言解释序列
。该过程需满足语义连贯性与文本可读性双重约束,同时要求解释文本
能够有效涵盖用户–物品特征子集
,其中
为预定义词汇表。具体而言,特征集合
中的每个特征项
以及解释序列中的每个词汇单元
均需满足
,如式(2)所示:
(2)
本研究所涉关键符号体系及其语义定义详见表1。需特别说明的是,评分预测与解释生成虽为独立建模任务,但通过共享特征空间与协同优化机制,可实现推荐系统准确性(accuracy)与可解释性(interpretability)的联合提升。
Table 1. Key symbols and their descriptions
表1. 关键符号及其说明
符号 |
说明 |
|
训练集 |
|
测试集 |
|
用户集合 |
|
物品集合 |
|
词汇表 |
|
特征集合 |
|
解释集合 |
,
|
一组用户–物品对,u代表用户,i代表物品 |
|
用户u对物品i的真实评分 |
|
在整个词汇表中,与用户u对物品i相关联词汇的概率分布 |
|
与用户u对物品i相关的特征集合 |
|
用户u对物品i的解释性文本序列 |
|
Softmax函数 |
|
权重矩阵 |
|
偏置参数 |
|
损失 |
3.1. 算法架构
本研究所提出的算法框架架构整体由编码器驱动的特征提取模块和解码器驱动的生成模块构成。现有研究[1] [2]已证实,通过引入上下文任务的联合训练机制,可显著增强解释文本的生成质量。
在特征提取模块中,分别对用户
的历史评论文本
与物品
的历史评论文本
进行特征建模。首先,将
和
中的记录拼接起来,对评论文本序列执行动态截断或填充<pad>标记以保持统一维度。通过堆叠式编码器对融合特征进行深度表征学习得到
,其数学表达如公式(3) (4)所示。
(3)
(4)
在生成模块中,采用多任务协同架构,整合用户特征嵌入
、物品特征嵌入
及历史词元序列
进行联合建模。基于自回归生成机制(Autoregressive Generation),该模块通过分解式解码过程实现评分预测与文本生成:首先,拼接用户/物品嵌入与词元序列,并注入位置编码信息,然后利用论文[1]中的掩码机制
实现时序感知解码,输出三通道特征
、
和
。
经由多层感知机(MLP)实现非线性映射得到预测评分
,
经由单层线性层和Softmax层,来估计解释中出现的所有单词的概率分布,
经由单层线性层、Softmax层,生成词汇表
中每个单词作为下一单词
的概率分布。其数学表达如公式(5)~(9)所示。
(5)
(6)
(7)
(8)
(9)
其中,
是起始标志,
、
、
和
是可训练参数。
整个过程的伪代码如算法1所示。
算法1基于历史评论反馈建模的可解释推荐算法 |
输入:历史评
,
,用户
,物品
,输入文本序列
,掩码矩阵
,模型参数
,
,
,
|
输出:评分
,上下文分布
,输出文本序列
|
1:
|
2:
3:
|
4:
|
5:
|
6:
|
7:
|
8:
|
9:
|
10: RETURN
|
3.2. 损失函数
本研究的模型训练采用基于标准反向传播算法的优化策略。为实现多任务协同学习,构建如公式(10)~(13)所示的多任务联合损失函数,该函数由三个预测目标的加权组合构成:
(10)
(11)
(12)
(13)
其中,
表示训练样本集合,
表示集合中元素的数量,
对应真实解释文本序列
中的第t个词元。
为评分预测任务的均方误差损失项,
度量解释文本生成的交叉熵损失,
则计算文本元素预测的负对数似然损失。超参数
、
和
分别对应各任务的加权系数,通过动态调整这些超参数实现多任务间的平衡优化,从而提升模型的综合性能表现。
4. 实验设计
4.1. 数据集与实验细节
本文实验采用来自Yelp (餐饮)、Amazon (电影与电视)及TripAdvisor (酒店)三大领域的公开可解释推荐基准数据集[31]。在数据预处理阶段,通过筛选确保用户与物品实体均具备不少于一条交互记录,有效保障数据完整性。每条数据样本包含五元组结构:用户ID、物品ID、用户评分(1~5星)、解释文本和特征信息。其中解释文本来源于用户评论的语义片段,经人工标注验证至少包含一个与推荐决策相关的特征项。
Table 2. Key symbols and their descriptions
表2. 三个数据集的统计
|
Yelp |
Amazon |
TripAdvisor |
用户总数 |
27,147 |
7,506 |
9,765 |
物品总数 |
20,266 |
7,360 |
6,280 |
记录总数 |
1,293,247 |
441,783 |
320,023 |
特征总数 |
7,340 |
5,399 |
5,069 |
用户平均记录数 |
47.64 |
58.86 |
32.77 |
物品平均记录数 |
63.81 |
60.02 |
50.96 |
解释文本平均长度 |
12.32 |
14.14 |
13.01 |
稀疏率(%) |
99.76 |
99.20 |
99.48 |
如表2所示,三大数据集呈现差异化统计特性。以Yelp数据集为例,其用户与物品基数较大,但平均交互频次较低,呈现出显著的数据稀疏性特征,适用于验证模型在长尾分布场景下的鲁棒性。Amazon数据集则表现出较高的交互密度,稀疏性指标优于其他数据集。TripAdvisor数据集在用户评分分布与解释文本的聚焦性方面具有均衡特性,为模型性能评估提供了中间态测试环境。
实验采用分层随机划分策略,按8:1:1比例划分为训练集、验证集与测试集。具体而言,训练集用于参数优化,验证集负责超参数调优与早停机制触发,测试集则用于最终性能评估。为降低随机性影响,每个实验配置均执行五次独立重复实验,结果取均值。
在超参数选择上,嵌入向量维度设为512,评分预测、上下文预测和解释生成任务的权重分别设置为1.0、1.0和0.1。纳入编码的评论个数设为20,生成的句子长度设为15,初始学习率为1.0。每经过一个epoch达到最小损失时,学习率将调整为当前值的0.25。当连续5个epoch的总损失未出现显著下降时,训练将提前终止。
4.2. 评估指标
为了全面评估可解释推荐的性能,本文采用RMSE和MAE两项指标来衡量评分预测任务的效果。MAE用于评估模型预测值与实际值之间的绝对误差。其计算方式如公式(14)所示:
(14)
其中,N为测试样本的总数。
RMSE通过对误差的平方取平均后开方,强调较大误差的影响。其计算方式如公式(15)所示:
(15)
在解释生成任务中,本文从可解释性和文本质量两个角度评估模型的性能。在可解释性方面,采用特征匹配率(FMR)、特征覆盖率(FCR)和特征多样性(DIV) [31]。
FMR衡量生成的解释文本中包含真实文本特征的比率,计算方式如公式(16) (17)所示:
(16)
(17)
其中,对于每个用户–物品对
,
表示模型生成的解释文本,
表示真实特征。
FCR衡量生成的解释文本中所包含特征的数量占真实特征总量的比例,计算方式如公式(18)所示:
(18)
其中,
表示真实解释文本中特征的集合,
表示生成解释文本中特征的集合。
DIV衡量不同生成文本之间特征的交集,其计算方式如公式(19)所示:
(19)
其中,
和
表示两个生成的文本包含的特征集合。
在文本质量评估方面,本论文采用了多种指标,包括USR [31]、BLEU-1、BLEU-4 [32]、ROUGE-1和ROUGE-2 [33]的精确率(Precision)、召回率(Recall)、F1分数来衡量解释生成的效果。
BLEU (Bilingual Evaluation Understudy) [32]是一种广泛应用于生成句子质量评估的指标,其核心思想是通过计算生成句子与参考句子之间n-gram的匹配程度来衡量翻译或生成任务的表现。BLEU的计算过程主要包括以下几个步骤:
a) 计算n-gram精确度(Precision):首先,针对每个n-gram,计算生成句子
中每个n-gram与参考句子
中n-gram的匹配数量。然后,计算生成句子中所有n-gram的精确度。
b) 为避免生成句子过短导致n-gram精确度偏高,BLEU引入了惩罚因子BP (Brevity Penalty),其计算方式如公式(20)所示:
(2)
c) 计算BLEU分数:将不同n-gram的精确度和BP惩罚因子结合,BLEU的计算方式如公式(21)所示:
(21)
其中,
表示第n阶n-gram的精确度,
为权重,通常取
。
BLEU-1和BLEU-4分别代表仅考虑1-gram精确度和考虑1-gram到4-gram精确度的BLEU得分,其计算方式如公式(22) (23)所示:
(22)
(23)
BLEU分数越高,表示生成句子
与参考句子
之间的相似度越高,生成质量也越好。
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) [33]是文本摘要任务中常用的评价指标,用于衡量生成的句子
与原始句子E之间的相似度。ROUGE的主要度量包括精确度(Precision)、召回率(Recall)和F1分数。它们的计算过程如下:
a) 精确度(Precision):精确度衡量生成的句子
中与原始句子E相匹配的部分占
总长度的比例,计算方式如公式(24)所示:
(24)
b) 召回率(Recall):召回率衡量原始句子E中与生成句子
相匹配的部分占E总长度的比例,计算方式如公式(25)所示:
(25)
c) F1分数(F1-Score):F1分数是精确度和召回率的调和平均,用于综合评估这两者的平衡性,计算方式如公式(26)所示:
(26)
其中,
表示生成的句子
和原始句子
之间匹配的词语或片段数量,
和
分别表示生成句子和原始句子的长度(通常以词或n-gram的数量来衡量)。
然而,BLEU与ROUGE主要依靠词汇匹配来评估生成文本的质量,这使得它们在检测相同句子方面存在一定局限性。因此,在评估生成文本的个性化程度时,BLEU与ROUGE的表现较为有限。为了更好地评估个性化生成文本,本论文引入了USR (Unique Sentence Ratio)指标来计算生成句子的唯一性比率,计算方式如公式(27)所示:
(27)
其中
表示模型生成的句子集合。
4.3. 基线算法
本文选择了两组基线算法,分别用于评分预测任务和解释生成任务的自动评估。在评分预测任务中,采用基于分解的PMF [34]、SVD++ [35]和两种基于深度神经网络的方法NRT [36]和PETER [1]作为比较基准。在解释生成方面,采用NRT、Att2Seq [37]、PETER和PEPLER [18]。以下是几种基线算法的介绍。
a) PMF:一种基于概率矩阵分解的协同过滤方法,通过分解用户–物品评分矩阵来预测评分。
b) SVD++:在传统SVD的基础上,引入了用户隐式反馈,增强了对用户偏好的捕捉能力。
c) NRT:一种神经网络模型,用于生成个性化评分预测和相关提示。
d) Att2Seq:一种生成个性化推荐文本的序列到序列模型,常用于生成推荐解释。
e) PETER:一种基于Transformer的多任务学习模型,能够同时进行评分预测和解释生成。
f) PEPLER:一种基于GPT-2的个性化推荐生成模型,通过微调GPT-2来生成个性化解释。
5. 实验结果与分析
5.1. 评分预测
Table 3. Rating prediction results, with the best performance values in bold
表3. 评分预测结果,最佳性能值以粗体标出
|
Yelp |
Amazon |
TripAdvisor |
RMSE |
MAE |
RMSE |
MAE |
RMSE |
MAE |
PMF |
1.09 |
0.88 |
1.03 |
0.81 |
0.87 |
0.70 |
SVD++ |
1.01 |
0.78 |
0.96 |
0.72 |
0.80 |
0.61 |
NRT |
1.01 |
0.78 |
0.95 |
0.70 |
0.79 |
0.61 |
PETER |
1.01 |
0.78 |
0.95 |
0.71 |
0.81 |
0.63 |
PER-HR |
0.99 |
0.76 |
0.88 |
0.66 |
0.81 |
0.63 |
本文使用了均方根误差(RMSE)和平均绝对误差(MAE)两个常见指标对多种推荐算法的性能进行了评估。表3展示了PMF、SVD++、NRT、PETER和PER-HR五种模型在Yelp、Amazon和TripAdvisor三个数据集上的表现,最佳性能值以粗体标出。
在Yelp数据集上,PER-HR模型在RMSE (0.99)和MAE (0.76)方面均表现最佳,明显优于其他模型。相比之下,PMF模型的性能较差,RMSE为1.09,MAE为0.88,误差较大。这表明,PER-HR模型在该数据集上能够更好地拟合用户偏好,提供更准确的推荐。
在Amazon数据集上,PER-HR模型再次表现出色,RMSE为0.88,MAE为0.66,均为最低值,优于其他所有模型。NRT和PETER模型的表现相似,RMSE分别为0.96和0.95,MAE值也较高。PER-HR模型在此数据集上的优势尤其明显,表明它能够有效捕捉用户的需求和物品的特征。
在TripAdvisor数据集上,尽管PER-HR并未在RMSE和MAE上都取得最优成绩,但其表现依然非常竞争力,RMSE为0.81,MAE为0.63,与其他模型相差无几。
综上所述,PER-HR模型在Yelp和Amazon数据集上表现突出,无论是在RMSE还是MAE指标上均为最佳。尽管在TripAdvisor数据集上它并非绝对最好,但其在MAE上依然领先,表明PER-HR在推荐任务中的表现稳定且可靠。
5.2. 解释生成
表4展示了在三个数据集(Yelp、Amazon和TripAdvisor)上,对不同推荐算法在可解释性和文本质量方面的性能进行了比较。评估指标包括FMR (可解释性评分)、FCR (可解释性评分)、DIV (多样性,越小越好)、USR (用户满意度),以及BLEU-1 (B1)、BLEU-4 (B4)、ROUGE-1 (R1)和ROUGE-2 (R2)的精度(P)、召回率(R)和F1值(F)。其中,BLEU和ROUGE指标的结果以百分比表示,其他指标为绝对值。
在可解释性方面,PER-HR在所有三个数据集上均展现了优异的表现。具体来说,FMR和FCR两个指标显示了PER-HR在生成高质量解释方面的显著优势。特别是在Yelp和Amazon数据集上,PER-HR的FMR分别为0.23和0.20,FCR分别为0.66和0.73,明显超过了其他算法。此外,PER-HR在多样性(DIV)指标上也表现突出,尤其在Yelp (1.10)和Amazon (1.43)数据集上,其生成的推荐解释具有较高的多样性,避免了重复或单一的解释。
在文本质量方面,PER-HR在BLEU和ROUGE指标上均取得了最佳成绩。作为衡量生成文本与参考文本相似度的标准,BLEU-1和BLEU-4显示了PER-HR在文本生成方面的强大能力。在Yelp数据集上,PER-HR的BLEU-1为28.66,远高于其他方法,而BLEU-4为12.18,进一步显示了其卓越的生成性能。此外,ROUGE-1和ROUGE-2指标用于衡量生成文本与参考文本的重叠程度,PER-HR在这两个指标上也表现优异。特别是在Yelp和Amazon数据集上,PER-HR的ROUGE得分远超其他方法,表明其生成的文本质量较高,具备较强的表达能力。
虽然其他算法如NRT、Att2Seq、PETER和PEPLER在某些指标上也取得了一定成绩,但总体而言,PER-HR在可解释性和文本质量的多个维度上均表现出色。在Yelp数据集上,PER-HR在可解释性和文本质量方面的提升尤其显著,特别是在FCR (0.66)和DIV (1.10)上,明显高于其他方法,并且BLEU和ROUGE得分均有明显提高。在Amazon数据集上,尽管PER-HR的BLEU-4 (8.08)较低,但其在其他指标,尤其是FCR和ROUGE指标上的优异表现,证明其生成的推荐解释具有较高的实用价值。在TripAdvisor数据集上,PER-HR同样在FCR (0.66)和DIV (1.63)上表现出色,尽管其BLEU-4 (6.47)相较于Yelp略逊一筹,说明其生成文本的多样性和质量在不同数据集上有所变化。
综合来看,PER-HR在三个数据集上的整体表现均优于其他对比算法,特别是在Yelp和Amazon数据集上,展现了最为卓越的可解释性和文本质量。无论是在FMR、FCR还是BLEU和ROUGE等指标上,PER-HR都表现出了明显的优势,证明其不仅能够生成高质量的推荐文本,还能提供丰富且多样的个性化解释。因此,PER-HR在可解释推荐任务中具有较大的应用潜力,尤其适用于那些需要高质量推荐解释的实际场景。
Table 4. Comparison of text quality, with the best performance values in bold. B1 and B4 represent BLEU-1 and BLEU-4. R1-P, R1-R, R1-F, R2-P, R2-R, and R2-F represent the precision, recall, and F1 value of ROUGE-1 and ROUGE-2. The results of BLEU and ROUGE are expressed in percentages (% omitted), and the other indicators are expressed in absolute values
表4. 解释生成结果。评估指标B1和B4分别代表BLEU-1和BLEU-4。R1-P、R1-R、R1-F、R2-P、R2-R和R2-F分别表示ROUGE-1和ROUGE-2的精度(Precision)、召回率(Recall)和F1值。BLEU和ROUGE的结果以百分比表示(省略%),其他指标以绝对值表示。最佳性能值用粗体标出
|
可解释性 |
文本质量 |
FMR |
FCR |
DIV↓ |
USR |
B1 |
B4 |
R1-P |
R1-R |
R1-F |
R2-P |
R2-R |
R2-F |
Yelp |
NRT |
0.07 |
0.11 |
2.37 |
0.12 |
11.66 |
0.65 |
17.69 |
12.11 |
13.55 |
1.76 |
1.22 |
1.33 |
Att2Seq |
0.07 |
0.12 |
2.41 |
0.13 |
10.29 |
0.58 |
18.73 |
11.28 |
13.29 |
1.85 |
1.14 |
1.31 |
PETER |
0.08 |
0.19 |
1.54 |
0.12 |
10.64 |
0.71 |
18.57 |
12.1 |
13.7 |
2.02 |
1.35 |
1.47 |
PEPLER |
0.08 |
0.3 |
1.52 |
0.35 |
11.23 |
0.73 |
17.51 |
12.55 |
13.53 |
1.86 |
1.42 |
1.46 |
PER-HR |
0.23 |
0.66 |
1.10 |
0.42 |
28.66 |
12.18 |
33.43 |
28.31 |
29.73 |
14.25 |
13.58 |
13.74 |
|
Amazon |
NRT |
0.12 |
0.07 |
2.93 |
0.17 |
12.93 |
0.96 |
21.03 |
13.57 |
15.56 |
2.71 |
1.84 |
2.05 |
Att2Seq |
0.12 |
0.2 |
2.74 |
0.33 |
12.56 |
0.95 |
20.79 |
13.31 |
15.35 |
2.62 |
1.78 |
1.99 |
PETER |
0.12 |
0.15 |
1.89 |
0.22 |
12.97 |
1.15 |
20.08 |
13.95 |
15.43 |
2.82 |
2.1 |
2.22 |
PEPLER |
0.11 |
0.27 |
2.06 |
0.38 |
13.19 |
1.05 |
18.51 |
14.16 |
14.87 |
2.36 |
1.88 |
1.91 |
PER-HR |
0.20 |
0.73 |
1.43 |
0.44 |
24.32 |
8.08 |
29.68 |
24.09 |
25.6 |
10.25 |
9.27 |
9.51 |
|
TripAdvisor |
NRT |
0.06 |
0.09 |
4.27 |
0.08 |
15.05 |
0.99 |
18.22 |
14.39 |
15.4 |
2.29 |
1.98 |
2.01 |
Att2Seq |
0.06 |
0.15 |
4.32 |
0.17 |
15.27 |
1.03 |
18.97 |
14.72 |
15.92 |
2.4 |
2.03 |
2.09 |
PETER |
0.07 |
0.11 |
3.1 |
0.06 |
15.98 |
1.1 |
18.9 |
16.02 |
16.37 |
2.33 |
2.17 |
2.1 |
PEPLER |
0.07 |
0.21 |
2.71 |
0.24 |
15.49 |
1.09 |
19.48 |
15.67 |
16.24 |
2.48 |
2.21 |
2.16 |
PER-HR |
0.13 |
0.66 |
1.63 |
0.30 |
21.01 |
6.47 |
23.53 |
21.12 |
21.37 |
7.43 |
7.13 |
7.14 |
5.3. 结果分析
PER-HR算法在评分预测和解释生成方面展现了卓越的性能。具体来说,PER-HR在三种数据集(Yelp、Amazon和TripAdvisor)上都表现出了显著的优势,不仅能够提供准确的评分预测,还能生成高质量的推荐解释。其评分预测效果和解释生成效果在多个指标上均超过了对比算法。
PER-HR在不同数据集上的表现呈现出与其他算法不同的规律。其他算法通常表现出与数据稀疏性成反比的规律,即数据越稀疏,预测效果越差。然而,PER-HR的表现与数据规模成正比,数据记录越多,其评分预测和解释生成效果越好。这一现象表明,PER-HR能够充分利用大规模数据中的信息,从而生成更加精准和多样的推荐解释。
在Yelp和Amazon数据集上,PER-HR充分展现了其在大规模数据上的优势,随着数据量的增加,算法的效果得到了显著提升。相比之下,其他算法的表现随着数据量的增多并未呈现出相同的正向变化,尤其在数据规模大,数据稀疏时,效果下降明显。
6. 总结与展望
本研究提出了PER-HR模型,并通过在多个数据集上的实验验证了其在推荐任务中的优越性能。通过综合评估评分预测与解释生成两个方面,本文得出以下几个主要结论。
首先,PER-HR在评分预测方面的表现显著优于其他对比算法。在Yelp和Amazon数据集上,PER-HR在RMSE和MAE指标上均取得了最佳成绩,表明该模型能够更准确地预测用户的评分偏好。在TripAdvisor数据集上,虽然其在评分预测方面未能绝对领先,但依然表现稳健,展示了其在不同数据集中的稳定性和可靠性。
其次,PER-HR在解释生成方面的优势尤为突出。通过多种评估指标的对比,PER-HR在可解释性和文本质量方面均表现出了领先地位。在生成推荐解释时,PER-HR不仅能够提供个性化且多样化的解释,还能在BLEU和ROUGE指标上取得显著优势,证明其生成的文本质量具有较高的参考价值,能够有效满足用户对推荐解释的需求。
此外,PER-HR的表现与数据规模密切相关。在大规模数据集上,PER-HR的评分预测和解释生成能力均得到了明显提升,这一特性使得该模型在处理大规模用户数据时具有显著优势。相较于其他算法,PER-HR能够更好地利用数据中蕴含的信息,从而在数据丰富的场景中实现更优的推荐效果。
综上所述,PER-HR在多个维度上均展示了其作为可解释推荐系统的潜力。其优异的性能不仅提升了推荐的准确性,还增强了推荐解释的可读性和实用性。因此,PER-HR模型在实际应用中,尤其是需要高质量个性化推荐和解释的场景中,具有广阔的应用前景。
未来工作可以从以下几个方向展开深入研究:首先,探讨如何有效处理历史评论数据中的噪声、偏差与主观性问题,通过引入更为精细的数据预处理、噪声过滤和偏差校正方法,进一步提升解释生成的准确性和可信度。其次,针对当前生成文本在长度、风格和内容上的控制不足,未来将设计灵活的生成控制策略,旨在实现解释内容的个性化和多样化,以更好地满足用户不同场景下的需求。此外,还将探索跨域知识迁移和多模态数据融合等新技术,以增强模型在大规模及多样化数据环境中的泛化能力。
致 谢
感谢国家自然科学基金项目(61803264)对本研究的支持与资助。
基金项目
国家自然科学基金项目(61803264)。
NOTES
*通讯作者。