1. 引言
推荐系统在电子商务领域的迅猛发展已成为推动商业增长的关键力量。过去十年间,推荐系统通过分析用户的浏览行为、购买历史、访问时长、转化率和订单数量,洞察并预测用户的购物习惯。用户将商品添加至购物车等行为分析,为利用知识图谱(KG)揭示商品间复杂联系提供了契机,丰富了我们对消费者购买模式的理解,也为零售商制定市场策略提供了有力支持[1]。消费者常常基于品牌偏好做出购买选择,凸显了在推荐系统中整合知识图谱以理解品牌与消费者偏好关系的重要性。但是现有的推荐系统在处理数据稀疏性和冷启动问题时仍面临挑战。数据稀疏性问题主要源于用户与商品之间的交互有限,导致推荐系统难以捕捉用户偏好。而冷启动问题则是指新用户或新产品缺乏足够的历史交互数据,令推荐系统难以生成准确的推荐[2] [3]。面对这些挑战,研究者们开始探索知识图谱和图注意力等先进技术的帮助,知识图谱通过提供丰富的结构化信息,增强了推荐系统对用户偏好和商品特性的理解,图注意力则利用其捕捉节点间复杂关系的能力,提升了推荐的相关性和准确性[4] [5]。
在电子商务领域,基于内容的推荐和协同过滤推荐算法在某些场景下表现良好,却在面对数据稀疏性和冷启动问题上的表现却不尽如人意。基于内容的推荐算法[6]专注于推荐与用户历史喜好相似的商品,而协同过滤推荐[7]则依赖于用户群体的相似偏好,二者在面对用户或商品数据不足时,往往难以生成高质量的推荐。为了提升推荐精度,研究者开始探索深度学习技术的应用。例如,RENDLE S [8]提出的因式分解机(FM)通过挖掘特征嵌入间的交互来建模低阶特征交互。GUO H等人[9]进一步将FM与深度神经网络(DNN)结合,提出了DeepFM,无需特征工程实现端到端训练。Lian等[10]提出的xDeepFM模型引入了压缩交互网络,自动学习高阶特征交互。Song等[11]则利用多头自注意力机制处理高维稀疏数据,模拟特征交互。深度学习在推荐系统领域取得了显著进展,但在处理图结构数据时仍面临挑战。
图卷积网络(GCN) [12]的引入为推荐系统领域带来了技术革新,通过整合和传递邻近节点的特征信息,学习节点的低维表示,提升了推荐质量。Veličković P等[13]进一步将注意力机制整合到图神经网络(GNN)中得到图注意力,使得模型能够更加精准地捕捉不同关系和用户间的细微影响。图注意力网络(GAT) [14]使用注意力机制来计算相邻节点的特征的加权和。
在电子商务推荐系统中,知识图谱[15] [16]的整合为推荐算法提供了新的视角。它通过提供丰富的结构化信息,增强了推荐的相关性和准确性。然而,现有的基于知识图谱的推荐算法通常采用正则化方法来设计额外的损失项,以捕获知识图谱的结构[17]。这种方法虽然在一定程度上利用了知识图谱,但它并没有直接将高阶关系显式地整合到推荐模型中,而是以隐式的方式对它们进行编码。这种隐式编码的方式存在局限性,因为它不能保证捕获到高阶连通性,也难以解释高阶关系建模的结果。
为了解决上述问题,本文提出了一种融合知识图谱和图注意力的电子商务推荐算法。该算法包括两种创新设计:首先,递归嵌入传播机制[18] [19]基于邻居的嵌入来更新节点的嵌入,并通过递归执行这种嵌入传播,以在线性时间复杂度内捕获高阶连通性;其次,基于注意力的聚合机制采用神经注意力机制来学习传播过程中每个邻居的权重,使得级联传播的注意力权重能够揭示高阶连通性的重要性。通过将这些高阶关系显式地纳入预测模型,并为优化推荐目标定制所有相关参数,本文的算法不仅提高了模型的预测准确性,也增强了系统的可扩展性。
2. E-KGAT模型
本文提出的E-KGAT模型的总体框架见图1所示,该模型主要由三层组成,三者协同工作以实现高效的推荐系统。第一层知识图谱嵌入层,负责将知识图谱中的实体和关系映射为低维稠密向量,为模型提供了一个紧凑且信息密集的表示基础。第二层注意力嵌入传播层,采用图注意网络的核心思想,生成级联传播过程中的注意力权重,注意力权重能够捕捉节点间复杂的相互作用和依赖关系。第三层模型预测层。通过层聚合机制,将各层的节点表示整合成一个单一向量,并预测它们之间的匹配得分,从而完成推荐任务。
Figure 1. Overall framework of E-KGAT model
图1. E-KGAT模型总体框架
2.1. 知识图谱嵌入层
在本研究中构建了一个用户–物品交互图𝐺1,用户–商品交互图深入挖掘了用户行为数据,融合商品与商品的属性信息和跨领域知识,构建商品–商品属性知识图谱𝐺2。再通过整合𝐺1和𝐺2,形成协同知识图谱(CKG),CKG的节点代表用户或商品的实体,边捕捉用户与商品之间的交互行为及商品间的语义关联,理解用户偏好和物品特性,通过CKG的构建将用户–物品交互信息与商品属性相结合,显著提升系统在捕捉个体用户偏好和理解商品间复杂关系方面的能力,为系统提供更为精准的用户偏好和商品特性的表征。
为了充分挖掘CKG中实体和关系的更深层次嵌入表示,采用了基于TransR的翻译模型实现知识图谱嵌入。该模型通过为每个实体ℎ和t以及关系r通过嵌入分配低维向量
和
,通过优化翻译原则
来捕捉实体和关系之间的语义关联。这一过程不仅提高了嵌入的表达能力,也增强了模型对复杂关系的学习能力,为推荐系统提供了更为精准的实体和关系嵌入表示。通过知识图谱嵌入,深入地理解用户和物品之间的复杂交互,从而为推荐系统提供更加丰富和准确的推荐结果,不仅提高了推荐的准确性,也为理解用户偏好和物品特性增加可解释性。对于知识图谱中的给定的三元组(ℎ, r, t),可信性得分公式如下:
(1)
其中
是关系r的权重矩阵,ℒ2范数用于度量嵌入向量之间的接近程度,以确保模型的泛化能力。可行性得分将实体从d维实体空间投射到k维关系空间,分数越低表明三元组更可能真实,反之亦然。
2.2. 注意力嵌入传播层
在本研究中,本文在图卷积网络(GCN)架构的基础上进一步发展,沿着高阶连通性递归传播嵌入。此外,利用图注意网络(GAT)的理念,生成级联传播的注意力权重,以突出不同连通性的重要性。注意力嵌入传播层见图2所示,主要由三个部分组成:信息传播、知识图谱感知注意和信息聚合。
Figure 2. Attention embedding propagation layer
图2. 注意力嵌入传播层
信息传播:在协同知识图谱(CKG)中,每个实体可能涉及多个三元组,并作为连接不同三元组的桥梁传播信息。例如,给定两个三元组
和
,其中物品
以
和
属性作为输入丰富
的特征,并反映用户
的偏好。这种信息传播可以通过模拟属性
到用户
的信息流动来实现。在此基础上,实现一个实体和它的邻居之间进行信息传播。
考虑实体h,本文使用
来表示三元组的集合,其中h是头实体,称为自我网络[20]。为了表征头实体h的一阶连通结构,计算h的自我网络的线性组合:
(2)
其中
控制沿边传播的衰减因子,表示根据关系r从t传播到h的信息量。
知识感知注意:通过关系注意力机制
来实现知识感知,其计算公式如下:
(3)
使用tanh函数作为非线性激活函数,使得注意力得分依赖于关系空间中
和
之间的距离。此后,本文使用softmax函数对所有与头实体ℎ相连的三元组的注意力系数进行归一化:
(4)
最终的注意力得分使得模型确定在捕获协作信号时应该给予哪些邻居节点更多的注意力。
信息聚合:在获得归一化的注意力权重后,采用双相互作用聚合函数来聚合节点
及其邻居信息
。聚合过程包括累加操作以强化节点特征,以及按位乘操作以提升相似特征的表示能力并减少噪声的影响。双相互作用聚合函数表示为:
(5)
其中
和
是可训练的权重参数。物理意义是该用户对该头实体或某物品的兴趣程度,使用泄漏修正线性单元(LeakyReLU)作为激活函数。嵌入传播层的优势在于显式地利用一阶连接信息来关联用户、商品和知识实体的表示。
传播:为了探索高阶连接信息,可以堆叠更多的传播层,收集从更远邻居传播的信息。在第l层,头实体ℎ的表示形式递归地定义为:
. (6)
其中,头实体ℎ在自我网络内传播的信息
由下式给出:
(7)
是由前面的信息传播生成的实体t在第l层的表示,记录了来自它(l − 1)跳邻居的信息。高阶嵌入传播无缝地将基于属性的协同信息注入到表示学习的过程中。
2.3. 模型预测
经过L层的嵌入传播处理,本文针对每个用户节点u获得了相关的嵌入表示,记为
。同理,商品节点i的嵌入表示为
,这些表示捕捉了从一阶到高阶的连通性信息,其中第l层的输出可以视为基于用户u (或物品i)的深度为l的消息聚合结果。为整合这些分层的嵌入信息,本研究采用了层聚合机制[21],将每一层的嵌入结果拼接成一个单个向量:
(8)
其中
表示向量的拼接操作。这样的处理不仅丰富了节点的初始嵌入,还通过调节层数L,实现了对信息传播深度的灵活控制。
在获得了综合的用户和商品嵌入表示后,本文通过计算两者的内积测用户u对商品i的匹配评分:
(9)
其中,
表示向量的点积。通过这种设计,模型能够综合多层嵌入信息,以更全面地捕捉用户和商品的潜在关联,从而提高推荐系统预测的准确性。
2.4. 模型优化
在本研究中,为了优化推荐系统的性能,本文采用了二元交叉熵损失函数(Binary Cross-Entropy, BCE)来量化预测评分与实际评分之间的差异,此损失函数针对模型的预测输出
与实际目标值
之间的匹配程度进行评估,其中目标值通常表示为0或1,反映了用户u对商品i是否存在正向反馈。数学上,BCE损失定义为:
(10)
其中,D代表训练数据集,N是数据集中样本的总数。该损失函数的优势在于能够处理推荐系统中常见的二分类问题中的不平衡数据集,并且对预测值的接近程度敏感。
为了有效地最小化BCE损失,选用了Adam优化器进行模型参数的调整。Adam优化器是一种高效的自适应学习率优化算法,它融合了动量估计和自适应学习率调整的机制能够针对不同参数独立地调整学习率,Adam优化器在处理大规模数据集时,能够实现更快的收敛速度和更优的参数更新效果。通过BCE损失函数和Adam优化器的协同使用,使模型在训练过程中能够精确地学习到用户和商品的嵌入表示,对推荐结果进行细致的调整,从而显著提高电子商务推荐系统的准确性和用户满意度。
3. 实验
3.1. 实验环境与评价指标
实验在一台搭载12th Gen Intel(R) Core(TM) i5-12400F 2.50 GHz处理器和NVIDIA GeForce RTX 4060显卡的计算机上进行,操作系统为Windows。本文使用了Freebase数据集,这是一个广泛认可的开源知识图谱数据集,中国人民大学信息学院通过将Freebase与Kb4rec [22]的开源项目相结合,进一步处理得到了ml-100k数据集。该数据集包含用户–商品评分的集合、商品–商品属性集合以及丰富的边信息。在预处理阶段,本文将用户对商品的评分三元组进行了处理,最终数据集包含97,466条评分记录,涉及65,610个商品。评分标准规定,评分4分及以上(包含4分)的记录被标记为1,而评分低于4分的记录被标记为0。商品属性信息包含10个不同的维度。此外,设置数据集的训练集和测试集的比例为9:1,以确保模型的泛化能力。
Table 1. E-KGAT model hyperparameter values
表1. E-KGAT模型超参数取值
超参数 |
值 |
d |
64 |
L |
2 |
N |
10 |
η |
0.01 |
w |
5e-4 |
在本研究中,本文对模型的超参数(见表1)进行了细致的调整,以确保模型在推荐任务上达到最佳性能。嵌入维度d决定了节点特征的丰富程度,而图卷积网络层数L和图卷积邻居数N共同影响模型对节点间复杂关系的捕捉能力。学习率η是优化算法中的关键参数,它决定了模型在训练过程中更新权重的速率。权重衰减w是一种正则化技术,用于减少模型的复杂度,防止过拟合。
均方误差根(RMSE)是一种衡量预测误差的指标,它通过对所有真实评分和预测评分的差值进行平方后求平均,再取平方根来计算,RMSE能够更敏感地捕捉到较大的预测误差,RMSE的计算公式如下:
(11)
其中
为真实的评分,
为预测的评分,
为样本组的数量。
绝对偏差(MAE)是一种评估推荐系统准确性的指标,其核心思想与均方根误差(Root Mean Square Error, RMSE)相似,但在处理评分差异时采用了不同的方法。MAE通过计算预测评分与实际评分之间的绝对差值的平均值来评估模型的性能。MAE的计算公式如下:
(12)
F1-Score是精确率与召回率的调和平均数,用F1得分是精确率(Precision)和召回率(Recall)的调和平均值,它能够平衡两者对推荐系统性能的影响。F1得分的计算公式如下:
(13)
F1-Score的值介于0到1之间,最大值为1,表示完美的精确率和召回率;最小值为0,表示性能最差。F1-Score是一个综合指标,它考虑了精确率和召回率的平衡。在推荐系统中,F1-Score可以同时反映推荐算法的准确性和覆盖度。当精确率和召回率之间存在权衡时,F1-Score提供了一个统一的度量标准。
精确率(Precision)评价推荐系统性能的另一个重要指标,它衡量的是预测为正例的样本中实际为正例的比例。精确率的计算公式如下:
(14)
其中,TP表示真正例为正确预测为正例的样本数;FP表示假正例为错误预测为正例的样本数。
召回率(Recall)衡量的是所有实际为正例的样本中,被正确预测为正例的比例。召回率的计算公式如下:
(15)
其中,FN表示假负例为错误预测为负例的样本数。
3.2. 实验部分
在本文的实验部分中,本文提出的E-KGAT算法与四种不同类型的推荐算法进行了全面比较。这些算法包括注意力因子分解机推荐算法(AFM) [23]、结合卷积神经网络(CNN)的推荐算法、协同基于嵌入的推荐算法(CKE) [24],以及基于路径的知识图谱感知推荐算法(RippLeNet)。这些算法在MAE (见图3)、RMSE (见图4)和F1-Score (见图5)性能上的比较。通过对比实验,旨在验证E-KGAT算法在处理复杂用户偏好和商品特性时的有效性。
以上结果表明,E-KGAT模型在MAE指标上与AFM相比降低了22.7%,在RMSE指标上与AFM相比降低了12.1%,在F1-Score指标上与CNN相比提升了8.8%。E-KGAT的推荐效果优于其他四种模型,证明了模型在捕获商品邻居信息和物品–物品属性告诫关系后提升了推荐效果。
Figure 3. MAE values of different algorithms on the dataset
图3. 不同算法在数据集上的MAE值
Figure 4. RMSE values of different algorithms on the dataset
图4. 不同算法在数据集上的RMSE值
Figure 5. F1-score values of different algorithms on the dataset
图5. 不同算法在数据集上的F1-Score值
在本研究的实验部分,E-KGAT模型在多个评价指标上均展现出了卓越的性能。其中在平均绝对误差(MAE)指标上,E-KGAT模型与注意力因子分解机推荐算法(AFM)相比,误差降低了22.7%。在均方根误差(RMSE)指标上,与AFM相比也实现了12.1%的降低。此外,在F1-Score指标上,E-KGAT模型与结合CNN的推荐算法相比,提升了8.8%。这些结果表明,E-KGAT模型在推荐效果上优于其他四种模型,证明了其在捕获商品邻居信息和物品–物品属性关系后显著提升了推荐效果。E-KGAT模型的这些优势主要归功于其融合了知识图谱的结构化信息和图注意力的高级特征学习能力。通过这种融合策略,模型不仅能够深入理解用户偏好,还能够准确捕捉物品间的复杂关系,从而在推荐任务中实现更高的准确性和相关性。
为了进一步验证E-KGAT模型在邻域聚合中的有效性,本文设计了一系列消融实验。这些实验通过移除模型的某些关键模块,来探究它们对推荐性能的影响。在本节中,引入了三种消融模型与E-KGAT进行比较,消融实验结果性能对比见表2。
E-KGAT-n:此消融模型中,去除了构建知识图谱嵌入的操作,仅保留了对物品𝑣v进行注意力嵌入传播的步骤。这一变化允许本文评估知识图谱嵌入在推荐过程中的作用。
E-KGAT-k:此消融模型中,移除了基于注意力的聚合器。这一操作旨在探究注意力机制在捕捉邻域信息时的重要性。
E-KGAT-n&k:此消融模型中,本文同时去除了构建知识图谱嵌入的操作和基于注意力的聚合器,这提供了一个基准,用以衡量E-KGAT模型中这两个核心组件的综合影响。
Table 2. Comparison chart of ablation experiment results
表2. 消融实验结果对比图
模型 |
MAE |
RMSE |
F1-Score |
E-KGAT |
0.2873 |
0.5360 |
0.7543 |
E-KGAT-n |
0.3349 |
0.5787 |
0.7011 |
E-KGAT-k |
0.2915 |
0.5399 |
0.7468 |
E-KGAT-n&k |
0.3260 |
0.5709 |
0.7156 |
根据表2所示结果,E-KGAT模型在所有评估指标上均优于其他消融模型。这一现象揭示了两个关键因素对模型性能的重要贡献:首先,实体基于邻居的嵌入来更新节点嵌入的方法有效地构建了用户的高阶模型,这增强了模型对用户偏好复杂性的捕捉能力。其次,基于注意力的聚合机制显著提升了物品语义表示的代表性,使得模型能够更加精准地理解物品的多维特征。
4. 结论
随着大数据的发展,电子商务行业正经历着前所未有的变革,将商品更好地推荐给用户在提升用户购物体验和推动销售方面发挥着至关重要的作用。现有的推荐算法在处理用户个性化需求和商品多样性方面仍面临不小的挑战。本文提出了一种融合知识图谱和图注意力的电子商务个性化推荐算法,该算法通过递归嵌入传播机制,有效地整合了商品间的复杂关系,使得模型能够更准确地预测用户偏好,并引入注意力机制,更全面地考虑邻居节点的信息,提升推荐的相关性和可解释性。通过在真实数据集上的实验证明该算法在处理个性化推荐任务时,提高了预测的准确性,也增强了推荐结果的可解释性。在未来的研究中,将进一步探索将文本、图像、用户行为等多模态数据融合到推荐系统中,并实现知识图谱的动态更新,为用户提供更加全面和及时的推荐服务。