1. 引言
推荐系统作为信息过滤的重要工具,旨在基于用户的历史行为与兴趣偏好,预测其可能感兴趣的内容,从而提供个性化服务[1]。这类系统在电商、社交网络、内容分发等场景中发挥着关键作用,其核心任务是通过建模用户–项目交互数据,挖掘潜在的兴趣模式,以提升用户体验、增强平台粘性与辅助智能决策[2]。
在众多推荐算法中,协同过滤是最经典且被广泛应用的方法之一。该方法依赖用户或项目之间的相似性进行推荐,具有实现简单、效果优良的特点[3]。然而,传统协同过滤方法在面对用户冷启动、项目冷启动以及数据稀疏等问题时表现不佳,特别是在用户行为极度有限的长尾场景中,其建模能力和泛化性能受到明显限制[4]。此外,随着用户规模和项目数量的不断扩大,传统协同过滤还面临严峻的可扩展性挑战[5]。
为缓解上述问题,近年来研究者将图神经网络引入推荐系统,形成了“图协同过滤”的新方法[6]。该类方法将用户与项目建模为图中的不同节点,利用图卷积操作在邻接结构中传播协同信号,从而显式建模高阶连接关系,提升了推荐的准确性和鲁棒性。典型模型如NGCF [7]、LightGCN [8]等,已在多个推荐基准数据集上取得了优异性能。
尽管图神经网络极大推动了协同过滤的发展,但传统图结构的局限性也逐渐显现:其只能表示二元关系(即边仅连接两个实体),难以同时编码用户与多个项目之间的多元交互关系[9]。同时,图模型常将用户与项目统一处理,忽视了它们在交互语义、连接模式上的结构异质性,导致表示能力受限[10]。
为进一步突破上述瓶颈,研究者开始探索基于超图的协同过滤推荐方法,超图支持多元组建模,能够用一个超边同时连接多个用户或项目,从而捕捉更复杂的高阶协同信号[11]。此外,超图结构提供了更灵活的建模机制,可实现用户与项目的异构建模、非对称信息传播以及多行为关系的统一表示[12]。近年来,代表性工作如DHCF [13]、HCCF [14]等通过引入跳跃式超图卷积与双通道传播机制,在多个稀疏数据集上显著超越图模型,展现出强大的建模能力和广泛的适应性。
因此,基于超图的协同过滤正成为推荐系统研究的重要方向。其不仅继承了图推荐中高阶建模与结构表达的优势,更在关系建模能力、鲁棒性与可扩展性等方面具备独特潜力,可以为之后的大规模个性化推荐系统提供更强的结构基础与理论支撑。
2. 基于超图的协同信号去噪与结构增强方法
本文提出了一个基于超图的协同信号去噪与结构增强方法(HSAAF),通过双超图构建、谱扩散优化与渐进式邻接扩展,实现高阶协同关系建模与噪声鲁棒性提升,模型框架如图1所示。
Figure 1. Framework of the HSAAF model
图1. HSAAF模型框架
2.1. 预训练
本文首先采用轻量级图卷积模型LightGCN对原始用户–项目交互图进行预训练,以获得稳定且具有判别性的初始用户与项目嵌入表示。具体而言,基于用户–项目交互矩阵
,通过多层对称归一化的邻域传播机制,可得到用户与项目在不同传播深度下的嵌入表示:
(2.1)
(2.2)
其中,
和
分别表示用户和项目的度矩阵,l表示层数。最终通过跨层加权聚合得到最终的预训练嵌入
与
,聚合形式如下所示:
(2.3)
(2.4)
其中,
表示第
层嵌入的权重系数,可设置为固定值或作为可学习参数。
2.2. 超图协同关系建模
在获得预训练阶段的用户嵌入
与项目嵌入
后,本文进一步基于嵌入空间中的结构相似性,构建用户侧与项目侧的高阶超图结构,以显式建模潜在的多节点协同关系,并通过谱扩散机制进一步挖掘潜在的高阶连接模式,从而提升结构表示的丰富性与信息传递能力。
(1) 双超图构建
基于交互矩阵
,本文提出一种基于
近邻的双超图构建方法,分别对用户侧与项目侧的协同结构进行建模,从而形成结构对称的双分支高阶建模框架。在用户侧,定义用户超图为
,其中
表示用户节点集合,
表示超边集合。每一条超边
以用户
为中心,连接其在特征空间中最相似的
个用户邻居,用于刻画局部的高阶协同关系。超图的关联矩阵
用于描述节点与超边之间的隶属关系。类似地,在项目侧构建项目超图
,其中
为项目节点集合,
为对应的超边集合,其关联矩阵定义为
。
具体而言,超图构建过程包括以下三个步骤。
首先,为消除用户活跃度差异的影响,对交互矩阵
按行进行
归一化处理,得到标准化特征表示:
(2.5)
随后,基于归一化后的特征计算用户之间的余弦相似度,得到用户相似度矩阵:
(2.6)
最后,对每个用户节点
,选取其相似度最高的
个邻居用户,并据此构建超图的关联矩阵:
(2.7)
同时,对应超边
的权重由其所连接节点的相似度信息进行刻画,定义超边权重矩阵
为:
(2.8)
项目超图
通过将上述过程对称地应用于交互矩阵
构建,从而得到对应的关联矩阵
与超边权重矩阵
。为提升构图效率,本文在实现中采用基于GPU的批量构图策略。
(2) 归一化与谱扩散建模
为提升超图结构的数值稳定性与特征传播效果,本文引入节点与超边层级的联合归一化机制,对用户超图与项目超图分别进行正则化处理。以用户超图为例,其顶点度矩阵与超边度矩阵定义为:
(2.9)
(2.10)
在此基础上,构造归一化的超图传播算子:
(2.11)
相应地,用户侧超图拉普拉斯算子定义为:
(2.12)
项目侧超图
的归一化传播算子
及拉普拉斯算子
可通过对应交互矩阵
进行对称构建得到,其形式与用户侧保持一致,此处不再赘述。
(3) 谱互补性分析
在获得归一化后的超图传播算子后,本文进一步定义基于超图扩散的增强相似度矩阵:
(2.13)
(2.14)
其中,
表示逐元素投影算子,用于将数值截断至区间[0, 1]内,以保证相似度度量的概率解释性,并抑制高阶扩散过程中可能产生的数值放大现象。从矩阵空间角度来看,超图拉普拉斯算子与增强相似度矩阵之间满足如下近似对偶关系:
(2.15)
该关系表明,
与
分别从结构抑制与语义增强两个互补角度刻画节点间的高阶关系,二者在单位矩阵空间中形成一种近似的正交分解,从而为后续的双向传播与对比约束提供理论基础。
2.3. 基于超图的双域传播与结构建模
为充分挖掘协同信号与高阶结构特征,本文提出一种基于超图的双域传播与结构建模机制,从交互层与结构层两个视角联合增强用户与项目的表示能力。
(1) 双域传播增强机制
交互增强旨在从用户域与项目域双向建模协同信号,结合超图建模中的拉普拉斯传播算子,对原始交互矩阵
进行双向传播,定义如下:
(2.16)
其中,
与
分别表示由超图构建的用户域与项目域的归一化拉普拉斯矩阵。该机制通过矩阵级别的结构扩散,实现了信息在相似用户与相似项目之间的传递与融合,从而提升了交互语义的表达力。
(2) 基于超图的结构相似性建模
为了进一步提升模型对用户与项目的结构感知能力,本文基于超图构建了用户–用户相似度矩阵
与项目–项目相似度矩阵
。该过程通过公式(2.13) (2.14)定义相似性度量,并控制数值范围,从而提升模型的鲁棒性与可解释性。最终,该模块不仅实现了多视角下的交互增强,还通过结构建模挖掘了高阶协同关系,为推荐任务提供更丰富的信息基础。
2.4. 邻接矩阵构建
为实现结构层级的协同增强建模,本文在邻接矩阵构建中融合高阶协同关系与结构相似性信息,形成由稀疏到致密的结构化表示,其实现流程如算法1所示。
算法1. HSAAF邻接矩阵构建方法
输入:原始交互矩阵
;用户超图拉普拉斯矩阵
,项目超图拉普拉斯矩阵
;用户相似性矩阵
与项目相似性矩阵
。 输出:最终归一化邻接矩阵
。1:构建初始二分图邻接矩阵:
2:基于用户域与项目域的超图传播机制,生成增强交互矩阵: 3:构建增强后的邻接矩阵:
4:将相似性信息引入邻接结构,构建最终HSAAF邻接矩阵:
5:计算度矩阵
,其中
6:得到归一化邻接矩阵:
7:Return
|
3. 实验
3.1. 实验数据集
本文实验采用Amazon评论数据集中的三个典型子集:Beauty、Toys and Games和Tools and Home Improvement,其统计信息如表1所示。
Table 1. Statistics of the datasets
表1. 数据集统计信息
数据集 |
用户数 |
商品数 |
交互数 |
密度 |
Beauty |
22,363 |
12,101 |
198,502 |
0.05% |
Toys and Games |
19,412 |
11,924, |
167,597 |
0.07% |
Tools and Home Improvement, |
16,638 |
10,217 |
134,476 |
0.08% |
3.2. 数据预处理
本文对所有子集均采用5-core筛选方法[15],即仅保留与至少5个商品产生过交互的用户,以及被至少5个用户交互过的商品。随后,采用时间感知的留一法(Leave-One-Out)划分策略[16],将每位用户的交互记录按时间戳升序排列,将最后一次交互作为测试集,倒数第二次作为验证集,其余记录用于训练集。该策略可模拟真实应用场景中基于历史行为预测未来行为的推荐过程。
3.3. 基准模型
NGCF [7]:一种基于图神经网络的协同过滤框架,通过多层嵌入传播建模高阶图结构,每层聚合邻居嵌入并非线性捕获多跳关联,层拼接保留多阶信号,结合节点/消息丢弃防过拟合,突显高阶关系对表征学习的关键性。
UltraGCN [17]:一种高效图推荐框架,摒弃显式消息传递机制,通过约束损失直接逼近无限层图卷积效果。其隐式优化边权重及关系重要性,实现高阶信号传播,显著降低计算复杂度。在保持推荐性能的同时大幅提升训练效率,适用于大规模推荐场景。
GTN [18]:一种动态图结构生成框架,核心为可学习的图变换层,通过自适应边类型组合与多跳路径合成动态构建异构图拓扑,端到端联合优化结构生成与节点表征,自动挖掘跨类型节点潜在语义关联。
LightGCN [8]:一个轻量图卷积推荐模型,通过移除传统GCN的非线性激活与特征变换,保留多阶邻居聚合及层嵌入融合机制,以简化结构高效建模用户–项目交互,在降低复杂度的同时提升推荐性能。
GraphDA [19]:一种基于图协同信号去噪与增强的推荐框架,旨在通过重构邻接矩阵解决传统二分图模型的噪声敏感性与稀疏性问题。该框架提出预训练–增强两阶段流程:首先预训练用户/项目嵌入以捕获协同信号,随后通过Top-K采样生成去噪后的用户–项目交互矩阵,并引入对称的用户–用户与项目–项目相关性矩阵,构建增强的邻接结构。
3.4. 实验结果
本文在多个推荐系统数据集上对所提出的HSAAF模型进行了系统性的性能评估,并在Top-10与Top-20截断点上对常用指标进行了对比分析。实验结果详见表2~4,其中包括各模型在Recall、NDCG关键指标上的具体表现,以便全面反映不同方法的推荐效果。
Table 2. Comparative performance analysis on the beauty dataset
表2. Beauty数据集上的性能对比分析
|
Recall@10 |
NDCG@10 |
Recall@20 |
NDCG@20 |
NGCF |
0.0447 |
0.0232 |
0.0724 |
0.0299 |
UltraGCN |
0.0451 |
0.0234 |
0.0728 |
0.0304 |
GTN |
0.0446 |
0.0230 |
0.0680 |
0.0289 |
LightGCN |
0.0512 |
0.0273 |
0.0716 |
0.0325 |
GraphDA |
0.0514 |
0.0264 |
0.0804 |
0.0336 |
HSAAF |
0.0525 |
0.0264 |
0.0812 |
0.0337 |
从表2~4可以观察到,所提出的HSAAF模型在三个推荐系统数据集上均表现出显著优于现有主流方法的性能,全面验证了其有效性、鲁棒性以及泛化能力。具体来看,在Beauty数据集上,HSAAF在Recall@10和Recall@20指标上相较于基线模型GraphDA分别提升了约2.1%和1.0%。在Toys数据集上,这两个指标的提升幅度为0.7%和1.0%。在Tools数据集上,这两个指标的提升幅度分别达到1.6%和6.5%。综合来看,HSAAF在不同数据分布和交互特性的数据集上均保持了稳定且一致的性能优势,表明该模型能够有效缓解数据稀疏问题,并对复杂、多样化的用户行为模式具有良好的适应能力。
Table 3. Comparative performance analysis on the Toys dataset
表3. Toys数据集上的性能对比分析
|
Recall@10 |
NDCG@10 |
Recall@20 |
NDCG@20 |
NGCF |
0.0461 |
0.0251 |
0.0672 |
0.0306 |
UltraGCN |
0.0464 |
0.0250 |
0.0675 |
0.0308 |
GTN |
0.0453 |
0.0248 |
0.0661 |
0.0301 |
LightGCN |
0.0471 |
0.0244 |
0.0730 |
0.0309 |
GraphDA |
0.0549 |
0.0289 |
0.0795 |
0.0347 |
HSAAF |
0.0553 |
0.0297 |
0.0803 |
0.0360 |
Table 4. Comparative performance analysis on the Tools dataset
表4. Tools数据集上的性能对比分析
|
Recall@10 |
NDCG@10 |
Recall@20 |
NDCG@20 |
NGCF |
0.0329 |
0.0179 |
0.0480 |
0.0216 |
UltraGCN |
0.0331 |
0.0179 |
0.0481 |
0.0217 |
GTN |
0.0337 |
0.0184 |
0.0484 |
0.0221 |
LightGCN |
0.0334 |
0.0182 |
0.0482 |
0.0219 |
GraphDA |
0.0373 |
0.0205 |
0.0532 |
0.0245 |
HSAAF |
0.0379 |
0.0212 |
0.0567 |
0.0259 |
3.5. 消融实验
为评估HSAAF在不同结构增强层级下的性能贡献,本文基于算法1中的三类邻接矩阵构建方式设计了三种训练变体。具体而言,HSAAF-Base采用初始二分图邻接矩阵
进行训练,仅建模基础的用户–项目交互关系;HSAAF-UI基于超图双域传播得到的增强邻接矩阵
,用于刻画用户域与项目域的高阶协同信息;HSAAF则进一步引入用户与项目的结构相似性信息,采用最终邻接矩阵
进行训练,以评估完整结构增强策略带来的整体性能提升。三种变体在相同训练配置下进行对比,其实验结果分别汇总于表5~7。
Table 5. Ablation experiments on the Beauty dataset
表5. Beauty数据集上的消融实验
|
Recall@10 |
NDCG@10 |
Recall@20 |
NDCG@20 |
HSAAF-Base |
0.0334 |
0.0182 |
0.0482 |
0.0219 |
HSAAF-UI |
0.0515 |
0.0256 |
0.0797 |
0.0327 |
HSAAF |
0.0525 |
0.0264 |
0.0812 |
0.0337 |
从表5~7的消融实验结果可以观察到,随着结构建模中协同信息的逐步引入,模型在各项评价指标上的性能呈现出稳定且一致的提升趋势。具体而言,HSAAF-Base仅基于原始用户–项目二分交互结构进行建模,其性能主要反映了基础协同过滤框架的表达能力。在此基础上,引入超图双域增强传播机制后,HSAAF-UI在各个指标上均取得了提升,表明用户域与项目域的高阶协同信息能够有效补充原始交互信号,增强表示学习的判别性。
Table 6. Ablation experiments on the Toys dataset
表6. Toys数据集上的消融实验
|
Recall@10 |
NDCG@10 |
Recall@20 |
NDCG@20 |
HSAAF-Base |
0.0471 |
0.0244 |
0.0730 |
0.0309 |
HSAAF-UI |
0.0538 |
0.0280 |
0.0771 |
0.0339 |
HSAAF |
0.0553 |
0.0297 |
0.0803 |
0.0360 |
Table 7. Ablation experiments on the Tools dataset
表7. Tools数据集上的消融实验
|
Recall@10 |
NDCG@10 |
Recall@20 |
NDCG@20 |
HSAAF-Base |
0.0334 |
0.0182 |
0.0482 |
0.0219 |
HSAAF-UI |
0.0373 |
0.0200 |
0.0536 |
0.0242 |
HSAAF |
0.0379 |
0.0212 |
0.0567 |
0.0259 |
进一步地,当在超图增强结构之上融合用户与项目的结构相似性信息后,HSAAF在所有数据集和评价指标上均取得了最优性能。该结果表明,结构相似性信息能够在超图协同传播的基础上进一步优化邻接关系,使模型在捕获潜在兴趣相似性和缓解数据稀疏性方面具备更强的建模能力。总体而言,消融实验结果验证了HSAAF各组成模块在性能提升中的互补作用,也充分说明了逐层结构增强策略在协同过滤推荐任务中的有效性。
4. 总结
本文围绕推荐系统中图结构表达能力受限的问题,提出了一种基于超图的结构增强学习框架,该方法以预训练阶段获得的用户与项目高质量嵌入为基础,在此基础上分别构建用户超图和项目超图,通过对高阶关联关系的建模,对原始用户–项目交互矩阵进行系统性增强,从而得到结构更加完整、信息更加丰富的邻接矩阵,并将其用于后续的模型训练与表示学习。
在实验验证方面,本章通过在多个评价指标上将所提出的HSAAF方法与多种基础模型进行对比,系统分析了超图结构增强对推荐性能的影响。同时,进一步设计了针对关键模块的消融实验,以验证各组成部分在整体模型中的作用。实验结果表明,所提出的HSAAF模型在多项指标上均取得了稳定且显著的性能提升,证明了基于超图的邻接矩阵增强策略在协同过滤任务中的有效性与鲁棒性。
综上所述,本文的研究不仅验证了超图建模在刻画用户与项目高阶关联关系方面的优势,也表明通过对邻接结构进行增强能够有效提升模型的表达能力与推荐性能,为后续进一步探索结构增强与协同信号建模提供了有价值的实践参考。