1. 引言
在当前的大数据时代,推荐系统已广泛应用于电商、金融等平台。传统的协同过滤方法[1]主要依赖于用户与物品的历史交互数据,但在面对交互数据稀疏和冷启动问题时表现不佳。为了解决这一问题,研究者们开始引入社交网络和知识图谱作为辅助视图,利用图神经网络强大的高阶连通性建模能力来丰富用户和物品的表示。
然而,直接聚合多源数据面临着严峻的挑战。首先是噪声问题:如Junliang Yu [1]等人指出了图卷积网络中的噪声问题,并提出了一种基于特征噪声的简单对比学习方法。Shijie Tian [2]等人在他们的研究中也提出现有的GNN推荐容易受到噪声干扰,且随机数据增强可能破坏图结构。而社交网络中存在大量与消费兴趣无关的连接(如仅是同事关系但购物偏好迥异),现有的研究如Chao Huang [3]等人提出的KCGN已经意识到了区分社交关系重要性的必要性。其次是交互主导问题:在监督学习下,稀疏的交互信号往往主导了模型训练,导致丰富的辅助信息未能被有效编码。现有的方法如SGL [4]通过随机丢边进行数据增强,但这可能会破坏图的内在语义结构,甚至引入更多噪声。
目前,已有多篇论文为解决数据噪声、稀疏性等问题提出多种框架,例如,Xuheng Cai [5]等人提出了利用奇异值分解(SVD)进行对比增强。Yangqin Jiang等人[6]提出Adaptive Graph Contrastive Learning (AdaGCL)框架。该框架通过两个可训练的自适应视图生成器——图生成模型(基于变分图自编码器VGAE)和图去噪模型来提升模型鲁棒性与泛化性。
此外Tianle Wang等人[7]提出去噪自增强学习范式(DSL),通过双视图神经网络分别编码用户–物品交互图与用户社交图的高阶关系,结合跨视图去噪自监督模块,来解决社交推荐中社交信息噪声。更进一步,M. Gao [8]等人证明了多视图协同训练在社交推荐中的有效性,提出了Co-Training (协同训练)的框架,让两个视图互相学习,旨在解决社交推荐的鲁棒性问题。
这些研究从多个角度改进现有推荐系统的性能,为本研究提供了坚实的理论基础。本研究通过进一步探索这些模型的核心去噪与增强机制提出了一种新的推荐方法。该方法的核心思想不再依赖人工定义的增强规则,而是通过参数化的网络自动学习哪些边该保留,哪些边该剔除。具体而言,我们在用户侧引入社交视图,并设计了自适应图生成与去噪模块,通过跨视图的对比学习任务,利用交互数据作为监督信号来指导辅助视图的去噪过程。本研究的主要贡献在于改进了当前的去噪增强机制,提升了推荐系统在噪声环境下的鲁棒性。
2. 方法
2.1. 数据来源与预处理
数据集选用推荐系统领域常用的公开数据集:Yelp、CiaoDVD。这些数据集涵盖了本地服务、电子商务和音乐流媒体三个不同的领域,且具备不同程度的数据稀疏性与辅助信息类型。其中,Yelp包含约16.1万名用户、11.4万个物品、111.8万条交互记录以及214万条社交关系。CiaoDVD包含约6672名用户、9.8万个物品、19.8万条交互记录以及10.9万条社交信任关系。
2.2. 模型介绍与参数设置
2.2.1. 模型总体框架图
如图1所示,本文提出的融合自适应图生成与去噪机制的社交推荐框架包含四个核心层级:输入层、自适应增强层、图编码层以及目标与损失层。该框架通过多视图对比学习,解决社交推荐中的数据稀疏与噪声干扰问题。
Figure 1. Overall structure diagram of the model
图1. 模型总体结构图
2.2.2. 自适应视图生成器(Adaptive View Generators)
为了克服随机数据增强破坏图结构的缺陷,近期的研究如GGD (Generative Graph Denoising) [9]开始尝试利用扩散模型进行生成式图去噪,虽然效果显著,但扩散模型的推理开销巨大。受到AdaGCL [4]的启发,本研究使用了两种参数化的视图生成器,分别用于生成增强视图和去噪视图。
针对数据稀疏性问题,当用户交互极少时,仅凭有限的交互记录可能会错误地将某些潜在有益的社交关系判定为噪声。因此本框架引入了变分图自编码器(VGAE)作为互补机制。VGAE可以利用图结构的潜在分布重构社交连接,能够在结构层面补充语义信息,相当于为稀疏的社交网络进行了平滑处理。同时,在去噪模块中,通过可学习的软权重结合对比学习的温度系数,允许模型在训练初期保留一定的探索性,随着训练进行逐渐聚焦于高置信度的社交边,有效平衡了稀疏场景下的偏差问题。因此采用变分图自编码器来重构图结构,重构图分布以补充潜在的语义连接。以社交图为例,该模块包含推断网络(Encoder)和生成网络(Decoder)。
在推断网络中,使用两层图卷积网络(GCN)来编码图结构信息,将节点映射到低维潜在空间分布。给定原始邻接矩阵A和节点特征矩阵X,首先计算节点的隐藏层表示:
(1)
其中H是GCN层输出的节点隐藏层特征矩阵,ReLU是激活函数,X是节点的初始特征矩阵,
是GCN层的可学习权重矩阵,
是加入自环(Self-loop)后的邻接矩阵,
是
的度矩阵。
随后,通过两个独立的多层感知机(MLP)分别预测潜在分布的高斯均值
和方差
:
(2)
其中
是潜在高斯分布的均值矩阵,
是潜在高斯分布的对数标准差矩阵,
是两个独立的双层多层感知机。
为了保证梯度可以通过采样过程反向传播,引入重参数化技巧生成潜在变量Z:
(3)
其中
是从标准正态分布中采样的噪声向量。这一步骤引入了随机性,使得生成的视图具有多样性,能够作为高质量的对比增强视图。
在生成网络中,通过计算潜在变量Z中节点对的内积,重构边存在的概率,从而生成增强后的邻接矩阵
:
(4)
其中,
是生成视图中节点i和节点j之间存在连边的预测状态。
是矩阵Z中第i行和第j行的向量,分别代表节点i和j的潜在向量。σ是Sigmoid激活函数。
针对社交网络中的无效连接和知识图谱中的无关实体,需要一个参数化的去噪网络。对于图中的任意一条边
,其重要性权重
计算如下:
(5)
其中
是边
对推荐任务的重要性评分,
是节点i和j的初始ID嵌入。
为了实现端到端的离散采样优化,我们利用Gumbel-Softmax技术。边
被保留的概率
计算为:
(6)
其中,
是近似二值的掩码,指示边是否保留。
是噪声项,
是温度系数。基于
,生成了稀疏且去噪后的社交视图
。
最终生成去噪视图的邻接矩阵
:
(7)
其中,A是原始含噪声的邻接矩阵,P是由所有
组成的掩码矩阵。
2.2.3. 双视图图编码(Dual-View Graph Encoding)
本研究使用LightGCN作为骨干编码器,分别在交互视图和去噪社交视图上独立传播信息。
在交互视图(Interaction View)中,在
上进行传播,捕捉用户的主偏好和物品特性。第l层聚合公式为:
(8)
其中,
为用户u在第l + 1层的交互视图表示。
为用户u的交互邻居;
为物品v的交互邻居。
为物品v在第l层的交互视图表示。
经过
层聚合后,得到用户交互表示
和物品表示
。
在社交视图通道中:在去噪后的社交图
上进行传播,捕捉用户的社交同质性信息:
(9)
其中
是来自公式(6)的去噪掩码权重;
为用户的社交邻居;
为用户u在第l层的社交视图表示。最终得到去噪后的用户社交表示
。
2.2.4. 跨视图对比学习(Cross-View Contrastive Learning)
借鉴了DSL的核心机制。本研究利用用户的交互行为来指导社交网络的去噪过程,虽然社交关系是客观存在的,但在现实生活中,例如,用户可能与同事建立社交连接,但二者的电影口味截然不同。因此,只有那些与用户真实交互行为(即购物、点击)相一致的社交关系,才对推荐任务具有正向增益。交互视图直接反映了用户的显式偏好,因此可以直接鉴别社交关系有效性。
我们将同一用户
在交互视图下的表示
与在社交视图下的表示
视为正样本对,同一批次内的其他用户视为负样本。构建InfoNCE损失函数,公式为:
(10)
其中,
为一个训练批次中的用户集合;u′为同一批次
中,除了u以外的其他所有用户,这些用户被视为负样本;sim为相似度函数,主要为了衡量两个向量相似程度。
该损失函数强迫社交视图的表示
向交互视图的表示
靠拢。
2.2.5. 模型预测与多任务优化(Prediction & Optimization)
在预测层,用户的最终表示由交互偏好和去噪后的社交偏好融合而成,物品的最终表示直接采用交互视图表示:
(11)
其中,
为用于控制辅助视图信息权重的超参数。
预测得分采用内积形式,公式为:
(12)
最后计算联合损失函数,首先,使用BPR (Bayesian Personalized Ranking)损失优化主推荐任务,公式为:
(13)
其中,
为用户
交互过物品
但未交互过物品
的训练三元组。
总损失函数
公式为:
(14)
其中,
为VGAE的生成损失;
为L2正则化项,防止过拟合;
为用于平衡不同任务重要性的超参数。
3. 模型结果与分析
3.1. 总体性能比较
为了验证本研究在推荐性能、去噪能力及抗稀疏性方面的有效性,我们在两个真实世界数据集(Yelp, CiaoDVD)上进行了实验。评估指标采用Recall@20和NDCG@20。
Table 1. A performance comparison of different models on the Yelp and CiaoDVD datasets
表1. 不同模型在Yelp和CiaoDVD数据集上的性能对比
模型 |
Yelp (Recall@20) |
Yelp (NDCG@20) |
CiaoDVD (Recall@20) |
CiaoDVD (NDCG@20) |
LightGCN |
0.2966 |
0.4126 |
0.1342 |
0.1058 |
Mf |
0.3109 |
0.4472 |
0.0683 |
0.0909 |
Ours |
0.3981 |
0.5424 |
0.2866 |
0.3635 |
表1展示了不同模型在Yelp和CiaoDVD数据集上的性能对比。实验结果表明,本文提出的模型在所有指标上均优于基线模型。
观察可知,在Yelp数据集上,由于交互与社交关系的极度稀疏,LightGCN的表现略逊于传统的MF方法,这表明噪声和稀疏性严重限制了图神经网络的性能。然而,本模型通过引入VGAE生成潜在视图,Recall@20相比次优模型(MF)提升了28.0%。这证明了自适应生成机制有效缓解了冷启动问题,补充了稀疏图中的语义缺失。
在CiaoDVD数据集上,与LightGCN相比,本模型在Recall@20和在NDCG@20上提升显著。这种成倍的性能增长主要归功于模型的去噪模块:CiaoDVD包含大量并不反映消费偏好的社交信任边,而本模型利用交互信号成功识别并剔除了这些噪声,从而学习到了更纯净的用户表示。
3.2. 不同噪声比例对模型的影响
为了评估本文所提框架的鲁棒性,我们在数据集中注入了0%到30%比例的随机噪声边,并记录了模型性能的变化。CiaoDVD数据集上的实验结果如图2所示。
观察可知,在所有噪声水平下,本文模型(红线)的性能均显著优于LightGCN和MF。即使在30%的高噪声环境下,本文模型的Recall@20依然保持在0.24以上,是基线模型性能的两倍多。
Figure 2. The performance degradation curves of the model under different noise ratios in the CiaoDVD dataset
图2. CiaoDVD数据集中不同噪声比例下模型性能衰减曲线
随着噪声比例的增加,LightGCN (绿线)由于图卷积操作导致噪声传播,性能出现了较明显的下滑。相比之下,本文模型表现出了极强的稳定性。这证明了自适应去噪模块和跨视图对齐机制能够有效识别并过滤掉与推荐任务无关的噪声连接,防止模型拟合错误信息。
MF模型(蓝线)由于不依赖图结构传播,对结构性噪声不敏感,表现较为平稳,但受限于模型容量,其整体性能处于较低水平。
Figure 3. The performance degradation curves of the model under different noise ratios in the Yelp dataset
图3. Yelp数据集中不同噪声比例下模型性能衰减曲线
观察可知,在Recall@20和NDCG@20两个指标上,本文模型(红线)的性能的曲线始终位于最上方,且与其他两个基线模型(MF和LightGCN)保持了较为明显的差距(图3)。
在Yelp数据集上,与LightGCN相比,本文的模型在Recall@20指标上实现了约15%~20%的相对提升。这表明我们的框架成功整合了社交信息以缓解数据稀疏性,而跨视图对齐的机制确保了社交信号对主要推荐任务产生积极作用。
此外,虽然基线模型的性能保持相对稳定,这主要是由于它们没有充分利用社交结构,但本文的模型即使在严重的噪声干扰下仍能保持较高性能。红色曲线的稳定性验证了我们的自适应图去噪模块的有效性。
3.3. 消融实验
为了验证本文提出的模型中各个核心组件的有效性,我们设计了一系列消融实验。具体而言,我们将完整模型与删减了特定模块的变体模型进行对比,以探究自适应去噪模块、跨视图对齐机制以及对比学习对最终推荐性能的贡献(表2)。
(1) w/o Denoise (去除去噪模块):在此变体中,我们禁用了SocialDenoisingNet的生成功能。模型直接使用原始的、包含噪声的社交网络进行图卷积操作,而不进行任何边的筛选或重构。该变体用于验证去噪模块是否有效过滤了有害的社交连接。
(2) w/o Alignment (去除跨视图对齐):在此变体中,我们移除了DSL模块中的对齐损失函数。此时,交互视图不再为社交视图的去噪过程提供指导信号,两个视图的学习相对独立。该变体用于验证利用交互信息指导社交去噪的必要性。
(3) w/o SSL (去除对比学习):在此变体中,我们移除了AdaGCL的对比损失函数。模型不再通过最大化视图间的互信息来增强节点表示。该变体用于验证对比学习在提升特征鲁棒性方面的作用。
Table 2. Ablation study of key components on the Yelp dataset
表2. Yelp数据集上关键组件的消融研究
模型变体 |
Yelp (Recall@20) |
Yelp (NDCG@20) |
Drop (Recall) |
Full Model (Ours) |
0.3981 |
0.5424 |
- |
w/o Denoise |
0.3814 |
0.5333 |
↓4.19% |
w/o Alignment |
0.1732 |
0.2634 |
↓56.49% |
w/o SSL |
0.3701 |
0.5108 |
↓7.03% |
综合分析上述消融实验各模块的实验结果,我们可以得出以下结论:
(1) 跨视图对齐机制的决定性作用:实验数据显示,当移除DSL模块中的对齐机制(w/o Alignment)时,模型性能会大幅度下降,Recall@20从0.3981暴跌至0.1732,下降幅度高达56.49%。这一结果有力地证明了交互视图对社交视图的指导作用是不可或缺的。如果缺乏交互信号作为“伪标签”来对齐社交关系的表示,社交网络中的信息不仅无法有效辅助推荐,反而可能引入巨大的噪音和干扰,导致特征空间发生严重的偏移。这表明,单纯引入社交网络并不足以提升性能,如何将社交信号与交互偏好在语义空间上对齐才是社交推荐成功的关键。
(2) 对比学习的鲁棒性增强:对比w/o SSL与完整模型,观察到Recall@20下降了约7.03%。这表明AdaGCL引入的自监督对比任务在模型训练中起到了重要的正则化作用。通过拉近同一用户在不同增强视图(交互视图与去噪社交视图)下的嵌入表示,InfoNCE损失函数有效地缓解了数据稀疏性问题,并增强了模型捕捉用户本质特征的能力,防止了过拟合。
(3) 自适应去噪的精细化提升:对比w/o Denoise变体,完整模型的性能提升了约4.19%。这说明原始的社交网络中确实包含了一定比例的无关连接。如果直接使用原始图进行卷积(w/o Denoise),这些噪声会传播并污染用户表示。本模型使用的自适应去噪模块通过学习边的重要性权重,成功剔除了部分有害连接,进一步净化了图结构,从而推高了模型的性能上限。
综上所述,本模型使用的跨视图对齐机制确保了社交信息能够正确地服务于推荐任务;对比学习和自适应去噪则分别从特征鲁棒性和图结构纯净度的角度,进一步提升了模型的表现。
4. 总结
本研究针对社交推荐系统中普遍存在的数据稀疏性与噪声干扰问题,通过融合自适应视图生成与跨视图对齐提出了一种新的推荐框架。与现有的依赖随机数据增强的对比学习方法不同,本研究通过引入可学习的参数化网络,实现了对图结构的“优胜劣汰”与“查漏补缺”。
在用户侧的跨视图协同去噪中,本研究融合了DSL机制,利用用户真实交互行为作为监督信号,指导社交网络的去噪过程。通过对比学习,模型成功识别并抑制了那些与消费偏好无关的无效社交连接。
在物品侧的自适应交互增强中,本研究借鉴AdaGCL的生成机制,在物品侧构建了基于交互图的自适应去噪视图。这使得物品表示不再仅仅依赖于原始的、可能包含误点击的交互记录,而是通过与去噪视图的对比,学习到了更加鲁棒的本质特征。
此外,本研究引入变分图自编码器(VGAE),通过重构潜在连接,有效缓解了Yelp等大规模稀疏数据集中的冷启动问题。
通过在Yelp、CiaoDVD两个具有不同规模和社交密度的基准数据集上进行的实验,本研究所提出的推荐框架在Recall@20和NDCG@20指标上均一致优于LightGCN等基线模型。特别是在社交关系极其稀疏的Yelp数据集上,性能有较为明显的提升,验证了自适应图生成模块在补充语义信息方面的有效性。
尽管本研究改进了当前的推荐模型,但仍存在一定的局限性,例如目前的模型基于静态图结构,忽略了用户兴趣和社交关系随时间的动态演变。未来的工作将探索把自适应去噪机制扩展到动态图神经网络中,以捕捉时序上的噪声模式。而且当前的去噪仅基于结构信息。随着大语言模型的发展,未来可以尝试利用LLM提取用户评论和物品描述中的深层语义,作为辅助信号来进一步指导图结构的生成与去噪,实现结构与语义的双重增强。
NOTES
*通讯作者。