1. 引言
推荐系统在电子商务领域的迅猛发展已成为推动用户参与度提升与平台收益增长的核心动力[1]。借助对用户浏览行为、购买记录、加购操作及页面停留时间等多维数据的分析,推荐系统能够有效建模用户兴趣偏好并提供个性化商品排序与推荐服务。伴随用户交互行为的持续积累,推荐模型在预测消费者需求、提升转化率及挖掘潜在消费潜力方面展现出显著价值。与此同时,商品间的共现关系、品牌偏好路径、功能属性聚合等信息逐渐成为建模用户偏好迁移与商品语义依赖的重要基础,推动了知识图谱(Knowledge Graph, KG)在推荐任务中的广泛应用。
知识图谱通过建模实体(如商品、品牌、品类等)之间的多种语义关系,构建结构化的图数据,为推荐系统提供了丰富的高阶语义关联信息。研究表明,将知识图谱与协同过滤[2] [3]、图神经网络(Graph Neural Network, GNN)等模型结合,可有效提升冷启动和长尾推荐场景下的推荐准确性与系统稳健性。然而,现有的KG增强推荐方法仍存在三方面不足:其一,真实世界中的KG往往存在实体与关系的缺失,语义结构不完整,影响了图结构学习的质量[4];其二,大多数方法依赖多跳图神经传播机制建模高阶关系,计算成本高昂,且深度传播常出现过度平滑(over-smoothing)问题,导致节点表示区分性下降[5];其三,传统KG方法多基于离散ID编码与结构路径建模,缺乏对自然语言中隐含语义的深度理解与泛化能力,限制了推荐系统的表达空间[6]。
随着大语言模型(Large Language Models, LLMs)在自然语言理解、知识推理与通用语义建模方面的突破,其在推荐系统领域的潜力也逐步显现[7]。大语言模型具备跨领域文本建模与结构数据语义融合的能力,能够将知识图谱中的子图结构、实体描述、关系路径等信息转化为自然语言提示(prompt)输入,实现“图到文”的转换,进一步提升图结构的语义表达能力。在推荐场景中,通过将用户–物品交互[8]、商品KG子图等转换为语言上下文输入,LLM可生成语义丰富、上下文感知的高质量表示[9] [10],替代传统图神经网络中的跳数传播与聚合操作,从而缓解KG不完备、语义稀疏与计算冗余等问题。
为了解决传统知识图谱推荐中高阶关系建模能力不足、结构信息利用不充分以及语义表达受限等问题,本文提出了一种融合大语言模型与知识图谱的电子商务推荐算法。该方法包括两项关键设计:首先,基于提示构造的图语言建模机制,将知识图谱中与用户或物品相关的子图结构转化为自然语言形式,并输入大语言模型进行统一语义编码,从而实现图结构的语义增强;其次,引入多粒度的语义聚合策略,融合大语言模型生成的实体表示与结构邻居信息,提升对高阶语义路径与潜在关联的建模能力。通过将语言模型的表达能力与知识图谱的结构优势相结合,本文算法不仅有效缓解了图谱稀疏与冷启动问题,也显著提升了推荐系统的泛化性能与语义可解释性。
2. KGLM模型
本文提出的KGLM模型的总体框架如图1所示,模型主要由三层组成,三者协同工作以实现语义增强的电子商务推荐。第一层为物品语义建模层,通过提取物品在知识图谱中的局部子图结构,并将其转化为自然语言描述,输入大语言模型以生成语义丰富的物品表示,从而捕捉商品属性间的深层语义联系。第二层为用户语义建模层,结合用户的历史交互记录与关联实体信息,通过大语言模型生成上下文感知的用户语义表示,以刻画其潜在偏好特征。第三层为推荐预测层,综合用户与物品的语义嵌入,通过匹配函数计算相关性得分,实现个性化推荐结果输出。该模型充分融合了知识图谱的结构优势与大语言模型的语义理解能力,在冷启动与长尾商品推荐场景中表现出更强的泛化性与准确性。
Figure 1. Overall framework of KGLM model
图1. KGLM模型总体框架
2.1. 物品语义建模
在电子商务推荐任务中,知识图谱(Knowledge Graph, KG)通过建模商品间的结构化关系,能够有效揭示潜在的语义关联。然而,传统知识图谱多依赖人工构建,存在事实缺失与知识覆盖不足等问题,且其高度结构化的形式难以直接与自然语言描述对齐,限制了语义表达的丰富性。为此,本文引入大语言模型(Large Language Model, LLM)以增强知识图谱的理解与语义建模能力,从而构建更高质量的物品表征。我们选用的大语言模型是DeepSeek-V2,选择DeepSeek-V2的主要原因在于它兼具强通用知识与稳定指令跟随能力,非常契合“以结构化三元组为输入、产出规范化语义文本”的任务设定。电商知识图谱常见事实缺失、同义异名与长程依赖,DeepSeek-V2在关系推理、缺失补全与一致化重述方面表现稳健,能把一阶和二阶三元组整合成高保真、可编码的说明文本,显著缓解仅靠图传播带来的过度平滑与噪声累积。相较将大模型直接端到端微调,DeepSeek-V2作为只读“语义理解器”,只负责离线把知识图谱转成高质量文本和语义向量,不参与下游的反向传播与训练,后续的训练只更新自己的参数,有助于控制训练难度。
在该模块中,我们重点介绍如何运用LLM对以物品为中心的物品图进行有效的理解及完善,首先针对于每个物品
(1)
其中,
表示全局知识图谱,
表示实体间的关系类型,
为与物品
相连接的属性实体。在实际电商场景中,一级邻居节点通常代表商品属性(如“品牌”、“类别”、“产地”等),因此这些节点能够反映物品在语义空间中的局部特征。当部分属性或关系缺失时,我们采用统一占位符“missing”进行补全,以保持结构完整性。考虑到一阶邻居无法充分捕捉高阶语义信息,本文进一步引入二阶邻接结构,以增强子图的上下文表达能力。设
(2)
为一阶邻居集合,则对于每个
,形成二阶三元组以构造扩展集合
,定义如下:
(3)
通过该策略,在不显著增加计算复杂度的前提下,模型能够从有限的局部子图中学习到更丰富的上下文依赖。
我们首先把以目标物品
为中心的一阶与二阶关系统一表示为三元组。对一阶邻域,将集合
中的所有
串接成一段结构化文本,记为
;对二阶邻域,则从每个一阶实体的三元组集合中采样,并通过预设模板转写为连贯句子,得到
,以便大语言模型理解。随后,我们设计系统指令
作为生成约束,具体的提示模板设计如图2所示。
如图所示将
、
与
拼接成完整提示,驱动LLM对以物品
为中心的KG子图进行理解,综合考虑结构化与语言化信息,我们将输入构造成如下格式:
(4)
其中,
与
分别表示由一阶与二阶三元组生成的文本描述,
为LLM对以物品
为中心的知识图谱的语义理解结果。该生成结果包含了知识补全、关系推理与语义重构等多维信息,体现了LLM对结构化图谱的自然语言认知能力。LLM产出的物品语义描述需要被稳定地量化为向量,以便与协同信号共同训练。为此我们选用句向量表现成熟的sup-SimCSE-RoBERTa-large作为文本嵌入模型
,该文本嵌入模型其监督式对比学习在句子层面具有更强语义聚散性,能把LLM生成的物品/用户描述映射为稳定、可度量的向量;与协同空间经轻量投影即可对齐融合,计算与时延远低于直接用LLM向量,便于离线缓存与冻结,降低过拟合与噪声放大风险。
将
转换为嵌入向量表示,获得物品的语义增强嵌入:
Figure 2. Prompt template for item knowledge graph
图2. 物品知识图谱的提示模板
(5)
所得嵌入
不仅包含了图结构关系信息,也整合了LLM对语言层面的深层语义建模能力,从而在推荐系统中实现了对物品语义特征的精细化表征。该模块有效缓解了传统图模型在知识稀疏、属性缺失及多跳传播冗余方面的不足,为后续用户建模与推荐预测提供了高质量的语义表示基础。
2.2. 用户语义建模
本节基于知识图谱的用户语义建模方法,通过构建大语言模型可理解的用户侧“知识档案”,实现从历史交互行为到语义偏好的高质量建模。在该过程中,我们首先利用知识图谱扩展传统的用户–物品二部图结构,将用户在训练阶段的所有交互记录统一映射为结构化文本表示,再通过文本嵌入函数获取其语义向量表示,用于后续推荐模型的训练与预测。该方法的核心在于借助知识图谱提供的丰富语义上下文,补全交互信号中缺失的高阶关联,从而在更完整的知识空间中刻画用户兴趣。具体而言,首先从用户–物品二部图中,抽取给定用户
的交互子图
,即用户在训练集内曾交互过的所有物品集合。针对其中每一个物品
,提取以该物品为中心的一阶知识图谱子图,并表示为三元组集合
,形式为
。这些三元组代表该物品与其属性之间的语义关系,我们将
中所有三元组按序拼接为结构化文本
,形式化地表示为:
(6)
其中
表示串接操作,
为物品
的名称。
在此基础上,结合一段预设的系统提示指令
,具体的提示模板设计如图3所示:
Figure 3. Prompt template for user knowledge graph
图3. 用户知识图谱的提示模板
将上图提示输入至大语言模型生成用户偏好文本表示
,即:
(7)
为将上述文本化偏好进一步纳入神经推荐模型中,我们使用一个预训练文本编码模型
对其进行
转换为嵌入向量表示,获得用户的语义增强嵌入,得到最终的用户语义表示
:
(8)
这一过程实现了用户交互历史与其相关知识的统一建模,即将符号交互序列嵌入到统一的语义向量空间中,为后续与物品语义表示的匹配或融合提供了良好的基础。
2.3. 预测模型
在完成物品与用户语义建模后,我们分别获得了语义嵌入
和
,它们由大语言模型基于知识子图语义理解生成。与此同时,推荐系统中传统的ID嵌入
和
则直接来源于模型参数。在语义空间与协同空间维度不一致、模态差异显著的背景下,亟需引入跨模态对齐机制以实现信息融合。
为此,本文设计了轻量的投影适配器网络(Adapter Network),用于将LLM生成的语义嵌入映射至ID嵌入所在的协同空间。该映射过程通过线性变换与非线性激活函数实现:
(9)
其中,
为可学习的投影矩阵,
表示激活函数(如ELU)。在整个训练过程中,
与
被视为固定特征,只有投影参数
与后续推荐模型参数参与训练,以保证LLM提供的语义信息不被过拟合所干扰。
投影后,我们采用均值池化策略将投影后的语义表示与原始ID嵌入进行融合,构造用户与物品的统一表示:
(10)
该融合表征
兼具协同表示的行为信息与LLM理解下的语义知识,有助于增强模型对冷启动与长尾物品的识别能力。
在此基础上,我们将融合后的表示作为输入,构建图神经推荐网络以建模用户–物品交互关系。本文采用LightGCN作为推荐主干模型,其通过图结构的多层邻居聚合,捕捉用户–物品之间的高阶协同信号。具体地,第
层的嵌入更新规则为:
(11)
其中,
表示与用户
发生交互的物品集合,
为与物品
交互过的用户集合;
为前述融合后的初始嵌入。经过
层传播后,我们对每一层的嵌入进行平均以获得最终的用户和物品表示:
(12)
最后,用户
与物品
的交互概率预测由内积操作给出:
(13)
该分数
表示系统预测用户
与物品
存在交互的可能性。模型在训练阶段采用Bayesian Personalized Ranking (BPR)损失函数进行优化,以强化正样本对负样本的排序优势,从而提升整体推荐效果。
该推荐预测模块通过跨模态对齐、融合建模与图神经传播三个环节,成功实现了语义知识与协同信息的深度融合,在提升推荐性能的同时,也为冷启动、知识稀疏等问题提供了有效解决路径。
2.4. 训练模型
本模型训练过程可分为两个阶段,分别对应语义信息建模阶段与推荐模型学习阶段。在第一阶段,我们利用大语言模型对用户与物品的知识子图进行语义理解,生成高质量的语义嵌入向量
和
。该阶段为无监督过程,所有语义表征在模型训练期间保持冻结,避免其受到下游任务梯度干扰,保持语言知识的一致性与泛化能力。
第二阶段为主推荐模型的训练阶段,我们将上述语义嵌入通过投影与融合操作,构建得到融合后的表示
和
,并作为输入构建基于图神经网络的推荐预测模块。在该阶段,我们采用广泛使用的Bayesian Personalized Ranking (BPR)损失函数作为优化目标,以提升模型对用户–物品交互偏好的排序能力:
(14)
其中,
为训练三元组集合,
表示用户
的正反馈交互样本,
为从未观察交互中随机采样的负样本;
为sigmoid函数,用于衡量两个物品的得分差异;
为用户
与物品
的预测得分;
是正则化项系数,用以缓解模型过拟合风险,
表示所有可训练参数集合。
通过最小化上述目标函数,模型能够有效学习到用户偏好排序,并充分融合LLM所提供的语义信息与图结构中的协同信号,从而显著提升推荐系统在冷启动、长尾分布与语义稀疏情形下的表现。
3. 实验
3.1. 实验环境与评价指标
本研究在本地计算环境中完成实验评估,硬件平台配置为:Intel(R) Core(TM) i5-14600KF 3.50 GHz处理器与 NVIDIA GeForce RTX 5070显卡,操作系统为 Windows 11。所有实验均在该平台上独立完成,确保实验结果的可复现性。我们选用的实验数据集为ml-1m,该数据集由美国明尼苏达大学的GroupLens Research Group提供,是推荐系统领域中最广泛使用的标准基准数据集之一。该数据集专为推荐任务设计,包含约100万条用户评分记录,涉及6000多个物品与6000多位用户,具备结构清晰、数据密度适中、属性信息丰富等优势,已被广泛应用于协同过滤、图神经网络、知识图谱增强推荐等研究任务。为公平对比,我们严格复现了所有基线方法,均基于其官方开源实现,并统一将推荐模型中的嵌入维度设定为64。针对训练过程,我们采用Adam优化器,学习率设为0.001,最大训练轮数为2000。推荐模型的隐藏层数L设为3,并分别对嵌入层与隐藏层施加Dropout正则化,Dropout比例从{0.2, 0.4, 0.6, 0.8} 中选取。在语义建模模块中,我们选用的大语言模型为DeepSeek-V2,其在多个标准基准任务与开放式生成任务中表现出色。具体而言,我们通过调用DeepSeek-V2的开放API接口实现知识注释文本与偏好描述的生成。为控制生成稳定性与可重复性,我们将温度参数temperature设为0,采样上界参数top-p设为0.001。在文本语义向量生成阶段,本文采用sup-simcse-roberta-large作为文本嵌入模型,并加载其官方预训练权重。对于所有涉及LLM或文本嵌入的对比方法,我们均保持相同的API调用方式与嵌入模型配置,以确保实验的可比性与公平性。模型具体的超参数设置如表1所示:
Table 1. Model hyperparameter setting
表1. 模型超参数设置
超参数 |
值 |
嵌入维度 |
64 |
图传播层数 |
3 |
批量大小 |
4096 |
学习率 |
0.001 |
训练轮数 |
2000 |
为全面衡量推荐模型在不同场景下的性能表现,本文采用两项被广泛认可的主流评价指标:召回率(Recall)与归一化折损累计增益(Normalized Discounted Cumulative Gain, NDCG)。这两种指标兼顾了结果的相关性与排序质量,能够有效评估模型在实际推荐中的有效性与用户满意度。具体而言,我们报告了Recall@k与NDCG@k的结果,其中
,分别衡量模型在前
个推荐结果中成功命中用户真实点击物品的比例,以及这些命中结果在推荐列表中的排序合理性。Recall指标关注是否成功召回用户感兴趣的物品,而NDCG进一步对召回结果的位置敏感性建模,给予较高排名的相关项更大权重,因此能够更真实地反映用户对推荐排序的接受程度。在评估协议上,为保证结果的公平性与一致性,我们采用了全排序协议(All-Ranking Protocol),即对每位用户,将其未交互的所有物品视为候选集,并在此全集上进行打分与排序。该协议比常用的随机负采样方法更具挑战性,也更贴近实际推荐系统部署中的开放式推荐场景,能够更有效衡量模型对全局物品空间的排序能力。总体而言,Recall@k与NDCG@k的结合使得本实验的评估框架既关注命中能力,又兼顾排序质量,为比较不同模型的推荐效果提供了科学、客观的量化依据。
3.2. 实验环境与评价指标
为了全面评估本文所提出的KGLM在推荐任务中的性能表现,我们选取了五种具有代表性的基线模型作为对比对象,涵盖了当前知识图谱增强推荐系统的主流技术路线。这些对比方法分别为:BPR-MF [11]、RippleNet [12]、KGAT [13]、CKE [14]与RLMRec [15],它们从不同角度对用户偏好建模与知识引入方式进行了探索,具有良好的代表性与对比价值。其中,BPR-MF是一种经典的协同过滤模型,采用贝叶斯个性化排序方法,通过学习用户与物品之间的隐式偏好差异进行推荐,其优势在于优化目标的直接性与实现的简洁性。RippleNet则是一种基于路径扩散的知识图谱推荐方法,通过在图中模拟用户兴趣的逐层传播,有效捕捉了用户与多跳实体之间的语义关联。KGAT引入注意力机制对知识感知协同图中的节点信息进行加权聚合,从而增强了模型在多跳结构建模上的灵活性与表达能力。CKE属于知识图谱嵌入类方法,专注于将知识图谱中的结构信息嵌入至统一的向量空间,与用户行为进行融合建模。RLMRec是一种融合大语言模型(LLM)能力的开放世界推荐算法,通过自然语言提示(Prompting)获取实体的文本语义表示,从而缓解知识图谱结构不完整或语义不足的问题,代表了大模型引入推荐系统的前沿探索方向。
在实验评估方面,为确保比较的公正性与系统性,我们采用了广泛应用的NDCG@k和Recall@k两类指标,并在全排序(All-Ranking)协议下对各模型进行一致性测试。实验结果显示,KGLM在各项指标上均显著优于所有基线模型。在本实验中,KGLM模型在所有四项指标上均取得最优结果,尤其在与KGAT和RLMRec两个具代表性的强基线模型进行对比时,展现出明显优势。其结果如图4和图5所示。具体而言,在Recall@10指标上,KGLM达到0.1683,较KGAT (0.1536)与RLMRec (0.1610)分别提升了9.5%与4.5%;在NDCG@10上,KGLM的值为0.4092,相较于KGAT (0.3782)与RLMRec (0.3903)分别提升8.2%与4.8%。在更长的推荐列表中,KGLM同样表现稳定,其Recall@20为0.2609,高于KGAT (0.2412)与RLMRec (0.2515),分别提升了8.2%与3.7%;在NDCG@20上则为0.3881,分别高出KGAT的6.0%与RLMRec的2.5%。值得关注的是,尽管RLMRec同样引入了大语言模型的文本语义增强机制,但由于缺乏结构化知识的系统融合,其整体推荐精度依然低于KGLM,表明后者在融合结构知识与语义表示之间达到了更优平衡。
综上所述,KGLM充分发挥了结构化知识与语言语义的协同作用,通过构建统一的语义增强推荐框架,显著提升了模型对用户偏好、高阶关系与长尾物品的感知能力。相比于传统方法,KGLM不仅在准确性指标上取得了显著优势,更在模型的泛化能力、语义表达精度与实际适用性方面展现出强大潜力,为下一代知识图谱推荐系统提供了具有推广价值的建模范式。
为了进一步验证KGLM模型中各关键模块对推荐性能的影响,本文设计了一系列消融实验。通过移除模型的部分核心组件,分析其在语义建模与推荐推理中的作用。具体地,我们构建了三种消融模型与完整的KGLM进行对比,实验结果见表2。
Figure 4. Recall@10、NDCG@10 values of different algorithms on the dataset
图4. 不同算法在数据集上的 Recall@10、NDCG@10值
Figure 5. Recall@20、NDCG@20 values of different algorithms on the dataset
图5. 不同算法在数据集上的 Recall@20、NDCG@20值
KGLM-v:在该变体中,去除了物品侧的语义嵌入,仅保留了基于用户–物品交互的结构信息,以验证由大语言模型(LLM)生成的物品语义表征在推荐性能中的贡献。
KGLM-u:此变体去除了用户侧的语义嵌入,仅依赖物品表示进行推荐预测。该实验用于评估LLM对用户知识子图的语义理解在用户偏好建模中的重要性。
KGLM-d:在该模型中,移除了LLM提示模板中引入的二阶三元组信息,使模型仅基于一阶知识结构进行语义建模,从而评估高阶关系对知识推理与推荐结果的影响。
通过对比可知,移除任一模块都会导致模型性能下降,其中物品语义嵌入的影响最为显著,说明LLM从知识图谱中提取的语义知识在提升推荐精度中起到关键作用。同时,用户语义建模与二阶关系信息亦在捕捉复杂偏好模式方面发挥了重要作用,进一步证明了KGLM在语义增强与结构理解上的有效性。
Table 2. Comparison chart of ablation experiment results
表2. 消融实验结果对比图
模型 |
Recall@10 |
NDCG@10 |
Recall@20 |
NDCG@20 |
KGLM |
0.1683 |
0.4092 |
0.2609 |
0.3881 |
KGLM-v |
0.1601 |
0.3898 |
0.2515 |
0.3691 |
KGLM-u |
0.1636 |
0.3956 |
0.2584 |
0.3802 |
KGLM-d |
0.1612 |
0.3815 |
0.2572 |
0.3792 |
消融实验结果表明,KGLM的性能提升并非来自单一组件,而是源于多模块的协同作用。移除物品侧语义嵌入后,模型在各数据集与不同阶段评估下均出现稳定退化,说明仅依赖用户–物品交互难以覆盖属性与关系等细粒度信息,由LLM提炼的物品语义是缓解交互稀疏、增强长尾与冷启动推荐的重要来源。进一步去除用户侧语义建模时,个性化能力明显削弱,模型更易偏向热门项而难以刻画细微兴趣差异,体现出LLM对用户知识子图的理解能够有效补足偏好表达。若在提示中删除二阶三元组,模型对跨实体的语义路径与潜在因果联系的把握明显变弱,仅凭一阶事实会使视野局限于局部邻域,无法充分利用知识图谱的全局结构,从而影响排序相关性与稳健性。
总体而言,KGLM的完整配置之所以表现最佳,在于同时引入了物品与用户的语义增强,并通过高阶关系提示让LLM更全面地理解与推理知识图谱结构。该组合既提升了全局语义整合能力,又强化了个性化刻画与泛化鲁棒性,特别对长尾与冷启动场景更为有效,并在保持可解释性的同时稳定提升推荐质量。
4. 总结
本文面向电子商务推荐场景,提出了融合知识图谱(KG)与大语言模型(LLM)的KGLM框架。模型以“物品语义建模–用户语义建模–推荐预测”三层协同为主线:首先由LLM对以实体为中心的局部KG进行语言化理解,生成高质量的物品与用户语义表示;随后通过轻量投影完成语义与协同空间对齐,并结合基于交互图的预测网络完成打分与排序。离线两阶段训练与全排序评测表明,KGLM在Recall@k、NDCG@k等指标上整体优于多条主流技术路线。对比分析显示,KGLM相较于以结构传播为核心的KGAT和以文本语义为核心的RLMRec均取得稳定领先,说明“结构 + 语义”的深度融合比单一路径更能刻画用户偏好与物品关系。消融实验进一步验证:物品语义、用户语义与二阶关系提示缺一不可,高阶语义路径显著提升排序相关性与模型稳健性。
从业务价值看,KGLM有效缓解交互稀疏、冷启动与长尾覆盖不足问题,提升了推荐的准确性、可解释性与泛化能力,为电商平台的转化率优化与供需匹配提供了可复制的技术方案。受限之处在于:对提示设计与LLM成本敏感,KG噪声与领域迁移仍需系统性处理,离线生成的语义向量与实时兴趣漂移存在时效差。未来可沿三方面拓展:其一,引入噪声感知的端到端/在线学习,学习三元组置信度与置信门控;其二,多模态与外部知识的统一表征(图像、标题、评论、属性)与成本优化;其三,面向开放世界的持续知识增强与安全合规(隐私、偏见与可解释)。总体而言,KGLM为“LLM × KG”的电商推荐提供了可落地的范式与坚实的实验依据。