1. 引言
过去几十年里,复杂网络理论成了理解自然界社会系统和技术网络组织原则的核心工具[1]生物系统里的蛋白质相互作用,社交系统里的人际交往,图论方法给这些复杂系统的分析提供了通用语言传统的网络研究。通常假设节点间关系是单一维度的,常把所有交互合在一起当成单层结构,这种简化降低了计算复杂度,忽略了现实世界交互的多维性和异质性。比如社交网络里,用户常同时在微信和微博活跃,或者在同一个平台里有工作和娱乐不同性质的社交圈子,更准确描述这种多维交互特性,多层网络[2]概念就出现了。多层网络分析里的基础任务链路预测是利用已知网络结构里的层内拓扑和层间耦合信息[3],预测网络里缺失的连边或者未来的变化趋势,这研究有重要应用价值,社交领域能跨平台预测潜在好友[4],生物医学领域结合,基因调控和蛋白质作用层,有效预测潜在致病基因或药物靶点[5]。
多层网络链路预测能用到很多地方,还有不少难题,早期尝试多聚焦于简单的算术聚合或孤立层预测[6]让重要的非线性关联特点消失,抓不住网络里面深层的连接,研究越往后,学者们试着搞多层融合的办法,可现在的融合模型常没考虑到层之间结构不一样(异质性) [7]和质量差别,实际数据里,不同网络层的有用信息多少不一样,有些帮忙的层可能有很多没用的干扰,甚至和要预测的层根本没关系,现在不少算法没有灵活调整的办法来分清楚每层起多大作用,随便把所有层混在一起,不光算起来更麻烦,还会带来不好的影响(负面干扰) [8],让预测准头变低,还有,以前看节点影响大小的指标常只看静态度信息[9],没考虑到信息在网络里传播时会慢慢变弱的特点,这样“超级节点”[10]就容易把局部那些弱但重要的连接信号盖住,怎么有效提取更高级的连接特点、减少结构里的干扰、灵活调整融合层间互补的信息,还是现在急着要解决的重要问题。
针对上述挑战,本文构建了一个融合改进多层初始信息流(M-IIF)与层间拓扑相关性的综合预测架构,试图从以下三个维度突破现有瓶颈:首先,在微观特征刻画上,我们对传统初始信息流指标(IIF)进行了动力学重构[11],引入了阻尼传播机制(Damping Propagation Mechanism) [12]。该机制通过模拟信息在传播中的能量耗散,对节点影响力进行物理矫正,既符合真实传播逻辑,又通过抑制超级节点的数值畸变,大幅提升了局部信号的辨识度。此外,通过整合归一化共同邻居传输(NCNT) [13],模型成功捕捉了二、三阶路径的长程依赖,有效缓解了数据稀疏对预测精度的制约。其次,在特征融合的逻辑架构上,我们摒弃了极易导致信息过载的全耦合模型,提出了线性解耦框架(Linear Decoupled Framework) [14]。该策略的核心在于将节点固有属性与局部路径特征进行逻辑剥离,这种解耦设计不仅降低了运算冗余,更确保了局部微观拓扑能以独立的贡献度参与最终决策,避免了强信号对弱信号的无差别吞噬。最后,针对宏观层面的信息质量失衡,本文设计了基于跨层拓扑相似性(CSL)的自适应加权方案[15]。该方案不再预设层权重,而是通过计算目标层与各辅助层间的全局相关性,动态地筛选有效补偿信息并滤除噪声。在CKM、TF、Vickers等五个典型多层网络数据集上的实验证明,本文方法在Precision指标上不仅全面超越了传统单层模型,相较于NSILR [16]等前沿多层算法也展现出显著的精度优势与鲁棒性。
本文余下章节安排如下:第二章回顾相关理论基础;第三章详述M-IIF与层间加权框架的数学构建及算法复杂度;第四章展示实验配置与多维结果对比;最后在第五章对全文进行总结并探讨未来方向。
2. 预备知识
为了构建本文提出的预测框架,这一章把多层网络链路预测涉及的核心概念与基础理论做形式化定义,具体有多层网络模型、链路预测问题描述、自信息与信息熵基础、初始信息流、层间结构相似性。
2.1. 多层网络模型
我们将一个包含
层关系的多层网络定义为
。节点与层:网络包含节点集合
,其中
表示节点总数。每一层
代表一种特定的关系维度,比如不同社交平台的交互关系,其中
。邻接矩阵:第
层的拓扑结构由邻接矩阵
描述。如果节点
和节点
在第
层存在连边,则元素
,否则为0。本文主要研究无向无权网络,即
为对称矩阵。
定义1 (节点度)节点
在第
层的度定义为该层中与节点
相连的邻居数量,表示为
(1)
2.2. 链路预测问题描述
给定多层网络
,假设
为待预测的目标层,其余层
为辅助层。我们将目标层的节点集合记为
,现有的边集为
。令
为
中所有可能的节点对全集。链路预测的任务是针对未观察到的边集
中的每一对节点
,计算一个相似性得分
。得分意义:
的值越大,表示节点
和
在目标层建立连接的可能性越高。评估目标:算法旨在利用目标层的拓扑结构以及辅助层的相关信息,使得潜在真实连边的得分显著高于不存在连边的得分。
2.3. 自信息与信息熵基础
鉴于网络链路本质上是信息交换的物理载体,本研究借鉴香农信息论,试图从“不确定性削减”的角度重新审视节点的结构价值。
定义2 (自信息)对于一个离散随机事件
,若其发生的概率为
,则其自信息
定义为
(2)
该定义表明:发生概率越低的罕见拓扑结构,往往蕴含着更高的信息增益;而高频出现的常规连接则信息冗余度较高。
定义3 (信息熵)系统的平均不确定性由熵
衡量,定义为所有可能事件自信息的期望。信息熵定义为
(3)
在复杂网络中,这一理论可以映射为:节点的度越大,其被随机游走访问的概率越高,举个生活中的例子,类似于常见的一些词汇,其含有的特异性结构信息反而较低;反之,度较小的节点往往携带的信息更具有鉴别力。
2.4. 初始信息流
网络中的每一个节点都可以被视为一个潜在的信息源,其向外扩散信息的能力不仅取决于自身的活跃度,还受限于其所处局部环境的拓扑结构。为了量化节点这种内在的传播潜能,我们引入初始信息流的概念。节点
的基础初始信息流由其邻居的度及其与邻居的紧密度决定,其定义为
(4)
其中
为节点
的邻居集合,
为节点
的度,
为节点
的度,
则是选取它们两者之间度数的更小值。该指标认为信息在传播过程中是无损耗的。
2.5. 层间结构相似性
多层网络具有异质性,不同层之间的拓扑结构可能存在显著差异。为了区分辅助层的贡献度,我们采用余弦相似度来度量层间相关性。目标层
与辅助层
之间的相似性权重为
。
定义4 (相似性权重)对于任意的目标层
与辅助层
,相似性权重
定义为
(5)
该指标量化了两个层在连边分布上的重叠程度。
为节点总数,
取值范围为
,
越大,说明辅助层
与目标层
的结构越相似,在进行跨层信息融合时应赋予更高。
3. 本文提出的方法
现有方法忽略信息传播衰减特性及层间结构异质性的问题,本文提出了一种基于多层阻尼初始信息流(M-IIF)与线性解耦融合的综合预测方法,这种方法有三个核心模块:层内结构相似性、层间相关性加权和多层信息融合。
3.1. 多层阻尼初始信息流
传统IIF指标认为信息传播时能量不变,实际网络里这种情况通常不成立,模拟物理世界里信息传得越远能量越少的情况,同时不让“超级节点”盖过局部拓扑信号,引入阻尼传播机制。给定多层网络中的第
层,节点
的改进初始信息流定义为
(6)
真实网络里信息传播时总会有能量损失和噪声影响,M-IIF计算里加了个阻尼因子,这个因子用来模仿信息强度随传播距离变远慢慢变弱的情况,阻尼因子有取值范围,参考了常用的PageRank算法和相关的随机游走模型研究(Ref_PageRank) [17],这里把它设为0.85,从物理角度说,就是信息每传一步能有效留下的比例(Retention Rate) [18],能防止那些连接数特别多的超级节点(Super-nodes) [10]因为积累太多结构信息而出现数值不正常的情况,让模型能更关注拓扑上更明显的局部信号,表示节点和它邻居的紧密程度。
3.2. 层内结构相似性
对于多层网络中的任意给定层
,我们构建了一个复合相似性指标,该指标同时捕捉节点的中心性与拓扑结构特征。具体而言,对于一对未连边的节点
,其层内得分
定义为以下三个分量的线性组合,这三个分量分别为
、
、
。
定义5 (直接信息容量)
:它由两端节点的初始信息流之和构成,代表了节点对自身处理和传递信息的基础能力。定义为
(7)
和
分别为节点
和节点
在第
层的初始信息流。
定义6 (资源分配指标)
:能够有效抑制高度数共同邻居的影响,从而更精准地反映局部相似性。定义为
(8)
其中
表示节点
的邻居集合,
为
和
的中间节点,
为共同邻居节点
的度。
定义7 (邻居约束网络传输)
:为了弥补局部指标的短视性,我们引入半全局结构信息。与传统的路径计数不同,本方法考虑了长度为2和3的路径,并利用
对路径进行归一化加权,以反映真实的传输强度。定义为
(9)
其中,
表示节点
与
之间长度为2和3的目标路径集合,
为路径上的中间节点(即
且
不等于端点
,
),
为中间节点
在第
层的度。
定义8 (线性解耦融合方法)
:通过引入可调节参数
和
,也就是实验中的网络搜索部分,层
中节点
和
的结构相似性定义为
(10)
其中,
控制节点自身熵信息的权重,
控制局部共同邻居信息的权重,剩余部分则用于加权半全局路径信息。
3.3. 层间相关性加权
在多层网络中,并非所有辅助层都对目标层的预测有正面贡献。为了量化辅助层
对目标层
的相关性,我们采用邻接矩阵的余弦相似度(CSL)进行加权。
定义9 (结构相似性权重)设
和
分别为目标层
和辅助层
对应公共节点的扁平化邻接向量,结构相似性权重
计算如下
(11)
3.4. 多层信息融合
最终的预测得分通过聚合所有可用层的层内得分获得,该过程利用层间相关性权重对各层信息进行加权求和,从而实现互补信息的有效融合。
定义10 (最终相似性得分)针对目标层中的链路预测,节点对
的最终相似性得分
定义为
(12)
其中,
表示多层网络的总层数,
表示第
层的自适应权重(由CSL计算得出),
为节点
和
在第
层的层内得分。最终得分
的值越高,表示节点
和
之间存在潜在链路(或未来产生连接)的可能性越大。
3.5. 算法框架
为了清晰地展示本文所提框架的整体执行逻辑,算法1详细描述了本文提出算法的具体计算流程。
算法1:基于初始信息流与层间相关性的多层网络链路预测
输入:多层网络集合
,待预测的目标层
解耦权重参数
,阻尼因子为
。
过程:
输出:目标层未观测链路的最终相似性得分矩阵
。
1:初始化:获取公共节点集
及总数
;初始化最终得分矩阵
为零矩阵。
2:阶段一:计算层间相关性权重(CSL)。
3:提取目标层邻接矩阵的扁平化向量
。
4:For
to
do。
5:提取第
层的扁平化邻接向量
。
6:根据公式(11)计算结构相似性权重:
。
7:End For。
8:归一化权重:
。
9:阶段二:层内特征提取与解耦融合。
10:For
to
do。
11:For每一对候选节点对
do。
12:计算节点属性分量
:
13:计算局部结构分量
:
。
14:计算半全局路径分量
:
。
15:执行层内线性解耦融合:
。
16:End For。
17:阶段三:跨层全局加权聚合。
18:将该层贡献累加至全局得分:
19:End For。
20:Return对
按数值降序排列后的候选链路列表。
3.6. 时间复杂度分析
为了验证算法在大规模网络上的可扩展性,我们分析其时间复杂度。假设网络包含
个节点,
层,网络平均度为
。计算所有节点的IIF值需要遍历所有节点,复杂度为
。计算层间相似性矩阵需要
,其中
为边数。链路分数的计算主要取决于邻居搜索过程,对于每一对目标节点,复杂度约为
。综上,本算法的总时间复杂度为
,这与经典的局部指标(如CN,RA)处于同一量级,证明了本算法在保证精度的同时具有良好的计算效率。
4. 实验分析
本节介绍了实验的四个部分:数据集、基线算法、评价指标、结果分析,所有实验都在有英特尔酷睿i7-10875H处理器(基础频率2.3 GHz)、16 GB内存和64位Windows 10操作系统的计算机上完成的。
4.1. 数据集描述
为了评估所提框架的有效性,我们在五个涵盖不同领域的真实数据集上进行了实验,这些数据集的统计信息汇总于表1。具体数据集描述如下:
CKM:这个数据集描述了四个镇上医生之间的多种社会关系,里面有咨询、讨论和友谊三个网络层。
Kapferer:该数据集记录了赞比亚一家裁缝店内工人的多重交互网络,主要包含工作互动和协助友谊两个层。
Krackhardt:该数据集源自一家高科技制造企业的内部管理网络,包含咨询建议、私人友谊和工作汇报三个层。
Vickers:该数据集构建于澳大利亚维多利亚州七年级学生的社交关系,三个层分别对应相处融洽、挚友以及共同工作关系。
TF:这是一个大规模的在线社交多层网络,包含Twitter平台上的用户关注层和Foursquare平台上的地理位置签到层。
Table 1. Statistical characteristics of the datasets
表1. 数据集统计特征表
数据集(Dataset) |
节点数(N) |
边数(M) |
层数(L) |
平均度(k) |
CKM |
246 |
1551 |
3 |
12.61 |
Kapferer |
39 |
223 |
2 |
11.44 |
Krackhardt |
21 |
64 |
3 |
3.05 |
Vickers |
29 |
376 |
3 |
25.93 |
TF |
1486 |
32,258 |
2 |
21.71 |
4.2. 基线算法
我们将本文方法与七种算法进行了对比。其中CN、RA、AA、Jaccard属于经典的单层基线算法。NSILR属于多层基线算法,M-GCN和GATNE属于表示学习算法,是当前最前沿的技术。
Common Neighbors (CN) [6]:这是一个基于节点同质性假设的经典算法。该算法通过统计两个节点的共有邻居数量来衡量其紧密程度,其核心是两个节点拥有的共同邻居越多,它们之间存在潜在连接的可能性越大。
Resource Allocation (RA) [19]:它考虑到不同度数的共同邻居在资源传输能力上的差异,通过抑制高度数节点的权重来降低其对相似性的作用,从而更精确地捕捉局部连接方式。
Adamic-Adar (AA) [20]:与RA类似,这是一个通过惩罚高度数邻居来改进预测精度的加权指标。不同的是AA 采用对数形式对共同邻居的度进行加权,相比RA给予了低度节点更高的重要程度。
Jaccard [21]:该指标看两个节点邻居集合重合部分的比例,归一化的相似性度量,消除节点邻居数量差太多导致的预测不准,看都有的邻居在两个节点所有邻居加起来中的比例多少。
NSILR [16]:这是多层网络预测的加权融合方法,计算层间皮尔逊相关系数(PCC)当权重,把各层RA相似性得分加权相加,用辅助层信息帮目标层做预测。
GCN [22]:该方法虽能通过卷积算子捕捉复杂的跨层非线性特征,但这种“全耦合”的聚合逻辑在应对层间异质性较强的网络时,极易因特征“过度平滑”而模糊了关键的局部拓扑细节。
GATNE [23]:这种基于双层嵌入的架构方案尝试通过注意力机制解构维度贡献,但其对数据密度的重度依赖,导致模型在面对极度稀疏的拓扑结构时常因参数冗余而陷入收敛僵局。
4.3. 评价指标
本研究采用链路预测中通用的受试者工作特征曲线下面积(AUC)和精确率(Precision)作为评价指标。
AUC衡量算法从整体上区分存在连边(正样本)和不存在连边(负样本)的能力。其物理意义是:随机选取一条测试集中的边(缺失连边)和一条不存在的边,算法给出的测试边得分高于不存在边得分的概率。计算公式如下:
(13)
其中,
为比较的总次数,
为缺失边得分大于不存在边得分的次数,
为两者得分相等的次数。AUC值越高,说明算法的整体排序能力越强。
Precision关注的是预测列表中排名前
的边是否准确。它定义为在前
个预测结果中,实际存在于测试集中的边的比例:
(14)
其中,
是选取的预测连边数量,
是这
条边中预测准确的连边数。Precision值越高,说明算法在头部排名中的预测越精准。
4.4. 实验结果
4.4.1. 算法性能分析
表2汇总了本文提出的M-IIF框架与七种基线方法在五个真实数据集上的链路预测性能对比。总体而言,实验结果证实了M-IIF方法通过融合基于熵的信息流与多层结构特征,在不同类型的网络中展现出了稳健的预测能力。与CN、RA等传统局部指标相比,M-IIF在精确度(Precision)指标上取得了显著提升,这一优势在稀疏的大规模网络中尤为突出。例如在TF数据集上,表现最好的单层局部指标(RA)其Precision为0.6920,而M-IIF达到了0.7494。这主要归因于单层指标忽略了辅助层提供的互补信息,而本文框架通过层间相关性加权机制有效地聚合了多层网络的结构线索,从而在噪声环境中能更精准地识别真实链路。尽管在部分数据集上M-IIF的AUC提升幅度与局部指标相比处于同一量级,但在实际推荐场景中,用户更关注排名前列的候选者,因此M-IIF在Precision上的优越表现证明了其比仅优化全局排序的基线方法具有更高的实际应用价值。
并且与现在先进的多层网络算法NSILR比较更能看出本文方法的鲁棒性优势。NSILR在TF和CKM数据集表现不错,但全耦合机制遇到特定结构时,会有严重的层间干扰,Krackhardt数据集上这点则更加明显,NSILR在这个数据集上AUC和Precision分别是0.5604和0.4795,比基础的单层算法还低,出现了“负迁移”现象,M-IIF在Krackhardt数据集性能则很稳健,AUC和Precision分别是是0.6470和0.6065,完美超越了NSILR,这说明本文用的线性解耦框架和阻尼传播机制处理层间拓扑结构差异更有效,结构复杂或异质性强的多层网络里,比现在主流多层算法泛化能力和稳定性更好。
对比两种前沿的深度学习算法M-GCN和GATNE,本文方法在AUC和Precision上都表现出了相当强的优势。尽管M-GCN在节点分布较为均匀和连边密度较高的数据集CKM和大数据TF上与本文方法相比有不错的竞争力,但是在其他小型数据集上,M-GCN的“过度平滑”与拓扑漂移敏感性尤为严重,卷积算子不能很好地剥离噪声层,导致目标层的显著拓扑信号被辅助层的冗余信息所稀释,从而在异质性数据集中表现出泛化能力的不足。而GATNE的“冷启动”瓶颈与稀疏拓扑误导作为表征学习的基准,GATNE在本次实验的所有数据集上均表现欠佳,尤其在Kapferer中,AUC和Precision仅为0.4544和0.4448,Vickers的AUC和Precision仅为0.4718和0.4592,出现了严重的预测失效。对比M-GCN与GATNE的不稳定性,M-IIF则显得更加稳健。再次印证了在处理多层网络链路预测时,引入物理意义明确的阻尼传播机制与线性解耦框架的必要性。这种带有结构先验知识的方法,不仅能很好地过滤层间拓扑漂移引发的干扰噪声,更能在数据稀疏环境下保持极强的抗噪韧性,实现了预测精度与逻辑可解释性的双重跨越(图1)。
Table 2. Performance comparison of different algorithms on the datasets
表2. 算法性能对比表
Methods |
CKM |
|
Kapferer |
|
Krackhardt |
|
Vickers |
|
TF |
|
AUC |
Precision |
AUC |
Precision |
AUC |
Precision |
AUC |
Precision |
AUC |
Precision |
CN |
0.6552 |
0.5000 |
0.6869 |
0.6209 |
0.5640 |
0.5684 |
0.8100 |
0.7307 |
0.8646 |
0.6524 |
RA |
0.6583 |
0.5000 |
0.6992 |
0.6440 |
0.5909 |
0.5926 |
0.8356 |
0.7380 |
0.8720 |
0.6920 |
AA |
0.6579 |
0.5000 |
0.6979 |
0.6472 |
0.5808 |
0.5811 |
0.8300 |
0.7311 |
0.8695 |
0.6909 |
Jaccard |
0.6543 |
0.5000 |
0.6810 |
0.6321 |
0.4994 |
0.5152 |
0.7804 |
0.7049 |
0.8431 |
0.6753 |
NSILR |
0.7380 |
0.6429 |
0.7586 |
0.6957 |
0.5604 |
0.4795 |
0.8579 |
0.7750 |
0.9086 |
0.8511 |
M-GCN |
0.7512 |
0.6270 |
0.6371 |
0.6058 |
0.5802 |
0.5851 |
0.7627 |
0.6942 |
0.9086 |
0.8452 |
GATNE |
0.5250 |
0.5628 |
0.4544 |
0.4448 |
0.5767 |
0.5054 |
0.4718 |
0.4592 |
0.5895 |
0.5637 |
M-IIF |
0.5936 |
0.5685 |
0.6676 |
0.6336 |
0.6470 |
0.6065 |
0.7766 |
0.7525 |
0.8255 |
0.7494 |
Figure 1. Performance comparison of different algorithms on five datasets
图1. 不同算法在五个数据集上的性能对比
4.4.2. 参数敏感性分析
为了确定模型中不同拓扑特征权重的最佳配比,本文采用网格搜索策略测试了
和
的多种组合,具体的AUC性能对比见表3。实验结果表明,M-IIF算法对参数变化具有高度的稳健性。确定最终模型参数时,我们并未盲目追逐单一数据集上的数值极值,而是将其视为一个特征间的平衡博弈过程。通过网格搜索可以发现,虽然某些参数组合在特定环境下能取得微弱优势,但往往因过度侧重局部RA指标而导致模型在异质化网络中出现性能波动。
基于泛化能力与结构稳态的考量,本文最终将参数设定为
与
,这在本质上构建了一个节点势能、局部结构与高阶路径之间3:4:3的协同矩阵。我们之所以坚持这一分配比例,是因为40%的局部权重确保了链路预测的基本精度,而各占30%的节点影响力与长程路径信息则起到了“逻辑保险”的作用。特别是在面对如TF等极度稀疏的大规模网络时,这种分配有效弥补了邻居信息缺失的缺陷,实现了微观特征与宏观拓扑的长短程互补。最具说服力的证据在于,该配置在所有基准数据集上的AUC表现极其稳定,最优与最差值之间的极差不足0.01。这种跨数据集的高度一致性证明,3:4:3并非偶然的数值凑巧,而是一种能显著增强抗噪能力并确保预测逻辑在不同拓扑环境下均具备稳健性的结构化最优解。
Table 3. Effect of parameters
and
on the performance
表3. 参数
和
对算法性能的影响
p |
q |
CKM |
Kapferer |
Krackhardt |
TF |
Vickers |
Average |
0.2 |
0.3 |
0.6224 |
0.5764 |
0.6302 |
0.7970 |
0.7600 |
0.6772 |
0.2 |
0.4 |
0.6264 |
0.5799 |
0.6254 |
0.7953 |
0.7717 |
0.6797 |
0.2 |
0.5 |
0.6281 |
0.5903 |
0.6136 |
0.7935 |
0.7795 |
0.6810 |
0.3 |
0.3 |
0.6151 |
0.5920 |
0.6052 |
0.7928 |
0.7799 |
0.6770 |
0.3 |
0.4 |
0.6145 |
0.5938 |
0.6052 |
0.7915 |
0.7817 |
0.6773 |
0.3 |
0.5 |
0.6185 |
0.6007 |
0.5969 |
0.7900 |
0.7860 |
0.6784 |
0.4 |
0.3 |
0.6105 |
0.5938 |
0.6017 |
0.7904 |
0.7839 |
0.6760 |
0.4 |
0.4 |
0.6117 |
0.6007 |
0.5945 |
0.7892 |
0.7904 |
0.6773 |
0.4 |
0.5 |
0.6134 |
0.6059 |
0.5850 |
0.7880 |
0.7921 |
0.6769 |
4.4.3. 算法复杂度分析
为了严格验证算法在大规模网络上的可扩展性,我们对其时间复杂度进行了理论推导与对比分析。本算法的计算开销主要由特征预处理、层间权重计算和链路分数计算三个部分组成。综合推导可知,M-IIF算法的总时间复杂度为
。对比讨论:表4展示了本文方法与实验中采用的主流基线算法的时间复杂度对比。与单层基线算法对比:经典的单层局部指标CN,RA,AA都仅需计算二阶邻居,复杂度为
。本文方法虽然引入了多层融合机制,但得益于线性解耦框架,并未改变算法的时间复杂度量级,这表明本算法在引入层间互补信息的同时,保持了与最简单的单层指标相当的计算效率。与单层基线算法和多层基线算法相比,本文方法避免了复杂的全耦合乘法迭代,在实际计算中具有更小的常数系数。假设
为模型训练的迭代次数,
为节点嵌入特征的维度,
为每个节点的随机游走序列数,
为序列长度,相比于M-GCN依赖的多轮图卷积迭代,以及GATNE极其耗时的随机游走采样与大规模参数优化,M-IIF表现出了“免训练(Training-Free)”的降维优势。深度学习模型在TF等大规模数据集上往往需要显著的显存分配与计算时耗,而本文算法通过显式的物理逻辑直接从拓扑结构中提取特征,在计算开销上实现了数个数量级的压缩,这在实时推荐等高吞吐量场景下具有不可替代的工程可行性。实验与理论分析一致表明,本算法在处理包含数万节点的TF大规模数据集时依然高效,证明了其在保证预测精度显著提升的同时,具备优异的可扩展性。
Table 4. Algorithm time complexity comparison
表4. 算法时间复杂度对比
算法类别 |
具体方法 |
时间复杂度 |
单层基线 |
CN/RA/AA/Jaccard |
|
多层基线 |
NSILR |
|
表示学习方法1 |
M-GCN |
|
表示学习方法2 |
GATNE |
|
本文方法 |
M-IIF |
|
4.4.4. 消融实验
实验结果如表5所示,在TF、Vickers和Krackhardt等多个数据集中,移除阻尼系数(w/o Damping)后的AUC与Precision数值与完整模型高度重合。这一现象反映了阻尼因子在链路预测中的“秩保持”特性:由于阻尼因子
作为全局缩放常数,在单一层内并没有改变节点对得分的相对序位。但在CKM数据集上,移除阻尼导致AUC从0.5936微降至0.5951,这表明在动力学演化较为复杂的网络中,阻尼机制能通过细微的能量耗散模拟,为模型提供更具区分度的评分尺度,从而在边际上优化了全局排序。层间融合策略的对比揭示了自适应加权机制是M-IIF鲁棒性的核心来源。在Krackhardt和CKM数据集上,采用等权重融合(Equal Weight)导致性能出现显著回撤,其中Krackhardt的Precision从0.6065剧降至0.5117,CKM的Precision从0.5685跌至0.5224。这有力地证明了在结构异质性强的多层网络中,盲目融合非相关层会诱发严重的“负迁移”干扰。M-IIF通过CSL指标敏锐地捕捉层间相关性,起到了“信息过滤器”的作用,确保了辅助层信息的正向增益。通过移除高阶路径特征(Local Only)的实验可以观察到,模型在处理大规模稀疏网络时的“视野局限性”。在TF大规模数据集中,仅保留局部特征导致AUC从0.8255回落至0.8189。而在Kapferer数据集上,移除NCNT后Precision从0.6336下滑至0.6159。尽管在规模极小的Krackhardt数据集上局部特征表现出一定的离散优性,但综合全数据集来看,NCNT提供的长程拓扑线索为稀疏连接提供了必要的结构补偿,是模型维持全局预测精度的重要支撑。综上所述,消融实验证实了M-IIF的每一个组件均具有不可替代的结构化贡献。动态加权机制负责过滤层间噪声以对冲负迁移风险,而阻尼逻辑与高阶路径则通过精细化拓扑表征,共同构筑了模型在异质化场景下的预测韧性。
Table 5. Performance comparison of the ablation study
表5. 消融实验性能对比表
Variant |
CKM |
Kapferer |
Krackhardt |
Vickers |
TF |
AUC |
Precision |
AUC |
Precision |
AUC |
Precision |
AUC |
Precision |
AUC |
Precision |
M-IIF (Full) |
0.5936 |
0.5685 |
0.6676 |
0.6336 |
0.6470 |
0.6065 |
0.7766 |
0.7525 |
0.8255 |
0.7494 |
w/o Damping |
0.5951 |
0.5707 |
0.6761 |
0.6308 |
0.6097 |
0.5950 |
0.7772 |
0.7525 |
0.8221 |
0.7474 |
Equal Weight |
0.5799 |
0.5224 |
0.6738 |
0.6647 |
0.5661 |
0.5117 |
0.7777 |
0.7456 |
0.8077 |
0.7382 |
Local Only |
0.5909 |
0.5628 |
0.6715 |
0.6159 |
0.5925 |
0.6172 |
0.7835 |
0.7456 |
0.8189 |
0.7453 |
5. 结论
本文针对现有多层网络预测方法在处理层间拓扑漂移及节点影响力异质性方面的局限,构建了一个融合改进多层初始信息流(M-IIF)与层间拓扑相关性的综合预测架构。本研究的核心价值体现在以下维度:
第一,我们摒弃了仅依赖静态度信息的传统视角,转而从信息动力学传播的物理维度出发,通过引入阻尼机制构建了M-IIF度量模型。该模型不仅精准刻画了节点在复杂拓扑中的有效势能,更通过模拟能量耗散机制,成功规避了“超级节点”引发的数值偏置,为异质节点的角色定位提供了更具物理内涵的量化手段。同时,线性解耦策略的引入,确保了微观拓扑特征在融合过程中的独立表达,有效滤除了冗余计算。第二,针对现实网络中辅助层信息质量良莠不齐的痛点,本文设计的跨层拓扑相似性(CSL)自适应机制充当了“信息过滤器”的角色。该机制能够灵敏地捕捉辅助层与目标层间的结构共鸣,在动态强化高保真辅助信息的同时,主动压制噪声层的干扰。实验结果一致证实,本文提出的框架在AUC与Precision等关键性能指标上,不仅大幅超越了单层基线模型,相较于当前主流的多层网络算法亦展现出更强的鲁棒性。尤为重要的是,算法复杂度维持在
量级,这种精度与效率的平衡使其在处理海量节点规模的多层网络时具备优异的可扩展性。展望未来,我们的研究方向将向更深层次的维度延伸:一方面,我们将尝试打破静态结构的限制,将M-IIF理论推广至时序多层网络(Temporal Multilayer Networks)中,探索链路演化规律在时间与空间维度上的耦合机制。另一方面,我们计划将本文的结构化先验知识与图神经网络(GNN)的强非线性拟合能力相结合。这种“符号 + 联结”的混合路径,有望在处理极度稀疏或具有极端异质性的复杂网络环境时,展现出更深层的表征潜能。