1. 引言
复杂网络作为描述复杂系统相互作用的普适性模型,已广泛应用于社会、生物、信息、工程等多个领域。从社交网络中的人际关系到生物体内的蛋白质交互,从电力网络的输电线路到城市交通的道路连接,这些系统本质上都可抽象为由节点(个体单元)和边(交互关系)构成的网络结构。网络科学的任务之一,就是解析网络结构与功能间的内在关联,其中关键节点集的识别问题尤为重要——这不仅关系到网络拓扑的理论分析,更直接影响现实系统的功能实现与风险防控。
识别关键节点集,可用于系统稳定性优化。关键节点集通常构成网络的结构性枢纽,其功能的完整性直接影响复杂系统的鲁棒性。研究表明,在电力网络拓扑中,针对前5%的输电枢纽节点实施强化保护,可使电网级联故障抵御能力提升40%以上[1]。类似地,互联网拓扑分析显示,5%的核心路由节点承载超过80%的数据流量,通过精准识别并加固此类关键节点集,可显著提升网络鲁棒性达30%~50% [2]。因此,网络脆弱性和关键节点占比的关系,为关键基础设施的救灾资源配置与优先防护等级划分提供了决策依据。
识别关键节点集,可用于信息传播优化。基于节点中心性的关键集识别技术可突破传统信息传播模式的效率瓶颈。通过对社交网络的分析,选择介数中心性前1%的桥接节点作为信息传输枢纽,可使传播路径缩短30%~45% [3]。在流行病防控领域,基于特征向量中心性的关键节点免疫策略,相较于随机免疫方案可将传播阈值降低2~3个数量级[4]。这种基于节点中心性识别关键节点集的方法,在信息传播和流行病防控等不同领域展现出显著优势。
识别关键节点集,在生物网络调控中尤为重要。在生物分子网络研究中,关键节点往往对应着生命活动的功能开关。癌症信号通路分析表明,靶向EGFR、TP53等枢纽蛋白的抑制剂可使肿瘤细胞增殖率下降60%~75% [5]。这些发现为精准医疗领域开辟了新途径。
在理论层面,关键节点集识别经历了从个体到群体的研究历程。早期研究主要关注于单一节点的重要性度量,提出了度中心性[6]、紧密中心性[6]、介数中心性[7]等经典指标。然而,现实场景中的系统调控往往需要作用于群体层面:例如,在疫情防控中,往往需隔离密切接触者群体而非单个病例,在舆情控制中,需要引导关键意见领袖群体而非个别用户。这催生了群体中心性(Group Centrality)相关概念的发展,包括群体紧密度、群体介数[8]等度量方法。但现有群体中心性指标普遍存在两个根本缺陷:其一,多数方法仅简单扩展个体中心性,例如将群体视为超节点计算其介数,忽视了群体内部连接结构对整体功能的影响;其二,计算过程依赖完整的全局网络拓扑信息,这与实际应用中数据获取往往受限的矛盾日益突出。以COVID-19疫情防控为例:传统方法要求构建完整的接触者网络以识别超级传播者群体,但在实际操作中,受隐私保护、检测能力等现实因素限制,调查人员往往只能获得病例的部分接触信息。这导致基于不完整数据计算的群体重要性存在显著偏差,可能错判关键群体。其次,由于网络规模庞大,致使全网拓扑分析在计算过程中需耗费大量时间。这一状况难以契合疫情防控期间对快速响应的要求,进而影响了相关工作的高效开展。类似问题同样存在于社交网络谣言遏制、电力网络故障预防等场景,暴露出当前关键节点集识别方法在实用性上的不足。
本研究针对复杂网络节点群影响力的量化难题,提出了一种全新的量化节点集对整个网络影响的概念:子拉普拉斯矩阵。该矩阵包含了节点集内部节点之间的链接信息和每个节点与外界链接信息,其对应的行列式的值(即其所有特征值的乘积),被证明可以衡量节点集与网络其他部分的耦合强度,可作为节点集的集体影响力的定量描述。这一概念为复杂网络理论的发展提供了新的视角和方法,丰富了复杂网络中节点集影响力量化的研究内容。
这一方法有效规避了当前研究工作中的三方面弊端。一方面是现实中我们对网络的精确结构了解有限,而本方法仅需指定节点集内节点之间的边信息以及与网络其他部分相连的边数,降低了对网络完整信息的依赖,提高了方法的实用性和可操作性。另一方面,在调控或控制诸如疾病、谣言、灾难传播以及意见同步等动态过程时,简单的宏观指导对整个系统更为适用,本研究提供了从整体视角出发的研究思路,弥补了传统方法中仅识别一个或几个最重要节点集的局限性。此外,识别最重要节点集是一个NPC问题,计算成本会随着节点集和网络规模的增大而快速增加,而子拉普拉斯矩阵的规模显著小于接地拉普拉斯矩阵,大大降低了计算成本,使得在大规模网络分析中能够更高效地应用,有助于推动复杂网络理论在实际问题中的应用,如在社交网络分析、通信网络优化、生物网络研究等领域发挥重要作用,为解决这些领域中的实际问题提供有力的理论支持和技术手段。
2. 节点集合的重要性:理论方法
2.1. 子拉普拉斯矩阵的行列式
对于一个具有
个节点的无向图
,其中
是节点集合,
是边集合。其邻接矩阵
定义为:若节点
和节点
之间有边相连,则
;否则
,且
。节点
的度
等于与节点
相连的边的数量,即
。拉普拉斯矩阵
定义为度矩阵
与邻接矩阵
的差,即
,其中度矩阵
是一个对角矩阵,其对角元素
。我们从拉普拉斯矩阵中提取与指定节点集
相对应的行和列,其中
,得到一个规模与指定节点集中节点数量相同的矩阵
。若该集合中的一对节点之间存在一条边,则矩阵中对应的元素为−1;反之则为0。矩阵的对角元素分别等于整个网络中相应节点的度,即连接到指定集合内和集合外节点的边数之和,即
(1)
这个构建出的矩阵,也就是接地拉普拉斯矩阵的删除部分,我们将其称为“子拉普拉斯矩阵”(Sub-Laplacian matrix)。在后续的研究内容中,我们将详细介绍子拉普拉斯矩阵行列式的特殊求解方法,深入阐述其作为衡量所关注节点集影响力合适量度的理论依据。通过对一些实际网络进行计算分析,我们也进一步验证了该方法的有效性和可靠性。
通过提取拉普拉斯矩阵的行和列,我们得到了子拉普拉斯矩阵。不失一般性,我们设研究的节点集包括M个节点,索引编号为
。那么网络中其余部分即为
。我们注意到,子拉普拉斯矩阵中的非对角元素,包含了研究点集的局部信息,其形式与研究子网络对应的邻接矩阵类似,如果网络内的点有连接关系,则对应的元素
数值为−1,否则为0。而子拉普拉斯矩阵中的对角元素
的数值对应了原拉普拉斯矩阵中该节点的度,因此不仅包含了子图中的局部信息,还包含了该节点与研究子图外节点之间的连边信息,我们分别用
和
表示,即
。因此我们尝试将子拉普拉斯矩阵按照节点所包含的信息进行分解,即每个节点可以以局部信息和全局信息的和的形式被表达。我们发现子拉普拉斯矩阵可以被分解成以下形式:
。其中
是描述我们选定子集内的节点和边形成的网络结构的拉普拉斯矩阵。其中
,
。
是由
组成的对角矩阵
。其行列式的详细推导式如下:
(2)
首先,我们基于一个
的矩阵,其元素由
构成,进行求解。为推进推导,我们将矩阵的对角元素根据其对应节点包含的局部信息和全局信息进行拆分,即把每一个对角元素
拆分为
。随后,我们依据行列式的基本性质,将拆分后的矩阵按列展开,得到多个行列式的和的形式。注意到在推导的过程中,矩阵展开的过程中分解的元素都是矩阵的对角元素,因此每进行一步展开,其系数
的一定为1,因此在上式中未标出。在这个过程中,我们发现矩阵结构与元素组成呈现出一定的规律性和嵌套性。例如,先将第一列的和式按行列式的加法规则展开,得到两个行列式相加的形式,一个行列式中第一列元素为
,其余列与原矩阵对应列相同。另一个行列式中第一列元素为
,其余列与原矩阵对应列相同。对于包含
的行列式,又可继续根据行列式性质对后续列进行类似处理。以此类推,通过这样递归式的展开步骤,逐步得到了最终的表达式:
(3)
其中
是集合
的一个非空子集,
是
的补集,
是通过移除与集合
对应的行和列后得到的
的子矩阵。这里,如果
中包含
的所有元素,那么矩阵行列式
的值等于1。
为了说明行列式如何为我们提供所考虑的节点集的重要性,让我们考虑
和
这两种特殊情况。
情况下的表达式为:
(4)
将
代入,可得
,即它是两个节点的全局度数之积与它们局部度数之积的差。行列式的值越大,意味着子图与其他部分之间的边数越多(耦合强度越强)。对于
的情况,有:
(5)
其中
是指由与节点
和
对应的行和列在
中所构成的矩阵。展开式中的每一项都是
与矩阵
的行列式的乘积,即,由
的行列式表示的拓扑结构与指定节点集合之外的网络部分之间的耦合。为了理解这个结果,我们将由这些节点形成的子网络的结构,按照与外部节点的连接(主要层级,用
,
衡量)、与内部节点的连接(次要层级,用
衡量)以及与内部节点的连接细节(第三层级,用
衡量)进行划分。随后,该行列式由与内部结构无关的贡献(最后一项)、仅与内部度数相关的贡献(第四至第六项)以及与内部连接细节相关的贡献(第一至第三项)组成,分别对应这三个层级。
当
时,
的行列式可以用相同的方式展开,与我们推导子拉普拉斯矩阵行列式的过程类似,
对于
的情况下,
中的元素与结构呈现出一定的规律性和嵌套性,从而得出指定的
个节点集合与外部环境之间的耦合强度。
2.2. 不同规模下的节点集对网络的平均影响指标
应用上文的方法计算指定规模的节点集对整个网络的平均影响。一种直接的方法是列举所有可能的节点组合,并计算它们的行列式,从而得到最大行列式的值对应的节点集。但这是一项无法完成的计算任务。在此,我们针对这个问题提出一个完美的解决方案,即使用拉普拉斯矩阵
的特征多项式,其表达式为:
(6)
其中
是单位矩阵,
是第
项的系数。那么有:
(7)
其中
是由编号为
的行和列所构成的子矩阵。由于
中的各项(行列式)均大于或等于零(Perron-Frobenius定理),
的绝对值等于对所有排列的
子矩阵的行列式求和。用
表示
的谱,特征多项式函数为
,其展开项的系数给出了
与
的关系。平均影响力:
(8)
因被用作衡量k规模子网络平均对整个网络影响的定量指标。
3. 子拉普拉斯行列式下节点集重要性指标可行性分析
3.1. 网络模型参数和子拉普拉斯矩阵行列式之间的关系
在复杂网络分析中,网络生成模型的核心参数(如小世界网络的重连概率
、邻居数
,以及无标度网络的成长连边数
)直接影响网络的拓扑特征。本章探究这些参数与对应网络的子拉普拉斯矩阵行列式之间的关联。通过数值模拟,我们系统对比了不同参数组合下行列式的分布规律,分析了行列式的最大值、最大值对应的网络规模随参数变化的趋势,以揭示在不同网络规模下,参数调整之于子网络对整个网络的平均影响力所引发的变化。
WSSW网络中子网络的影响性行为如图1所示。网络规模设定为
。对于每一组特定的
,相对于曲线近乎对称的峰值点,都会出现一个单一的峰值(见(a~b)图)。在由对应峰值的窄区间分隔开的两个宽区间内,
的影响力缓慢增加(减少)。随着重连概率
的增加,峰值顶点会发生变化,但其位置保持不变,即从
开始,到
结束,宽度约为40 (图(a))。在图(b)中,
被设定为0.15并且平均度选择为
、4、6和
。我们发现随着
的增加,峰值顶点及其位置都显著增加。图(c~d)描绘了峰值和顶点与
的关系,表明峰值位置(图(c))与重连概率
的相关性较弱,而顶点(图(d))与重连概率
的相关性较强,并且两者都与平均度
有很强的相关性。
Figure 1. The influences of the sub-networks in WSSW networks. The size of network is
. (a) The relations of
versus the sub-network size k and the rewiring probability
for
; (b)
versus k and d for
; (c) The dependence of position of summit on d and
; (d) The dependence of summit on d and
图1. WSSW网络中子网络的影响力。网络规模为
。(a) 当
时,
与子网规模k、重连概率
的关系;(b) 当
时,
与k、d的关系;(c) d 对
的依赖关系(取平均值);(d)
对d的依赖关系
图2展示了BASF网络中子网络的影响性行为。对于每个特定的
,都会出现一个单一的峰值(图(a)),其顶点和位置都随着
的增加而显著增加(图(b)和(c))。与具有相同边数和节点总数的WSSW网络相比,对应峰值顶点的子网络规模要大得多。
3.2. 真实网络下不同节点集重要性指标的对比
在接地拉普拉斯矩阵的度量方法里,首先去除与目标节点集相对应的行和列,然后利用所得矩阵的最小非零特征值来量化该节点集的影响力。从某种程度上讲,这一方法与本文所提出的方法存在互补关系,前者揭示了节点集影响力的本质,后者则呈现了影响力作用后的实际结果。在本章节,为深入探究本文所提方法的可行性,我们对基于子拉普拉斯矩阵行列式的度量方法,与基于接地拉普拉斯矩阵的度量方法[9],对不同网络模型,如WSSW网络、BASF网络。以及不同的真实网络展开了全方位的对比分析。我们考虑了多个真实网络,包括科学家合著网络[10]、海豚网络[11]、野生鸟类网络[12]和人类接触网络[12]。有关原始记录及网络构建方法的详细信息可在相应参考文献中找到。本文涉及的网络属性(如节点总数和平均度)总结于表1。
Figure 2. The influences of the sub-networks in BASF networks. The size of network is
. (a) The relations of
versus the sub-network size k and the number of added nodes each step m. In the sub-panel, a logarithm-scale is adopted; (b) The dependence of summit position on m; (c) The dependence of summit on m
图2. BASF网络中子网络的影响力。网络规模为
。(a)
与子网络规模以及每一步添加节点数量m的关系。在子面板中,采用对数刻度;(b) m对
的依赖关系;(c) m对
大小的依赖关系
Table 1. Topological characteristics for the empirical networks
表1. 真实网络的拓扑特征
网络名称 |
规模 |
平均度 |
平均聚类系数 |
平均介数 |
海豚 |
63 |
5.13 |
0.26 |
71.89 |
科学家合著 |
379 |
4.82 |
0.74 |
952.91 |
野生鸟类 |
202 |
45.29 |
0.80 |
111.06 |
人类接触 |
410 |
14.49 |
0.46 |
538.01 |
Figure 3. The relation of the determinant of sub-Laplacian matrix versus the smallest non-zero eigenvalue of the grounded Laplacian matrix for WSSW network. The parameters are chosen to be
,
and
图3. WSSW网络中子拉普拉斯矩阵的行列式与接地拉普拉斯矩阵最小非零特征值之间的关系。参数设置为
、
和
我们以疾病传播为背景,减缓疾病传播的一个合理策略是识别拥有大量相邻节点的枢纽节点,并限制它们的活动。在此,我们关注以这些枢纽节点为中心的自我中心网络。在计算过程中,我们从拉普拉斯矩阵中提取对角元素(节点度),并按降序排列,取排名前50的节点作为考虑对象。对于每个特定的枢纽节点,我们随机选择其
个相邻节点,形成一个规模为k的子网络。如果枢纽节点的度小于
,则由该枢纽节点及其所有相邻节点构成的子网络将被纳入考虑。所构建的子网络的规模k我们分别设定为:1,2,3和4。这是由于复杂网络具有稀疏性和非均匀性,如果我们随机选择k个节点,那么生成的大多数子网络连接很少,也就是说,部分甚至所有节点之间都是相互孤立的。这种简单的抽样方法对于我们展示局部结构对整个网络的影响这一目的来说是无效的。需注意,当关注的节点集规模为1时,子拉普拉斯矩阵的行列式
就等于该节点的度。换言之,基于节点度的重要性衡量方法,是
时基于
衡量方法的一个特例。
Figure 4. The relation of the determinant of sub-Laplacian matrix versus the smallest non-zero eigenvalue of the grounded Laplacian matrix for BASF network. The parameters are chosen to be
and
图4. BASF网络中子拉普拉斯矩阵的行列式与接地拉普拉斯矩阵最小非零特征值之间的关系。参数设置为
和
Figure 5. The relation of the determinant of sub-Laplacian matrix versus the smallest non-zero eigenvalue of the grounded Laplacian matrix for the Dolphin network
图5. 海豚网络中子拉普拉斯矩阵的行列式与接地拉普拉斯矩阵最小非零特征值之间的关系
Figure 6. The relation of the determinant of sub-Laplacian matrix versus the smallest non-zero eigenvalue of the grounded Laplacian matrix for the wildbird network
图6. 野生鸟类网络中子拉普拉斯矩阵的行列式与接地拉普拉斯矩阵最小非零特征值之间的关系
Figure 7. The relation of the determinant of sub-Laplacian matrix versus the smallest non-zero eigenvalue of the grounded Laplacian matrix for the human contact network
图7. 人类接触网络中子拉普拉斯矩阵的行列式与接地拉普拉斯矩阵最小非零特征值之间的关系
Figure 8. The relation of the determinant of sub-Laplacian matrix versus the smallest non-zero eigenvalue of the grounded Laplacian matrix for the scientists’ co-authorship network
图8. 科学家合著网络中子拉普拉斯矩阵的行列式与接地拉普拉斯矩阵最小非零特征值之间的关系
Figure 9. Spearman’s correlation coefficient of the two indicators for the number of subgraph nodes from 1 to 15 for (a) WSSW network (
,
,
): BASF network (
,
) and (b) Dolphin network: wildbird network; scientists co-authorship network; human contact network
图9. (a) WSSW 网络(
,
,
)和BASF网络(
,
);(b) 海豚网络、野生鸟类网络、科学家合著网络、人类接触网络中从1到15个子图节点数量的两个指标间的斯皮尔曼相关系数
图3和图4分别呈现了WSSW网络
以及BASF
网络中,
与接地拉普拉斯矩阵最小非零特征值
之间的关系。我们发现,这两个度量之间存在明显的正相关。相比之下,BASF网络的数据在平均关系曲线附近的波动较小。
图5~8展示了海豚网络、野生鸟类网络、人类接触网络以及科学家合作网络中,
与
的关系曲线。其中,野生鸟类网络的数据,除了少数几个点之外,也表现出显著的正相关关系。
图9展示了
与
之间的斯皮尔曼相关系数。在
从1到15的广泛范围内,相关系数均大于或等于0.4 (以短虚线表示)。对于真实网络而言,当
时,相关系数大于0.4;然而,当
时,相关系数变得小于等于0.4,甚至为负。
这两个度量之间呈现出的强正相关特性表明,它们均能够有效地捕捉到局部结构对整个网络产生的影响。相反,弱正相关甚至负相关的情况,则体现出在影响力评估方面存在的差异。此外,通过对结果进行分析可以发现,在
与
的关系曲线中,较大幅度的波动往往出现在
取值较小且分布区间较为狭窄的情形下。所以,弱相关甚至负相关现象的出现,很可能是因为在区分影响力的细微差异时,分辨率不够高所导致的。
4. 研究结论
本文首先通过严谨的数学推导揭示了子拉普拉斯矩阵的谱特征与其行列式间的内在关联,建立了二者之间的定量关系模型。进一步地,结合复杂网络中节点集重要性评价的核心问题,创新性地提出了基于子拉普拉斯矩阵谱性质的评价指标体系,通过分析矩阵谱分布与节点集结构特性的映射关系,为网络关键节点识别提供了新的理论视角。这些研究不仅深化了对复杂网络代数结构的理解,更为实际工程中的网络优化与控制提供了重要的理论支撑。除此之外本章通过参数敏感性分析揭示了网络生成模型与子行列式的关联规律。研究发现,WSSW小世界网络的子行列式分布呈现对称单峰特征,其峰值稳定于网络规模1/4~3/4区间,顶点高度与平均度k呈强正相关,而受重连概率p影响较弱。相比之下,BASF无标度网络的子行列式峰值顶点随成长连边数m增加呈现非线性增长趋势,且相同规模下最优子网络规模显著大于WSSW网络。这些发现建立了参数调控与子网络影响力的量化关系,为网络鲁棒性设计提供了理论依据。最后,本章还开展了子拉普拉斯矩阵行列式度量方法与接地拉普拉斯矩阵最小非零特征值度量方法的对比分析。通过WSSW网络、BASF网络及海豚网络、科学家合著网络等真实网络验证发现,两种度量在多数场景下呈强正相关,均能有效捕捉局部结构对网络的影响;但在真实网络
等情形中,出现弱正相关甚至负相关,这主要因
取值小且分布区间窄时,度量方法在分辨影响力细微差异上分辨率不足,进而导致评估结果出现差异性。