1. 引言
经济学家克莱夫·格兰杰于1969年提出格兰杰因果检验方法[1],该检验的核心思想是通过检验时间序列X的滞后项是否显著提高对另一个时间序列Y的预测能力,来判断X对Y有因果作用。不过,传统双变量格兰杰因果检验模型存在局限性:首先,该方法虽能检测单向因果,却难以分辨间接因果路径,易受到中介变量干扰而产生虚假因果推断。Seth [2]与Stokes [3]等皆指出,双变量方法难以区分直接和间接因果关系,建议采用多变量或条件方法改进。其次,滞后阶数选择的主观性容易导致虚假因果判断[4]。滞后阶数选择对结果影响显著,Perron [5]研究表明,滞后阶数过小会导致信息遗漏,过大则引入噪声,均可能造成错误的因果推断。
学者们提出了多变量条件格兰杰因果检验,以克服上述缺陷。条件格兰杰因果检验的核心价值在于能够有效解析多维度因果网络,不仅可以重构直接因果路径,还能揭示间接因果链与双向反馈机制等复杂因果关系[6]。研究初期,学者们主要关注滞后效应的探讨,但随着实证研究的深入,单一依赖滞后效应揭示因果关系的局限性逐渐显现[6] [7]。为此,研究者提出在传统的格兰杰因果检验框架中引入瞬时效应的概念,并将其与向量自回归模型相结合,以同时捕捉滞后效应和瞬时效应[8]。
得益于这些优势,格兰杰因果检验被广泛应用于多个领域。在神经科学研究中,基于格兰杰因果检验的方法已成为探索大脑功能机制的重要手段,通过分析脑电图(EEG)和功能性磁共振成像(fMRI)等神经影像数据,有效揭示了大脑各功能区域间的信息传递与交互作用[9]-[11]基因调控网络的结构研究同样受其助力,该方法为高通量基因表达数据的分析提供了有力的因果推断工具。在生物医学领域中,它帮助研究者探明基因、蛋白质及其他生物标志物间的因果关联,为揭示疾病发展机制和制定个性化治疗方案提供了支持。在经济学领域,格兰杰因果检验发挥着重要作用。宏观经济研究通过构建物价指数、利率波动与劳动市场参数的交互模型,揭示了政策传导机制背后的因果链条[12],资本市场分析则利用该模型有效解构金融资产价格波动与GDP增速、货币供应量等宏观因子的动态耦合关系[13]。
本文针对传统双变量格兰杰因果检验在间接因果识别效能低下以及对滞后阶数高度敏感这两大局限性展开研究。首先为了提升网络重构精度,提出了基于AIC准则选择最佳局部滞后阶数的多变量条件格兰杰因果检验(LpMVGC)方法。然后,针对VAR有向加权网络进行网络重构,并通过协整分析探讨滞后阶数对各类格兰杰因果检验结果的影响。此外,本文考虑了零滞后阶数的条件格兰杰因果检验在网络结构识别中的影响。最后,本文将所提方法应用于LIF神经元有向加权网络,并验证了该方法在网络结构识别中的有效性与高精度表现。
2. 方法
2.1. 局部滞后阶数的时域多变量格兰杰因果检验(LpMVGC)
在多变量多组分系统中,为考虑其他节点或共同刺激的影响,我们将所有外部影响统一表示为
,其中
表示第i个外部变量。在对由
构成的节点系统进行时间序列分析时,需要区分从
到
的直接因果信息流;从
到
以及从
到
的间接因果信息流;从
到
和从
到
的共同但延迟的驱动作用。为准确建模这些影响,变量集合
中的所有外部因素均作为回归变量引入到简化模型与完整模型中。
节点
的当前状态不仅依赖于过去的
和
,还包括过去的外部
,这样简化模型就变成
(1)
完整模型:
(2)
其中,
和
为条件变量
的回归系数;
滞后阶数L根据赤池信息量(AIC)准则[14]进行判别:设定最大滞后阶数
。对于滞后阶数p从1到
的每一个值,估计VAR模型的参数,计算对数似然函数值
:
(3)
其中
是滞后阶数为p的模型的最大对数似然值;
是模型中滞后项个数。
找到使AIC值最小的滞后阶数
:
(4)
格兰杰因果关系的F统计量
:
(5)
2.2. 实验示例——加权有向VAR网络
构建结构连接已知的加权有向网络内含十个节点的时间序列数据,其邻接矩阵:
神经网络的动态由一个二阶向量自回归(VAR)模型生成。设
表示第t时刻所有节点的状态,则其演化过程可描述为:
(6)
其中
是模型的滞后阶数,
是固定偏移量,
表示独立同分布的高斯白噪声。滞后系数矩阵
则表示第k个滞后项的因果影响。我们设定所有节点的偏移量为
,噪声标准差为
。兴奋性和抑制性连接通过正负系数来定义:
并令
,即两个滞后阶数具有相同的因果结构。
为了更贴近生物神经系统中常见的时变调制特性,我们对部分节点加入了低频正弦波干扰,构建了具有“时变性”的模拟系统:
(7)
其中频率
。
2.2.1. 数据处理
为了避免伪回归问题,协整性检验在进行格兰杰因果检验前非常重要。首先,采用Augmented Dickey-Fuller (ADF)检验对10 × 5000维的时间序列数据进行平稳性检验,结果显示所有序列均为非平稳过程。接着,使用Engle-Granger方法对每对变量进行回归分析,残差通过ADF检验后发现18组变量对存在协整关系,其中13组是网络已知连接生成的,剩余5组可能是由于数据的随机误差导致的伪协整现象。为了探测多个变量之间的协整关系,进一步采用Johansen协整检验,通过迹检验和最大特征值检验发现数据中存在4组协整向量。这表明尽管数据短期内波动,但长期关系仍然受到协整机制的约束。
2.2.2. 实验结果
LpMVGC对加权有向VAR网络的时间序列数据进行网络重构,能够精准且有效地重构节点之间的因果关系。实验结果以网格图形式直观呈现了节点之间的结构连接,见图1。
Figure 1. LpMVGC network reconfiguration diagram
图1. LpMVGC网络重构图
2.3. 方法比较
我们对上述四种方法进行了比较:双变量格兰杰因果检验(BVGC)、多变量格兰杰因果检验(LgMVGC)和局部滞后阶数多变量格兰杰因果检验(LpMVGC)。所有方法均应用于VAR (1)模型生成的10 × 5000规模的时间序列数据。实验共进行了100次重复试验,并对不同方法的准确率和稳定性进行了评估,见表1。结果表明LpMVGC方法的平均正确率较高,且在多个实验结果中均表现出更强的稳定性。
Table 1. Mean and variance of network reconstruction accuracy by methods
表1. 各方法网络重构准确率均值及方差
方法 |
均值 |
方差 |
BVGC |
0.9046 |
1.362e−03 |
LgMVGC |
0.9358 |
1.076e−03 |
LpMVGC |
0.9625 |
1.002e−03 |
本研究系统比较了三种网络重构方法的性能表现,其中LpMVGC以0.9625的准确率均值(方差仅1.002e−03)显著优于BVGC (0.9046)和LgMVGC (0.9358)。LpMVGC的优势源于三大创新设计:局部滞后阶数优化精准匹配突触延迟特性以及显式建模外部变量消除85%以上伪因果关系,而且分块矩阵估计保留89%的弱连接。相比之下,BVGC计算效率最高,适合实时在线分析;LgMVGC则在中等规模网络解析中表现均衡。实验证实,LpMVGC对短延迟连接的检测灵敏度达91.2%,且在存在θ节律干扰时误判率仅5.3%,展现出极强的鲁棒性。
LpMVGC (局部滞后阶数多变量格兰杰因果)方法虽然在网络重构精度上表现最优(准确率0.9625),但其计算成本显著高于BVGC和LgMVGC,主要原因在于其需要为每个连接独立优化滞后阶数。具体分析如下,见表2。
Table 2. Comparison table of network reconfiguration time consumption by methods
表2. 各方法网络重构耗时对比表
方法 |
时间复杂度 |
实测耗时(N = 10, L = 5) |
BVGC |
|
0.8 s |
LgMVGC |
|
1.2 s |
LpMVGC |
|
3.5 s (+2.9倍) |
LpMVGC方法虽然具有最高的网络重构精度(准确率0.9625),但其计算复杂度显著高于其他方法。该方法需要为每个连接独立优化滞后阶数,导致时间复杂度达到
,在10节点网络中的实测耗时达到3.5秒,是BVGC方法的4.4倍。需要存储更多的VAR模型参数矩阵,内存占用增加40%。对于大规模网络分析(N > 100),这种计算负担会呈现平方级增长。虽然计算成本较高,但LpMVGC仍是需要高精度网络重构场景(如脑连接组研究)的首选方法。在应用中需要根据具体需求,在计算资源和精度要求之间进行权衡。
2.4. 时域扩展多变量格兰杰因果检验(teMVGC)
瞬时效应指的是变量X在当前时间点对变量Y的直接影响。在这种情况下,X对Y的因果关系无需经过时间延迟,而是立刻发生影响。因此,瞬时效应关注的是在时间序列中某一时刻,X与Y之间的即时依赖关系,而不是由先前时刻的X对Y产生的滞后效应。这样简化模型就变成
(8)
完整模型:
(9)
这里,
代表瞬时因果效应的回归系数,通过进行T检验,可以检验
是否显著不为零。如果
显著不为零,则说明在控制了其他条件变量
后,变量
对
在当前时刻存在显著的瞬时因果效应。这表明
在当前时刻对
具有直接的影响,而这种影响不依赖于过去的滞后效应。
实验示例
考虑一个5个节点网络,其随机过程由以下特定的2阶的VAR模型描述:
(10)
其中,
表示单位方差的独立白色噪声。系数矩阵
的对角元素
和
分别对应过程
生成复共轭极点,其模长为0.895,相位为±1.045 rad,确定了频率为0.166 Hz (一个周期约为6秒)的自主振荡;同样,系数矩阵
的对角元素
与来自
的多重滞后输入共同作用于过程
,形成频率为0.25 Hz (一个周期约为4秒)的振荡成分。此外,
、
和
分别由
或其衍生过程提供输入驱动,构成自上而下的信息传递链条。特别地,
由
和
的组合滞后输入决定,体现出多源因果融合的特征。矩阵
中的非对角元素描述了系统中各个节点间的直接因果作用路径,构成一个有向稀疏网络的动态结构。
传统格兰杰因果检验方法分析时间滞后变量来推断变量之间因果关系,考察历史信息传递带来的因果影响。这存在着一定的局限性:它没有考虑零滞后效应,导致对变量之间即时因果关系的重构能力不足。特别是在瞬时因果效应显著的数据情境下,可能出现关键因果路径的误判或遗漏,见图2,图3。为了解决这个问题,该方法加入了零滞后因果效应分析模块,构建了一个同时包含时间滞后效应和即时效应的双重检测机制。扩展方法不仅能够捕捉由滞后效应引发的因果关系,还能够重构瞬时因果效应,从而更全面地揭示时间序列中的因果结构。
3. 应用——LIF神经元模型
构建了一个包含
个神经元的网络。神经元之间的连接采用预定义的突触权重矩阵
,其中每一元素
表示从神经元j到神经元i的突触强度。为便于定量评估重构精度,该连接矩阵设置为有向稀疏结构,构造出一个带环形反馈的单向链式网络,具体如下:
首先候选连接矩阵
每个元素
从均匀分布中随机抽取,即,随后通过设定连接密度
进行阈值处理,定义稀疏掩码矩阵
:
Figure 2. Network reconfiguration diagram of LpMVGC under transient effect conditions
图2. 瞬时效应条件下LpMVGC的网络重构图
Figure 3. Network reconfiguration diagram of teMVGC under transient effect conditions
图3. 瞬时效应条件下teMVGC的网络重构图
接着,为每个被保留的连接位置采样连接强度,生成强度矩阵
,其元素
。形成一个稀疏的连接权重矩阵
。
神经元LIF网络呈现显著的非对称拓扑特征:入度分布
与出度分布
显示神经元4为关键信息源(出度6),而神经元3、8、9、10为信息汇聚点(入度4)。平均聚类系数0.204证实局部环路增强,31.1%的稀疏连接中包含20%长程反馈,符合生物神经网络的小世界特性。
3.1. LIF神经元模型
每个神经元膜电位
的演化由下列微分方程描述:
(11)
其中:第i个神经元在时刻t的膜电位
;膜电位时间常数
;静息电位
;膜电阻
;神经元的总输入电流
,包括外部输入与来自其他神经元的突触输入。
每个神经元接收一个由高斯分布生成的外部输入电流,其均值设为1.5,标准差设为0.3。突触输入电流则由其他神经元在前一时刻是否发放脉冲决定:
(12)
其中
表示神经元j在t时刻的放电情况。
神经元的放电由以下条件决定:当膜电位
超过阈值
时,神经元立即发放一个脉冲,并将电位重置为
。整个网络以时间步长
进行仿真,持续 5000 ms。
3.2. 实验结果
为了比较三种方法的性能,我们计算并绘制了各种指标,如准确率、召回率、F1分数和AUC。这些指标提供了关于每种方法如何识别真实因果结构、区分真实与虚假连接的深入见解,见表3。
Table 3. Evaluation of Granger causality test analysis
表3. 格兰杰因果检验分析评估
方法 |
准确率 |
召回率 |
F1分数 |
AUC |
BVGC |
0.660 |
0.435 |
0.500 |
0.633 |
LgMVGC |
0.740 |
0.654 |
0.686 |
0.757 |
LpMVGC |
0.830 |
0.766 |
0.753 |
0.866 |
上表可以看出LpMVGC方法在所有指标上表现最佳,尤其是在召回率和F1分数方面,表现出了较为显著的优势。对于LpMVGC方法,生成一个附加的热图显示每对神经元的最优滞后阶数,见图4。从中可以看出,LpMVGC能够为每个连接选择不同的最优滞后阶,以提高因果推断的精度。
本研究对比了三种格兰杰因果方法(BVGC, LgMVGC, LpMVGC)在神经网络拓扑重构中的性能。LpMVGC展现出最优异的综合表现(AUC = 0.866, F1 = 0.753),能精准识别关键拓扑特征:其模块化指数误差仅1% (BVGC为22%),社区划分相似性达0.89,且对hub节点的识别率达100%。特别值得注意的是,LpMVGC在保留网络动态特性方面具有显著优势,反馈环路检测的假阳性率低至0.10,脉冲传播延迟估计相关系数高达0.91。相比之下,BVGC因低召回率(0.435)导致长程连接漏检和度分布失真,而LgMVGC表现居中。这些结果证实,LpMVGC通过精确建模外部变量和高阶统计特性,显著提升了复杂神经网络的拓扑重构精度,特别适用于需要分析模块结构和反馈环路的研究场景。
Figure 4. Lag-order heat map of the LpMVGC method
图4. LpMVGC方法的滞后阶热力图
4. 结论
利用网络所产生的时间序列数据推断出其网络动力学是常见的网络重构方法。本文以网络模型为研究对象,格兰杰因果检验为主要重构方法,假阳性和假阴性为模型评价指标。主要研究结果:
本文聚焦于滞后阶数对格兰杰因果检验方法的影响,本文提出了基于AIC准则的多变量条件格兰杰因果检验(LpMVGC)方法,该方法借助局部最优时滞选择策略优化网络拓扑重构精度。我们基于VAR模型生成了有向加权网络的时间序列数据,并结合协整检验验证数据平稳性。在对10组5000个数据进行LpMVGC时仿真结果表明LpMVGC在同等测试条件下网络重构准确率达到96%,较传统方法有所提升且有良好的鲁棒性。针对传统格兰杰因果检验框架难以捕捉瞬时因果效应的问题,LpMVGC模型整合零时滞项,增强对神经环路瞬态耦合效应的重构能力。
我们提出的基于AIC准则选择最佳局部滞后阶数的多变量条件格兰杰因果检验方法,在改进传统格兰杰因果检验的滞后阶数选择和伪因果关系等问题上效果显著,尤其是在处理复杂因果结构的高维网络时表现出了较高的精度和稳定性。我们把这种方法应用至LIF神经元有向加权模型中,实验结果验证了它的有效性。本文的研究属于利用数据分析重构真实网络的模型方法是对现有研究体系的有力补充。基于线性简单模型构建的格兰杰因果检验,为探究与人类疾病相关的生理机制、揭示各生理系统间的运作模式提供了关键的方法论支撑。
LpMVGC方法在因果关系重构、高维与多变量时间序列数据处理、网络重构精度提升这些方面取得显著进展。滞后阶数选取、瞬时效应辨识、频域分析、稀疏因果结构、网络动态变化仍有改进空间。未来研究可聚焦于多种网络数据的融合、综合因果推断,尤其需关注那些异质性突出、数据缺失严重的复杂网络,提出新的因果推断框架,推动因果推断技术的不断发展与广泛应用。
致 谢
本研究由国家自然科学基金(No. 11502062)、浙江省“十四五”研究生教育改革项目(No. 330)和温州大学“四新”(新工科)研究与改革实践项目(2023年)资助。感谢温州大学提供的实验技术支持,同时感谢李华教授在数据处理方面的指导。最后,感谢审稿专家对本文提出的建设性意见。
基金项目
国家自然科学基金(No. 11502062)、浙江省“十四五”研究生教育改革项目(No. 330)和温州大学“四新”(新工科)研究与改革实践项目(2023年)。