1. 引言
偏微分方程是描述自然界和工程领域中各种物理现象的基本数学工具,广泛应用于流体力学、固体力学、电磁学、热传导、量子物理等诸多学科。对于复杂的偏微分方程,通常难以求得其解析解,因此往往需要借助数值方法来获取近似解。传统的数值方法如有限差分法(FDM)、有限元法(FEM)和有限体积法(FVM)虽然经过数十年的发展已趋于成熟,但在处理复杂几何区域、高维问题和多尺度现象时仍面临算法复杂、计算量大、维数灾难等挑战。
无网格方法的出现为上述问题提供了新的解决思路。其中,径向基函数(RBF)方法凭借其数学形式简洁、实现方便、对空间维数不敏感等优点,成为无网格方法中最具代表性的分支之一[1] [2]。RBF方法的核心思想是利用径向对称的基函数对未知解进行插值或逼近,通过满足偏微分方程和边界条件建立代数方程组求解。根据基函数的支撑范围,RBF可分为全局支撑(如多二次曲面、高斯函数)和紧支撑(如Wendland函数、Wu函数)两大类。
全局支撑RBF方法虽然在光滑问题上能够达到谱精度,但由于每个基函数对全域都有贡献,导致插值矩阵为稠密矩阵,计算复杂度高达
,严重制约了其在大规模问题中的应用。相比之下,紧支撑径向基函数(CS-RBFs)通过将基函数的影响限制在有限半径内,使得插值矩阵具有稀疏性,大幅降低了计算和存储开销。Wendland于1995年首次系统性地构造了一类具有任意光滑阶的正定紧支撑RBF,奠定了CS-RBF研究的理论基础[3]。
然而,CS-RBF方法在实际应用中面临一个关键性难题:支撑半径的选取。支撑半径过小会导致插值矩阵条件数过大甚至奇异,数值解不稳定;支撑半径过大则会削弱稀疏性优势,增加计算成本[1]。最优支撑半径往往与问题的具体特征(解的光滑性、节点分布、边界条件等)密切相关,传统的参数选择方法如交叉验证、条件数优化等计算开销大且缺乏普适性[2]。这一问题长期以来制约着CS-RBF方法的工程应用。
近年来,深度学习技术的蓬勃发展为科学计算带来了新的机遇。Raissi等人于2019年提出的物理信息神经网络(PINNs)开创性地将深度神经网络与物理方程约束相结合[4],通过最小化方程残差和边界条件误差来训练网络参数,实现了无需标注数据的偏微分方程求解。PINN避免了传统数值方法中的网格生成和矩阵组装过程,展现出处理高维问题和复杂几何的潜力。为便于研究应用,一些深度学习库如DeepXDE已被开发,用于支持PINNs求解各种微分方程,包括正问题和逆问题,并处理复杂几何域和多种PDE类型[5]。
然而,标准PINN通常采用多层感知机(MLP)作为函数逼近器,存在明显的谱偏置问题——网络倾向于先学习低频成分,对高频特征的捕捉能力较弱。这导致PINN在求解具有尖锐梯度、激波、边界层等局部特征的问题时表现欠佳[6]。为克服这一缺陷,研究者们提出了多种改进策略,包括傅里叶特征嵌入、自适应激活函数、多尺度网络架构等[7] [8]。借助RBF函数(如高斯函数)天然具备的局部化,将RBF融入PINN架构[9],增强网络对解函数高频分量与局部细节的捕捉能力,在求解具有奇异性或多尺度特性的物理问题时展现出独特潜力。
基于上述背景,本文提出一种基于紧支撑径向基函数的物理信息神经网络方法(CSPINN)。CSPINN以Wendland紧支撑函数为基础,将支撑半径
和中心点位置
作为可学习参数,与权重系数
一起通过反向传播进行优化。这种设计使得网络能够在训练过程中自适应地调整各基函数的影响范围,无需预先确定最优支撑半径。为进一步增强方法的鲁棒性,本文采用均匀初始化策略,将初始支撑半径设为计算域尺度范围内的均匀分布随机值,为网络提供多样化的初始感受野配置。
2. 物理信息神经网络
物理信息神经网络是一种将物理定律(如偏微分方程)直接嵌入神经网络训练过程的框架。它通过最小化损失函数来求解PDE的近似解,同时整合观测数据和物理约束。核心在于将物理知识转化为可优化的约束,从而在数据稀缺时提升模型的泛化能力。
PINN使用一个全连接的前馈神经网络作为解的逼近器:
(1)
其中:
是网络参数,包括权重
和偏置
,网络结构通常为多层感知机(MLP),激活函数如tanh或ReLU,以确保光滑性和非线性表达能力。输入是时空坐标
,输出是近似解
。通过自动微分,可以计算
的任意阶导数,由深度学习框架(如PyTorch或TensorFlow)支持的链式法则实现。
PINN的核心是构建一个复合损失函数,将物理残差和数据匹配相结合。总损失函数通常为:
(2)
包含残差损失
,边界条件损失
,初始条件损失
和数据损失
,这允许在数据稀缺时强调物理约束(纯物理驱动),或在数据丰富时结合两者(数据-物理混合),训练PINN相当于求解一个非凸优化问题:
(3)
使用梯度下降算法,如Adam优化器。梯度通过自动微分计算:
(4)
每个迭代中前向传播计算
和残差。反向传播更新
,收敛后,
即为PDE的近似解。
PINN的优势在于其无网格特性,适用于高维问题,整合不确定性并且高效处理非线性PDE。但损失函数可能不平衡,导致谱偏差,即高频模式收敛慢。
3. 基于紧支撑径向基函数的物理信息神经网络
3.1. 紧支撑径向基函数
径向基函数是一类仅依赖于自变量到某固定点(中心点)距离的函数。设中心点为
,支撑半径为
,则径向基函数可表示为
,其中
为欧氏范数。紧支撑径向基函数的特点是在支撑域外取值为零,即当
时,
。
Wendland于1995年通过对截断幂函数进行积分运算,系统地构造了一类具有最小多项式阶数且保证正定性的紧支撑RBF。Wendland函数族记为
,其中
为空间维数,
为光滑性参数。函数的一般构造形式为:
(5)
其中
为积分算子,基础函数
,
,
表示截断函数,即
。通过
次积分运算,可得到
连续的Wendland函数。
本文采用C⁴连续Wendland函数(
),定义为:
(6)
该函数在
处达到最大值
,在
处光滑地衰减到零,并且在
时恒等于零,
连续性保证了函数的导数连续。
图1展示了三种典型径向基函数的二维可视化及其在y = 0处的横截面。这其中包括紧支撑函数和全局支撑函数的比较。每个子图的颜色映射表示函数值的大小,x和y轴为空间坐标。
(a) Wendland函数(紧支撑型):该函数具有紧凑支持,即仅在有限半径内非零(图中圆形虚线区域),超出该范围函数值为零。这有助于提高计算效率并避免远距离影响。
(b) Gaussian函数(全局支撑型):该函数在整个空间域内非零,但值随距离增加而指数衰减,呈现出平滑的钟形分布,适用于需要全局光滑性的应用。
(c) Inverse Multiquadric函数(全局支撑型):类似于Gaussian,但衰减较慢,函数值在中心较高并向外渐减,常用于处理噪声数据以获得更稳定的插值结果。
(d) 在y = 0处的横截面:该子图比较了三种函数沿x轴的剖面曲线,此比较突显了不同函数的支承范围和衰减特性对数值模拟的影响。
Figure 1. Comparison of RBF Functions
图1. RBF函数对比
Wendland函数具有多种关键性质,首先是正定性,由Wendland函数构造的插值矩阵是正定的,保证了插值问题的唯一可解性;其次为紧支撑性,基函数仅在有限区域内非零,导致插值矩阵稀疏,计算效率高;同时基函数光滑性可控,可通过参数
可以获得任意阶的光滑性;除此之外,多项式阶数最小,在保证正定性的前提下,Wendland函数的多项式阶数是最小的,这有利于减少计算量。
3.2. 网络架构
CSPINN采用基于紧支撑径向基函数的单层网络结构对偏微分方程的解进行逼近。设网络包含K个基函数单元,第
个单元的中心点位置为
,支撑半径为
,权重系数为
。对于输入坐标
,网络输出定义为:
(7)
其中
为全体可学习参数,基函数
定义为Wendland函数:
(8)
在该表示形式下,每个基函数的影响范围由其支撑半径
控制:当
时,
。这种局部化特性意味着对于给定的点
,只有支撑域覆盖该点的基函数对输出有贡献,从而实现了计算的稀疏性。
值得注意的是,CSPINN的逼近形式与传统RBF配点法在形式上相似,但有本质区别:传统方法通过求解线性方程组确定权重系数,中心点和支撑半径通常预先固定;而CSPINN将所有参数统一纳入梯度下降优化框架,通过损失函数驱动实现学习。
图2展示了CSPINN的整体网络架构。网络由三个主要部分组成:输入层、紧支撑径向基函数层和输出层。在图1左侧,计算域
内分布着基函数中心点
(以十字标记表示),每个中心点对应一个支撑域
(以虚线圆表示)。配点用于计算方程残差和边界条件误差。值得注意的是,不同中心点的支撑半径各不相同,这体现了均匀初始化策略的核心思想。
网络的前向传播过程如下:输入坐标
首先进入CSRBF层,该层包含
个紧支撑Wendland基函数
,每个基函数根据输入点与其中心点的距离计算激活值,当距离超过支撑半径时激活值为零。随后,各基函数的输出经过可学习权重的线性组合,得到网络预测值。
在损失计算阶段,利用自动微分技术计算预测值对输入变量的各阶偏导数,进而构建方程残差损失
和边界条件损失
。对于一般形式的偏微分方程边值问题:
(9)
(10)
(11)
其中
为计算域,
为边界,
为微分算子,
为边界条件算子,
为待求解的未知函数,
,
和
为已知函数。
用
逼近真解
,其中
表示网络参数。网络参数通过最小化以下复合损失函数来确定:网络参数通过最小化以下复合损失函数来确定:
(12)
其中残差损失
,边界条件损失
,初始条件损失
分别定义为:
(13)
(14)
(15)
这里
、
和
分别为域内配点,边界配点和初始条件配点,
、
和
为相应的配点数目,
、
和
为平衡系数。微分算子
通过自动微分技术计算。CSPINN的全体可学习参数包括权重系数、中心点位置和支撑半径三类,其中支撑半径采用均匀初始化策略,为网络提供多尺度的初始感受野配置。
Figure 2. The CSPINN architecture
图2. CSPINN网络结构
3.3. 参数初始化策略
神经网络的训练效果在很大程度上受初始化策略的影响。对于CSPINN的三类参数,本文采用以下初始化方案:
(1) 中心点位置初始化
中心点位置
初始化为计算域
内的均匀分布随机点,这种初始化保证了基函数在计算域内的均匀覆盖。
(2) 权重系数初始化
权重系数
采用Xavier均匀初始化。
(3) 支撑半径初始化——均匀初始化策略
支撑半径的初始化是CSPINN方法的关键创新点。传统CS-RBF方法通常需要针对具体问题精心选择支撑半径,这一过程耗时且缺乏普适性。本文提出均匀初始化策略,将各中心点的支撑半径初始化为计算域特征尺度范围内的均匀分布随机值:
(16)
这里
为计算域的特征尺度(如边长或对角线长度)。均匀初始化策略的核心思想是为网络提供多样化的初始感受野配置,使得不同基函数具有不同的初始影响范围,覆盖从局部到全局的多种尺度。这种多样性为后续的梯度优化提供了更丰富的探索空间。
均匀初始化策略具有多种优势,包括无需预先确定最优支撑半径,简化了方法的应用流程;多样化的初始配置,增强了网络对不同尺度特征的适应能力;通过训练可以自适应地调整到适合具体问题的支撑半径分布。
4. 数值结果
本节通过两个典型偏微分方程算例,对本文所构建的网络模型进行验证和评估。为了进一步检验其性能,将CSPINN方法与传统CSBRF数值方法、PINN进行了对比分析。所有实验均采用PyTorch 2.0深度学习框架实现[10]。为保证实验的可重复性,网络采用Adam优化器[11],所有随机种子均设置为42,主要实验参数设置如表1:
Table 1. Experimental parameter settings
表1. 实验参数设置
参数 |
扩散方程 |
泊松方程 |
Burgers方程 |
基函数数目 |
500 |
1000 |
1000 |
域内配点数 |
500 |
1000 |
1000 |
边界配点数 |
100 |
200 |
200 |
训练轮数 |
30000 |
30000 |
30000 |
学习率 |
0.001 |
0.001 |
0.001 |
初始支撑半径 |
U (0.1L, 1.0L) |
U (0.1L, 1.0L) |
U (0.1L, 1.0L) |
数值精度采用相对L2误差进行评估:
(17)
4.1. 扩散方程
本节考虑具有源项的一维扩散方程。该类方程广泛应用于热传导、物质扩散及金融工程等领域,是检验数值方法有效性的经典基准问题。
考虑如下扩散方程:
(18)
初始条件定义为:
(19)
以及Dirichlet边界条件:
(20)
该问题的解析解为:
(21)
传统CSRBF方法的精度对支撑半径的选择比较敏感。表2给出了支撑半径从0.5到2.5变化时的相对L2误差,可以看出,最优支撑半径与最差情况之间的误差相差近两个数量级。从PINN和CSPINN的结果可以看出,通过利用深度学习的自学习能力,本文实现了支撑半径的网络自适应优化。同时,所采用的紧支撑径向基函数增强了模型的非线性表达能力,相较于PINN中基于线性插值与激活函数的表达方式表现更优。
Table 2. The relative L2 error of different methods for solving the Diffusion equation
表2. 不同方法求解扩散方程的相对L2误差
CSRBF |
不同支撑半径 |
0.5 |
1.0 |
1.5 |
2 |
2.5 |
4.27e−02 |
6.79e−04 |
4.82e−04 |
9.61e−04 |
1.08e−03 |
PINN |
5.86e−04 |
CSPINN |
6.26e−05 |
图3绘制了PINN和CSPINN预测结果随着时间的变化。这两个网络的结果都得到相对较高的精度。与PINN相比,本文提出的模型实现了约一个量级的精度提升,表明CSPINN具有更精确地表达函数的能力。此外,模型在时间步进过程中展现了优异的数值稳定性,预测精度未发生明显退化,在此方面优于求解同类瞬态问题的传统有限差分格式。
Figure 3. The distribution of the average absolute error of the PINN and CSPINN networks along the time axis
图3. PINN和CSPINN网络的平均绝对误差沿时间轴分布
为直观展示所提方法的自适应特性,图4给出了训练过程中基函数分布的演化情况。初始时刻(图4(a)),500个紧支撑径向基函数中心的均匀网格分布于整个时空计算域,支撑半径
随机均匀初始化。
经过训练后(图4(b)),可以观察到两个显著的自适应调整现象:
(1) 中心位置的自适应迁移:基函数中心从初始的均匀分布演化为向高误差区域聚集的非均匀分布。从图中可以看出,中心点在边界附近以及大时间区域呈现明显的聚集趋势,这些区域正是扩散方程解变化剧烈、数值求解难度较大的位置。
(2) 支撑半径的自适应收缩:训练后基函数的支撑半径整体呈现缩小趋势,平均缩减约20%。更重要的是,半径的缩小与局部误差呈正相关——在高误差区域,散点颜色明显偏紫(对应较小的
值),表明模型自动在这些区域采用了更精细的局部逼近;而在低误差区域,基函数保持较大的支撑半径以提高计算效率。
(a) 初始状态
(b) 最终状态
Figure 4. Initial and trained distribution of RBF centers with adaptive support radii
图4. RBF中心点与自适应支撑半径的初始和训练后分布
4.2. 泊松方程
本节考虑一个二维Poisson方程,该方程常用于描述静电势、热分布和流体力学中的压力场等物理现象,是检验数值方法在捕捉多频率成分方面的经典测试问题。该算例的源项包含低频和高频分量,旨在评估CSPINN对解函数中高频特征的捕捉能力。
考虑如下Poisson方程:
(22)
其中源项定义为:
(23)
Dirichlet边界条件:
(24)
该问题的解析解为:
(25)
该解函数结合了低频
和高频
分量,能够有效检验网络对谱偏置的鲁棒性。
表3展示了不同方法在求解该Poisson方程时的相对L2误差。对于传统CSRBF方法,支撑半径的选择显著影响精度,最优值在0.9附近,但整体误差较高。PINN方法受谱偏置影响误差较大。CSPINN通过自适应支撑半径和局部化基函数,实现了最低误差,证明了其在捕捉多尺度特征方面的优势。
Table 3. The relative L2 error of different methods for solving the Poisson equation
表3. 不同方法求解泊松方程的相对L2误差
CSRBF |
不同支撑半径 |
0.3 |
0.6 |
0.9 |
1.2 |
1.5 |
1.11e−02 |
6.52e−03 |
3.51e−03 |
8.89e−03 |
2.40e−03 |
PINN |
3.12e−02 |
CSPINN |
6.27e−04 |
为直观展示所提方法的自适应特性,图5给出了求解Poisson方程过程中基函数参数的演化情况。如图5(a)所示,训练初始阶段,1000个基函数中心均匀分布于计算域内,支撑半径随机初始化。经过训练后(图5(b)),可以观察到两个显著的自适应行为:其一,基函数中心点沿误差梯度方向迁移,在高频分量主导的区域形成明显聚集,表明模型能够自主识别解变化剧烈的区域并增强局部逼近能力;其二,支撑半径在高梯度高误差区域显著收缩,而在解相对平缓的区域保持较大值。这种协同机制使得本方法能够以有限的基函数数量有效捕捉多尺度特征,验证了自适应策略的有效性。
(a) 初始状态
(b) 最终状态
Figure 5. Initial and trained distribution of RBF centers with adaptive support radii
图5. RBF中心点与自适应支撑半径的初始和训练后分布
4.3. Burgers方程
接下来,考虑一个瞬态的二维Burgers方程及边界条件和初始条件:
(26)
(27)
(28)
该方程具有解析解:
(29)
Table 4. The relative L2 error of different methods for solving the Burgers equation
表4. 不同方法求解Burgers方程的相对L2误差
CSRBF |
不同支撑半径 |
1.0 |
1.5 |
2 |
2.5 |
3 |
2.18e−01 |
2.53e−01 |
2.45e−02 |
2.01e−01 |
1.67e−01 |
PINN |
4.93e−03 |
CSPINN |
1.62e−03 |
表4展示了不同方法的数值结果误差。在传统CSRBF方法中,支撑半径从1.0变化到3.0,解的精度波动较为显著,且整体精度不高。相较之下,CSPINN模型借助非线性插值函数和支撑半径的自适应优化机制,不仅显著降低了计算误差,而且有效克服了对经验支撑半径的依赖。
图6分别显示在
时刻的解析解、PINN的预测解和CSPINN预测解的绝对误差。从图中可以看出,PINN整体误差较大,CSPINN预测误差整体小于PINN预测结果,精度优于PINN。
(a) 解析解
(b) PINN
(c) CSPINN
Figure 6. The analytical solution of the equation and the absolute error distribution of the PINN and CSPINN networks
图6. 方程解析解以及PINN和CSPINN网络的绝对误差分布
5. 结论
本文提出了一种基于紧支撑径向基函数的物理信息神经网络方法CSPINN,用于求解偏微分方程。该方法以C4连续的Wendland函数为基础构建局部化基函数表示,并将支撑半径和中心点位置设置为可学习参数,结合均匀初始化策略进行训练。CSPINN具有以下优点:(1) CSPINN相比标准PINN在计算精度上具有优势;(2) 均匀初始化策略无需参数调试;(3) 支撑半径的自适应学习机制能够有效优化网络结构。
未来的研究工作将从以下几个方向展开:(1) 探索更高效的初始化策略和训练技巧,进一步提升方法的收敛速度和稳定性;(2) 研究支撑半径分布与问题特征之间的内在联系,为参数选择提供理论指导;(3) 将CSPINN推广到时空耦合问题、高维问题和多物理场耦合问题;(4) 结合域分解策略实现大规模问题的并行求解。
基金项目
本研究受2025年度山西省高等学校科技创新计划项目(项目名称:基于超声造影–细胞角蛋白的精确诊断胆囊息肉样病变的人工智能模型构建研究;项目编号:2025L041)资助。