1. 引言
长期以来,有限差分法、有限元法、谱方法等传统数值方法在解决这类偏微分方程(PDE)问题方面发挥了重要作用。然而,这些方法在高维参数空间中,常常面临计算效率低、网格依赖强、对复杂边界适应性差等问题。DeepONet (Deep Operator Network)作为一种新兴的深度算子学习框架,为求解复杂参数化偏微分方程提供了新的思路。相比传统方法,DeepONet可以绕过繁琐的空间离散过程,直接从样本数据中学习输入函数与解之间的映射关系,具有建模灵活、泛化能力强、计算速度快等优势。正因如此,将DeepONet引入含参热传导方程的求解过程,有望突破传统方法在高维问题中面临的瓶颈,对相关工程技术问题具有重要的实际意义和研究价值。关于含参热传导方程的研究,国内外学者主要集中在以下两个方面:一是通过改进传统数值方法,提高在高维参数空间中的求解效率和精度;二是引入机器学习、尤其是深度学习方法,探索新的解法框架。
PINNs (Physics-Informed Neural Networks)将物理规律嵌入损失函数中,在无网格的条件下求解问题。尽管在小规模问题上取得了一定效果,但在处理高维参数时,仍存在训练不稳定、精度不高等问题,相比之下,DeepONet作为一种算子学习方法,不是单纯的拟合函数,而是直接学习函数到函数的映射。这种方法由Lu等人于2021年提出后,在流体力学、电磁场计算和材料设计等多个领域得到了初步验证。DeepONet结构中分为“分支网络”和“主干网络”,分别处理输入函数与位置点信息,从而有效表示算子映射结构,适用于解决含参PDE类问题。
近年来,深度学习在偏微分方程(PDEs)求解中的表现逐渐获得认可,尤其是在处理复杂物理系统和含参问题方面,展现出传统数值方法难以比拟的优势。其中,Deep Operator Network (DeepONet)作为一种能够学习非线性算子的神经网络架构,为解决含参PDEs,特别是热传导问题,提供了全新的路径。
Karniadakis等人提出的DeepONet [1]-[3]能够直接学习从函数空间到函数空间的映射关系,与传统的基于点或网格的方式不同,它跳过了中间离散化步骤,从而在处理高维参数空间、时间演化类问题上展现了更强的泛化能力。Zhou和Lyu [4]的研究首次将DeepONet应用于扩散类方程的求解,显示出在低采样率和高参数复杂度下仍能保持良好精度,这对含参热传导问题的建模尤为关键。
与其相对的,Physics-informed Neural Networks (PINNs) [5] [6]虽然在显式引入物理约束方面有一定优势,但在处理含参数的多实例任务上显得力不从心。多个工作[7] [8]指出,PINNs在面对高维参数空间时难以收敛,而DeepONet在训练阶段通过对输入函数的广泛采样,可获得更强的泛化能力,这对解决参数空间大、边界复杂的热传导问题尤为重要。
DeepONet的核心思想是通过神经网络训练输入与输出之间的关系,在含参热传导方程求解中具有巨大的潜力。例如,Lu et al. (2021) [9]提出了DeepONet的基本框架,并通过数值实验验证了该方法在多种物理问题中的适用性。研究表明,DeepONet能够在高维和复杂边界条件下表现出优异的性能,尤其是在流体力学和热传导等领域的应用中,较传统的数值方法,DeepONet显著提高了计算效率和精度。
本文旨在探索DeepONet在含参热传导方程中的应用效果与适应性,分析其在高维参数空间中的建模能力和预测精度。全文围绕以下几个方面展开:第2章介绍本研究所需的基本理论知识,包括DeepONet工作原理、有限元方法在含参热传导方程中的应用,以及贝叶斯推断等相关概念;第3章围绕参数识别问题展开实验设计,利用DeepONet逼近前向模型,并对系数进行反演,以验证其建模准确性和泛化能力。总结部分对全文工作进行归纳,并对未来进一步优化模型结构、提升可解释性等方向提出思考与展望。
2. 基本方法
2.1. DeepONet基本原理
DeepONet不直接构造一个整体的函数到函数映射,而是一种离散点的方式处理。设
是一个从函数空间
映射到函数空间
的非线性算子,即
.
以热传导问题为例,输入为
,
为
上的热导率,
输出为
,
为在某些时间下的温度分布。
我们选取输入函数
在一些固定位置上的值
,然后学习一个神经网络
,使得对于任意一个查询点
,有:
这个过程实际上等价于学习算子
在一个离散版本下的逼近。
DeepONet的核心结构由两个子网络组成:分支网络
和主干网络
,其中
以输入函数
的离散采样值作为输入,输出一个低维的特征向量,记作
。
以查询点
或更广义的输入如
为输入,输出一个相同维度的向量
。最终,网络的预测值为两者内积:
该结构充分利用了算子的线性泛函逼近性质,而训练过程则通过最小化训练样本上的均方误差来进行优化:
其中
是第
个输入函数,
是第
个查询点,
是真实值。在实际操作当中,会使用图1这种结构。图1这种结构分离了Trunk与Branch两个关键维度,其是学习参数–空间双连续性的算子逼近。Trunk支路从
接收信息,Branch从Loop节点表征参数循环输入,双路特征在顶层交汇后输出全域解。该架构通过参数化建模实现了热传导方程在变参数场景下的推演,其模块化设计既保证了网络的可解释性,也便于不同规模方程的适应性调整。在部分问题中,输入函数并非单一变量,而是多个函数的组合,例如热源项
,参数
、边界条件
同时参与PDE的求解过程。
Figure 1. Linear network connection form
图1. 线性网络联结形式
DeepONet的逼近能力并不是凭空设想的。其理论基础源于经典的柯西–皮卡尔定理和泛函分析中的Karhunen-Loève展开理论。Lu等人在其原始论文中证明,只要算子
是连续的,那么存在某种DeepONet架构,可以以任意精度逼近该算子。从逼近角度来看,如果函数
可写作:
那么DeepONet的输出结构就是在尝试自动学习一组基函数
,并对每组输入函数
给出对应的系数
。这种机制非常类似于主成分分析(PCA)中的投影思想,只不过它是“非线性函数空间”的对应。DeepONet之所以能够逼近任意非线性算子,源于其所具有的理论保证。Lu et al. (2021)等人在其论文中提出,若
是连续算子,且输入函数
属于Banach空间
,则存在一组参数
,使得DeepONet的输出
在
上一致逼近
。即对于任意
,存在神经网络结构及其参数,使得:
,
这一性质从理论上保证了DeepONet对复杂偏微分算子的逼近能力,是其区别于传统数据驱动回归模型的关键所在。
2.2. 有限元方法产生训练数据
有限元方法(FEM)因其对复杂几何结构和边界条件具有较强适应性,在求解偏微分方程尤其是热传导类问题中得到了广泛应用。对于含参热传导方程而言,FEM依然是一种可靠且相对成熟的手段,其基本思路是将问题定义域划分为有限数量的子区域,然后在这些单元上构建近似解函数,最终将偏微分方程转化为一组代数方程进行求解。
考虑如下含参热传导方程的通用形式:
其中
表示温度场,
是控制系统变化的参数,
为热导率函数,
为热源项,
表示空间区域,
为终止时间。
采用有限元方法求解该问题的关键步骤包括:首先,对空间区域
进行剖分,得到由多个简单几何单元组成的网格结构,其次,选取合适的基函数来构造试函数和检验函数空间,再将方程的弱形式代入这些函数空间,并对参数
进行离散处理,最终形成一个与参数相关的半离散或全离散系统。
为了求解含参热传导方程:我们首先将其转化为变分问题,即构造其弱形式。为此,定义试函数
,测试函数
,其中
为合适的函数空间。对原始方程两边同时乘以测试函数
,并在区域
上积分,得到:
利用分部积分和适当的边界条件,可以得出如下弱形式:
其中双线性形式
,而右端项表示源项
与测试函数的内积。
接下来,对空间区域
进行剖分,构造网格
,引入有限维子空间
,基函数记作:
。设近似解为:
将上述近似代入弱形式,并选择测试
函数为基函数中的任一项
,得到:
质量矩阵为
,
刚度矩阵为
载荷向量为
,
解系数向量为
最终我们得到如下的半离散线性系统(ODE形式):
.
这一表达式表示热传导方程在空间离散后形成的常微分方程组,其解仍依赖于时间
与参数
,其中M为对称正定的质量矩阵,
是随参数
变化的刚度矩阵,
是源项矢量,体现了源项随时间和参数的变化。该系统的求解可借助时间离散方法,如向后欧拉法、Crank-Nicolson法或显式Runge-Kutta方法,最终获得全离散形式的数值解。
2.3. 贝叶斯推断
贝叶斯推断的核心思想是利用先验知识结合观测数据,更新对参数的认知,从而得到后验分布。在参数识别问题中,后验分布提供了关于未知参数的不确定性信息,使得该方法在噪声数据或不完全观测情况下仍能进行有效推断。贝叶斯定理的数学表达式如下:
,
其中
表示待估计的参数,
表示观测数据,
为后验分布,
为先验分布,
反映了对参数
的先验知识。似然函数
反映了参数
对观测数据的拟合程度,通常由测量噪声模型决定,例如高斯噪声下的似然函数可表示为:
,
其中
是给定参数
下模型在观测位置的预测值,
用于描述观测数据与前向模型之间的偏差,替代模型的引入会使得偏差发生变化,这里我们将
视为超参数,为其配置逆伽马分布超先验,即
,
其中
和
为预先确定好的参数。经推导可得出
的条件后验分布为
.
在每次迭代中,可根据当前观测误差更新
的后验分布参数,并利用Gibbs采样对其进行条件抽样,从而实现对噪声方差的不确定性建模。
由于后验分布通常无法解析求解,因此需要采用数值方法进行逼近,如马尔可夫链蒙特卡洛(MCMC)方法。经典的Metropolis-Hastings算法,即通过接受-拒绝机制生成后验分布的样本,这类算法随着未知参数维数的增加,容易出现退化的现象,即随着参数维数的增加,接受率趋于零,马尔科夫链的混合速率下降。pCN-MCMC抽样方法可以有效的克服这个问题,它通过离散随机微分方程来生成预选样本,并且接受率不会随着参数维数的增加而发生改变,它是一种专门用于函数空间中的贝叶斯采样方法,在维度升高时仍保持良好的接受率和样本多样性。具体来说,pCN-MCMC抽样方法通过离散化随机微分方程产生预选样本,即
,
为控制提议步长的超参数。一般地,需要调试参数
使得接受率在30%~50%。接受概率的表达式为
其中势函数为
.
具体的抽样过程见算法1。
算法1. pCN-MCMC算法
Input:观测位置的集合XI,样本总数N,后验样本集合Q |
1:初始化:从先验分布中采样得到初始样本
2:计算前向模型在
处的取值,
3:初始化超参数
4:for k = 1:N做循环 (i) 构造提议样本:
(ii) 计算前向模型在
处的取值,
(iii) 计算接受概率:
(iv) if
小于
则
结束if判断语句 (v) 更新超参数
(vi) 将样本存储于Q。 结束for循环 |
3. 数值算例
本研究中,数值算例主要基于固定的参数分布、边界条件和初始条件进行验证。未来工作将扩展测试范围,涵盖多种参数统计特性、边界条件类型(如Neumann和Robin条件)以及多样化的初始条件设置,以全面评估DeepONet在不同物理场景下的性能和鲁棒性。
在本文中,考虑如下形式的一维热传导偏微分方程(无反应项):
其中
表示位置
处在时间
时刻的温度分布,
为位置相关的热导率函数,它是我们需要识别的未知参数函数。由于热导率函数通常难以直接测量,因此我们采用贝叶斯推断的方式,通过有限的温度观测数据推断
的后验分布。该问题的边界条件取为第一类齐次边界条件(Dirichlet条件):
初始条件
,选取为多峰高斯函数组合形式,具体如下:
其中
分别为控制峰宽度的参数。热传导系数
的先验为一个均值
的高斯过程,即
其中核函数为
,
长度尺度系数
。
3.1. 单层训练数据
首先,我们测试了DeepONet在输出变量为热传导方程在时间
时的解的拟合效果,图2展示了随机热传导系数的4个实现和相对应的有限元数值解在
的空间分布。
Figure 2. The spatial distribution at
of the four realizations of the random thermal conductivity coefficient and their corresponding solutions
图2. 随机热传导系数的4个实现和相对应的解在
的空间分布
训练数据组数为
,测试数据组数为
,
方向上随机取点数为
。分支网络与主干网络均采用6层全连接网络,每层包含20个神经元,激活函数使用tanh,输出维度均为25,对应DeepONet中的潜在特征维度
。两个网络分别包含4225和2245个参数。将网络训练参数设置为
,学习率为
,得到结果如图3所示。可以看出,训练MSE和测试MSE都随着迭代的进行迅速下降,训练损失的收敛过程,从初始较大误差迅速下降至稳定低值,表明模型拟合能力逐步增强。测试集上的平均误差可看作泛化误差,该曲线亦显示出模型在训练过程中对未见数据的预测能力逐渐提升。从图中可以观察到,网络在初期损失较大,但随着训练的深入,损失迅速下降并趋于平稳,验证了DeepONet能有效学习输入函数与输出解之间的映射关系。
Figure 3. Training and testing loss function diagram for a single layer of time output variables
图3. 单层时间输出变量时,训练和测试损失函数图
将测试集中的函数值与空间位置带入训练好的DeepONet模型中,可得到相对应的输出变量,将其与有限元方法(FEM)计算所得的参照解进行对比,我们测试了DeepONet在
的两个随机实现上的表现,如图4(a)所示,实线为FEM产生的参考解,虚线为DeepONet的逼近解。对同一个
的样本,参考解与逼近解的曲线在空间域
上高度吻合。图4(b)为DeepONet逼近解和FEM参考解在
在
各点上的平均误差,其中平均误差的定义为:
.
由图4可知测试集中所有样本点处预测解与FEM解的相对误差均值不超过0.04。我们可以看到在边界点处和x = 0.6处的相对误差比较大,这是因为被逼近的解在这些位置变化较为剧烈,神经网络在捕捉高频信息上的局限性,使得DeepOnet产生的逼近解具有较大的误差。
3.2. 多个时间层输出变量
在小节3.1中,我们只考虑了x作为主干网络的输入变量,进一步地,我们将时间t也作为主干网络的输入变量,即主干网络的输入变量维数为2。训练数据组数为
,测试数据组数为
,x方向上随机取点数为
,t方向上随机取点数为
,即trunk net的每一组输入变量维度为
。分支网络与主干网络的网络架构跟小节3.2中的相同。将网络训练参数设置为
,学习率为
,得到结果如图5所示,和前文类似,训练和测试的MSE值都随着迭代的进行迅速下降。
Figure 4. (a) Comparison of the approximate solutions of DeepONet on any two realizations of κ and their corresponding FEM reference solutions; (b) Mean relative error between DeepONet’s approximate solution on the test set and the FEM reference solution
图4. (a) DeepONet在κ任意两个实现上的近似解与相对应的FEM参考解对比图;(b) DeepONet在测试集上的近似解与FEM参考解相对误差的均值
Figure 5. The training and testing loss functions as functions of the number of Epochs when x and t are used as input variables for the trunk net
图5. x和t一起作为trunk net输入变量时,训练和测试损失函数随Epochs变化图
图6展示了x和t一起作为主干网络输入变量时,DeepONet近似解与FEM参考解在测试集上的均值,两种解的均值大体上呈现出相同的形状。另外,我们按照如下公式计算了每个时间层上的平均相对误差:
.
Figure 6. (a) Mean of DeepONet approximate solution; (b) Mean of FEM reference solution
图6. (a) DeepONet近似解的均值;(b) FEM参考解的均值
图7展示了DeepONet预测热传导问题的误差随时间演变的特点。可以看到误差曲线呈现“U型”趋势,这是因为在t = 0附近温度场突变时模型对高梯度场的捕捉不足,随着热扩散效应主导,在t = 0.02~0.06区间误差稳定低于1.5%,表明模型在准稳态阶段与有限元解高度吻合,而在t > 0.06,误差回升至接近初始水平,这源于温度趋近于零时数值舍入误差被相对放大。
Figure 7. Average relative error between DeepONet approximate solution and reference solution at each time layer
图7. DeepONet近似解与参考解在每个时间层上的平均相对误差
3.3. 热传导系数的反演
接下来,我们将尝试将DeepONet建立的替代模型用于反问题的求解。反问题的目标是通过有限的观测数据
反演出PDE的未知参数
。在这一小节中,我们取时刻
分布在区间
的温度为测量数据。测量数据由
一个先验实现生成,测量误差水平设为
。为了达到更好的逼近效果,我们先用FEM方法生成
在观测位置和时刻的值,再用DeepONet构造算子映射,并将其应用于参数反演,预测输出变量的后验信息。
调节参数β使接收概率在35%左右,我们得到40,000个后验样本。基于保留的后20,000个样本,我们估计了后验样本的均值和3倍标准差区间,如图8所示。可以看出,虽然后验均值与真实的系数之间有一定的差别,后验置信区间可以将大部分真实系数场的取值囊括其中。
在参数反演过程中,观测数据的噪声对后验推断带来显著挑战。本文通过引入噪声方差的超先验分布,并采用pCN-MCMC采样方法,有效地处理了噪声不确定性,保证了反演的稳定性。此外,先验分布的选择对反演结果影响较大,本研究采用高斯过程先验,未来将考虑结合物理知识设计更合理的先验分布,以提升反演的准确性和可靠性。
与传统有限元方法相比,DeepONet在训练阶段需要一定的计算资源,但其推断阶段的计算速度显著提高,能够实现数百至数千倍的加速,极大提升了参数反演中前向模型的计算效率。从精度角度看,DeepONet在大部分测试样本中与有限元解保持较好一致,尤其在准稳态阶段误差较低,但在边界及高梯度区域存在一定误差,提示未来需进一步优化网络结构以提升高频信息捕捉能力。综上,DeepONet作为高效的替代模型,在实际工程参数识别中展现出较高的应用价值。
Figure 8. Comparison of the posterior sample mean, 3 times standard deviation interval and reference coefficient based on the DeepONet substitution model
图8. 基于DeepONet替代模型的后验样本均值,3倍标准差区间和参考系数的对比图
4. 总结
本论文围绕算子学习中的前沿方法DeepONet,在求解含参数热传导方程问题中的应用进行了实验验证。我们利用DeepONet构建了热传导系数与热传导方程的解之间的映射,并将其作为前向模型的替代模型,用于高维未知函数的贝叶斯推断当中,节省了后验分布的抽样时间,并能得到一个比较好的效果。DeepONet模型能够有效捕捉输入函数与空间解之间的复杂非线性映射关系,在测试样本中展现出较高的预测精度与良好的收敛速度。本文通过理论与实验相结合的方式,初步验证了DeepONet在求解含参热传导类偏微分方程问题中的潜力,为其在更复杂物理系统中的应用奠定了基础。
致 谢
欧娜感谢国家自然科学基金委11901060,湖南省自然科学基金2021JJ40557以及湖南省教育厅优秀青年项目22B0333的支持;宋晓燕感谢国家自然科学基金委12301551,湖南省自然科学基金2022JJ40125以及湖南省教育厅优秀青年项目22B0635的支持。
NOTES
*通讯作者。