DeepONet在求解含参热传导方程中的应用

doi:10.12677/aam.2025.146298

期刊菜单

DeepONet在求解含参热传导方程中的应用
Application of DeepONet in Solving Heat Conduction Equation with Parameters

DOI: 10.12677/aam.2025.146298, PDF, HTML, XML,
作者: 李慧, 欧娜^*：长沙理工大学数学与统计学院，湖南长沙；宋晓燕：湖南工商大学理学院，湖南长沙
关键词: DeepONet；热传导方程；深度神经网络；贝叶斯推断；DeepONet； Heat Conduction Equation； Deep Neural Network； Bayesian Inference

摘要: 含参热传导方程在多个科学与工程问题中广泛存在，由于所含参数具有随机性，热传导方程的解也随着不确定性的传播而具有随机性。为了刻画解的随机性，需要对该方程进行多次模拟仿真实验。另一方面，在实际应用中，我们需要在给定稀疏观测值的条件下，基于前向模型来识别方程中的未知参数。贝叶斯方法是识别未知参数的一个有效方法，借助观测数据，可以达到减小该方程中不确定性的目的。然而，参数和前向模型之间的非线性性导致后验分布没有显式表达式，我们拟利用构造蒙特卡罗马尔科夫链的方式，来实现后验分布的抽样。马尔科夫链的收敛要求数以百万次前向模型的仿真，构造前向模型的替代模型是提高抽样效率的有效方式之一。随着未知参数维数的增加，构建替代模型所需要的离线模拟次数也会呈指数级增加，这给参数识别问题带来了挑战。近年来，基于深度学习的算子学习方法，特别是DeepONet，为求解此类问题提供了新的思路。本文以DeepONet为核心工具，基于方程的部分解数据，构建和训练了一个随机热传导系数与观测数据之间的算子映射，并以此作为替代模型用于热传导方程的参数识别问题当中，提高了参数反演的效率。我们通过数值算例验证了DeepONet在求解含参偏微分方程时具有较高的精度，在高维未知参数的反演当中具有很好的应用效果。

Abstract: The parameterized heat conduction equation is widely present in many scientific and engineering problems. Since the parameters involved are random, the solution of the heat conduction equation is also random as the uncertainty propagates. In order to characterize the randomness of the solution, it is necessary to conduct multiple simulation experiments on the equation. On the other hand, in practical applications, we need to identify the unknown parameters in the equation based on the front-end model under the condition of given sparse observations. The Bayesian method is an effective method to identify unknown parameters. With the help of observed data, the uncertainty in the equation can be reduced. However, the nonlinearity between the parameters and the forward model leads to the lack of explicit expression of the posterior distribution. We intend to use the method of constructing Monte Carlo Markov chains to achieve sampling of the posterior distribution. The convergence of the Markov chain requires millions of simulations of the forward model. Constructing a surrogate model of the forward model is one of the effective ways to improve sampling efficiency. As the dimension of the unknown parameters increases, the number of offline simulations required to construct the surrogate model will also increase exponentially, which brings challenges to the parameter identification problem. In recent years, operator learning methods based on deep learning, especially DeepONet, have provided new ideas for solving such problems. This paper uses DeepONet as the core tool, constructs and trains an operator mapping between a random heat conduction coefficient and observation data based on partial solution data of the equation, and uses this as a substitute model for parameter identification of the heat conduction equation, improving the efficiency of parameter inversion. We verify through numerical examples that DeepONet has high accuracy in solving parameter-containing partial differential equations, and has a good application effect in the inversion of high-dimensional unknown parameters.

文章引用：李慧, 欧娜, 宋晓燕. DeepONet在求解含参热传导方程中的应用[J]. 应用数学进展, 2025, 14(6): 32-44. https://doi.org/10.12677/aam.2025.146298

1. 引言

长期以来，有限差分法、有限元法、谱方法等传统数值方法在解决这类偏微分方程(PDE)问题方面发挥了重要作用。然而，这些方法在高维参数空间中，常常面临计算效率低、网格依赖强、对复杂边界适应性差等问题。DeepONet (Deep Operator Network)作为一种新兴的深度算子学习框架，为求解复杂参数化偏微分方程提供了新的思路。相比传统方法，DeepONet可以绕过繁琐的空间离散过程，直接从样本数据中学习输入函数与解之间的映射关系，具有建模灵活、泛化能力强、计算速度快等优势。正因如此，将DeepONet引入含参热传导方程的求解过程，有望突破传统方法在高维问题中面临的瓶颈，对相关工程技术问题具有重要的实际意义和研究价值。关于含参热传导方程的研究，国内外学者主要集中在以下两个方面：一是通过改进传统数值方法，提高在高维参数空间中的求解效率和精度；二是引入机器学习、尤其是深度学习方法，探索新的解法框架。

PINNs (Physics-Informed Neural Networks)将物理规律嵌入损失函数中，在无网格的条件下求解问题。尽管在小规模问题上取得了一定效果，但在处理高维参数时，仍存在训练不稳定、精度不高等问题，相比之下，DeepONet作为一种算子学习方法，不是单纯的拟合函数，而是直接学习函数到函数的映射。这种方法由Lu等人于2021年提出后，在流体力学、电磁场计算和材料设计等多个领域得到了初步验证。DeepONet结构中分为“分支网络”和“主干网络”，分别处理输入函数与位置点信息，从而有效表示算子映射结构，适用于解决含参PDE类问题。

近年来，深度学习在偏微分方程(PDEs)求解中的表现逐渐获得认可，尤其是在处理复杂物理系统和含参问题方面，展现出传统数值方法难以比拟的优势。其中，Deep Operator Network (DeepONet)作为一种能够学习非线性算子的神经网络架构，为解决含参PDEs，特别是热传导问题，提供了全新的路径。

Karniadakis等人提出的DeepONet [1]-[3]能够直接学习从函数空间到函数空间的映射关系，与传统的基于点或网格的方式不同，它跳过了中间离散化步骤，从而在处理高维参数空间、时间演化类问题上展现了更强的泛化能力。Zhou和Lyu [4]的研究首次将DeepONet应用于扩散类方程的求解，显示出在低采样率和高参数复杂度下仍能保持良好精度，这对含参热传导问题的建模尤为关键。

与其相对的，Physics-informed Neural Networks (PINNs) [5] [6]虽然在显式引入物理约束方面有一定优势，但在处理含参数的多实例任务上显得力不从心。多个工作[7] [8]指出，PINNs在面对高维参数空间时难以收敛，而DeepONet在训练阶段通过对输入函数的广泛采样，可获得更强的泛化能力，这对解决参数空间大、边界复杂的热传导问题尤为重要。

DeepONet的核心思想是通过神经网络训练输入与输出之间的关系，在含参热传导方程求解中具有巨大的潜力。例如，Lu et al. (2021) [9]提出了DeepONet的基本框架，并通过数值实验验证了该方法在多种物理问题中的适用性。研究表明，DeepONet能够在高维和复杂边界条件下表现出优异的性能，尤其是在流体力学和热传导等领域的应用中，较传统的数值方法，DeepONet显著提高了计算效率和精度。

本文旨在探索DeepONet在含参热传导方程中的应用效果与适应性，分析其在高维参数空间中的建模能力和预测精度。全文围绕以下几个方面展开：第2章介绍本研究所需的基本理论知识，包括DeepONet工作原理、有限元方法在含参热传导方程中的应用，以及贝叶斯推断等相关概念；第3章围绕参数识别问题展开实验设计，利用DeepONet逼近前向模型，并对系数进行反演，以验证其建模准确性和泛化能力。总结部分对全文工作进行归纳，并对未来进一步优化模型结构、提升可解释性等方向提出思考与展望。

2. 基本方法

2.1. DeepONet基本原理

DeepONet不直接构造一个整体的函数到函数映射，而是一种离散点的方式处理。设 $G$ 是一个从函数空间 $A$ 映射到函数空间 $ℬ$ 的非线性算子，即

$G : A \to ℬ$ .

以热传导问题为例，输入为

$κ (x) \in A$ ,

$κ (x)$ 为 $x \in [0, 1]$ 上的热导率，

输出为

$u (x, t) = G (κ) (x, t) \in ℬ$ ,

$u (x, t)$ 为在某些时间下的温度分布。

我们选取输入函数 $κ (x)$ 在一些固定位置上的值 $[κ (x_{1}), κ (x_{2}), \dots, κ (x_{m})]$ ，然后学习一个神经网络 $N$ ，使得对于任意一个查询点 $x$ ，有：

$N (κ (x_{1}), \dots, κ (x_{m}); [x, t]) \approx u (x, t)$

这个过程实际上等价于学习算子 $G$ 在一个离散版本下的逼近。

DeepONet的核心结构由两个子网络组成：分支网络 $ℬ$ 和主干网络 $T$ ，其中 $ℬ$ 以输入函数 $κ (x)$ 的离散采样值作为输入，输出一个低维的特征向量，记作 $b \in ℝ^{p}$ 。 $T$ 以查询点 $x$ 或更广义的输入如 $(x, t)$ 为输入，输出一个相同维度的向量 $t (x) \in ℝ^{p}$ 。最终，网络的预测值为两者内积：

$u (x, t) \approx N (κ; x) : = 〈 ℬ (κ), T (x) 〉 = \sum_{i = 1}^{p} b_{i} \cdot t_{i} (x)$

该结构充分利用了算子的线性泛函逼近性质，而训练过程则通过最小化训练样本上的均方误差来进行优化：

$ℒ = \frac{1}{N_{1}} \sum_{i = 1}^{N_{1}} \sum_{j = 1}^{M} {| N (κ_{i}; x_{j}) - u_{i} (x_{j}) |}^{2}$

其中 $κ_{i}$ 是第 $i$ 个输入函数， $x_{j}$ 是第 $j$ 个查询点， $u_{i} (x_{i})$ 是真实值。在实际操作当中，会使用图1这种结构。图1这种结构分离了Trunk与Branch两个关键维度，其是学习参数–空间双连续性的算子逼近。Trunk支路从 $μ (x)$ 接收信息，Branch从Loop节点表征参数循环输入，双路特征在顶层交汇后输出全域解。该架构通过参数化建模实现了热传导方程在变参数场景下的推演，其模块化设计既保证了网络的可解释性，也便于不同规模方程的适应性调整。在部分问题中，输入函数并非单一变量，而是多个函数的组合，例如热源项 $f (x, t)$ ，参数 $κ (x)$ 、边界条件 $g (t)$ 同时参与PDE的求解过程。

Figure 1. Linear network connection form

图1. 线性网络联结形式

DeepONet的逼近能力并不是凭空设想的。其理论基础源于经典的柯西–皮卡尔定理和泛函分析中的Karhunen-Loève展开理论。Lu等人在其原始论文中证明，只要算子 $G$ 是连续的，那么存在某种DeepONet架构，可以以任意精度逼近该算子。从逼近角度来看，如果函数 $\forall u (x) \in ℬ$ 可写作：

$u (x) \approx \sum_{i = 1}^{p} c_{i} ϕ_{i} (x)$

那么DeepONet的输出结构就是在尝试自动学习一组基函数 $ϕ_{i} (x)$ ，并对每组输入函数 $κ (x)$ 给出对应的系数 $c_{i}$ 。这种机制非常类似于主成分分析(PCA)中的投影思想，只不过它是“非线性函数空间”的对应。DeepONet之所以能够逼近任意非线性算子，源于其所具有的理论保证。Lu et al. (2021)等人在其论文中提出，若 $G$ 是连续算子，且输入函数 $u$ 属于Banach空间 $X$ ，则存在一组参数 $θ$ ，使得DeepONet的输出 ${\hat{G}}_{θ} (u) (y)$ 在 $X \times D$ 上一致逼近 $G (u) (y)$ 。即对于任意 $ε > 0$ ，存在神经网络结构及其参数，使得：

$\sup_{u \in X, y \in D} | G (u) (y) - {\hat{G}}_{θ} (u) (y) | < ε$ ,

这一性质从理论上保证了DeepONet对复杂偏微分算子的逼近能力，是其区别于传统数据驱动回归模型的关键所在。

2.2. 有限元方法产生训练数据

有限元方法(FEM)因其对复杂几何结构和边界条件具有较强适应性，在求解偏微分方程尤其是热传导类问题中得到了广泛应用。对于含参热传导方程而言，FEM依然是一种可靠且相对成熟的手段，其基本思路是将问题定义域划分为有限数量的子区域，然后在这些单元上构建近似解函数，最终将偏微分方程转化为一组代数方程进行求解。

考虑如下含参热传导方程的通用形式：

$\frac{\partial u (x, t; κ)}{\partial t} = \nabla \cdot (κ (x) \nabla u (x, t; κ)) + f (x, t; κ), x \in Ω, t \in [0, T],$

其中 $u (x, t; κ)$ 表示温度场， $κ$ 是控制系统变化的参数， $κ (x)$ 为热导率函数， $f (x, t; κ)$ 为热源项， $Ω$ 表示空间区域， $T$ 为终止时间。

采用有限元方法求解该问题的关键步骤包括：首先，对空间区域 $Ω$ 进行剖分，得到由多个简单几何单元组成的网格结构，其次，选取合适的基函数来构造试函数和检验函数空间，再将方程的弱形式代入这些函数空间，并对参数 $κ$ 进行离散处理，最终形成一个与参数相关的半离散或全离散系统。

为了求解含参热传导方程：我们首先将其转化为变分问题，即构造其弱形式。为此，定义试函数 $u \in V$ ，测试函数 $v \in V$ ，其中 $V \subset H^{1} (Ω)$ 为合适的函数空间。对原始方程两边同时乘以测试函数 $v$ ，并在区域 $Ω$ 上积分，得到：

$\int_{Ω} \frac{\partial u (x, t; κ)}{\partial t} v (x) d x = - \int_{Ω} κ (x) \nabla u (x, t; κ) \cdot \nabla v (x) d x + \int_{Ω} f (x, t; κ) v (x) d x .$

利用分部积分和适当的边界条件，可以得出如下弱形式：

$(\frac{\partial u}{\partial t}, v) + a (u, v; κ) = (f, v)$

其中双线性形式 $a (u, v; κ) = \int_{Ω} κ (x) \nabla u \cdot \nabla v d x$ ，而右端项表示源项 $f$ 与测试函数的内积。

接下来，对空间区域 $Ω$ 进行剖分，构造网格 $T_{h}$ ，引入有限维子空间 $V_{h} \subset V$ ，基函数记作：

${ϕ_{1} (x), ϕ_{2} (x), \dots, ϕ_{N} (x)}$ 。设近似解为： $u_{h} (x, t; κ) = \sum_{j = 1}^{N} U_{j} (t; κ) ϕ_{j} (x),$ 将上述近似代入弱形式，并选择测试

函数为基函数中的任一项 $v = ϕ_{i} (x)$ ，得到：

$\begin{array}{l} \sum_{j = 1}^{N} (\int_{Ω} ϕ_{j} (x) ϕ_{i} (x) d x) \frac{d U_{j} (t; κ)}{d t} + \sum_{j = 1}^{N} (\int_{Ω} κ (x) \nabla ϕ_{j} (x) \cdot \nabla ϕ_{i} (x) d x) U_{j} (t; κ) \\ = \int_{Ω} f (x, t; κ) ϕ_{i} (x) d x . \end{array}$

质量矩阵为

$M_{i j} = \int_{Ω} ϕ_{j} (x) ϕ_{i} (x) d x$ ,

刚度矩阵为

$K_{i j} (κ) = \int_{Ω} κ (x) \nabla ϕ_{j} (x) \cdot \nabla ϕ_{i} (x) d x,$

载荷向量为

$F_{i} (t; κ) = \int_{Ω} f (x, t; κ) ϕ_{i} (x) d x$ ,

解系数向量为

$U (t; κ) = [\begin{matrix} U_{1} (t; κ) \\ U_{2} (t; κ) \\ ⋮ \\ U_{N} (t; κ) \end{matrix}],$

最终我们得到如下的半离散线性系统(ODE形式)：

$M \frac{d U (t; κ)}{d t} + K (κ) U (t; κ) = F (t; κ)$ .

这一表达式表示热传导方程在空间离散后形成的常微分方程组，其解仍依赖于时间 $t$ 与参数 $κ$ ，其中M为对称正定的质量矩阵， $K (κ)$ 是随参数 $κ$ 变化的刚度矩阵， $F (t; κ)$ 是源项矢量，体现了源项随时间和参数的变化。该系统的求解可借助时间离散方法，如向后欧拉法、Crank-Nicolson法或显式Runge-Kutta方法，最终获得全离散形式的数值解。

2.3. 贝叶斯推断

贝叶斯推断的核心思想是利用先验知识结合观测数据，更新对参数的认知，从而得到后验分布。在参数识别问题中，后验分布提供了关于未知参数的不确定性信息，使得该方法在噪声数据或不完全观测情况下仍能进行有效推断。贝叶斯定理的数学表达式如下：

$P (κ | d) = \frac{P (d | κ) P (κ)}{P (d)}$ ,

其中 $κ$ 表示待估计的参数， $d$ 表示观测数据， $P (κ | d)$ 为后验分布， $P (κ)$ 为先验分布， $P (κ)$ 反映了对参数 $κ$ 的先验知识。似然函数 $P (d | κ)$ 反映了参数 $κ$ 对观测数据的拟合程度，通常由测量噪声模型决定，例如高斯噪声下的似然函数可表示为：

$P (d | κ) \propto \exp (- \frac{‖ d - G (κ) (X_{I}) ‖}{2 σ^{2}})$ ,

其中 $G (κ) (X_{I})$ 是给定参数 $κ$ 下模型在观测位置的预测值， $σ^{2}$ 用于描述观测数据与前向模型之间的偏差，替代模型的引入会使得偏差发生变化，这里我们将 $σ^{2}$ 视为超参数，为其配置逆伽马分布超先验，即

$p (σ^{2}) ~ I G (\frac{ν}{2}, \frac{ν λ}{2})$ ,

其中 $ν$ 和 $λ$ 为预先确定好的参数。经推导可得出 $σ^{2}$ 的条件后验分布为

$p (σ^{2} | d, κ) ~ I G (\frac{n + ν}{2}, \frac{{‖ d - G (κ) (X_{I}) ‖}^{2} + ν λ}{2})$ .

在每次迭代中，可根据当前观测误差更新 $σ^{2}$ 的后验分布参数，并利用Gibbs采样对其进行条件抽样，从而实现对噪声方差的不确定性建模。

由于后验分布通常无法解析求解，因此需要采用数值方法进行逼近，如马尔可夫链蒙特卡洛(MCMC)方法。经典的Metropolis-Hastings算法，即通过接受-拒绝机制生成后验分布的样本，这类算法随着未知参数维数的增加，容易出现退化的现象，即随着参数维数的增加，接受率趋于零，马尔科夫链的混合速率下降。pCN-MCMC抽样方法可以有效的克服这个问题，它通过离散随机微分方程来生成预选样本，并且接受率不会随着参数维数的增加而发生改变，它是一种专门用于函数空间中的贝叶斯采样方法，在维度升高时仍保持良好的接受率和样本多样性。具体来说，pCN-MCMC抽样方法通过离散化随机微分方程产生预选样本，即

$κ^{(*)} = \sqrt{1 - β^{2}} κ^{(k)} + (1 - \sqrt{1 - β^{2}}) μ + β ω^{(k)}, ω^{(k)} ~ N (0, Σ)$ ,

$β \in (0, 1)$ 为控制提议步长的超参数。一般地，需要调试参数 $β$ 使得接受率在30%~50%。接受概率的表达式为

$α (κ^{(k)}, κ^{(*)}) = \min {1, \exp [Φ (κ^{(k)}) - Φ (κ^{(*)})]}$

其中势函数为

$Φ (κ) = \frac{‖ d - G (κ) (X_{I}) ‖}{2 σ^{2}}$ .

具体的抽样过程见算法1。

算法1. pCN-MCMC算法

Input：观测位置的集合X_I，样本总数N，后验样本集合Q

1：初始化：从先验分布中采样得到初始样本 $ξ^{(0)} ~ N (μ, Σ)$

2：计算前向模型在 $κ^{(0)}$ 处的取值， $U_{0} = G (κ^{(0)}) (X_{I})$

3：初始化超参数

${(σ^{2})}^{(0)} ~ I G (\frac{n + ν}{2}, \frac{{‖ d - U_{0} ‖}^{2} + ν λ}{2})$

4：for k = 1:N做循环

(i) 构造提议样本：

$κ^{(*)} = \sqrt{1 - β^{2}} κ^{(k)} + (1 - \sqrt{1 - β^{2}}) μ + β ω^{(k)}, ω^{(k)} ~ N (0, Σ)$

(ii) 计算前向模型在 $κ^{(*)}$ 处的取值， $U_{1} = G (κ^{(*)}) (X_{I})$

(iii) 计算接受概率：

$α (ξ^{(k)}, ξ^{(*)}) = \min {1, \exp [Φ (ξ^{(k)}) - Φ (ξ^{(*)})]}$

(iv) if $v ~ U (0, 1)$ 小于 $α (ξ^{(k)}, ξ^{(*)})$ 则

$κ^{(0)} = κ^{(⋆)}$

$U_{0} = U_{1}$

结束if判断语句

(v) 更新超参数

${(σ^{2})}^{(k)} ~ I G (\frac{n + ν}{2}, \frac{{‖ d - U_{0} ‖}^{2} + ν λ}{2})$

(vi) 将样本存储于Q。

结束for循环

3. 数值算例

本研究中，数值算例主要基于固定的参数分布、边界条件和初始条件进行验证。未来工作将扩展测试范围，涵盖多种参数统计特性、边界条件类型(如Neumann和Robin条件)以及多样化的初始条件设置，以全面评估DeepONet在不同物理场景下的性能和鲁棒性。

在本文中，考虑如下形式的一维热传导偏微分方程(无反应项)：

$\frac{\partial u (x, t)}{\partial t} = \frac{\partial}{\partial x} (k (x) \frac{\partial u (x, t)}{\partial x}), x \in (0, 1), t \in (0, T]$

其中 $u (x, t)$ 表示位置 $x$ 处在时间 $t$ 时刻的温度分布， $k (x)$ 为位置相关的热导率函数，它是我们需要识别的未知参数函数。由于热导率函数通常难以直接测量，因此我们采用贝叶斯推断的方式，通过有限的温度观测数据推断 $k (x)$ 的后验分布。该问题的边界条件取为第一类齐次边界条件(Dirichlet条件)：

$u (0, t) = u (1, t) = 0, \forall t \in [0, T]$

初始条件 $u (x, 0) = u_{0} (x)$ ，选取为多峰高斯函数组合形式，具体如下：

$u_{0} (x) = \frac{7}{\sqrt{2 π l_{0}}} e^{- \frac{{(x - 0.3)}^{2}}{2 l_{0}^{2}}} - \frac{2}{\sqrt{2 π l_{1}}} e^{- \frac{{(x - 0.6)}^{2}}{2 l_{1}^{2}}} + \frac{4}{\sqrt{2 π l_{2}}} e^{- \frac{{(x - 0.8)}^{2}}{2 l_{2}^{2}}}$

其中 $l_{0}, l_{1}, l_{2}$ 分别为控制峰宽度的参数。热传导系数 $κ (x)$ 的先验为一个均值 $μ = 3$ 的高斯过程，即

$κ (x) ~ g p (μ, C)$

其中核函数为

$C (x, x^{'}) = 0.5 \exp (- \frac{{(x - x^{'})}^{2}}{2 l^{2}})$ ,

长度尺度系数 $l = 0.2$ 。

3.1. 单层训练数据

首先，我们测试了DeepONet在输出变量为热传导方程在时间 $t_{0} = 0.0015$ 时的解的拟合效果，图2展示了随机热传导系数的4个实现和相对应的有限元数值解在 $t_{0} = 0.0015$ 的空间分布。

Figure 2. The spatial distribution at $t_{0} = 0.0015$ of the four realizations of the random thermal conductivity coefficient and their corresponding solutions

图2. 随机热传导系数的4个实现和相对应的解在 $t_{0} = 0.0015$ 的空间分布

训练数据组数为 $N_{1} = 1000$ ，测试数据组数为 $N = 500$ ， $x$ 方向上随机取点数为 $M = 80$ 。分支网络与主干网络均采用6层全连接网络，每层包含20个神经元，激活函数使用tanh，输出维度均为25，对应DeepONet中的潜在特征维度 $p = 25$ 。两个网络分别包含4225和2245个参数。将网络训练参数设置为 $epoch = 5000$ ，学习率为 $l r = 0.001$ ，得到结果如图3所示。可以看出，训练MSE和测试MSE都随着迭代的进行迅速下降，训练损失的收敛过程，从初始较大误差迅速下降至稳定低值，表明模型拟合能力逐步增强。测试集上的平均误差可看作泛化误差，该曲线亦显示出模型在训练过程中对未见数据的预测能力逐渐提升。从图中可以观察到，网络在初期损失较大，但随着训练的深入，损失迅速下降并趋于平稳，验证了DeepONet能有效学习输入函数与输出解之间的映射关系。

Figure 3. Training and testing loss function diagram for a single layer of time output variables

图3. 单层时间输出变量时，训练和测试损失函数图

将测试集中的函数值与空间位置带入训练好的DeepONet模型中，可得到相对应的输出变量，将其与有限元方法(FEM)计算所得的参照解进行对比，我们测试了DeepONet在 $κ$ 的两个随机实现上的表现，如图4(a)所示，实线为FEM产生的参考解，虚线为DeepONet的逼近解。对同一个 $κ$ 的样本，参考解与逼近解的曲线在空间域 $x \in [0, 1]$ 上高度吻合。图4(b)为DeepONet逼近解和FEM参考解在 $x$ 在 $[0, 1]$ 各点上的平均误差，其中平均误差的定义为：

$eror (x_{j}) = \sum_{i = 1}^{N} \frac{{‖ G (κ^{(i)}) (x_{j}) - u (x_{j}, t_{0}; κ^{(i)}) ‖}^{2}}{{‖ u (x_{j}, t_{0}; κ^{(i)}) ‖}^{2}}$ .

由图4可知测试集中所有样本点处预测解与FEM解的相对误差均值不超过0.04。我们可以看到在边界点处和x = 0.6处的相对误差比较大，这是因为被逼近的解在这些位置变化较为剧烈，神经网络在捕捉高频信息上的局限性，使得DeepOnet产生的逼近解具有较大的误差。

3.2. 多个时间层输出变量

在小节3.1中，我们只考虑了x作为主干网络的输入变量，进一步地，我们将时间t也作为主干网络的输入变量，即主干网络的输入变量维数为2。训练数据组数为 $N_{1} = 1500$ ，测试数据组数为 $N = 500$ ，x方向上随机取点数为 $M_{x} = 800$ ，t方向上随机取点数为 $M_{t} = 800$ ，即trunk net的每一组输入变量维度为 $N_{2} = M_{x} * M_{t} = 6400$ 。分支网络与主干网络的网络架构跟小节3.2中的相同。将网络训练参数设置为 $epoch = 8000$ ，学习率为 $l r = 0.001$ ，得到结果如图5所示，和前文类似，训练和测试的MSE值都随着迭代的进行迅速下降。

Figure 4. (a) Comparison of the approximate solutions of DeepONet on any two realizations of κ and their corresponding FEM reference solutions; (b) Mean relative error between DeepONet’s approximate solution on the test set and the FEM reference solution

图4. (a) DeepONet在κ任意两个实现上的近似解与相对应的FEM参考解对比图；(b) DeepONet在测试集上的近似解与FEM参考解相对误差的均值

Figure 5. The training and testing loss functions as functions of the number of Epochs when x and t are used as input variables for the trunk net

图5. x和t一起作为trunk net输入变量时，训练和测试损失函数随Epochs变化图

图6展示了x和t一起作为主干网络输入变量时，DeepONet近似解与FEM参考解在测试集上的均值，两种解的均值大体上呈现出相同的形状。另外，我们按照如下公式计算了每个时间层上的平均相对误差：

$error (t_{k}) = \frac{1}{N} \sum_{i = 1}^{N} \frac{\sum_{j = 1}^{N_{x}} {‖ G (κ^{(i)}) (x_{j}, t_{k}) - \hat{u} (x_{j}, t_{k}; κ^{(i)}) ‖}^{2}}{\sum_{j = 1}^{N_{x}} {‖ \hat{u} (x_{j}, t_{k}; κ^{(i)}) ‖}^{2}}$ .

Figure 6. (a) Mean of DeepONet approximate solution; (b) Mean of FEM reference solution

图6. (a) DeepONet近似解的均值；(b) FEM参考解的均值

图7展示了DeepONet预测热传导问题的误差随时间演变的特点。可以看到误差曲线呈现“U型”趋势，这是因为在t = 0附近温度场突变时模型对高梯度场的捕捉不足，随着热扩散效应主导，在t = 0.02~0.06区间误差稳定低于1.5%，表明模型在准稳态阶段与有限元解高度吻合，而在t > 0.06，误差回升至接近初始水平，这源于温度趋近于零时数值舍入误差被相对放大。

Figure 7. Average relative error between DeepONet approximate solution and reference solution at each time layer

图7. DeepONet近似解与参考解在每个时间层上的平均相对误差

3.3. 热传导系数的反演

接下来，我们将尝试将DeepONet建立的替代模型用于反问题的求解。反问题的目标是通过有限的观测数据 $u (x, t)$ 反演出PDE的未知参数 $κ (x)$ 。在这一小节中，我们取时刻 $0.02, 0.04, 0.06, 0.08$ 分布在区间 $[0.1, 0.9]$ 的温度为测量数据。测量数据由 $κ (x)$ 一个先验实现生成，测量误差水平设为 $σ = 0.1$ 。为了达到更好的逼近效果，我们先用FEM方法生成 $u (x, t)$ 在观测位置和时刻的值，再用DeepONet构造算子映射，并将其应用于参数反演，预测输出变量的后验信息。

调节参数β使接收概率在35%左右，我们得到40,000个后验样本。基于保留的后20,000个样本，我们估计了后验样本的均值和3倍标准差区间，如图8所示。可以看出，虽然后验均值与真实的系数之间有一定的差别，后验置信区间可以将大部分真实系数场的取值囊括其中。

在参数反演过程中，观测数据的噪声对后验推断带来显著挑战。本文通过引入噪声方差的超先验分布，并采用pCN-MCMC采样方法，有效地处理了噪声不确定性，保证了反演的稳定性。此外，先验分布的选择对反演结果影响较大，本研究采用高斯过程先验，未来将考虑结合物理知识设计更合理的先验分布，以提升反演的准确性和可靠性。

与传统有限元方法相比，DeepONet在训练阶段需要一定的计算资源，但其推断阶段的计算速度显著提高，能够实现数百至数千倍的加速，极大提升了参数反演中前向模型的计算效率。从精度角度看，DeepONet在大部分测试样本中与有限元解保持较好一致，尤其在准稳态阶段误差较低，但在边界及高梯度区域存在一定误差，提示未来需进一步优化网络结构以提升高频信息捕捉能力。综上，DeepONet作为高效的替代模型，在实际工程参数识别中展现出较高的应用价值。

Figure 8. Comparison of the posterior sample mean, 3 times standard deviation interval and reference coefficient based on the DeepONet substitution model

图8. 基于DeepONet替代模型的后验样本均值，3倍标准差区间和参考系数的对比图

4. 总结

本论文围绕算子学习中的前沿方法DeepONet，在求解含参数热传导方程问题中的应用进行了实验验证。我们利用DeepONet构建了热传导系数与热传导方程的解之间的映射，并将其作为前向模型的替代模型，用于高维未知函数的贝叶斯推断当中，节省了后验分布的抽样时间，并能得到一个比较好的效果。DeepONet模型能够有效捕捉输入函数与空间解之间的复杂非线性映射关系，在测试样本中展现出较高的预测精度与良好的收敛速度。本文通过理论与实验相结合的方式，初步验证了DeepONet在求解含参热传导类偏微分方程问题中的潜力，为其在更复杂物理系统中的应用奠定了基础。

致谢

欧娜感谢国家自然科学基金委11901060，湖南省自然科学基金2021JJ40557以及湖南省教育厅优秀青年项目22B0333的支持；宋晓燕感谢国家自然科学基金委12301551，湖南省自然科学基金2022JJ40125以及湖南省教育厅优秀青年项目22B0635的支持。

NOTES

^*通讯作者。

参考文献

[1]	Cotter, S.L., Roberts, G.O., Stuart, A.M. and White, D. (2013) MCMC Methods for Functions: Modifying Old Algorithms to Make Them Faster. Statistical Science, 28, 424-446. [Google Scholar] [CrossRef]
[2]	Lyu, Z., Xie, Y. and Karniadakis, G.E. (2021) Deeponet: Learning Nonlinear Operators for Identifying Differential Equations from Data. Proceedings of the National Academy of Sciences of the United States of America, 118, e2020382118.
[3]	Zhao, T., Wang, Z. and Karniadakis, G.E. (2021) Physics-Informed DeepONets for Nonlinear Operators with Noisy Data. Journal of Computational Physics, 426, Article ID: 109913.
[4]	Zhou, L. and Lyu, Z. (2021) Solving Nonlinear Reaction-Diffusion Equations with Deeponet. Mathematics of Computation, 90, 121-139.
[5]	Raissi, M., Perdikaris, P. and Karniadakis, G.E. (2019) Physics-informed Neural Networks: A Deep Learning Framework for Solving Forward and Inverse Problems Involving Nonlinear Partial Differential Equations. Journal of Computational Physics, 378, 686-707. [Google Scholar] [CrossRef]
[6]	Tarantola, A. (2005) Inverse Problem Theory and Methods for Model Parameter Estimation. Society for Industrial & Applied Mathematics. [Google Scholar] [CrossRef]
[7]	Yin, M., Zhang, E., Yu, Y. and Karniadakis, G.E. (2022) Interfacing Finite Elements with Deep Neural Operators for Fast Multiscale Modeling of Mechanics Problems. Computer Methods in Applied Mechanics and Engineering, 402, Article ID: 115027. [Google Scholar] [CrossRef] [PubMed]
[8]	Wang, X. and Sun, W. (2022) Solving Nonlinear Reaction-Diffusion Systems via Neural Networks. Physics Letters A, 426, Article ID: 127897
[9]	Lu, L., Jin, P. and Karniadakis, G.E. (2019) DeepXDE: A Deep Learning Library for Solving Differential Equations. SIAM Journal on Scientific Computing, 41, A2423-A2446.

为你推荐

友情链接