多精度计算机试验的高维代理模型

doi:10.12677/sa.2025.148235

期刊菜单

多精度计算机试验的高维代理模型
High-Dimensional Surrogate Modeling for Multi-Fidelity Computer Experiments

DOI: 10.12677/sa.2025.148235, PDF, HTML, XML, 科研立项经费支持
作者: 陈璇：国防科技大学理学院，湖南长沙；崔婷：中国科学院大学数学科学学院，北京；中国科学院数学与系统科学研究院，北京；吕磊：南京电子设备研究所，江苏南京；黄思源^*：北京工业大学数学统计学与力学学院，北京
关键词: 多精度计算机试验；高斯过程回归；变换可加高斯过程；嵌套拉丁超立方设计；Multi-Fidelity Computer Experiments； Gaussian Process Regression； Transformation Additive Gaussian Process； Nested Latin Hypercube Design

摘要: 多精度计算机试验结合不同精度的数据，以降低计算成本并提高预测精度。然而，在高维问题中，传统方法面临计算复杂度高、数据稀疏性强等挑战。本文提出一种基于变换可加高斯(TAG)过程的高维多精度代理模型，并结合嵌套设计，在精度层级间构建层级化误差修正关系。该方法有效提升了高维情形下的建模精度和计算效率。数值实验表明，本文提出的方法在高维问题中优于传统的多精度高斯过程模型，适用于高维情形下的多精度计算机试验的代理建模。

Abstract: Multi-fidelity computer experiments integrate data of varying fidelity levels to reduce computational costs and improve prediction accuracy. However, traditional methods face challenges in high-dimensional problems due to high computational complexity and severe data sparsity. This paper proposes a high-dimensional multi-fidelity surrogate model based on the transformation additive Gaussian (TAG) process and incorporates the nested design to establish a hierarchical error correction relationship. The proposed approach effectively enhances modeling accuracy and computational efficiency in high-dimensional cases. Numerical experiments demonstrate that this method outperforms traditional multi-fidelity Gaussian process models in high-dimensional settings, making it well-suited for surrogate modeling of high-dimensional multi-fidelity computer experiments.

文章引用：陈璇, 崔婷, 吕磊, 黄思源. 多精度计算机试验的高维代理模型[J]. 统计学与应用, 2025, 14(8): 284-296. https://doi.org/10.12677/sa.2025.148235

1. 引言

在计算科学与工程领域，计算机试验被广泛用于模拟复杂物理[1]、化学[2]、生物[3]等系统，以辅助科学研究与工程设计。然而，随着计算问题的复杂度和维度的增加，高精度计算模型往往需要大量计算资源，使得直接进行高精度仿真变得极为昂贵甚至不可行。为了解决这一问题，多精度建模(multi-fidelity modeling)逐渐成为一种有效的替代方案，其核心目标是通过融合不同精度数据源实现高效建模与预测。它结合了高精度模型和低精度模型的优势，以较低的计算成本获得可靠的预测结果。其中，多精度高斯过程(Multi-Fidelity Gaussian Process, MFGP)是最常见的建模方法之一。例如，在碳纤维/环氧树脂层合板的冲击损伤预测中，高精度模型采用晶体塑性有限元模拟单晶尺度的滑移系与位错演化，而低精度模型基于宏观各向异性损伤本构方程。通过高斯过程回归建立微观–宏观应变场的映射关系，仅在关键载荷步调用高精度数据，最终将误差控制在8%以内，显著提升计算效率[4]。多精度高斯过程基于经典的高斯过程(Gaussian Process, GP) [5]回归方法，利用不同精度层级的数据来提高预测精度，同时降低计算成本。Kennedy和O’Hagan [6]提出的经典协方差加权(Co-Kriging)方法假设低精度模型与高精度模型之间满足线性相关关系，并利用贝叶斯框架进行联合建模。该模型在多精度计算机试验的各个领域做出了重大贡献[7]-[9]，为多精度建模奠定了基础。基于此框架，Perdikaris [10]提出了一种结合非线性自回归的多精度高斯过程，能够在多精度数据中学习复杂的非线性和空间相关性。Qian [11] [12]，Le Gratiet [13] [14]和Ji [15]等人研究了高效后验预测和贝叶斯不确定性量化的建模策略。这些方法通常基于以下假设：低精度模型能够捕捉高精度模型的主要趋势，而残差或偏差可以通过统计方法进行修正。与此同时，多精度模型也在不断地发展与应用，在工程优化领域，NASA研究中心于2017年开发出EGO-MF (Efficient Global Optimization with Multi-Fidelity)算法[16]，其核心在于引入了贝叶斯主动学习机制，通过EI (Expected Improvement)函数动态分配高、低精度样本的采样位置。麻省理工学院(MIT)研究团队于2016年提出的Deep MFGP (Deep Multi-Fidelity Gaussian Processes) [17]，通过堆叠式神经网络自动提取输入–输出空间的非线性映射特征，并耦合高斯过程实现不确定性量化。尽管多精度高斯过程在低维问题上取得了成功，但在高维场景下面临诸多挑战。首先，高斯过程的计算复杂度随样本数量和输入维度的增加呈指数级增长，导致计算成本过高。而多精度模型需同时处理高、低精度数据的协方差矩阵，进一步加剧计算负担。此外，高维空间的样本分布稀疏性和非线性交互效应导致传统协方差核(如径向基核)难以建模此类复杂结构。因此，如何在高维多精度计算机试验中构建高效且准确的代理模型仍然是一个重要的研究问题。Tsilifis等人[18]提出了一种利用低维投影的贝叶斯高斯过程建模方法，以降低高维建模的困难。但线性投影假设可能无法捕捉复杂的非线性降维关系，从而导致信息损失。同时基于贝叶斯推断和哈密顿蒙特卡洛的采样方法仍有着较高的计算量。Wu等人[19]提出了一种多精度分层神经过程(Multi-Fidelity Hierarchical Neural Processes, MF-HNP)模型，用于解决高维非嵌套多精度数据的代理建模问题。但模型需要大量数据来提升预测性能，若数据不足或质量差，模型表现可能受限。

本文提出了一种基于变换可加高斯(Transformation Additive Gaussian, TAG)过程的新型多精度建模方法。TAG过程由Lin和Roshan [20]于2020年提出，是一种适用于高维问题的高斯过程建模方法。与传统的高斯过程模型不同，TAG过程通过对响应变量进行适当的变换，使复杂的高维函数在变换后的尺度上近似满足加性结构，从而将高维问题降解为多个低维问题，有效降低了高维优化问题的复杂度。在本文中，我们结合嵌套设计，在不同精度水平的数据之间构建层级化的误差修正关系，使得最终的高精度预测可以通过低精度模型及其修正函数高效获取。该方法不仅能够降低计算成本，还能够在高维问题中保持较好的预测精度。本文的主要贡献如下：提出了一种适用于高维空间的多精度代理建模框架，该框架结合嵌套设计与TAG过程，有效利用不同精度级别的数据，实现精度层级间的信息传递；通过数值实验验证该方法在高维多精度计算机试验中的有效性，并与现有方法进行对比分析。本文的其余部分安排如下：第二部分介绍变换可加高斯过程；第三部分详细描述所提出的高维多精度代理模型的构建；第四部分进行数值实验分析，验证方法的有效性；第五部分总结全文。

2. TAG过程介绍

在许多计算机试验和高维复杂系统的建模问题中，传统的高斯过程方法由于全局协方差矩阵的高维优化、参数识别困难以及对变量间复杂交互效应的处理不足，常常难以满足大规模、高维数据分析的需求。为此，Lin和Roshan [20]提出了一种基于响应变量转换的模型：TAG过程。其核心思想在于对响应变量进行适当变换，使得原本非线性且含有交互效应的函数在转换后的尺度上尽可能呈现出加性结构，从而实现对各自单变量效应的分解，同时通过引入适当的修正项捕捉残留的交互效应。

考虑一个确定性函数

$y = f (x),$

其中 $y$ 为响应变量， $x = (x_{1}, x_{2}, \dots, x_{p})$ 为 $p$ 维输入变量。传统GP方法直接对 $y$ 建模，但在无噪声情形下直接拟合高维函数不仅需要大量数据，而且计算复杂度较高。TAG过程首先引入变换函数 $g (\cdot)$ ，如Box-Cox变换，其定义为[21]

$g_{λ} (y) = {\begin{array}{l} \frac{y^{λ} - 1}{λ}, if λ \neq 0 \\ \log y, if λ = 0 \end{array}$

其中 $λ$ 为需要估计的参数。通过这种变换，可以期望使得转换后的响应满足加性，即假设有

$g_{λ} (y) = μ + \sum_{k = 1}^{p} z_{k} (x_{k}) + ε (x),$

其中 $μ$ 为全局均值， $z_{k} (x_{k})$ 表示仅依赖于第 $k$ 个自变量的单变量效应，而 $ε (x)$ 为较小的误差项，满足 $ε (x) ~ N (0, σ^{2})$ 。类似于传统的高斯过程，我们可以使用贝叶斯框架得到预测函数。假设 $z_{k} (x_{k})$ 为零均值的高斯过程，则其具有正态先验

其中 $τ_{k}^{2}$ 为方差， $R_{k} (h) = C o r {z_{k} (x_{k}), z_{k} (x_{k} + h)}$ 为平稳相关函数，常用的选择是高斯相关函数

$R_{k} (h) = \exp {- \frac{h^{2}}{s_{k}^{2}}},$

其中 $s_{k}$ 为尺度参数。定义整体方差为

$τ^{2} = \sum_{k = 1}^{p} τ_{k}^{2},$

并设权重参数

$ω_{k} = \frac{τ_{k}^{2}}{τ^{2}}, 满足 \sum_{k = 1}^{p} ω_{k} = 1,$

则整体加性协方差函数可以构造为

$R (h) = \sum_{k = 1}^{p} ω_{k} R_{k} (h_{k}) .$

因此，TAG过程在转换后的尺度上可表示为

$g_{λ} (y) = μ + z (x) + ε (x), 其中 z (x) ~ G P (0, τ^{2} R (\cdot)) .$

给定数据 ${(x_{i}, y_{i})}_{i = 1}^{n}$ ，经过变换得到 $g_{λ} (y) = {(g_{λ} (y_{1}), \dots, g_{λ} (y_{n}))}^{'}$ ，定义 $δ = σ^{2} / τ^{2}$ (作为“nugget”参数，反映模型逼近误差)，则 $g_{λ} (y)$ 具有分布

且 $z (x)$ 的后验分布为

$z (x) | y ~ N (\hat{z} (x), τ^{2} {1 + δ - r {(x)}^{'} {(R + δ I)}^{- 1} r (x)}),$

其中 $\hat{z} (x) = r {(x)}^{'} {(R + δ I)}^{- 1} (g (y) - μ 1)$ ， $r (x) = {(R (x - x_{1}), \dots, R (x - x_{n}))}^{'}$ ， $R = {(R (x_{i}, x_{j}))}_{n \times n}$ ， $I$ 为单位矩阵， $1$ 表示元素全为1的列向量。

下面通过贝叶斯框架得到未知参数的估计。数据变换 $g_{λ} (y)$ 在非信息先验下，对参数 $θ = (μ, τ^{2}, δ, ω, s, λ)$ 的后验分布与边际似然有关，其对数似然包含项

$- \frac{n}{2} \log τ^{2} - \frac{1}{2} \log | R + δ I | - \frac{1}{2 τ^{2}} {[g_{λ} (y) - μ 1]}^{'} {(R + δ I)}^{- 1} [g_{λ} (y) - μ 1],$

以及由于变换引入的雅可比校正项

$\prod_{i = 1}^{n} y_{i}^{λ - 1} .$

通过最大化此边际似然，可以获得 $μ$ 与 $τ^{2}$ 的估计，即

$\hat{μ} = \frac{1^{'} {(R + δ I)}^{- 1} g_{λ} (y)}{1^{'} {(R + δ I)}^{- 1} 1},$

${\hat{τ}}^{2} = \frac{1}{n} {[g_{λ} (y) - \hat{μ} 1]}^{'} {(R + δ I)}^{- 1} [g_{λ} (y) - \hat{μ} 1],$

而其他参数(如 $δ, λ, s, ω$ )则需要通过数值优化求得。得益于模型的加性结构，初始参数可以利用回归拟合(例如借助R包 $m g c v$ 中的backfitting算法[22])以及一维GP拟合快速获得，从而将原在 $2 p + 2$ 维空间中的全局优化问题降至低维问题，显著提高了计算效率。

尽管TAG过程经过适当的响应变换后能够较好地近似加性结构，但在实际问题中，转换后的响应仍可能存在部分高阶交互效应。为此，TAAG (Transformed Approximately Additive Gaussian)过程在TAG过程的基础上对误差项 $ε (x)$ 进行进一步建模，假设其服从具有平稳协方差结构的高斯过程，即

$ε (x) ~ G P (0, σ^{2} L (\cdot)),$

其中 $L (\cdot)$ 一般采用乘积型高斯相关函数

$L (h) = \prod_{k = 1}^{p} \exp {- \frac{h_{k}^{2}}{γ_{k}^{2}}},$

$γ_{k}$ 为误差过程的尺度参数。这样，TAAG过程整体可以表示为

其中

$ν^{2} = τ^{2} + σ^{2}, η = \frac{σ^{2}}{τ^{2} + σ^{2}} \in [0, 1] .$

参数 $η$ 控制了非加性成分的贡献：当 $η$ 趋近于0时，TAAG过程退化为TAG过程；而较大的 $η$ 则表明转换后仍存在显著的交互效应。

在参数估计方面，为避免高维优化的复杂性，通常先利用TAG过程得到 $λ, ω, s$ 的初步估计，再固定这些参数，对TAAG过程中混合参数 $η$ 及误差过程尺度参数 $γ$ 进行一维或二维优化，从而大幅降低整体优化问题的维度。

模型的预测部分依然利用GP的条件分布性质构造。给定观测数据，预测点 $x$ 处转换后响应的后验分布为

其中预测均值为

预测方差为

其中 $l (x) = L (x - x_{1}, \dots, x - x_{j})$ 。由于 $g_{λ} (\cdot)$ 通常为非线性函数，为便于逆变换和不确定性量化，实际中常采用预测中位数作为最终预测值，并通过数值方法计算可信区间。

总之，TAG过程通过对响应变量进行Box-Cox等变换，将原始复杂的高维函数转化为各变量主效应的加性组合，不仅改善了预测精度，还通过参数 $ω_{k}$ 直观地反映了各变量的重要性；而TAAG过程在此基础上引入平滑的误差过程，通过参数 $η$ 捕捉转换后残留的交互效应，进一步提高了模型的灵活性与不确定性量化能力。两者均采用经验贝叶斯方法进行参数估计，并利用加性结构大幅降低全局优化的计算复杂度，使得在大样本与高维数据下仍具有良好的适用性。因此，TAG与TAAG过程不仅在预测性能上优于传统GP模型，同时在解释性、可视化及变量敏感性分析方面也提供了有力支持。

3. 基于TAG过程的多精度建模

3.1. 嵌套设计与样本构造

以两精度计算为例，我们假设存在两个计算机代码，其中低精度代码(LC)运行成本低但精度有限，而高精度代码(HC)精度更高但运行代价较大。基于HC和LC数据构建多精度代理模型的研究受到广泛关注，其基本思路通常是先利用一对嵌套的空间填充设计(如嵌套拉丁超立方设计[23] [24])对HC与LC分别进行采样，再基于LC数据构建初步预测模型，并利用HC数据对模型进行修正和校准[6] [25]-[27]。在此过程中，嵌套设计的思想对多精度建模具有重要意义，因为它能够确保低精度样本包含高精度样本，即满足 $(D_{H C} \subset D_{L C})$ ，从而在两个层次之间建立稳固的结构关联，降低数据不匹配带来的误差。

嵌套设计的核心在于在同一设计空间内，通过构造一个空间填充设计作为LC样本，并从中选取一部分点作为HC样本来实现。这样，高精度样本不仅在空间上均匀分布，还能完全包含于低精度样本中，有效保证了两层数据之间的一致性，为后续模型校正提供了便利。此外，为了进一步优化样本构造，通常会采用最大熵设计、空间填充度等准则[28] [29]来挑选HC样本，以确保这些点在设计空间中具有良好的代表性和均匀覆盖性。这种嵌套设计结构不仅在一次性设计中具有优势，更适用于序贯设计策略。Xiong等人[30]通过逐步扩充LC样本的同时，保持HC样本作为其子集，可以在每一阶段都评估代理模型的预测性能，并根据交叉验证误差或条件交叉验证误差决定是否需要新增样本。这样的数据驱动式采样过程，不仅节省了HC计算资源，还能动态调整设计规模，使得多精度代理模型既能充分利用廉价的低精度信息，又能通过高精度样本及时校正模型偏差，从而达到精度和稳定性的提升。因此，嵌套设计不仅保证了多精度数据的一致性，还为TAG过程在高维情形下的有效建模提供了充足的样本支持和均匀的空间覆盖，进而提升模型的解释性与预测能力。

3.2. 基于TAG过程的多精度建模

在多精度计算机试验中，我们希望通过低精度数据与少量高精度数据的结合，构建一个能够逼近高精度结果的高效代理模型。传统方法通常采用GP对低精度数据建模，并进一步建模高低精度数据之间的偏差模型。然而，在高维情况下，GP建模的计算复杂度较高，同时难以有效捕捉变量间的复杂非线性关系。本节以TAAG过程为例，构建多精度模型，以提高建模精度并降低计算成本。

首先，以两精度为例，利用嵌套设计生成低精度样本 $D_{l} = {(x_{1}, y_{1}^{(l)}), \dots, (x_{n_{l}}, y_{n_{l}}^{(l)})}$ 和高精度样本 $D_{h} = {(x_{1}, y_{1}^{(h)}), \dots, (x_{n_{h}}, y_{n_{h}}^{(h)})}$ ，满足 $D_{h} \subset D_{l}$ ，其中 $y^{(l)} = (y_{1}^{(l)}, \dots, y_{n_{l}}^{(l)})$ 与 $y^{(h)} = (y_{1}^{(h)}, \dots, y_{n_{h}}^{(h)})$ 分别表示低精度响应和高精度响应。利用TAAG过程对低精度数据进行建模，即

$g_{λ^{(l)}} (y^{(l)} (x)) = μ^{(l)} + \sum_{k = 1}^{p} z_{k}^{(l)} (x_{k}) + ε^{(l)} (x),$

其中 $g_{λ^{(l)}}$ 表示Box-Cox变换函数， $λ^{(l)}$ 为变换参数。 $z_{k}^{(l)} (x_{k}) ~ GP (0, τ_{k}^{(l) 2} R_{k}^{(l)} (\cdot))$ 包含尺度参数 $s_{k}^{(l)}$ ；残差项 $ε^{(l)} (x) ~ GP (0, σ^{(l)}^{2} L^{(l)} (\cdot))$ ，采用乘积高斯相关函数 $L^{(l)} (h) = \prod_{k = 1}^{p} \exp (- h_{k}^{2} / γ_{k}^{(l) 2})$ ，用来捕捉未被可加结构解释的交互效应。参数集 $θ^{(l)} = (μ^{(l)}, ν^{(l) 2}, λ^{(l)}, ω^{(l)}, s^{(l)}, τ^{(l) 2}, γ^{(l)}, η^{(l)})$ 通过最大化边际似然函数估计，正如Lin [20]所介绍的那样，可以使用一些策略来简化计算。例如固定 $λ^{(l)}, ω^{(l)}, s^{(l)}$ 为TAG过程中的估计值，构造一个GP来拟合 $g_{λ^{(l)}} (y^{(l)} (x))$ ，获得 $γ^{(l)}$ 的估计值，给参数 $η^{(l)}$ 一个Beta先验等，使得最后所需要估计的参数仅有 $μ^{(l)}$ ， $ν^{(l) 2}$ 和 $η^{(l)}$ ，进一步由贝叶斯公式有

${\hat{η}}^{(l)} = \arg \min_{η^{(l)}} \log | (1 - η^{(l)}) {\hat{R}}^{(l)} + η^{(l)} L^{(l)} | + n \log {\hat{ν}}^{(l) 2} - 2 \log {η^{(l)} (1 - η^{(l)})},$

其中

${\hat{μ}}^{(l)} = \frac{1^{'} {(1 - η^{(l)}) {\hat{R}}^{(l)} + η^{(l)} L^{(l)}}^{- 1} g_{{\hat{λ}}^{(l)}} (y^{(l)})}{1^{'} {(1 - η^{(l)}) {\hat{R}}^{(l)} + η^{(l)} L^{(l)}}^{- 1} 1},$

${\hat{ν}}^{(l) 2} = \frac{1}{n} {(g_{{\hat{λ}}^{(l)}} (y^{(l)}) - {\hat{μ}}^{(l)} 1)}^{'} {(1 - η^{(l)}) {\hat{R}}^{(l)} + η^{(l)} L^{(l)}}^{- 1} (g_{{\hat{λ}}^{(l)}} (y^{(l)}) - {\hat{μ}}^{(l)} 1),$

其中 ${\hat{R}}^{(l)}$ 为 $R^{(l)}$ 将 $ω^{(l)}$ 和 $s^{(l)}$ 代入后的近似， $L^{(l)} = {(L^{(l)} (x_{i} - x_{j}))}_{n_{l} \times n_{l}}$ 。

变换后低精度函数具有后验分布

其中 $\hat{g ° y^{(l)}} (x)$ ， $V^{(l)} (x)$ 分别为 $\hat{g ° y} (x)$ 和 $V (x)$ 对应低精度的形式。我们进一步构建偏差修正模型，假设高精度响应可以表示为

$y^{(h)} (x) = y^{(l)} (x) + δ (x),$

我们将修正项利用TAAG过程进行建模，由于经典的Box-Cox变换仅适用于响应变量为正的情况，这里采用其拓展形式[21]

$g_{λ} (y) = {\begin{array}{l} \frac{{(y + λ_{2})}^{λ_{1}} - 1}{λ_{1}}, if λ_{1} \neq 0 \\ \log (y + λ_{2}), if λ_{1} = 0 \end{array}$

从而

$g_{λ_{δ}} (δ (x)) = μ_{δ} + \sum_{k = 1}^{p} z_{δ, k} (x_{k}) + ϵ_{δ} (x),$

其中 $λ_{δ} = (λ_{δ 1}, λ_{δ 2})$ 为未知参数，在实际操作中，我们需要选择 $λ_{δ 2}$ ，满足 $δ + λ_{δ 2} > 0$ 。其参数利用高低精度残差 ${y^{(h)} (x_{i}) - y^{(l)} (x_{i})}$ 来优化，具有分布

其中 $\hat{g ° y_{δ}} (x)$ ， $V_{δ} (x)$ 分别为 $\hat{g ° y} (x)$ 和 $V (x)$ 对应偏差 $δ$ 的形式。最终的高精度预测模型为

$\hat{y} (x) = {\hat{y}}^{(l)} (x) + \hat{δ} (x) .$

这一建模策略充分结合了低精度数据的计算优势和高精度数据的精度优势，在保证计算成本可控的同时，实现高维数据下的高精度预测。实验结果表明，该方法在多个高维测试问题上均取得了优于传统高斯过程建模的效果。

此外，我们可以基于分布构造高精度预测模型的可信区间。从转换后的分布 $g_{λ^{(l)}} ° y^{(l)} (x) | y^{(l)}$ 和 $g_{λ_{δ}} ° y_{δ} (x)$ 中抽取独立样本，通过逆变换函数(如Box-Cox逆变换 $g_{λ}^{- 1} (\cdot)$ )将样本映射至原始响应尺度，得到低精度预测样本 $y_{i}^{(l)} = g_{λ}^{- 1} (g_{λ} (y_{i}^{(l)}))$ 和修正项样本 $δ_{i}^{(l)} = g_{λ_{δ}}^{- 1} (g_{λ_{δ}} (δ_{i}^{(l)}))$ ，将二者逐点叠加生成高精度预测样本 $y_{i}^{(h)} = y_{i}^{(l)} + δ_{i}^{(l)}$ ，从而 $100 (1 - α) %$ 可信区间为

$[y_{[(α / 2) n]}^{(h)}, y_{[(1 - α / 2) n]}^{(h)}],$

其中为 $y_{i}^{(h)}$ 的次序统计量中第i个值， $[\cdot]$ 表示取整函数。

我们可以把这一过程拓展到多精度试验中。假设存在 $L$ 个精度层级，其中第 $l$ 层级( $l = 1, \dots, L$ )的响应函数为 $y^{(l)} (x)$ ，且 $y^{(l)} (x)$ 为计算成本最高的高精度模型。采用嵌套设计生成层级化试验点集 ${D^{(l)}}_{l = 1}^{L}$ ，满足严格的嵌套性：低层级设计 $D^{(l)}$ 完全包含于高层级设计 $D^{(l + 1)}$ 中，即 $D^{(1)} \subset D^{(2)} \subset \dots \subset D^{(L)}$ 。每个层级 $l$ 包含 $n_{l}$ 个样本点( $n_{1} < n_{2} < \dots < n_{L}$ )。针对各层级数据，首先建立单层TAAG过程。对于第 $l$ 层级的响应 $y^{(l)} (x)$ ，通过Box-Cox变换 $g_{λ^{(l)}} (\cdot)$ 将其映射至可加空间：

$g_{λ^{(l)}} (y^{(l)} (x)) = μ^{(l)} + \sum_{k = 1}^{p} z_{k}^{(l)} (x_{k}) + ϵ^{(l)} (x),$

类似地， $z_{k}^{(l)} (x_{k}) ~ GP (0, τ_{k}^{(l) 2} R_{k}^{(l)} (x_{k}, {x^{'}}_{k}; s_{k}^{(l)}))$ 为独立的高斯过程分量， $ε^{(l)} (x) ~ GP (0, σ^{(l)}^{2} L^{(l)} (\cdot))$ ，参数集 $θ^{(l)} = (λ^{(l)}, τ^{(l) 2}, σ^{(l) 2}, ω^{(l)}, s^{(l)}, γ^{(l)}, η^{(l)})$ 仍通过最大化边际似然函数估计。其中，可以将初始值通过嵌套设计传递，高层级的参数 $θ^{(l + 1)}$ 初始化为低层级的估计值 $θ^{(l)}$ ，以充分利用低层级数据的先验信息。为融合多层级信息，进一步构建层级间误差修正模型。假设相邻层级间存在线性映射关系，定义第 $l + 1$ 层级响应为：

$y^{(l + 1)} (x) = y^{(l)} (x) + δ^{(l)} (x),$

修正项 $δ^{(l)} (x)$ 采用TAAG模型建模：

$g_{λ_{δ}^{(l)}} (δ^{(l)} (x)) = μ_{δ}^{(l)} + \sum_{k = 1}^{p} z_{δ, k}^{(l)} (x_{k}) + ϵ_{δ}^{(l)} (x),$

其参数 $θ_{δ}^{(l)}$ 基于高层级残差 ${y^{(l + 1)} (x_{i}) - {\hat{y}}^{(l)} (x_{i})}$ 优化。最终，综合预测模型通过递归修正实现：

${\hat{y}}^{(L)} (x) = {\hat{y}}^{(1)} (x) + \sum_{l = 1}^{L - 1} {\hat{δ}}^{(l)} (x),$

其中 ${\hat{y}}^{(1)} (x)$ 为最低精度模型预测值，修正项 ${\hat{δ}}^{(l)} (x)$ 逐层级叠加，逐步逼近高精度响应。

4. 数值实验

为验证所提出的多精度TAG过程的有效性，本节选取五种高维测试函数以及Borehole函数数值实验，并比较了四种不同方法在嵌套拉丁超立方设计生成的高低精度数据上的效果。

4.1. 高低精度测试函数

用MFTAG表示本文所提出的方法，其中变换函数为Box-Cox变换及其拓展形式。MFGP表示传统的多精度高斯过程，使用了R中的DiceKriging包[31]来实现。MFTAGH和MFGPH表示仅使用高精度数据的建模结果。其中高精度样本数量 $n_{h}$ 和低精度样本数量 $n_{l}$ 与维度 $p$ 有关，在低维情形( $p < 10$ )时， $n_{h} = 20$ ， $n_{l} = 40$ ；当 $p = 10$ 时， $n_{h} = 100$ ， $n_{l} = 200$ ；当 $p = 20$ 时， $n_{h} = 180$ ， $n_{l} = 360$ 。每种方法重复100次，比较它们的均方预测误差(Mean Squared Prediction Error, MSE)的结果

$\frac{1}{10, 000} \sum_{k = 1}^{10, 000} {[{\hat{y}}_{h} (x_{i}) - y_{h} (x_{i})]}^{2},$

其中 $x_{1}, \dots, x_{10000}$ 由拉丁超立方设计生成，结果展示在表1中。测试函数形式如下：

Model 1来自Currinet等[28]，其中高精度函数为

$y_{h} = [1 - \exp (- \frac{1}{2 x_{2}})] \frac{2300 x_{1}^{3} + 1900 x_{1}^{2} + 2092 x_{1} + 60}{100 x_{1}^{3} + 500 x_{1}^{2} + 4 x_{1} + 20} .$

低精度函数为

$\begin{matrix} y_{l} = [y_{h} (x_{1} + 1 / 20, x_{2} + 1 / 20) + y_{h} (x_{1} + 1 / 20, \max (0, x_{2} - 1 / 20)) \\ + y_{h} (x_{1} - 1 / 20, x_{2} + 1 / 20) + y_{h} (x_{1} - 1 / 20, \max (0, x_{2} - 1 / 20))] / 4 . \end{matrix}$

Model 2来自Cox等[32]，其中高精度函数为

$y_{h} = \frac{2}{3} \exp (x_{1} + x_{2}) - x_{4} \sin (x_{3}) + x_{3} .$

低精度函数为

$y_{l} = 1.2 y_{h} - 1.$

Model 3来自Cox等[32]，高精度函数为

$y_{h} = \frac{x_{1}}{2} [\sqrt{1 + (x_{2} + x_{3}^{2}) x_{4} / x_{1}^{2}} - 1] + (x_{1} + 3 x_{4}) \times \exp [1 + \sin (x_{3})] .$

低精度函数为

$y_{l} = [1 + \sin (x_{1}) / 10] y_{h} (x_{1}, x_{2}, x_{3}, x_{4}) - 2 x_{1} + x_{2}^{2} + x_{3}^{2} + 0.5.$

Model 4为一个加权模型，高精度函数为

$y_{h} = \sum_{j = 1}^{p} j x_{j}^{2},$

低精度函数为

$y_{l} = 1.2 y_{h} - 1.$

Model 5为Ackley函数，高精度函数为

$y_{h} = 20 \exp (- \frac{1}{5} \sqrt{\frac{1}{p} \sum_{j = 1}^{p} x_{j}^{2}}) + \exp (\frac{1}{p} \sum_{j = 1}^{p} 2 π x_{j}) - 20 - \exp (1),$

低精度函数为

$y_{l} = 20 \exp (- \frac{1}{4} \sqrt{\frac{1}{p} \sum_{j = 1}^{p} x_{j}^{2}}) + \exp (\frac{1}{p} \sum_{j = 1}^{p} 6 x_{j}) - 20,$

Model 6为Levy函数，高精度函数为

$y_{h} = \sin^{2} (π w_{1}) + \sum_{i = 1}^{d - 1} {(w_{i} - 1)}^{2} [1 + 10 \sin^{2} (π w_{i} + 1)] + {(w_{d} - 1)}^{2} [1 + \sin^{2} (2 π w_{d})],$

低精度函数为

$y_{1} = \sin^{2} (3 w_{1}) + \sum_{i = 1}^{d - 1} {(w_{i} - 1)}^{2} [1 + 10 \sin^{2} (3 w_{i} + 1)] + {(w_{d} - 1)}^{2} [1 + \sin^{2} (6 w_{d})],$

其中 $w_{i} = 1 + \frac{x_{i} - 1}{4}, \dots, d$ 。

Model 7为Dixon-Price函数，高精度函数为

$y_{h} = {(x_{1} - 1)}^{2} + \sum_{i = 2}^{d} i {(2 x_{i}^{2} - x_{i - 1})}^{2}$

低精度函数为

$y_{l} = 1.15 y_{h} - 0.5 \sin (1.5 y_{h}) + 0.3 \frac{y_{h}^{3}}{1 + {| y_{h} |}^{2}} - 0.7$

Model 8为Trid函数，高精度函数为

$y_{h} = \sum_{i = 1}^{d} {(x_{i} - 1)}^{2} - \sum_{i = 2}^{d} x_{i} x_{i - 1}$

低精度函数为

$y_{1} = 1.1 y_{h} - 0.6 \tanh (2 y_{h}) + 0.4 e^{- 0.5 y_{h}^{2}} - 0.8.$

Table 1. Result of MSE

表1. MSE结果

模型	维度	MFTAG	MFGP	MFTAGH	MFGPH
Model 1	2	0.0697 (0.2539)	0.4545 (0.7038)	0.4023 (1.0663)	1.4729 (2.2093)
Model 2	4	0.0003 (0.0005)	0.0005 (0.0002)	0.0069 (0.0128)	0.0066 (0.0042)
Model 1	10	0.0062 (0.0105)	0.0459 (0.0120)	0.0258 (0.0436)	0.1431 (0.0581)
Model 2	10	0.0006 (0.0002)	0.0010 (0.0002)	0.0013 (0.0006)	0.0041 (0.0008)
Model 3	10	0.0126 (0.0056)	0.0175 (0.0027)	0.0309 (0.0094)	0.0691 (0.0150)
Model 1	20	0.0046 (0.0090)	0.0657 (0.0094)	0.0219 (0.0472)	0.1480 (0.0259)
Model 2	20	0.0006 (0.0001)	0.0038 (0.0004)	0.0016 (0.0004)	0.0089 (0.0012)
Model 3	20	0.0261 (0.0214)	0.0834 (0.0080)	0.0311 (0.0065)	0.1536 (0.0234)
Model 4	20	0.0004 (0.0001)	1.6071 (0.1631)	0.0014 (0.0002)	3.1833 (0.2911)
Model 5	20	0.4016 (0.1567)	1.9317 (0.2356)	0.4724 (0.2308)	4.5311 (0.5965)
Model 6	20	0.7832 (0.4279)	14.9139 (0.7906)	2.8917 (0.8951)	16.1598 (0.4951)
Model 7	20	0.1162 (0.0112)	0.1370 (0.0065)	0.5161 (0.1981)	0.8941 (0.1566)
Model 8	20	0.1123 (0.0574)	0.1774 (0.0198)	0.5958 (0.1566)	0.6161 (0.1561)

表1中括号内为标准差，从表中结果可以看出本文所提方法的结果在多数情形下显著优于基于传统的多精度高斯过程，表明了TAG过程在高维度的多精度计算机试验建模中的优越性。但在交互情形较为严重的情形(如Model 7和Model 8)，MFTAG有着和MFGP相近的效果，表明在该情形下TAG过程以及所使用的Box-Cox变换未能完全捕捉到交互效应，未来可采用其他变换来改进效果。

4.2. Borehole函数

接下来我们使用Borehole函数[33]来验证我们所提出的方法，即

$y_{h} = \frac{2 π T_{u} (H_{u} - H_{l})}{\log (r / r_{w}) [1 + \frac{2 L T_{u}}{\log (r / r_{w}) r_{w}^{2} K_{w}} + T_{u} / T_{l}]} .$

该函数描述了地下水通过钻孔从地表穿越两个含水层的流动过程，是一类典型的水文地质模拟问题。该函数因其非线性特性和广泛应用，是计算机试验研究中常用的测试函数之一。该模型中八个变量的取值范围分别为： $r_{w} = (0.05, 0.15)$ ， $r = (100, 50, 000)$ ， $T_{u} = (63, 070, 115, 600)$ ， $H_{u} = (990, 1110)$ ， $T_{l} = (63.1, 116)$ ， $H_{l} = (700, 820)$ ， $L = (1120, 1680)$ ， $K_{w} = (1500, 15, 000)$ 。其所对应的低精度版本来自Xiong等人[30]

$y_{l} = \frac{5 T_{u} (H_{u} - H_{l})}{\log (r / r_{w}) [1.5 + \frac{2 L T_{u}}{\log (r / r_{w}) r_{w}^{2} K_{w}} + T_{u} / T_{l}]} .$

在此模型中，我们选取高精度样本数量 $n_{h} = 320$ ，低精度样本数量 $n_{l} = 640$ ，每种方法仍重复100次，比较MSE结果。经计算，MFTAG、MFGP、MFTAGH、MFGPH所对应的MSE分别为0.0672 (0.0710)，0.1308 (0.0280)，0.0891 (0.0976)，0.5053 (0.0987)，其中括号内为标准差。结果表明本文所提方法仍优于传统的多精度高斯过程方法。

5. 总结

本文提出了一种基于变换加性高斯过程的多精度建模方法，用于解决高维多精度计算机试验中的建模问题。TAG过程通过变换后的响应变量建立可加结构，每个变量部分用独立的高斯过程建模。并通过引入额外的平稳高斯过程来处理可能的高阶交互效应，同时通过分步拟合和一维高斯过程初始化参数，减少了优化复杂度，适用于高维数据的建模。本文将TAG过程引入多精度计算机试验的建模中，利用嵌套设计以及层级化误差修正机制，显著提升了高维情形下的建模精度。数值实验也表明，本文所提方法在高维多精度计算机试验中效果一致优于多精度高斯过程模型，为高维多精度问题提供了一种实用解决方案。

基金项目

国家自然科学基金项目(12171462)。

NOTES

^*通讯作者。

参考文献

[1]	邢晓莉, 王德涛. 发光塑料光谱调控的计算机模拟与分析[J]. 合成树脂及塑料, 2025, 42(1): 64-68.
[2]	王伟文, 朱国健, 李建隆. 双氧水法制水合肼中间体提纯的数值模拟[J]. 化工学报, 2015, 66(9): 3535-3541.
[3]	邓小燕, 刘柳军, 王贵学. 脉动流条件下动脉狭窄血管内脂质浓度极化现象的计算机数值模拟[J]. 计算力学学报, 2005(1): 25-31.
[4]	Bessa, M.A., Bostanabad, R., Liu, Z., Hu, A., Apley, D.W., Brinson, C., et al. (2017) A Framework for Data-Driven Analysis of Materials under Uncertainty: Countering the Curse of Dimensionality. Computer Methods in Applied Mechanics and Engineering, 320, 633-667. [Google Scholar] [CrossRef]
[5]	Matheron, G. (1963) Principles of Geostatistics. Economic Geology, 58, 1246-1266. [Google Scholar] [CrossRef]
[6]	Kennedy, M. and O’Hagan, A. (2000) Predicting the Output from a Complex Computer Code When Fast Approximations Are Available. Biometrika, 87, 1-13. [Google Scholar] [CrossRef]
[7]	Kuya, Y., Takeda, K., Zhang, X. and Forrester, A.I.J. (2011) Multifidelity Surrogate Modeling of Experimental and Computational Aerodynamic Data Sets. AIAA Journal, 49, 289-298. [Google Scholar] [CrossRef]
[8]	Demeyer, S., Fischer, N. and Marquis, D. (2017) Surrogate Model Based Sequential Sampling Estimation of Conformance Probability for Computationally Expensive Systems: Application to Fire Safety Science. Journal de la Société Française de Statistique, 158, 111-138.
[9]	Patra, A., Batra, R., Chandrasekaran, A., Kim, C., Huan, T.D. and Ramprasad, R. (2020) A Multi-Fidelity Information-Fusion Approach to Machine Learn and Predict Polymer Bandgap. Computational Materials Science, 172, Article 109286. [Google Scholar] [CrossRef]
[10]	Perdikaris, P., Raissi, M., Damianou, A., Lawrence, N.D. and Karniadakis, G.E. (2017) Nonlinear Information Fusion Algorithms for Data-Efficient Multi-Fidelity Modelling. Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences, 473, Article 20160751. [Google Scholar] [CrossRef] [PubMed]
[11]	Qian, Z., Seepersad, C.C., Joseph, V.R., Allen, J.K. and Jeff Wu, C.F. (2006) Building Surrogate Models Based on Detailed and Approximate Simulations. Journal of Mechanical Design, 128, 668-677. [Google Scholar] [CrossRef]
[12]	Qian, P.Z.G., Wu, H. and Wu, C.F.J. (2008) Gaussian Process Models for Computer Experiments with Qualitative and Quantitative Factors. Technometrics, 50, 383-396. [Google Scholar] [CrossRef]
[13]	Le Gratiet, L. (2013) Bayesian Analysis of Hierarchical Multifidelity Codes. SIAM/ASA Journal on Uncertainty Quantification, 1, 244-269. [Google Scholar] [CrossRef]
[14]	Le Gratiet, L. and Garnier, J. (2014) Recursive Co-Kriging Model for Design of Computer Experiments with Multiple Levels of Fidelity. International Journal for Uncertainty Quantification, 4, 365-386. [Google Scholar] [CrossRef]
[15]	Ji, Y., Mak, S., Soeder, D., Paquet, J. and Bass, S.A. (2023) A Graphical Multi-Fidelity Gaussian Process Model, with Application to Emulation of Heavy-Ion Collisions. Technometrics, 66, 267-281. [Google Scholar] [CrossRef]
[16]	Ariyarit, A. and Kanazaki, M. (2017) Multi-Fidelity Multi-Objective Efficient Global Optimization Applied to Airfoil Design Problems. Applied Sciences, 7, Article 1318. [Google Scholar] [CrossRef]
[17]	Raissi, M. and Karniadakis, G. (2016) Deep Multi-Fidelity Gaussian Processes. arXiv:1604.07484.
[18]	Tsilifis, P., Pandita, P., Ghosh, S. and Wang, L. (2021) Dimensionality Reduction for Multi-Fidelity Gaussian Processes Using Bayesian Adaptation. AIAA Scitech 2021 Forum, Virtual Event, 11-15 January-19-21 January 2021, 1588. [Google Scholar] [CrossRef]
[19]	Wu, D., Chinazzi, M., Vespignani, A., Ma, Y. and Yu, R. (2022) Multi-Fidelity Hierarchical Neural Processes. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Washington, 14-18 August 2022, 2029-2038. [Google Scholar] [CrossRef]
[20]	Lin, L. and Roshan Joseph, V. (2019) Transformation and Additivity in Gaussian Processes. Technometrics, 62, 525-535. [Google Scholar] [CrossRef]
[21]	Box, G.E.P. and Cox, D.R. (1964) An Analysis of Transformations. Journal of the Royal Statistical Society Series B: Statistical Methodology, 26, 211-243. [Google Scholar] [CrossRef]
[22]	Wood, S.N. (2017) Generalized Additive Models: An Introduction with R. CRC Press. [Google Scholar] [CrossRef]
[23]	Qian, P.Z.G. (2009) Nested Latin Hypercube Designs. Biometrika, 96, 957-970. [Google Scholar] [CrossRef]
[24]	Qian, P.Z.G., Ai, M. and Wu, C.F.J. (2009) Construction of Nested Space-Filling Designs. The Annals of Statistics, 37, 3616-3643. [Google Scholar] [CrossRef]
[25]	Higdon, D., Kennedy, M., Cavendish, J.C., Cafeo, J.A. and Ryne, R.D. (2004) Combining Field Data and Computer Simulations for Calibration and Prediction. SIAM Journal on Scientific Computing, 26, 448-466. [Google Scholar] [CrossRef]
[26]	Reese, C.S., Wilson, A.G., Hamada, M., Martz, H.F. and Ryan, K.J. (2004) Integrated Analysis of Computer and Physical Experiments. Technometrics, 46, 153-164. [Google Scholar] [CrossRef]
[27]	Qian, P.Z.G. and Wu, C.F.J. (2008) Bayesian Hierarchical Modeling for Integrating Low-Accuracy and High-Accuracy Experiments. Technometrics, 50, 192-204. [Google Scholar] [CrossRef]
[28]	Currin, C., Mitchell, T., Morris, M. and Ylvisaker, D. (1991) Bayesian Prediction of Deterministic Functions, with Applications to the Design and Analysis of Computer Experiments. Journal of the American Statistical Association, 86, 953-963. [Google Scholar] [CrossRef]
[29]	Mitchell, T.J. (2000) An Algorithm for the Construction of “d-Optimal” Experimental Designs. Technometrics, 42, 48-54. [Google Scholar] [CrossRef]
[30]	Xiong, S., Qian, P.Z.G. and Wu, C.F.J. (2012) Sequential Design and Analysis of High-Accuracy and Low-Accuracy Computer Codes. Technometrics, 55, 37-46. [Google Scholar] [CrossRef]
[31]	Roustant, O., Ginsbourger, D. and Deville, Y. (2012) DiceKriging, DiceOptim: Two R Packages for the Analysis of Computer Experiments by Kriging-Based Metamodeling and Optimization. Journal of Statistical Software, 51, 1-55. [Google Scholar] [CrossRef]
[32]	Cox, D.D., Park, J. and Singer, C.E. (2001) A Statistical Method for Tuning a Computer Code to a Data Base. Computational Statistics & Data Analysis, 37, 77-92. [Google Scholar] [CrossRef]
[33]	Morris, M.D., Mitchell, T.J. and Ylvisaker, D. (1993) Bayesian Design and Analysis of Computer Experiments: Use of Derivatives in Surface Prediction. Technometrics, 35, 243-255. [Google Scholar] [CrossRef]

为你推荐

友情链接