求解区间优化问题的一种谱梯度法

doi:10.12677/aam.2025.147362

期刊菜单

求解区间优化问题的一种谱梯度法
A Kind of Spectral Gradient Method for Interval-Valued Optimization Problems

DOI: 10.12677/aam.2025.147362, PDF, HTML, XML,
作者: 郭二威：青岛大学数学与统计学院，山东青岛
关键词: 区间优化；广义Hukuhara导数；谱梯度法；Karush-Kuhn-Tucker条件；Interval Optimization； Generalized Hukuhara Differentiation； Spectral Gradient Method； Karush-Kuhn-Tucker Conditions

摘要: 本文主要研究区间约束优化问题的求解算法。基于广义Hukuhara导数的Karush-Kuhn-Tucker条件，结合互补结构，利用Fischer-Burmeister函数，将原区间约束优化问题转化为无约束优化问题，并给出一种谱梯度法求解转化后的问题。最后，数值实验验证了算法的有效性。

Abstract: This paper concentrates on designing an algorithm for solving interval constrained optimization problems. Based on the Karush-Kuhn-Tucker conditions utilizing generalized Hukuhara derivatives, and incorporating complementary structure, the Fischer-Burmeister function is employed to transform the original interval constrained optimization problem into an unconstrained one. A spectral gradient method for solving the transformed problem is presented. Numerical experiments verify the effectiveness of this algorithm.

文章引用：郭二威. 求解区间优化问题的一种谱梯度法[J]. 应用数学进展, 2025, 14(7): 258-268. https://doi.org/10.12677/aam.2025.147362

1. 引言

在数学优化领域，学者们对目标函数为区间的优化问题兴趣浓厚，而传统确定性数值估计易致误差，区间方法能有效描述不确定性数据，简化误差处理，而区间优化问题作为集值优化特例，对处理数值精度不足的数据至关重要。在应用方面，区间优化在工程领域具有重要意义，在航空航天、多属性决策、电荷输运等问题中具有广泛应用[1]-[3]。

众多学者深入研究区间优化问题。该问题的求解方法一般分为直接求解和转化法求解两类方法。直接求解法中，一般是定义新的区间序关系，并在此基础上进行直接求解。Inuiguchi等提出基于最大最小遗憾准则的目标区间函数系数规划方法[4]，并通过重复运用单纯性法得到解。Gong等人[5]基于区间可能度定义区间数的优劣关系，定义了基于区间数的拥挤距离，并基于排序关系和拥挤距离选择最优解。在这类方法中，对区间数排序的比较策略依赖性强，不同的比较策略会影响进化算法搜索最优解的性能。而转化法则是通过不同的转化策略将不确定优化问题转化为确定性优化问题，再用现有成熟的确定性方法进行求解。Ishibuchi等引入了区间偏序关系，将不确定区间优化问题转化为多目标确定性优化问题[6]。在文献[7]-[9]中，Wu给出了区间函数及其Pareto最优解定义，并研究多目标区间优化问题的Karush-Kuhn-Tucker最优性条件。Sun等定义区间规划的“LU”最优解，给出Fritz-John和Kuhn-Tucker最优性条件[10]。Villanueva等人研究目标函数为区间值且约束函数为实值的优化问题，提出基于广义Hukuhara次梯度和广义Hukuhara方向导数的最优性条件[11]。

谱梯度法因其几乎对所有初始值都成立以及不需要求解目标函数的Hessian矩阵的优点被广泛使用。谱梯度法的理论雏形最早可回溯至1988年，由Barzilai和Borwein在研究严格凸二次规划问题时首次提出[12]。其创新性核心思想在于：利用原问题矩阵的Rayleigh商与单位矩阵乘积所形成的标量矩阵，构造出一种近似Hessian矩阵的有效策略，进而推导出两种固定形式的步长计算公式，并且证明了对于二维凸二次函数，Barzilai和Borwein法超线性收敛于最优解。数值结果表明Barzilai和Borwein法优于普通的最速下降法，为后续优化算法的发展奠定了关键基础。在1993年，Raydan证明，目标函数为严格凸二次函数时，Barzilai和Borwein法是全局收敛的[13]，而在同样前提下，Dai和Liao于2002年证明了Barzilai和Borwein法是R-线性收敛的[14]。Xiao等人通过考虑一些修正的拟牛顿方程对这种步长选择给出了两个注释，并且给出了另外两种步长选择[15]。

由于问题的复杂性，对区间优化问题有效的求解算法一直较少，并且还没有学者将谱梯度法应用于区间优化问题。本文针对区间优化问题，旨在为区间优化问题的求解提供一种新思路，利用Villanueva等人提出的Karush-Kuhn-Tucker条件，引入线性互补问题概念，利用Fischer-Burmeister函数，将原问题转化为无约束优化问题，结合无约束优化问题的特征，提出一种谱梯度法求解，数值实验验证了转化技术与算法的有效性。

2. 预备知识

令 $K_{C} (ℝ)$ 表示所有实数紧区间的集合。若 $C \in K_{C} (ℝ)$ ，则 $C$ 可表示为 $[\underline{c}, \bar{c}]$ ，其中 $\underline{c}$ 和 $\bar{c}$ 分别表示 $C$ 的下界和上界。令 $d_{H}$ 表示Pompeiu-Hausdorff距离，定义为：

$d_{H} (C, D) = \max {| \underline{c} - \underline{d} |, | \bar{c} - \bar{d} |}$ ，

其中对任意 $C = [\underline{c}, \bar{c}], D = [\underline{d}, \bar{d}] \in K_{C} (ℝ)$ 。

为简化符号，用 $[d \lor \bar{d}]$ 表示 $[\min {\underline{d}, \bar{d}}, \max {\underline{d}, \bar{d}}]$ ，其中 $\underline{d}, \bar{d} \in ℝ$ 。

对 $\forall C, D \in K_{C} (ℝ)$ ，定义如下运算：

1) $C + D = {c + d : c \in C, d \in D} = [\underline{c} + \underline{d}, \bar{c} + \bar{d}]$ ；

2) $- C = {- c : c \in C} = [- \bar{c}, - \underline{c}]$ ；

3) $C - D = {c - d : c \in C 且 d \in D} = [\underline{c} - \bar{d}, \bar{c} - \underline{d}]$ ；

4) $k + C = [\underline{k} + \underline{c}, \bar{k} + \bar{c}]$ ( $k$ 为实数，可视为区间 $[\underline{k}, \bar{k}]$ )；

5) $k C = [k \underline{c}, k \bar{c}]$ 。

由于区间不能像实数一样比较大小，于是给出区间的偏序关系的定义[9] [16]：给定区间 $C = [\underline{c}, \bar{c}]$ 和 $D = [\underline{d}, \bar{d}] \in K_{C} (ℝ)$ ，我们称 $C <_{L U} D$ 当且仅当 $\underline{c} < \underline{d}$ 且 $\bar{c} < \bar{d}$ 。

在区间值优化问题中，区间可用中心–半径形式表示，即 $A = (a^{C}, a^{R})$ ，定义如下：中心 $a^{C}$ 为区间A的上下界的平均值，即： $a^{C} = \frac{\underline{a} + \bar{a}}{2}$ ，半径 $a^{R}$ 为上下界差的一半，即： $a^{R} = \frac{\bar{a} - \underline{a}}{2}$ 。因此，两种表示方法的转换可表示为： $\underline{a} = a^{C} - a^{R}$ ， $\bar{a} = a^{C} + a^{R}$ 。于是，我们可以将区间A表示为中心–半径形式 $A = (a^{C}; a^{R})$ 。

在此背景下，Stefanini和Arana-Jiménez [17]给出了广义Hukuhara可微、广义Hukuhara导数、广义Hukuhara梯度的定义如下：

定义2.1：设函数 $F : S \subseteq ℝ^{n} \to K_{C}$ ，其中：

$F (x) = (f^{C} (x); f^{R} (x)) = [f^{C} (x) - f^{R} (x), f^{C} (x) + f^{R} (x)]$ ，

给定 $δ > 0$ ，对 $\forall x_{0} \in S$ ，满足当 $\forall h = (h_{1}, \dots, h_{n}) \in ℝ^{n}$ ， $‖ h ‖ < δ$ 时，有 $x_{0} + h \in S$ 。若存在向量 $w^{C}, w^{R} \in ℝ^{n}$ ， $w^{C} = (w_{1}^{C}, \dots, w_{n}^{C})$ ， $w^{R} = (w_{1}^{R}, \dots, w_{n}^{R})$ ，以及函数 $ε^{C}, ε^{R} : ℝ^{n} \to ℝ$ 满足 $\lim_{h \to 0} ε^{C} (h) = \lim_{h \to 0} ε^{R} (h) = 0$ ，使得对于所有 $h \neq 0$ ，有：

$f^{C} (x_{0} + h) - f^{C} (x_{0}) = \sum_{i = 1}^{n} w_{i}^{C} h_{i} + ‖ h ‖ ε^{C} (h),$

$| f^{R} (x_{0} + h) - f^{R} (x_{0}) | = | \sum_{i = 1}^{n} w_{i}^{R} h_{i} + ‖ h ‖ ε^{R} (h) | .$

则称函数 $F$ 在 $x_{0}$ 处广义Hukuhara可微。

定义2.2： $F$ 在 $x_{0}$ 处的广义Hukuhara导数记为 $D_{g H} F (x_{0}) : ℝ^{n} \to K_{C}$ ，定义如下：

$D_{g_{H}} F (x_{0}) (h) = (\sum_{i = 1}^{n} w_{i}^{C} h_{i}, | \sum_{i = 1}^{n} w_{i}^{R} h_{i} |), \forall h = (h_{1}, \dots, h_{n}) \in ℝ^{n} .$

定义2.3： $F$ 在 $x_{0}$ 处的广义Hukuhara梯度记作 $\nabla_{g H} F (x_{0})$ ，定义为以下 $n$ 元组区间： $\nabla_{g H} F (x_{0}) = (w_{1}, \dots, w_{n})$ ，其中每个分量 $w_{j}$ 表示为 $w_{j} = (w_{j}^{C}; | w_{j}^{R} |)$ ，对所有 $j \in {1, \dots, n}$ 。

定义2.4：对 $\forall x \in ℝ^{n}$ ，若满足以下条件：

$x \geq 0, ℒ (x) \geq 0, x^{T} ℒ (x) = 0,$

我们称 $x$ 和 $ℒ$ 互补，其中 $ℒ (x) : ℝ^{n} \to ℝ^{n}$ 为连续可微函数。

3. 区间优化问题

本节讨论如下的区间优化问题：

$\begin{array}{l} Minimize F (x) = [\underline{f} (x), \bar{f} (x)] \\ subject to g_{j} (x) \geq 0, j \in {1, \dots, m}, x \in S \subseteq ℝ^{n}, \end{array}$ (1)

其中，对每个 $j \in {1, \dots, m}$ ，都有 $g_{j} : S \to ℝ$ ，且 $S$ 为开集。我们用集合 $I = {1, \dots, m}$ 表示指标集，并定义所有可行点的集合为：

$X = {x \in S : g_{j} (x) \geq 0, \forall j \in I} .$

对于任意可行点 $x \in X$ ，在 $x$ 处的有效约束集为：

$I (x) = {j \in I : g_{j} (x) = 0} .$

给定 $ε > 0$ ， $\forall x^{*} \in ℝ^{n}$ 的 $ε$ -邻域表示为：

$N_{ε} (x^{*}) = {x \in ℝ^{n} : ‖ x - x^{*} ‖ < ε} .$

定义3.1：设 $x^{*} \in X$ ，若 $\exists ε > 0$ ，对 $\forall x \in X \cap N_{ε} (x^{*})$ ，都满足 $F (x) \geq_{L U} F (x^{*})$ ，则称 $x^{*}$ 为问题的局部弱LU解。

下面介绍Karush-Kuhn-Tucker最优性条件。通常，推导Karush-Kuhn-Tucker条件需要特定的正则性约束条件，我们采用正线性独立约束条件，即Mangasarian-Fromovitz约束条件[18]：

定义3.2：若在可行解 $x^{*} \in X$ 处，不存在全零的非负系数 $β_{j} \geq 0$ ( $j \in I (x^{*})$ )使得下式成立：

$\sum_{j \in I (x^{*})} β_{j} \nabla g_{j} (x^{*}) = 0_{ℝ^{n}},$

则称问题(1)的约束条件在 $x^{*}$ 处满足正线性独立约束条件(PLICQ)。其中， $\nabla g_{j} (x^{*})$ 表示第 $j$ 个约束函数在 $x^{*}$ 处的梯度。

基于PLICQ以及基于广义Hukuhara微分给出了区间优化问题的Karush-Kuhn-Tucker条件[11]：

定理3.1：设 $x^{*} \in X$ 为问题(3.1)的弱LU解。若问题(1)的约束条件在 $x^{*}$ 处满足PLICQ，则存在 $μ = {(μ_{1}, \dots, μ_{m})}^{T} \in ℝ^{m}$ 使得：

$0_{ℝ^{n}} \in \nabla_{g H} F (x^{*}) \oplus \sum_{j = 1}^{m} μ_{j} \nabla g_{j} (x^{*}),$ (2)

$μ_{j} g_{j} (x^{*}) = 0, \forall j \in I,$ (3)

$μ_{j} \geq 0, \forall j \in I .$ (4)

显然，KKT条件中的条件(3)和(4)构成一个互补问题：

$μ^{T} g (x^{*}) = 0, μ \geq 0, g (x^{*}) \geq 0,$ (5)

其中， $μ = {(μ_{1}, \dots, μ_{m})}^{T}$ 且 $g (x) = {(g_{1} (x), g_{2} (x), \dots, g_{m} (x))}^{T}$ 。

针对该问题，采用Fischer-Burmeister (FB)函数[19]。函数 $h (a, b)$ 定义如下：

$h (a, b) = (a + b) - \sqrt{a^{2} + b^{2}} .$

文献[19]证明了函数 $h (a, b)$ 是全局Lipschitz连续的、定向可微的和强半光滑的。于是函数 $h (a, b)$ 的广义梯度 $\partial h (a, b)$ 可表示为所有 $(σ_{a}, τ_{b})$ 组成的集合

$(σ_{a}, τ_{b}) = {\begin{array}{l} \begin{array}{l} (1 - \frac{a}{\sqrt{a^{2} + b^{2}}}, 1 - \frac{b}{\sqrt{a^{2} + b^{2}}}) \end{array} & μ_{j} \neq 0 或 g_{j} (x) \neq 0, \\ (1 - ς, 1 - ξ) & μ_{j} = g_{j} (x) = 0, \end{array}$

其中 $(σ_{a}, τ_{b})$ 是满足 $σ_{a}^{2} + τ_{b}^{2} = 1$ 的任意向量。

于是，利用以上函数，将(5)转化为：

$H (x, μ) = (\begin{matrix} (μ_{1} + g_{1} (x)) - \sqrt{μ_{1}^{2} + g_{1} {(x)}^{2}} \\ (μ_{2} + g_{2} (x)) - \sqrt{μ_{2}^{2} + g_{2} {(x)}^{2}} \\ ⋮ \\ (μ_{m} + g_{m} (x)) - \sqrt{μ_{m}^{2} + g_{m} {(x)}^{2}} \end{matrix}) = 0.$

设 $x \in X$ ，(5)的解 $x^{*}$ 满足 $H (x^{*}, μ) = 0$ 。于是， $H (x, μ)$ 的广义梯度 $\partial H (x, μ)$ 可表示为所有 $(σ_{μ}, τ_{g})$ 组成的集合：

$(σ_{μ}, τ_{g}) = {\begin{array}{l} \begin{array}{l} (\nabla g_{j} (x) - \frac{g_{j} (x) \nabla g_{j} (x)}{\sqrt{{(μ_{j})}^{2} + {(g_{j} (x))}^{2}}}, 1 - \frac{μ_{j}}{\sqrt{{(μ_{j})}^{2} + {(g_{j} (x))}^{2}}}) \end{array} & μ_{j} \neq 0 或 g_{j} (x) \neq 0, \\ (1 - ς, 1 - ξ) & μ_{j} = g_{j} (x) = 0, \end{array}$ (6)

其中 $(σ_{μ}, τ_{g})$ 是满足 $σ_{μ}^{2} + τ_{g}^{2} = 1$ 的任意向量。

经过上述转化过程，令 $z = (\begin{matrix} x \\ μ \end{matrix})$ ，则求解问题(1)等价于求解 $ϕ (z) = 0$ ，其中：

$ϕ (z) = (\begin{matrix} W \\ V \end{matrix}) .$

其中， $W \in \nabla_{g H} F (z) \oplus \sum_{j = 1}^{m} μ_{j} \nabla g_{j} (z)$ ， $V = H (z)$ ，令 $ϕ (z)$ 的价值函数为 $B (z) = \frac{1}{2} {‖ ϕ (z) ‖}^{2}$ 。于是，求解区间值优化问题转化为求解如下无约束优化问题：

$\min B (z) .$ (7)

$B (z)$ 的梯度由下式给出：

$\begin{array}{l} \nabla B (z) = \nabla ϕ {(z)}^{T} ϕ (z) \\ = (\begin{matrix} w & v \end{matrix}) (\begin{matrix} W \\ V \end{matrix}), \end{array}$

其中， $w \in \nabla_{g H}^{2} f (z) \oplus \sum_{j = 1}^{m} μ_{j} \nabla^{2} g_{j} (z)$ ， $v \in \partial H (z)$ ， $W \in \nabla_{g H} F (z) \oplus \sum_{j = 1}^{m} μ_{j} \nabla g_{j} (z)$ ， $V = H (z)$ ，且 $\partial H (z)$ 由式(6)给出。

4. 谱梯度方法

谱梯度方法(又名两点步长法)是一种重要的梯度类优化算法，其本质可归结为以下迭代过程：

$x_{k + 1} = x_{k} - α_{k} g_{k} .$

在此式中， $g_{k}$ 表示目标函数 $f (x)$ 在点 $x_{k}$ 处的梯度方向， $α_{k}$ 则为沿负梯度方向 $- g_{k}$ 的步长，该方法相较于传统共轭梯度法展现出更为显著的数值收敛优势。

以下基于文献[20]，我们给出了求解问题(7)的谱梯度方法：

算法4.1 (谱梯度方法)：

输入： $x_{0} \in ℝ^{n}, μ_{0} \in ℝ^{m}, 0 < ν < 1, 0 < ε_{1} < ε_{2}, 0 < β < 1$ 。令 $z_{0} = (\begin{matrix} x_{0} \\ μ_{0} \end{matrix}), ε = 10^{- 5}, k = 0, γ_{0} = 1$ 。

步1：计算 $‖ \nabla B (z_{k}) ‖$ ，若 $‖ \nabla B (z_{k}) ‖ \leq ε$ ，则终止算法，否则转至步2。

步2：计算下降方向 $d_{k} = - \frac{1}{γ_{k}} \nabla B (z_{k})$ 。

步3：计算 $t_{k} = β^{l}$ ，其中 $l$ 是满足以下条件的最小非负整数：

$B (z_{k} + t_{k} d_{k}) \leq B (z_{k}) + ν t_{k} \nabla B {(z_{k})}^{T} d_{k} .$ (8)

步4：令 $z_{k + 1} = z_{k} + t_{k} d_{k}$ ，计算 $B (z_{k + 1})$ 。

步5：计算公式(10)获得 $γ_{k + 1}$ ，若 $γ_{k + 1} < ε_{1}$ ，则设 $γ_{k + 1} = ε_{1}$ ；若 $γ_{k + 1} > ε_{2}$ ，则设 $γ_{k + 1} = ε_{2}$ 。

步6：令 $k = k + 1$ ，转至步2。

注1：步5的目的是调整上升方向并保持序列 ${γ_{k}}$ 的一致有界性。事实上，对于所有 $k$ ，有：

$0 < ε_{1} \leq γ_{k} \leq ε_{2} .$ (9)

注2：为了确定步5中的参数 $γ_{k}$ ，Zhou [20]通过将Dennis和Wolkowicz [21]以及Yuan [22]对拟牛顿方程的修改进行线性组合，得到了参数 $γ$ 的表达式：设参数 $θ$ 为： $θ = \frac{σ}{λ + σ}$ ，其中 $λ + σ \neq 0$

$γ_{k + 1} (θ) = \frac{s_{k}^{T} y_{k} + θ [2 (B (z_{k}) - B (z_{k + 1})) + {(\nabla B (z_{k}) + \nabla B (z_{k + 1}))}^{T} s_{k}]}{s_{k}^{T} s_{k}} = \frac{s_{k}^{T} y_{k} + θ Δ_{k}}{s_{k}^{T} s_{k}},$ (10)

其中， $Δ_{k} = 2 (B (z_{k}) - B (z_{k + 1})) + {(\nabla B (z_{k}) + \nabla B (z_{k + 1}))}^{T} s_{k}$ ， $s_{k} = z_{k + 1} - z_{k}$ ， $y_{k} = \nabla B (z_{k + 1}) - \nabla B (z_{k})$ 。

下面讨论 $γ_{k + 1} (θ)$ 的性质：

定理4.1：设 $B (z)$ 充分光滑。若 $‖ s_{k} ‖$ 足够小，则有

$s_{k}^{T} \nabla^{2} B (z_{k + 1}) s_{k} - γ_{k + 1} (θ) s_{k}^{T} s_{k} = (\frac{1}{2} - \frac{θ}{6}) \nabla^{3} B (z_{k + 1}) \otimes s_{k}^{3} - (\frac{1}{6} - \frac{θ}{12}) \nabla^{4} B (z_{k + 1}) \otimes s_{k}^{4} + O ({‖ s_{k} ‖}^{5}),$ (11)

其中 $\otimes$ 为张量积， $\nabla^{3} B (z_{k + 1}) \in ℝ^{n \times n \times n}$ 和 $\nabla^{4} B (z_{k + 1}) \in ℝ^{n \times n \times n \times n}$ 是 $B (z)$ 在 $z_{k + 1}$ 处的张量，满足

$\nabla^{3} B (z_{k + 1}) \otimes s_{k}^{3} = \sum_{i, j, l = 1}^{n} \frac{\partial^{3} B (z_{k + 1})}{\partial z^{i} \partial z^{j} \partial z^{l}} s_{k}^{i} s_{k}^{j} s_{k}^{l},$ (12)

以及

$\nabla^{4} B (z_{k + 1}) \otimes s_{k}^{4} = \sum_{i, j, l, m = 1}^{n} \frac{\partial^{4} B (z_{k + 1})}{\partial z^{i} \partial z^{j} \partial z^{l} \partial z^{m}} s_{k}^{i} s_{k}^{j} s_{k}^{l} s_{k}^{m} .$ (13)

证明：利用泰勒公式，可得

$B (z_{k}) = B (z_{k + 1}) - \nabla B^{T} (z_{k + 1}) s_{k} + \frac{1}{2} s_{k}^{T} \nabla^{2} B (z_{k + 1}) s_{k} - \frac{1}{6} \nabla^{3} B (z_{k + 1}) \otimes s_{k}^{3} + \frac{1}{24} \nabla^{4} B (z_{k + 1}) \otimes s_{k}^{4} + O ({‖ s_{k} ‖}^{5}),$

以及

$\nabla B^{T} (z_{k}) s_{k} = \nabla B^{T} (z_{k + 1}) s_{k} - s_{k}^{T} \nabla^{2} B (z_{k + 1}) s_{k} + \frac{1}{2} \nabla^{3} B (z_{k + 1}) \otimes s_{k}^{3} - \frac{1}{6} \nabla^{4} B (z_{k + 1}) \otimes s_{k}^{4} + O ({‖ s_{k} ‖}^{5}) .$

由(10)、(12)和(13)式可得

$\begin{array}{l} s_{k}^{T} \nabla^{2} B (z_{k + 1}) s_{k} - γ_{k + 1} (θ) s_{k}^{T} s_{k} \\ = s_{k}^{T} \nabla^{2} B (z_{k + 1}) s_{k} - s_{k}^{T} y_{k} - θ [2 (B (z_{k}) - B (z_{k + 1})) + {(\nabla B (z_{k}) + \nabla B (z_{k + 1}))}^{T} s_{k}] \\ = (\frac{1}{2} - \frac{θ}{6}) \nabla^{3} B (z_{k + 1}) \otimes s_{k}^{3} - (\frac{1}{6} - \frac{θ}{12}) \nabla^{4} B (z_{k + 1}) \otimes s_{k}^{4} + O ({‖ s_{k} ‖}^{5}) . \end{array}$

证明完毕。

下面考虑 $θ$ 的几种可能的取值的情况：

当 $θ = 0$ 时，有 $γ_{k + 1} (0) = \frac{s_{k}^{T} y_{k}}{s_{k}^{T} s_{k}}$ ，此时 $γ_{k + 1}$ 的定义与Barzilai和Borwein法的定义相同。由(11)式可得

$s_{k}^{T} \nabla^{2} B (z_{k + 1}) s_{k} - γ_{k + 1} (0) s_{k}^{T} s_{k} = \frac{1}{2} \nabla^{3} B (z_{k + 1}) \otimes s_{k}^{3} - \frac{1}{6} \nabla^{4} B (z_{k + 1}) \otimes s_{k}^{4} + O ({‖ s_{k} ‖}^{5}) .$

令 $θ = 1$ ，此时 $γ_{k + 1} (1) = \frac{s_{k}^{T} y_{k} + Δ_{k}}{s_{k}^{T} s_{k}}$ ，由(11)式可得

$s_{k}^{T} \nabla^{2} B (z_{k + 1}) s_{k} - γ_{k + 1} (1) s_{k}^{T} s_{k} = \frac{1}{3} \nabla^{3} B (z_{k + 1}) \otimes s_{k}^{3} - \frac{1}{12} \nabla^{4} B (z_{k + 1}) \otimes s_{k}^{4} + O ({‖ s_{k} ‖}^{5}) .$

令 $θ = 3$ ，此时 $γ_{k + 1} (3) = \frac{s_{k}^{T} y_{k} + 3 Δ_{k}}{s_{k}^{T} s_{k}}$ 。由(11)式可得

$s_{k}^{T} G_{k + 1} s_{k} - γ_{k + 1} (3) s_{k}^{T} s_{k} = \frac{1}{12} \nabla^{4} B (z_{k + 1}) \otimes s_{k}^{4} + O ({‖ s_{k} ‖}^{5}) .$

求解如下极小化问题：

$\min_{θ} {(\frac{1}{2} - \frac{θ}{6})}^{2} + {(\frac{1}{6} - \frac{θ}{12})}^{2},$

得到 $θ = \frac{14}{5}$ ，并有 $γ_{k + 1} (\frac{14}{5}) = \frac{s_{k}^{T} y_{k} + \frac{14}{5} Δ_{k}}{s_{k}^{T} s_{k}}$ 。由(11)式可得

$s_{k}^{T} \nabla^{2} B (z_{k + 1}) s_{k} - γ_{k + 1} (\frac{14}{5}) s_{k}^{T} s_{k} = \frac{1}{30} \nabla^{3} B (z_{k + 1}) \otimes s_{k}^{3} + \frac{1}{15} \nabla^{4} B (z_{k + 1}) \otimes s_{k}^{4} + O ({‖ s_{k} ‖}^{5}) .$

与文献[14]和[20]类似，我们可以得到算法4.1是R-线性收敛的，下面给出算法4.1的收敛性结果，首先给出如下假设。

假设1：水平集 $L (z_{0}) = {x \in ℝ^{n} | B (z) \leq B (z_{0})}$ 是有界的。

引理4.1：当假设1成立时，并且序列 ${d_{k}}$ 由算法4.1产生，则 $d_{k}$ 满足以下条件：

$\nabla B {(z_{k})}^{T} d_{k} \leq - c_{1} {‖ \nabla B (z_{k}) ‖}^{2},$ (14)

$‖ d_{k} ‖ \leq c_{2} ‖ \nabla B (z_{k}) ‖ .$ (15)

其中， $c_{1}$ 和 $c_{2}$ 是两个正实常数。

证明：先证(15)式：

对算法4.1中的步2两端求范数，可得：

$‖ d_{k} ‖ = \frac{1}{γ_{k}} ‖ \nabla B (z_{k}) ‖,$

结合(9)，有：

$0 < ε_{1} \leq \frac{‖ \nabla B (z_{k}) ‖}{‖ d_{k} ‖},$

两边同时乘以 $\frac{‖ d_{k} ‖}{ε_{1}}$ ，可得：

$‖ d_{k} ‖ \leq \frac{1}{ε_{1}} ‖ \nabla B (z_{k}) ‖,$

令 $c_{2} = \frac{1}{ε_{1}}$ 即可。

下面证明(14)式：

对算法4.1中的步2两端左乘 $\nabla B {(z_{k})}^{T}$ ，并在等式两端求范数，可得：

$‖ \nabla B {(z_{k})}^{T} d_{k} ‖ = - \nabla B {(z_{k})}^{T} d_{k} = \frac{1}{γ_{k}} {‖ \nabla B (z_{k}) ‖}^{2},$

结合(9)，有：

$- \frac{{‖ \nabla B (z_{k}) ‖}^{2}}{\nabla B {(z_{k})}^{T} d_{k}} \leq ε_{2},$

两端同时乘 $\frac{\nabla B {(z_{k})}^{T} d_{k}}{ε_{2}}$ ，可得

$\nabla B {(z_{k})}^{T} d_{k} \leq - \frac{1}{ε_{2}} {‖ \nabla B (z_{k}) ‖}^{2},$

令 $c_{1} = \frac{1}{ε_{2}}$ 即可。

定理4.2：设 ${z_{k}}$ 是由算法1生成的序列，则下列结论之一成立：

存在某个 $k$ 使得 $‖ \nabla B (z_{k}) ‖ = 0$ ；

序列 ${z_{k}}$ 的每个极限点都是稳定点。

证明：若算法在有限次迭代内终止，即 ${z_{k}}$ 是有限序列，则存在 $k$ 使得 $‖ \nabla B (z_{k}) ‖ = 0$ ，于是由此可得 $z_{k}$ 是 $B (z)$ 的稳定点。

若 ${z_{k}}$ 是无限序列，则存在子列 ${z_{k}}_{K_{1}} \subset {z_{k}}$ 使得：

$\lim_{k \in K_{1}, k \to \infty} z_{k} = \tilde{z} .$

根据(8)可知：

$\lim_{k \to \infty} t_{k} \nabla B {(z_{k})}^{T} d_{k} = 0,$

结合(14)可得：

$\lim_{k \to \infty} t_{k} {‖ \nabla B (z_{k}) ‖}^{2} = 0.$

由此可以得到两种情况：

1) 目标函数的梯度满足：

$\lim_{k \in K_{1}, k \to \infty} ‖ \nabla B (z_{k}) ‖ = 0$ .(16)

2) 存在 $K_{2} \subset K_{1}$ 使得：

$\lim_{k \in K_{2}, k \to \infty} t_{k} = 0.$

对于上述两种情况，第一种情况下由(16)可知 $\nabla B ({\tilde{z}}_{k}) = 0$ 。第二种情况下，根据 $t_{k}$ 的定义，存在 $k \geq \tilde{k}$ 且 $k \in K_{2}$ 满足：

$\begin{matrix} B (z_{k} + \frac{t_{k}}{β} d_{k}) > B (z_{k}) + μ \frac{t_{k}}{β} \nabla B {(z_{k})}^{T} d_{k} \\ = B (z_{k} - \frac{t_{k}}{β γ_{k}} \nabla B (z_{k})) \\ > B (z_{k}) - μ \frac{t_{k}}{β γ_{k}} \nabla B {(z_{k})}^{T} \nabla B (z_{k}) . \end{matrix}$ (17)

其中， $d_{k} = - \frac{1}{γ_{k}} \nabla B (z_{k})$ 。利用泰勒定理展开(17)的左侧并合并同类项，可得：

$o (t_{k}) > (1 - μ) \frac{t_{k}}{β γ_{k}} \nabla B {(z_{k})}^{T} \nabla_{g H} F_{k} = (1 - μ) \frac{t_{k}}{β γ_{k}} {‖ \nabla B (z_{k}) ‖}^{2} .$ (18)

将(18)两边除以 $(1 - μ) \frac{t_{k}}{β γ_{k}}$ ，并令 $k \to \infty, k \in K_{2}$ ，可得：

${‖ \nabla B ({\tilde{z}}_{k}) ‖}^{2} \leq 0.$

由此可知 $\nabla B ({\tilde{z}}_{k}) = 0$ ，这表明 $\tilde{z}$ 是稳定点。

5. 数值算例

为验证算法4.1的有效性，本节求解文献[11]中的区间优化问题的数值例子。

算法4.1的终止条件设为 $‖ \nabla B_{τ} (z) ‖ \leq ε$ 。计算过程在MATLAB (R2023a)上实现，参数设置如下： $θ = 14 / 5$ ， $β = 0.5$ ， $ν = 0.4$ ， $ε = 10^{- 3}$ ， $ε_{1} = 0.01$ ， $ε_{2} = 100$ 。向量 $μ$ 的初始值的各分量为区间 $(0, 1)$ 内的随机数。

在表1中， $x_{0}$ 表示初始点， $k$ 表示迭代次数， $x^{*}$ 表示最优解，Val表示 $B (z)$ 的值。

例5.1：

$\begin{matrix} \min & [x_{1} \lor 2 x_{2}] \\ s .t . & x_{1}^{2} - 2 x_{1} - x_{2} \leq 0, \\ x_{1}^{2} - 2 x_{1} + x_{2} \leq 0, \\ - x_{1} + x_{2}^{2} \leq 0, \\ (x_{1}, x_{2}) \in S = ℝ^{2} . \end{matrix}$

数值结果如表1及图1所示。

由以上数值算例结果可知，谱梯度法在求解区间优化问题中有较好的数值表现。

6. 总结与展望

本文对区间优化问题的求解算法进行了研究，借助区间优化问题的KKT条件，我们引入了互补问题以及次梯度的概念，利用Fischer-Burmeister函数，将区间优化问题转化为无约束优化问题。根据问题结构我们给出了一类谱梯度算法，并进行了收敛性分析，相关的数值实验结果表明算法的有效性。但是

Table 1. The numerical results of example 5.1

表1. 例5.1的数值结果

$x_{0}$	$k$	$x^{*}$	Val
${(0.5383; 0.9961)}^{T}$	46	${(1.9168 \times 10^{- 6}; 2.8061 \times 10^{- 4})}^{T}$	$2.9373 \times 10^{- 7}$
${(0.8173; 0.8687)}^{T}$	28	${(1.7651 \times 10^{- 5}; 2.1348 \times 10^{- 4})}^{T}$	$3.1067 \times 10^{- 7}$
${(0.1818; 0.2638)}^{T}$	22	${(4.2169 \times 10^{- 5}; 1.7796 \times 10^{- 4})}^{T}$	$1.8094 \times 10^{- 7}$

Figure 1. Objective function value descent plot of example 5.1

图1. 例5.1的目标函数值下降图

本文主要考虑区间线性优化问题，对于区间非线性优化问题以及其他类型的区间优化问题还需要结合其他求解技术进一步研究。

参考文献

[1]	Pedroni, N. (2022) Computational Methods for the Robust Optimization of the Design of a Dynamic Aerospace System in the Presence of Aleatory and Epistemic Uncertainties. Mechanical Systems and Signal Processing, 164, Article 108206. [Google Scholar] [CrossRef]
[2]	Wu, Q., Liu, X., Qin, J. and Zhou, L. (2021) Multi-Criteria Group Decision-Making for Portfolio Allocation with Consensus Reaching Process under Interval Type-2 Fuzzy Environment. Information Sciences, 570, 668-688. [Google Scholar] [CrossRef]
[3]	Safi, M.R. and Razmjoo, A. (2013) Solving Fixed Charge Transportation Problem with Interval Parameters. Applied Mathematical Modelling, 37, 8341-8347. [Google Scholar] [CrossRef]
[4]	Inuiguchi, M. and Sakawa, M. (1995) Minimax Regret Solution to Linear Programming Problems with an Interval Objective Function. European Journal of Operational Research, 86, 526-536. [Google Scholar] [CrossRef]
[5]	Gong, D.W., Qin, N.N. and Sun, X.Y. (2010) Evolutionary Algorithms for Multi-Objective Optimization Problems with Interval Parameters. 2010 IEEE Fifth International Conference on Bio-Inspired Computing: Theories and Applications (BIC-TA), Changsha, 23-26 September 2010, 411-420. [Google Scholar] [CrossRef]
[6]	Ishibuchi, H. and Tanaka, H. (1990) Multiobjective Programming in Optimization of the Interval Objective Function. European Journal of Operational Research, 48, 219-225. [Google Scholar] [CrossRef]
[7]	Wu, H. (2007) The Karush-Kuhn-Tucker Optimality Conditions in an Optimization Problem with Interval-Valued Objective Function. European Journal of Operational Research, 176, 46-59. [Google Scholar] [CrossRef]
[8]	Wu, H.C. (2008) Wolfe Duality for Interval-Valued Optimization. Journal of Optimization Theory and Applications, 138, 497-509. [Google Scholar] [CrossRef]
[9]	Wu, H. (2009) The Karush-Kuhn-Tucker Optimality Conditions in Multiobjective Programming Problems with Interval-Valued Objective Functions. European Journal of Operational Research, 196, 49-60. [Google Scholar] [CrossRef]
[10]	Sun, Y.H. and Wang, L.S. (2013) Optimality Conditions and Duality in Nondifferentiable Interval-Valued Programming. Journal of Industrial & Management Optimization, 9, 131-142. [Google Scholar] [CrossRef]
[11]	Villanueva, F.R., de Oliveira, V.A. and Costa, T.M. (2023) Optimality Conditions for Interval Valued Optimization Problems. Fuzzy Sets and Systems, 454, 38-55. [Google Scholar] [CrossRef]
[12]	Barzilai, J. and Borwein, J.M. (1988) Two-Point Step Size Gradient Methods. IMA Journal of Numerical Analysis, 8, 141-148. [Google Scholar] [CrossRef]
[13]	Raydan, M. (1993) On the Barzilai and Borwein Choice of Steplength for the Gradient Method. IMA Journal of Numerical Analysis, 13, 321-326. [Google Scholar] [CrossRef]
[14]	Dai, Y.H.J. (2002) R-Linear Convergence of the Barzilai and Borwein Gradient Method. IMA Journal of Numerical Analysis, 22, 1-10. [Google Scholar] [CrossRef]
[15]	Xiao, Y., Wang, Q. and Wang, D. (2010) Notes on the Dai-Yuan-Yuan Modified Spectral Gradient Method. Journal of Computational and Applied Mathematics, 234, 2986-2992. [Google Scholar] [CrossRef]
[16]	Wu, H. (2007) The Karush-Kuhn-Tucker Optimality Conditions for the Optimization Problem with Fuzzy-Valued Objective Function. Mathematical Methods of Operations Research, 66, 203-224. [Google Scholar] [CrossRef]
[17]	Stefanini, L. and Arana-Jiménez, M. (2019) Karush-Kuhn-Tucker Conditions for Interval and Fuzzy Optimization in Several Variables under Total and Directional Generalized Differentiability. Fuzzy Sets and Systems, 362, 1-34. [Google Scholar] [CrossRef]
[18]	Mangasarian, O.L. and Fromovitz, S. (1967) The Fritz John Necessary Optimality Conditions in the Presence of Equality and Inequality Constraints. Journal of Mathematical Analysis and Applications, 17, 37-47. [Google Scholar] [CrossRef]
[19]	Fischer, A. (1992) A Special Newton-Type Optimization Method. Optimization, 24, 269-284. [Google Scholar] [CrossRef]
[20]	周群艳. 解无约束优化问题的一种新的谱梯度方法(英文) [J]. 应用数学, 2020, 33(4): 857-868.
[21]	Dennis Jr, J.E. and Wolkowicz, H. (1993) Sizing and Least-Change Secant Methods. SIAM Journal on Numerical Anal-ysis, 30, 1291-1314. [Google Scholar] [CrossRef]
[22]	Yuan, Y. (1991) A Modified BFGS Algorithm for Unconstrained Optimization. IMA Journal of Numerical Analysis, 11, 325-332.

为你推荐

友情链接