一种改进的非单调信赖域两步Levenberg-Marquardt方法

doi:10.12677/aam.2025.146335

期刊菜单

一种改进的非单调信赖域两步Levenberg-Marquardt方法
An Improved Non-Monotonic Trust Region Two-Step Levenberg-Marquardt Method

DOI: 10.12677/aam.2025.146335, PDF, HTML, XML,
作者: 何素丹：长沙理工大学数学与统计学院，湖南长沙
关键词: 非线性方程组；Levenberg-Marquardt方法；非单调信赖域；全局收敛；Nonlinear Equations； Levenberg-Marquardt Method； Non-Monotonic Trust Region； Global Convergence

摘要: 本文提出了一种求解非线性方程组的改进型非单调信赖域两步Levenberg-Marquardt方法，证明了该方法在适当条件下具有全局收敛性。数值试验表明该方法比单步Levenberg-Marquardt方法具有更好的数值效果。

Abstract: In this paper, an improved nonmonotonic trust region two-step Levenberg-Marquardt method for solving nonlinear equations is proposed, and it is proved that the method has global convergence under appropriate conditions. Numerical experiments show that the method has better numerical results than the one-step Levenberg-Marquardt method.

文章引用：何素丹. 一种改进的非单调信赖域两步Levenberg-Marquardt方法[J]. 应用数学进展, 2025, 14(6): 465-477. https://doi.org/10.12677/aam.2025.146335

1. 引言

本文考虑求解如下非线性方程组的数值方法：

$F (x) = 0,$ (1.1)

其中 $F$ 是 $R^{n}$ 到 $R^{n}$ 的连续可微函数，其Jacobian阵记为 $J (x) ≜ F' (x)$ 。非线性方程组在物理学、经济学和产品管理等许多领域都具有广泛的应用，例如非线性优化问题的KKT系统、非线性微分方程的离散形式都是非线性方程组[1] [2]。因此设计高效求解非线性方程组的算法是计算数学领域的一个重要研究课题。

有许多实用的算法可以求解非线性方程组，其中Levenberg-Marquardt (LM)方法是一种经典方法。在每次迭代中，它都会计算LM方向

$d_{k} = - {(J_{k}^{T} J_{k} + λ_{k} I)}^{- 1} J_{k}^{T} F_{k},$

其中 $F_{k} = F (x_{k}), J_{k} = F' (x_{k})$ ，以及LM参数 $λ_{k} > 0$ 在每次迭代中更新。

LM参数 $λ_{k}$ 的选择对LM方法的计算效率至关重要。为了提高计算效率，许多学者对LM参数进行研究。Yamashita和Fukushima [3]证明，当 $λ_{k} = {‖ F_{k} ‖}^{2}$ 时，LM方法在局部误差界这一较弱的条件下具有二次收敛速度。然而，当序列 ${x_{k}}$ 远离解集 $X$ 时， $‖ F_{k} ‖$ 可能非常大，会导致 $λ_{k}$ 也很大，这将使得 $d_{k}$ 变得很小，从而降低算法的效率。于是Fan和Yuan [4]使用了 $λ_{k} = μ_{k} {‖ F_{k} ‖}^{δ}$ ，其中 $δ \in (1, 2]$ ， $μ_{k}$ 在每次迭代中都使用信赖域方法更新，此时LM方法在一些合适的条件下也具有二次收敛速度。进一步，Ma和Jiang [5]将 $‖ J_{k}^{T} F_{k} ‖$ 引入LM方法用于求解奇异非线性方程组，使用了 $‖ F_{k} ‖$ 和 $‖ J_{k}^{T} F_{k} ‖$ 的凸组合作为新的LM参数 $λ_{k} = θ ‖ F_{k} ‖ + (1 - θ) ‖ J_{k}^{T} F_{k} ‖$ ，其中 $θ \in [0, 1]$ 。随后，Fan和Pan [6]提出了 $λ_{k} = μ_{k} [θ ‖ F_{k} ‖ + (1 - θ) ‖ J_{k}^{T} F_{k} ‖]$ ，并证明了在弱于非奇异性的局部误差条件下仍然保持二次收敛。

为了提高算法的收敛速度和效率，Fan [7]提出了一种两步LM方法。在每次迭代中，首先通过求解

$(J_{k}^{T} J_{k} + λ_{k} I) d = - J_{k}^{T} F_{k}, 其中 λ_{k} = μ_{k} {‖ F_{k} ‖}^{δ}, δ \in [1, 2],$ (1.2)

来获得LM方向 $d_{k}^{L M} = - {(J_{k}^{T} J_{k} + λ_{k} I)}^{- 1} J_{k}^{T} F_{k}$ ，其中 $μ_{k}$ 由信赖域方法更新。再通过求解

$(J_{k}^{T} J_{k} + λ_{k} I) d = - J_{k}^{T} F (y_{k}), 其中 y_{k} = x_{k} + d_{k}^{L M},$ (1.3)

来获得近似的LM方向 $d_{k}^{M L M}$ ，并设置迭代方向为 $d_{k} = d_{k}^{L M} + d_{k}^{M L M}$ 。Fan证明了该两步LM方法具有全局收敛性和在局部误差界下具有三次收敛速度。

近年来，非单调方法被应用于多种优化算法中，显著提升了算法的收敛性能。1986年，Grippo等[8]提出了非单调Armijo线搜索，该方法是非线性优化的非单调算法的新突破。随后，Deng等[9]首次将非单调思想与信赖域方法相结合，提出了一种具有强收敛性的非单调信赖域方法。研究表明，使用非单调技术可以提高找到全局最优值的可能性和算法的收敛率[8] [10]。由于非单调信赖域方法的良好数值效果，越来越多的学者致力于对非单调方法的研究。最近，Zhao等 [11]在LM方法中采用非单调信赖域方法来确保全局收敛。传统的信赖域方法要求目标函数值 ${‖ F_{k} ‖}^{2}$ 严格单调下降，这有可能会陷入局部最优，而文献 [11]通过引入 $W_{k + 1}$ ：

$W_{k + 1} = (1 - τ) W_{k} + τ {‖ F_{k + 1} ‖}^{2}, 其中 τ \in (0, 1],$

来允许 ${‖ F_{k + 1} ‖}^{2}$ 偶尔上升，只要 $W_{k + 1}$ 整体下降即可，从而提升算法的全局收敛性。并通过与Fan [12]的单调信赖域LM方法进行数值实验比较，表明引入的非单调信赖域方法提高了LM方法的数值性能。

Zhao在文献[11]中还利用 $‖ F_{k} ‖$ 和 $‖ J_{k}^{T} F_{k} ‖$ 的凸组合，提出了一种新的LM参数 $λ_{k} = μ_{k} [θ {‖ F_{k} ‖}^{δ} + (1 - θ) {‖ J_{k}^{T} F_{k} ‖}^{δ}]$ ，其中 $θ \in [0, 1]$ 和 $δ \in (0, 3)$ 。这是LM参数的更通用选择，它不仅包括上述所提到的所有LM选择，而且在局部误差界下，证明了新的LM方法至少具有阶数为 $\min {1 + δ, 4 - δ, 2}$ 的超线性收敛率。

受上述文献的启发，在本文中，我们旨在提出一种新的LM方法，该方法采用文献[11]中的LM参数以及采用非单调信赖域，将其改进为两步LM方法。在文献[7]中两步LM方法已证明具有三次收敛速度，通过与[7]同样的分析，可以证明本文改进的两步LM方法在 $δ \in [1, 2]$ 时也具有三次收敛速度。

本文的组织结构如下。在第2节中，我们详细介绍改进型非单调信赖域的两步LM方法。在第3节中，建立了所提方法的全局收敛性。在第4节中，我们应用新的两步LM方法求解一些非线性方程并报告数值结果。最后，我们在第5节进行总结。在整篇论文中，假设 $X$ 表示的解集是非空的，且在所有情况下 $‖ \cdot ‖$ 是指2-范数。

2. 算法的提出

我们取

$Φ (x) = {‖ F (x) ‖}^{2}$

作为(1.1)的评价函数。两步LM方法在每一次迭代中不仅要通过(1.2)计算LM方向 $d_{k}$ ，还要通过(1.3)计算近似LM方向 ${\hat{d}}_{k}$ 。

在标准的信赖域方法中，通常我们会将 $Φ (x)$ 在第 $k$ 次迭代时的实际下降量 $A r e d_{k}$ 、预测下降量为 $P r e d_{k}$ 和下降比 $r_{k}$ 分别定义为

$A r e d_{k} = {‖ F_{k} ‖}^{2} - {‖ F (x_{k} + d_{k} + {\hat{d}}_{k}) ‖}^{2},$ (2.1)

$P r e d_{k} = {‖ F_{k} ‖}^{2} - {‖ F_{k} + J_{k} (d_{k} + {\hat{d}}_{k}) ‖}^{2},$ (2.2)

$r_{k} = \frac{A r e d_{k}}{P r e d_{k}} .$ (2.3)

但是在两步LM方法中，因为不能证明(2.2)是非负的，所以我们不能像往常一样将预测下降量定义为(2.2)，因此需要开发一种新的预测下降量。

注意到LM方向 $d_{k}$ 是下列最小化关于 $d$ 的优化问题的解：

$\min_{d \in R^{n}} φ_{k, 1} (d) ≜ {‖ F_{k} + J_{k} d ‖}^{2} + λ_{k} {‖ d ‖}^{2} .$ (2.4)

如果我们令

$Δ_{k, 1} = ‖ d_{k} ‖ = ‖ - {(J_{k}^{T} J_{k} + λ_{k} I)}^{- 1} J_{k}^{T} F_{k} ‖,$

那么可以验证 $d_{k}$ 也是下列信赖域问题的解：

$\min_{d \in R^{n}} {‖ F_{k} + J_{k} d ‖}^{2} s .t . ‖ d ‖ \leq Δ_{k, 1} .$

根据Powell [13]给出的著名结果，我们知道

${‖ F_{k} ‖}^{2} - {‖ F_{k} + J_{k} d_{k} ‖}^{2} \geq ‖ J_{k}^{T} F_{k} ‖ \min {‖ d_{k} ‖, \frac{‖ J_{k}^{T} F_{k} ‖}{‖ J_{k}^{T} J_{k} ‖}} .$ (2.5)

同理，近似LM方向 ${\hat{d}}_{k}$ 不仅是下列最小化关于 $d$ 的优化问题的解：

$\min_{d \in R^{n}} φ_{k, 2} (d) ≜ {‖ F (y_{k}) + J_{k} d ‖}^{2} + λ_{k} {‖ d ‖}^{2} .$ (2.6)

也是下列信赖域问题的解：

$\min_{d \in R^{n}} {‖ F (y_{k}) + J_{k} d ‖}^{2} s .t . ‖ d ‖ \leq Δ_{k, 2} .$

其中 $Δ_{k, 2} = ‖ {\hat{d}}_{k} ‖ = ‖ - {(J_{k}^{T} J_{k} + λ_{k} I)}^{- 1} J_{k}^{T} F (y_{k}) ‖$ 。同样可以得到

${‖ F (y_{k}) ‖}^{2} - {‖ F (y_{k}) + J_{k} {\hat{d}}_{k} ‖}^{2} \geq ‖ J_{k}^{T} F (y_{k}) ‖ \min {‖ {\hat{d}}_{k} ‖, \frac{‖ J_{k}^{T} F (y_{k}) ‖}{‖ J_{k}^{T} J_{k} ‖}} .$ (2.7)

现在，根据不等式(2.5)和(2.7)，我们可以合理地将新的预测下降量定义为

$\overset{⌢}{P r e d_{k}} = {‖ F_{k} ‖}^{2} - {‖ F_{k} + J_{k} d_{k} ‖}^{2} + {‖ F (y_{k}) ‖}^{2} - {‖ F (y_{k}) + J_{k} {\hat{d}}_{k} ‖}^{2} .$ (2.8)

并且它总是非负的，满足以下不等式

$\overset{⌢}{P r e d_{k}} \geq ‖ J_{k}^{T} F_{k} ‖ \min {‖ d_{k} ‖, \frac{‖ J_{k}^{T} F_{k} ‖}{‖ J_{k}^{T} J_{k} ‖}} + ‖ J_{k}^{T} F (y_{k}) ‖ \min {‖ {\hat{d}}_{k} ‖, \frac{‖ J_{k}^{T} F (y_{k}) ‖}{‖ J_{k}^{T} J_{k} ‖}} .$ (2.9)

受文献[11]的非单调信赖域方法的启发，我们定义新的实际下降量为

$\overset{⌢}{A r e d_{k}} = W_{k} - {‖ F (x_{k} + d_{k} + {\hat{d}}_{k}) ‖}^{2}$ (2.10)

其中 $W_{k + 1} = (1 - τ) W_{k} + τ {‖ F_{k + 1} ‖}^{2}, τ \in (0, 1]$ 。值得注意的是， $W_{k}$ 是 $W_{k - 1}$ 和 ${‖ F_{k} ‖}^{2}$ 的凸组合。由于我们设定 $W_{0} = {‖ F_{0} ‖}^{2}$ ，因此 $W_{k}$ 是 ${‖ F_{0} ‖}^{2}, {‖ F_{1} ‖}^{2}, \dots, {‖ F_{k} ‖}^{2}$ 的凸组合。从而可以定义新的下降比为 ${\overset{⌢}{r}}_{k} = \frac{\overset{⌢}{A r e d_{k}}}{\overset{⌢}{P r e d_{k}}}$ ，用于决定是否接受试探步以及如何调整LM参数。

接下来，我们将详细地描述新的两步LM方法。

算法1

步1. 选择一个初始点 $x_{0} \in R^{n}$ ，令 $W_{0} = {‖ F_{0} ‖}^{2}$ ，给定参数 $μ_{0} \geq m_{0} > 0$ ， $0 < p_{0} \leq p_{1} \leq p_{2} < 1$ ， $θ \in [0, 1]$ ， $τ \in (0, 1]$ 和 $δ \in (0, 3)$ 。置 $k : = 0$ 。

步2. 如果 $‖ J_{k}^{T} F_{k} ‖ = 0$ ，则停止计算。否则，令

$λ_{k} = μ_{k} [(1 - θ) {‖ F_{k} ‖}^{δ} + θ {‖ J_{k}^{T} F_{k} ‖}^{δ}],$ (2.11)

通过求解以下线性方程组，得到 $d_{k}$ ：

$(J_{k}^{T} J_{k} + λ_{k} I) d = - J_{k}^{T} F_{k},$ (2.12)

令 $y_{k} = x_{k} + d_{k}$ ；再求解以下方程组，得到 ${\hat{d}}_{k}$ ：

$(J_{k}^{T} J_{k} + λ_{k} I) d = - J_{k}^{T} F (y_{k}),$ (2.13)

再令 $s_{k} = d_{k} + {\hat{d}}_{k}$ 。

步3. 通过(2.8)和(2.10)计算下降比

${\overset{⌢}{r}}_{k} = \frac{\overset{⌢}{A r e d_{k}}}{\overset{⌢}{P r e d_{k}}}$ (2.14)

步4. 令

$x_{k + 1} = {\begin{cases} x_{k} + s_{k}, 若 {\overset{⌢}{r}}_{k} \geq p_{0}, \\ x_{k}, 若 {\overset{⌢}{r}}_{k} < p_{0} . \end{cases}$ (2.15)

令

$W_{k + 1} = (1 - τ) W_{k} + τ {‖ F_{k + 1} ‖}^{2} .$ (2.16)

步5. 选择 $μ_{k + 1}$ 为

$μ_{k + 1} = {\begin{cases} 4 μ_{k}, 若 \overset{⌢}{r} < p_{1}, \\ μ_{k}, 若 \overset{⌢}{r} \in [p_{1}, p_{2}], \\ \max {\frac{μ_{k}}{4}, m_{0}}, 若 \overset{⌢}{r} > p_{2} . \end{cases}$ (2.17)

置 $k : = k + 1$ ，转步2。

注：

两步LM方法的计算成本与单步LM方法的计算成本几乎相同，因为(2.13)只涉及 $F (y_{k})$ ，并且在求解(2.12)之后，可以利用 $J_{k}^{T} J_{k} + λ_{k} I$ 的可用分解。

3. 全局收敛性

为了证明算法1的全局收敛性，我们做出如下假设。

假设A

(1) $F (x)$ 在 $R^{n}$ 上是连续可微的。

(2) $F (x)$ 和 $J (x)$ 在 $R^{n}$ 上是Lipschitz连续的，即对 $\forall x, y \in R^{n}$ ，存在正的常数 $L$ ，使得

$‖ J (x) - J (y) ‖ \leq L ‖ x - y ‖,$ (3.1)

$‖ F (x) - F (y) ‖ \leq L ‖ x - y ‖ .$ (3.2)

假设A也意味着，对 $\forall x, y \in R^{n}$ ，

$‖ F (y) - F (x) - J (x) (y - x) ‖ \leq L {‖ y - x ‖}^{2} .$ (3.3)

$‖ J (x) ‖ \leq L .$ (3.4)

引理3.1 设 ${x_{k}}$ 是由算法1产生的序列，则对所有的 $k \geq 0$ ，都有

${‖ F_{k} ‖}^{2} \leq W_{k}, W_{k + 1} \leq W_{k} 和 ‖ F_{k} ‖ \leq ‖ F_{0} ‖ .$

证明. 首先，我们假设对某些 $k$ ，有 ${‖ F_{k} ‖}^{2} \leq W_{k}$ 。如果 ${\overset{⌢}{r}}_{k} < p_{0}$ ，那么由(2.15)可得 $x_{k + 1} = x_{k}$ ，则

$W_{k} \geq {‖ F_{k} ‖}^{2} = {‖ F_{k + 1} ‖}^{2} .$ (3.5)

如果 ${\overset{⌢}{r}}_{k} \geq p_{0}$ ，那么由(2.15)可得 $x_{k + 1} = x_{k} + s_{k}$ ，再由(2.14)得

${\overset{⌢}{r}}_{k} = \frac{W_{k} - {‖ F (x_{k} + s_{k}) ‖}^{2}}{\overset{⌢}{P r e d_{k}}} = \frac{W_{k} - {‖ F_{k + 1} ‖}^{2}}{\overset{⌢}{P r e d_{k}}} \geq p_{0}$ ,

上式结合(2.9)，意味着

$W_{k} \geq {‖ F_{k + 1} ‖}^{2} + p_{0} \overset{⌢}{P r e d_{k}} \geq {‖ F_{k + 1} ‖}^{2} .$ (3.6)

于是由(2.16)可知

$W_{k + 1} = (1 - τ) W_{k} + τ {‖ F_{k + 1} ‖}^{2} \geq {‖ F_{k + 1} ‖}^{2} .$

因为 $W_{0} = {‖ F_{0} ‖}^{2}$ ，所以通过对 $k$ 进行归纳，我们可以得到对所有的 $k \geq 0$ ，都有

${‖ F_{k} ‖}^{2} \leq W_{k},$

这就证得了引理的第一个结果。

然后，结合(3.5)和(3.6)可知对所有的 $k \geq 0$ ， ${‖ F_{k + 1} ‖}^{2} \leq W_{k}$ ，再由(2.16)可得 $W_{k + 1} = (1 - τ) W_{k} + τ {‖ F_{k + 1} ‖}^{2} \leq (1 - τ) W_{k} + τ W_{k} = W_{k}$ ，即对所有的 $k \geq 0$ ，都有

$W_{k + 1} \leq W_{k},$

这就证得了引理的第二个结果。

此外，对所有的 $k \geq 0$ ，我们有

${‖ F_{k} ‖}^{2} \leq W_{k} \leq W_{0} = {‖ F_{0} ‖}^{2} .$

这就证得了引理的第三个结果。 □

定理3.1 设 ${x_{k}}$ 是由算法1产生的序列，若假设A成立，则有

$\underset{k \to \infty}{\lim \inf} ‖ J_{k}^{T} F_{k} (x_{k}) ‖ = 0.$ (3.7)

证明. 用反证法。假设 $\underset{k \to \infty}{\lim \inf} ‖ J_{k}^{T} F_{k} ‖ \neq 0$ ，则存在常数 $\bar{k} > 0, η > 0$ ，使得对 $\forall k > \bar{k}$ ，有

$‖ J_{k}^{T} F_{k} ‖ \geq η,$ (3.8)

定义包含所有成功迭代点的指标集为

$S = {k | {\overset{⌢}{r}}_{k} \geq p_{0}}$

我们考虑以下两种情况，并得出矛盾。

情形1. $S$ 是无限的。在这种情形下，由(2.9)，(2.15)，(2.16)，(3.4)和(3.8)可得，对所有的 $k \in S$ 以及 $k > \bar{k}$ ，有

$\begin{matrix} W_{k} - {‖ F_{k + 1} ‖}^{2} = W_{k} - {‖ F (x_{k} + s_{k}) ‖}^{2} = \overset{⌢}{A r e d_{k}} \\ \geq p_{0} \overset{⌢}{P r e d_{k}} \\ \geq p_{0} ‖ J_{k}^{T} F_{k} ‖ \min {‖ d_{k} ‖, \frac{‖ J_{k}^{T} F_{k} ‖}{‖ J_{k}^{T} J_{k} ‖}} + p_{0} ‖ J_{k}^{T} F (y_{k}) ‖ \min {‖ {\hat{d}}_{k} ‖, \frac{‖ J_{k}^{T} F (y_{k}) ‖}{‖ J_{k}^{T} J_{k} ‖}}, \\ \geq p_{0} η \min {‖ d_{k} ‖, \frac{η}{L^{2}}} . \end{matrix}$

根据引理3.1的第二个结果，序列 ${W_{k}}$ 单调递减且下有界，即存在一个常数 $W^{*} \geq 0$ ，使得 $\lim_{k \to \infty} W_{k} = W^{*}$ 。再由(2.16)，我们有

$\lim_{k \to \infty} {‖ F_{k} ‖}^{2} = \lim_{k \to \infty} \frac{W_{k} - (1 - τ) W_{k - 1}}{τ} = W^{*} .$

于是根据 $\lim_{k \to \infty} ‖ F_{k} ‖ = \lim_{k \to \infty} W_{k} = W^{*}$ ，可知 $\lim_{k \in S, k \to \infty} d_{k} = 0$ 。

然而当 $k \notin S$ 时，有 $x_{k + 1} - x_{k} = 0$ 。因此可以得到

$\lim_{k \to \infty} d_{k} = 0.$

上式结合(2.12)和(3.8)可得

$\lim_{k \to \infty} λ_{k} = + \infty .$ (3.9)

根据引理3。1的第三个结果以及(3.4)，有

$(1 - θ) {‖ F_{k} ‖}^{δ} + θ {‖ J_{k}^{T} F_{k} ‖}^{δ} \leq (1 - θ) {‖ F_{0} ‖}^{δ} + θ L^{δ} {‖ F_{0} ‖}^{δ} .$

上式结合(2.11)和(3.9)可得

$\lim_{k \to \infty} μ_{k} = + \infty .$ (3.10)

此外，由 $\hat{d}$ 的定义和(3.3)，对所有充分大的 $k$ 有

$\begin{matrix} ‖ {\hat{d}}_{k} ‖ = ‖ - {(J_{k}^{T} J_{k} + λ_{k} I)}^{- 1} J_{k}^{T} F (y_{k}) ‖ \\ \leq ‖ {(J_{k}^{T} J_{k} + λ_{k} I)}^{- 1} J_{k}^{T} (F (y_{k}) - F_{k} - J_{k} d_{k}) ‖ \\ + ‖ {(J_{k}^{T} J_{k} + λ_{k} I)}^{- 1} J_{k}^{T} F_{k} ‖ + ‖ {(J_{k}^{T} J_{k} + λ_{k} I)}^{- 1} J_{k}^{T} J_{k} d_{k} ‖ \\ \leq ‖ {(J_{k}^{T} J_{k} + λ_{k} I)}^{- 1} ‖ ‖ J_{k} ‖ ‖ F (y_{k}) - F_{k} - J_{k} d_{k} ‖ + ‖ d_{k} ‖ + ‖ d_{k} ‖ \\ \leq λ_{k}^{- 1} L^{2} {‖ d_{k} ‖}^{2} + 2 ‖ d_{k} ‖ \\ \leq \bar{c} ‖ d_{k} ‖ . \end{matrix}$ (3.11)

其中 $\bar{c}$ 是某个正的常数。于是

$‖ s_{k} ‖ = ‖ d_{k} + {\hat{d}}_{k} ‖ \leq (1 + \bar{c}) ‖ d_{k} ‖ .$

故由(2.1)，(2.8)，(2.9)，(3.4)，(3.8)和上式，对 $\forall k > \bar{k}$ ，

$\begin{matrix} | \frac{A r e d_{k} - \overset{⌢}{P r e d_{k}}}{\overset{⌢}{P r e d_{k}}} | \leq | \frac{{‖ F (x_{k} + s_{k}) ‖}^{2} - {‖ F_{k} + J_{k} d_{k} ‖}^{2} + {‖ F (y_{k}) ‖}^{2} - {‖ F (y_{k}) + J_{k} {\hat{d}}_{k} ‖}^{2}}{‖ J_{k}^{T} F_{k} ‖ \min {‖ d_{k} ‖, \frac{‖ J_{k}^{T} F_{k} ‖}{‖ J_{k}^{T} J_{k} ‖}} + ‖ J_{k}^{T} F (y_{k}) ‖ \min {‖ {\hat{d}}_{k} ‖, \frac{‖ J_{k}^{T} F (y_{k}) ‖}{‖ J_{k}^{T} J_{k} ‖}}} | \\ \leq \frac{‖ F_{k} + J_{k} s_{k} ‖ O ({‖ s_{k} ‖}^{2} + {‖ d_{k} ‖}^{2}) + O ({‖ s_{k} ‖}^{4} + {‖ d_{k} ‖}^{4}) + ‖ F_{k} + J_{k} d_{k} ‖ O ({‖ d_{k} ‖}^{2})}{η \min {‖ d_{k} ‖, \frac{η}{L^{2}}}} \\ \leq \frac{‖ F_{k} ‖ O ({‖ d_{k} ‖}^{2}) + ‖ J_{k} {\hat{d}}_{k} ‖ O ({‖ d_{k} ‖}^{2})}{‖ d_{k} ‖} \\ \to 0. \end{matrix}$

即得 $k \to \infty$ ，有 $\frac{A r e d_{k}}{\overset{⌢}{P r e d_{k}}} \to 1$ 。根据引理3.1的第一个结果，对 $\forall k \geq 0$ ，都有 $W_{k} \geq {‖ F_{k} ‖}^{2}$ ，于是

$\overset{⌢}{A r e d_{k}} \geq A r e d_{k}$ 。故有

${\overset{⌢}{r}}_{k} = \frac{\overset{⌢}{A r e d_{k}}}{\overset{⌢}{P r e d_{k}}} \geq \frac{A r e d_{k}}{\overset{⌢}{P r e d_{k}}} \to 1.$

鉴于 $μ_{k}$ 的更新规则，存在一个正的常数 $\bar{m} > m$ ，使得 $μ_{k} < \bar{m}$ 对所有充分大的 $k$ 都成立，这与(3.10)相矛盾，即当 $S$ 为无限集时，假设(3.8)不真。

情形2. $S$ 是有限的。在这种情形下，存在一个索引 $\hat{k}$ ，使得对所有的 $k > \hat{k}$ ，有 ${\overset{⌢}{r}}_{k} < p_{0} < p_{1}$ 。于是，通过算法1的第5步，对所有的 $k > \hat{k}$ ，都有 $μ_{k + 1} = 4 μ_{k}$ ，因此

$\lim_{k \to \infty} μ_{k} = + \infty .$ (3.12)

由(3.4)和(3.8)，我们有

$‖ F_{k} ‖ \geq \frac{‖ J_{k}^{T} F_{k} ‖}{L} \geq \frac{η}{L}, \forall k > \bar{k} .$

从而

$(1 - θ) {‖ F_{k} ‖}^{δ} + θ {‖ J_{k}^{T} F_{k} ‖}^{δ} \geq \frac{(1 - θ) η^{δ}}{L^{δ}} + θ η^{δ} > 0, \forall k > \bar{k} .$

再由(2.11)和(3.12)可得

$\lim_{k \to \infty} λ_{k} = + \infty .$

上式结合(2.12)和(3.8)可得

$\lim_{k \to \infty} d_{k} = 0.$

类似于(3.11)，存在一个正的常数 $\tilde{c}$ ，使得对所有充分大的 $k \in S$ ，都有

$‖ {\hat{d}}_{k} ‖ \leq \tilde{c} ‖ d_{k} ‖ .$

因此对所有充分大的 $k \in S$ ，有

$‖ s_{k} ‖ = ‖ d_{k} + {\hat{d}}_{k} ‖ \leq (1 + \tilde{c}) ‖ d_{k} ‖ .$

通过与情形1相同的分析，我们可以得到 ${\overset{⌢}{r}}_{k} \to 1$ 。故存在一个正的常数 $\tilde{m} > m$ ，使得 $μ_{k} < \tilde{m}$ 对所有充分大的 $k$ 都成立，这与(3.12)相矛盾，即当 $S$ 为有限集时，假设(3.8)不真。

总结情形1和情形2，我们得到(3.7)并完成了证明。 □

4. 数值实验

为了验证算法的有效性，我们将文献[11]中的单步LM算法2.1 (记作算法SLM)与本文提出的两步LM算法1 (记作算法TLM)进行数值实验比较。所有程序均在MATLAB R2016a平台上编写，数值结果均在个人电脑上实现。算法所涉及的参数具体如下：

$μ_{0} = 10^{- 3}, m_{0} = 10^{- 8}, τ = 0.5, p_{0} = 10^{- 4}, p_{1} = 0.25, p_{2} = 0.75.$

我们选取算法终止条件为 $‖ J_{k}^{T} F_{k} ‖ \leq 10^{- 6}$ ，计算以下两个具有不同初始点和不同大小的问题，测试函数均选自[14]：

(i) 扩展的Rosenbrock函数： $F (x) = {(F_{1} (x), \dots, F_{n} (x))}^{T}$ ，其中 $n$ 是偶数， $i = 1, \dots, \frac{n}{2}$ ，

$\begin{array}{l} F_{2 i - 1} (x) = 10 (x_{2 i} - x_{2 i - 1}^{2}), \\ F_{2 i} (x) = 1 - x_{2 i - 1} . \end{array}$

(ii) 扩展的Powell Singular函数： $F (x) = {(F_{1} (x), \dots, F_{n} (x))}^{T}$ ，其中 $n$ 是正整数的四倍， $i = 1, \dots, \frac{n}{4}$ ，

$\begin{array}{l} F_{4 i - 3} (x) = x_{4 i - 3} + 10 x_{4 i - 2}, \\ F_{4 i - 2} (x) = \sqrt{5} (x_{4 i - 1} - x_{4 i}), \\ F_{4 i - 1} (x) = {(x_{4 i - 2} - 2 x_{4 i - 1})}^{2}, \\ F_{4 i} (x) = \sqrt{10} {(x_{4 i - 3} - x_{4 i})}^{2} . \end{array}$

表1~3列出了两种算法在两个测试问题上的迭代次数，测试 $θ = 0, 0.5, 1$ 和 $δ = 0.5, 1.0, 1.5, 2.0, 2.5$ 时的LM参数。我们选择 $x_{0} = (- 1, 1, - 1, 1, \dots, - 1, 1)$ ，表1~3中的第三列表示不同的初始点，对于问题(i)，取初始点为 $- 10 x_{0}$ ， $- x_{0}$ ， $0 x_{0}$ ， $x_{0}$ ， $10 x_{0}$ ， $100 x_{0}$ ；对于问题(ii)，取初始点为 $x_{0}$ ， $5 x_{0}$ ， $10 x_{0}$ ， $50 x_{0}$ ， $100 x_{0}$ ， $150 x_{0}$ 。如果算法的迭代次数超过1000，则用符号“--”表示。

从表1~3中，我们可以看到，无论在测试问题(i)还是(ii)上，算法TLM的迭代次数几乎都比算法SLM的迭代次数少，说明本文提出的两步LM算法比单步LM算法的收敛速度更快。因此可以认为算法1在实际问题中可行且有效。

Table 1. Number of iterations at $θ = 0$

表1. $θ = 0$ 时的迭代次数

Problem	n	x₀	δ = 0.5	δ = 1.0	δ = 1.5	δ = 2.0	δ = 2.5
Problem	n	x₀	SLM/TLM	SLM/TLM	SLM/TLM	SLM/TLM	SLM/TLM
Rosenbrock	2	−10	4/3	4/3	6/4	6/5	8/10
		−1	2/1	2/1	3/2	3/2	4/2
		0	15/1	17/1	17/1	17/1	17/1
		1	22/2	25/2	26/18	24/22	27/22
		10	4/3	5/3	6/4	7/4	7/5
		100	6/5	8/5	8/6	11/8	15/10
	10	−10	4/3	5/4	6/5	8/11	9/11
		−1	2/1	3/2	4/2	4/2	4/3
		0	17/1	16/1	16/1	18/1	20/1
		1	27/2	22/22	26/17	18/21	22/15
		10	5/3	5/4	6/5	8/7	9/7
		100	7/5	8/6	9/7	12/9	20/13
	100	−10	4/3	6/4	7/6	8/6	11/12
		−1	2/1	3/2	4/3	5/3	6/3
		0	16/2	17/2	16/2	11/2	19/10
		1	27/19	22/22	24/18	23/14	21/16
		10	5/3	6/4	7/6	10/16	11/20
		100	7/5	8/6	10/10	16/14	28/25
Powell Singular	4	1	10/7	10/7	10/7	10/7	10/7
		5	12/9	12/9	12/9	12/9	13/9
		10	13/9	13/9	13/9	13/10	15/11
		50	15/11	15/11	15/11	17/12	20/15
		100	16/12	16/12	16/12	19/14	23/18
		150	17/12	17/12	17/12	20/14	24/19
	100	1	11/8	11/8	11/8	11/8	11/8
		5	13/9	13/9	13/9	13/10	16/12
		10	14/10	14/10	14/10	15/11	18/14
		50	16/12	16/12	16/12	20/15	24/19
		100	17/12	17/12	18/13	22/16	27/21
		150	18/13	18/13	18/13	23/17	32/24
	200	1	11/8	11/8	11/8	11/8	11/8
		5	13/9	13/9	13/9	14/10	16/12
		10	14/10	14/10	14/10	16/11	19/14
		50	16/12	16/12	17/12	20/15	25/20
		100	17/12	17/12	18/13	22/17	30/23
		150	18/13	18/13	19/13	23/18	39/28

Table 2. Number of iterations at $θ = 0.5$

表2. $θ = 0.5$ 时的迭代次数

Problem	n	x₀	δ = 0.5	δ = 1.0	δ = 1.5	δ = 2.0	δ = 2.5
Problem	n	x₀	SLM/TLM	SLM/TLM	SLM/TLM	SLM/TLM	SLM/TLM
Rosenbrock	2	−10	4/3	6/5	8/7	11/9	16/16
		−1	2/1	4/2	4/3	5/3	7/4
		0	17/1	16/1	21/1	18/1	23/1
		1	18/2	23/2	27/22	26/23	30/17
	10	10	5/3	6/5	8/5	11/8	34/13
		100	7/5	9/7	14/10	140/29	--/--
		−10	4/3	6/5	8/7	12/12	25/19
		−1	3/2	4/2	4/3	6/3	8/6
		0	19/1	15/2	16/2	18/2	29/2
		1	24/2	20/22	26/18	27/17	27/26
		10	5/3	6/5	9/7	12/10	24/16
		100	7/5	9/7	16/12	224/78	--/--
	100	−10	5/3	7/6	9/7	14/11	158/92
		−1	3/2	4/3	6/4	7/5	11/7
		0	16/2	14/2	16/3	20/3	12/12
		1	30/19	30/20	19/18	25/16	33/15
		10	5/4	7/5	9/8	16/15	108/59
		100	8/6	10/7	23/17	--/686	--/--
Powell Singular	4	1	10/7	10/7	10/7	10/7	11/8
		5	12/9	12/9	13/9	15/12	19/15
		10	13/9	13/9	14/10	18/14	24/19
		50	15/11	15/11	19/15	28/22	--/--
		100	16/12	17/12	22/17	87/52	--/--
		150	17/12	17/12	23/18	334/176	--/--
	100	1	11/8	11/8	11/8	12/9	14/11
		5	13/9	13/9	14/11	19/15	25/20
		10	14/10	14/10	17/12	22/17	148/82
		50	16/12	16/12	22/17	121/69	--/--
		100	17/12	18/13	24/19	--/777	--/--
		150	18/13	18/13	25/20	--/--	--/--
	200	1	11/8	11/8	11/8	12/9	15/12
		5	13/9	13/9	15/11	19/15	29/22
		10	14/10	14/10	17/13	22/18	318/168
		50	16/12	17/12	22/17	216/117	--/--
		100	17/12	18/13	25/19	--/--	--/--
		150	18/13	19/13	26/21	--/--	--/--

Table 3. Number of iterations at $θ = 1$

表3. $θ = 1$ 时的迭代次数

Problem	n	x₀	δ = 0.5	δ = 1.0	δ = 1.5	δ = 2.0	δ = 2.5
Problem	n	x₀	SLM/TLM	SLM/TLM	SLM/TLM	SLM/TLM	SLM/TLM
Rosenbrock	2	−10	4/3	6/5	9/6	11/10	20/17
		−1	2/2	4/2	4/3	6/4	7/4
		0	16/1	18/1	18/1	22/1	33/1
		1	22/2	26/2	21/22	39/17	36/26
		10	5/3	6/5	8/6	13/9	18/15
		100	7/5	9/7	16/12	109/41	--/--
	10	−10	4/3	6/5	9/8	12/11	37/27
		−1	3/2	4/2	5/3	6/4	8/6
		0	15/2	19/2	23/2	23/2	19/2
		1	25/2	29/17	27/18	27/15	39/23
		10	5/4	7/5	9/7	13/10	29/19
		100	8/6	10/7	18/14	382/166	--/--
	100	−10	5/4	7/6	11/9	18/14	295/156
		−1	3/2	4/3	7/4	9/6	11/8
		0	16/2	20/2	16/3	16/3	25/11
		1	25/21	29/18	26/21	23/19	38/22
		10	6/4	7/6	10/8	16/13	192/100
		100	8/6	10/8	20/77	--/--	--/--
Powell Singular	4	1	10/7	10/7	10/7	10/7	11/8
		5	12/9	12/9	13/9	16/12	20/16
		10	13/9	13/9	15/11	19/15	27/21
		50	15/11	16/11	20/15	33/24	--/--
		100	16/12	17/12	22/17	148/83	--/--
		150	17/12	17/12	23/18	639/329	--/--
	100	1	11/8	11/8	11/8	12/9	15/11
		5	13/9	13/9	15/11	19/15	28/21
		10	14/10	14/10	17/13	22/18	272/144
		50	16/12	17/12	22/17	216/117	--/--
		100	17/12	18/13	25/19	--/--	--/--
		150	18/13	18/13	26/21	--/--	--/--
	200	1	11/8	11/8	11/8	13/10	16/12
		5	13/9	13/9	15/11	20/16	36/26
		10	14/10	14/10	18/13	23/18	612/315
		50	16/12	17/12	23/18	405/211	--/--
		100	17/12	18/13	25/20	--/--	--/--
		150	18/13	19/14	27/21	--/--	--/--

5. 总结

本文通过采用一种较为通用的LM参数并结合非单调信赖域方法，提出了改进型的两步Levenberg-Marquardt方法。我们已经证明，新的两步LM方法具有全局收敛性，并通过与单步LM方法的数值实验进行对比，得出新的两步LM方法在解决实际问题上高效且有前途。

参考文献

[1]	Ortega, J.M. and Rheinboldt, W.C. (2000) Iterative Solution of Nonlinear Equations in Several Variables. Society for Industrial and Applied Mathematics. [Google Scholar] [CrossRef]
[2]	Kelley, C.T. (2003) Solving Nonlinear Equations with Newton’s Method. Society for Industrial and Applied Mathematics. [Google Scholar] [CrossRef]
[3]	Yamashita, N. and Fukushima, M. (2001) On the Rate of Convergence of the Levenberg-Marquardt Method. In: Alefeld, G. and Chen, X., Eds., Topics in Numerical Analysis, Springer, 239-249. [Google Scholar] [CrossRef]
[4]	Fan, J. and Yuan, Y. (2005) On the Quadratic Convergence of the Levenberg-Marquardt Method without Nonsingularity Assumption. Computing, 74, 23-39. [Google Scholar] [CrossRef]
[5]	Ma, C. and Jiang, L. (2007) Some Research on Levenberg-Marquardt Method for the Nonlinear Equations. Applied Mathematics and Computation, 184, 1032-1040. [Google Scholar] [CrossRef]
[6]	Fan, J. and Pan, J. (2009) A Note on the Levenberg-Marquardt Parameter. Applied Mathematics and Computation, 207, 351-359. [Google Scholar] [CrossRef]
[7]	Fan, J. (2012) The Modified Levenberg-Marquardt Method for Nonlinear Equations with Cubic Convergence. Mathematics of Computation, 81, 447-466. [Google Scholar] [CrossRef]
[8]	Grippo, L., Lampariello, F. and Lucidi, S. (1986) A Nonmonotone Line Search Technique for Newton’s Method. SIAM Journal on Numerical Analysis, 23, 707-716. [Google Scholar] [CrossRef]
[9]	Deng, N.Y., Xiao, Y. and Zhou, F.J. (1993) Nonmonotonic Trust Region Algorithm. Journal of Optimization Theory and Applications, 76, 259-285. [Google Scholar] [CrossRef]
[10]	Zhang, H. and Hager, W.W. (2004) A Nonmonotone Line Search Technique and Its Application to Unconstrained Optimization. SIAM Journal on Optimization, 14, 1043-1056. [Google Scholar] [CrossRef]
[11]	Zhao, L. and Tang, J. (2024) Levenberg-Marquardt Method with a General LM Parameter and a Nonmonotone Trust Region Technique. Journal of Applied Analysis & Computation, 14, 1959-1976. [Google Scholar] [CrossRef]
[12]	Fan, J. (2003) A Modified Levenberg-Marquardt Algorithm for Singular System of Nonlinear Equations. Journal of Computational Mathematics, 21, 625-636.
[13]	Powell, M.J.D. (1975) Convergence Properties of a Class of Minimization Algorithms. In: Mangasarian, O.L., Meyer, R.R. and Robinson, S.M., Eds., Nonlinear Programming 2, Academic Press, 1-27. [Google Scholar] [CrossRef]
[14]	Moré, J.J., Garbow, B.S. and Hillstrom, K.E. (1981) Testing Unconstrained Optimization Software. ACM Transactions on Mathematical Software, 7, 17-41. [Google Scholar] [CrossRef]

为你推荐

友情链接