无约束优化问题的牛顿谱梯度法

doi:10.12677/ORF.2020.101008

期刊菜单

无约束优化问题的牛顿谱梯度法
Newton Spectral Gradient Method of Unconstrained Optimization Problems

DOI: 10.12677/ORF.2020.101008, PDF, HTML, XML,
作者: 宋婷霞, 宇振盛：上海理工大学理学院，上海
关键词: 牛顿方向；谱梯度方向；非单调；凸组合；Newton Direction； Spectral Gradient Direction； Non-Monotone； Convex Combination

摘要: 本文在Newton法和最速下降法的组合方法的基础上提出求解无约束优化问题的Newton法与谱梯度法的组合方法，该方法有效地应用于目标函数的Hessian矩阵不正定或初始点不接近极小点的问题，并利用非单调线搜索求解步长。在较温和的条件下建立了该方法的全局收敛性和超线性收敛性，并且数值实验证明了该算法具有很好的数值实验效果。

Abstract: Based on the Newton method and the combination of the steepest descent method, Newton method and spectral gradient method are combined to solve unconstrained optimization prob-lems. This method is effectively applied to the problem that the Hessian matrix of the objective function is not positive definite or the initial point is not close to the minimum point, and the non-monotone line search is used to solve the step size. The global convergence and superlinear convergence of this method are established under relatively mild conditions, and the numerical experiments show that the algorithm has good numerical experimental results.

文章引用：宋婷霞, 宇振盛. 无约束优化问题的牛顿谱梯度法[J]. 运筹与模糊学, 2020, 10(1): 65-73. https://doi.org/10.12677/ORF.2020.101008

1. 引言

本文主要用于研究如下非线性无约束最优化问题

(1.1)

其中 $f : R^{n} \to R$ 是连续可微函数。本文的方法是通过更新迭代式

$x_{k + 1} = x_{k} + α_{k} d_{k}$ (1.2)

来解决问题(1.1)， $d_{k}$ 是搜索方向， $α_{k} > 0$ 是步长。

牛顿法是解无约束优化最经典也是最早的算法之一，作为最基本的求解无约束优化问题的方法，牛顿法及其各种改进方法一直受到广泛关注(见文献 [1] [2] [3] [4])。下面是牛顿法的原理：

假设 $x_{k}$ 是当前迭代点，计算 $x_{k}$ 处目标函数的梯度和Hessian矩阵 $G_{k} = \nabla^{2} f (x_{k})$ 。若，则根据目标函数的二次可微性知，目标函数在附近是严格凸函数。基于目标函数的二次泰勒展式，在当前迭代点 $x_{k}$ 附近：

$f (x_{k} + d) \approx f (x_{k}) + d^{T} \nabla f (x_{k}) + \frac{1}{2} d^{T} \nabla^{2} f (x_{k}) d$ (1.3)

所以，考虑

$\min_{d \in ℜ^{n}} φ_{k} (d) = d^{T} \nabla f (x_{k}) + \frac{1}{2} d^{T} \nabla^{2} f (x_{k}) d$ (1.4)

假定是正定的，则知该式的解是

(1.5)

上式就是牛顿搜索方向。牛顿方向被附加到(1.2)的搜索方向而不是直接替代主要基于以下几个考虑：首先(1.1)对于 [5] 中的问题，函数 $f : R^{n} \to R$ 的Hess矩阵可能不正定，即使我们假设f在 $R^{n}$ 上连续可微，也可能初始点的选取没有足够靠近“极小点”，牛顿法的一些理想性质不在初始点附近，其次通过结合谱梯度法，能够避免求得的(1.1)式的解被困在局部最小值中。

BB步是由Barzilai和Barwein在1988年提出的两点步长梯度法 [6]，其基本思想是利用迭代当前点以及前一点的信息来确定步长因子。1993年和2002年Raydan和Dai & Liao证明了广义n维严格凸二次型BB方法的全局收敛性和R-线性收敛性。随后，BB方法也扩展以解决一般的非线性优化问题。通过将Grippo等提出的非单调线搜索 [7] [8] [9] 结合起来，1997年Marcos Raydan在文献 [10] 中提出了一种加入全局策略的GBB算法，2018年Yu-Hong Dai在文章 [11] 中，提出了一族谱梯度法，并证明了此类算法在任意维情况下都具有R阶超线性收敛性。下面是该方法的原理：

他们是把迭代公式 $x_{k + 1} = x_{k} + λ_{k} d_{k}$ 看成是

$x_{k + 1} = x_{k} - D_{k} g_{k}$ (1.6)

其中 $g_{k} = g (x_{k}) = \nabla f (x_{k})$ ， $D_{k} = λ_{k} I$ .为了使矩阵 $D_{k}$ 具有“拟牛顿”性质，计算 $λ_{k}$ 使得

(1.7)

或者

$\min {‖ D_{k}^{- 1} s_{k - 1} - y_{k - 1} ‖}_{2}$ (1.8)

其中 $s_{k - 1} = x_{k} - x_{k - 1}$ ， $y_{k - 1} = g_{k} - g_{k - 1}$ ，由上两式分别求得

$λ_{1} = s_{k - 1}^{T} y_{k - 1} / {‖ y_{k - 1} ‖}_{2}^{2}$ (1.9)

和

$λ_{2} = {‖ s_{k - 1} ‖}_{2}^{2} / s_{k - 1}^{T} y_{k - 1}$ (1.10)

上面两式就是谱梯度步长。在一般的非二次情况下，， $λ_{2}$ 可以是令人无法接受的大或小(甚至对于非凸函数是负的)，因此我们必须假设逐步计算出的 $λ$ 是通过对(1.10)或(1.11)进行修改，以满足形式的一个条件

$0 < \min (η, \frac{1}{τ}) \leq λ_{k} \leq \max (\frac{1}{η}, \frac{1}{τ})$ (1.11)

若不然，则令 $λ = τ$ 。

现在我们给出一个简短的分析，形成了一个针对问题(1.1)的牛顿谱梯度法。对任意的当 $g_{k} = \nabla f (x_{k}) \neq 0$ 时，设是目标函数的Hessian矩阵。由于目标函数f是连续可微的，所以如果下列方程

(1.12)

有解，则 $d_{N}$ 在处的方向为下降方向，并称为f在 $x_{k}$ 的牛顿方向。且由论文 [12] 得，序列 ${x_{k}}$ 的任何极限点 $x^{*}$ 都是f的稳定点，既 $g (x^{*}) = 0$ 。

谱梯度法因其几乎对所有初始值都是成立的而得到广泛的应用。从而弥补了牛顿法对初始点的苛刻要求，并且该方法不需要求解目标函数f的Hessian矩阵。因此有如下谱梯度方向

$d_{B} = - λ g_{k}$ (1.13)

在本文中，我们结合(1.6)和(1.12)引入牛顿方向和谱梯度方向的凸组合来最大化利用这两种方法的优势。对于任给的 $x \in ℜ^{n}$ 设

$d_{k} = t d_{N} + (1 - t) d_{B}$ (1.14)

其中谱梯度方向 $d_{B}$ 有一个缺点是该方向不总是下降的。为了克服这一缺点，本文结合Grippo等提出的非单调线搜索，从而避免了谱梯度法不是单调下降的问题。

$f (x_{k} + β^{m_{k}} d_{k}) \leq \max_{0 \leq j \leq M} f (x_{k - j}) + σ β^{m_{k}} g_{k}^{T} d_{k}$ (1.15)

其中步长 $α_{k} = β^{m_{k}}$ 。

文章剩下的部分组织如下：第二节给出了搜索方向的性质并描述了具体的牛顿谱梯度方法；第三节证明了算法的收敛性；第四节给出了数值实验，第五节进行了总结。

2. 搜索方向的性质及牛顿谱梯度法

算法2.1 (牛顿谱梯度算法)

步0 给定初始点 $x_{0} \in R^{n}$ ，终止误差。令 k:=0

步1 计算。若 $‖ g_{k} ‖ \leq ε$ ，停算，输出 $x_{k}$ 作为近似极小点。

步2 由(1.10)或(1.11)给出满足条件(1.12)的

$d_{B} = - λ g_{k}$ .

步3 计算 $G_{k} = \nabla^{2} f (x_{k})$ ，解方程组

$G_{k} d + g_{k} = 0$ (2.1)

若(2.1)有解 $d_{N}$ ，且满足 $g_{k}^{T} d_{N} < 0$ ，转步3；否则，令 $d_{k} = d_{B}$ 转步5。

步4 $d_{k} = t d_{N} + (1 - t) d_{B}$ .

步5 由非单调线搜索技术确定步长因子。( $m_{k}$ 是满足条件的最小非负整数)

(2.2)

步6 令， $k : = k + 1$ ，转步1。

首先，我们将研究 $d_{k}$ 的一些性质，且我们假定目标函数f在 $R^{n}$ 上总是二次连续可微的，且满足下列假设1：

假设1 目标函数 $f : R^{n} \to R$ 二次连续可微，对任意给定 $x_{0} \in R^{n}$ ，f在水平集

(2.3)

上有界的。

假设2 存在 $x^{*}$ 的一个领域 $N (x^{*}, δ_{1})$ ，使得 $g (x)$ 在该邻域内Lipschitz连续，既存在一个常数 $0 < K < \frac{1}{3 λ}$

使得

假设3 存在的一个领域 $N (x^{*}, δ)$ ，使得在该邻域内Lipschitz连续，既存在一个常数，使得

为了证明收敛性定理，首先给出如下性质：下列性质证明该算法的方向是下降方向。

定理2.1 假设 $x \in R^{n}$ 不是(1.1)的稳定点，由式(2.1)计算得到的存在且 $σ \in (0,1)$ 。则存在使得，是f在x处的下降方向且满足(2.2)式。

证明：因为f是连续可微的，对于给定的 $t \in [0, 1]$

$d_{k} = t d_{N} + (1 - t) d_{B}$

通过(1.12)和(1.6)有

$\begin{matrix} \nabla f {(x)}^{T} d_{k} = \nabla f {(x)}^{T} (t d_{N} + (1 - t) d_{B}) \\ = t \nabla f {(x)}^{T} \cdot (- G_{k}^{- 1} g_{k}) - (1 - t) \nabla f {(x)}^{T} λ g_{k} \\ = - t g_{k}^{T} G_{k}^{- 1} g_{k} - λ (1 - t) g_{k}^{T} g_{k} \end{matrix}$

根据正定矩阵的逆矩阵仍然是正定矩阵的性质，显然有

. (2.4)

对任给的，有

(2.5)

且对任给的k都有

$f (x_{k} + α_{k} d_{k}) \leq \max_{0 \leq j \leq M} f (x_{k - j})$

故有

$f (x_{k} + α_{k} d_{k}) \leq \max_{0 \leq j \leq M} f (x_{k - j}) + \nabla f {(x)}^{T} d_{k} + ο (αk)$

结合(2.4)，对任给的，(2.2)成立。

目前为止，我们已经考虑了非稳定点 $x_{k}$ 处的搜索方向的一些全局性质，为了证明我们算法的超线性收敛性，我们接下来考虑解点周围的方向的性质。

定理2.2 假设 $x^{*}$ 是 $g (x) = 0$ 的解，存在 $(0, 1)$ 一个常数 $κ$ ，对任给的，

$0 < \min (η, \frac{1}{τ}) \leq λ_{k} \leq \max (\frac{1}{η}, \frac{1}{τ})$

且对于 $x_{k} \in ℜ^{n}$ ， $x_{k} \to x^{*}$ ，有

$\nabla f {(x_{k})}^{T} d_{k} = - 2 α_{k} f (x_{k}) + α_{k} ο (f (x_{k}))$

证明：详见参考文献 [13] 定理3.2。

3. 收敛性分析

针对我们的牛顿谱梯度法，是通过求解线性系统(2.1)得到，如果(2.1)是不可解的或者矩阵 $G_{k}$ 是高度病态的，则 $d_{N} = - λ g_{k}$ ，这意味着。其次，通过定理2.1，如果不是(1.1)的稳定点，且算法2.1的步骤5有很好的定义，则我们的算法要么停止在一个稳定点，要么生成一个无穷序列 ${x_{k}}$ 。

定理3.1 设 ${x_{k}}$ 是由算法2.1生成的序列，且满足假设1，则下列性质成立：

(a) 序列 ${x_{k}}$ 的任何极限点都是f的稳定点，既满足；

(b) ${x_{k}}$ 的任何极限点 $x^{*}$ 都不是f的极大值点；

证明：为了证明性质(a)，我们结合定理2.1使用了( [7], p709)中的收敛性证明部分。

我们定义，显然 $m (0) = 0$ ，对所有的 $k \geq 1$ ，另外，对任给的k有 $α_{k} \in (0, 1]$ ，最后存在正数和 $c_{2}$ 使得搜索方向满足

$g_{k}^{T} d_{k} \leq - c_{1} {‖ g_{k} ‖}^{2}$ ,

实际上，在牛顿谱梯度法中 $d_{k} = t d_{N} + (1 - t) d_{B}$ ，对于所有的 $k \geq 1$

因为 $G_{k}$ 正定，故 $G_{k}^{- 1}$ 正定，即对一切有 $h^{T} G_{k}^{- 1} h > 0$ ，而 $g (x_{k}) \neq 0$ ，所以存在一个正数p，使得，从而有 $g_{k}^{T} d_{k} \leq (t p - λ (1 - t)) {‖ g_{k} ‖}^{2}$ ，另外，

$\begin{matrix} ‖ d_{k} ‖ = ‖ t d_{N} + (1 - t) d_{B} ‖ \\ = ‖ - t G_{k}^{- 1} g_{k} - (1 - t) λ g_{k} ‖ \\ \leq ‖ - t G_{k}^{- 1} g_{k} ‖ + ‖ (1 - t) λ g_{k} ‖ \end{matrix}$

由 $G_{k}$ 的正定性及f二次连续可微可知，存在 $x^{*}$ 的一个领域 $U (x^{*})$ ，使得对任意的，都有 $G (x)$ 是一致正定的。特别的， $‖ G {(x)}^{- 1} ‖$ 在上有界，既存在常数 $C > 0$ ，使得 $‖ G {(x)}^{- 1} ‖ \leq C$ ，故而 $‖ d_{k} ‖ \leq (t C + (1 - t) λ) ‖ g_{k} ‖$ 。

对任给的 $t \in [0, 1]$ ， $λ \in (0, 1]$ ，令 $c_{1} = t p - λ (1 - t)$ ，。

因此，根据( [9], p711)中的等式(14)，我们得到

因为 $α_{k} = β^{m_{k}} > 0$ ，(a)式得证。

(b)和(c)的证明直接由 [9] 中的收敛性定理给出。

定理3.2设函数 $f (x)$ 二次连续可微， ${x_{k}}$ 由算法2.1产生的迭代序列，且满足假设2，设 ${x_{k}}$ 聚点是f的解。正定，则 ${x_{k}}$ 超线性收敛于f的全局极小点 $x^{*}$ 。

证明：由 $G (x^{*})$ 的正定性及f二次连续可微可知，存在 $x^{*}$ 的一个领域 $U (x^{*})$ ，使得对任意的 $x \in U (x^{*})$ ，都有 $G (x)$ 是一致正定的。特别的， $‖ G {(x)}^{- 1} ‖$ 在上有界，既存在常数 $C > 0$ ，使得 $‖ G {(x)}^{- 1} ‖ \leq C$ 。又由 $G (x)$ 的连续性知，存在邻域 $U (x^{*})$ ，使得

$‖ G (x) - G (x^{*}) ‖ \leq \frac{1}{4 C}, \forall x \in U (x^{*}) \subseteq U_{1} (x*)$

因此，当 $x_{k} \in U (x^{*})$ 时，有

$\begin{matrix} ‖ x_{k + 1} - x^{*} ‖ = ‖ x_{k} + α_{k} (- t G_{k}^{- 1} g_{k} - (1 - t) λ g_{k}) - x^{*} ‖ \\ = ‖ G_{k}^{- 1} ‖ \cdot ‖ α_{k} t (g_{k} - g^{*}) - G_{k} (x_{k} - x^{*}) + α_{k} (1 - t) λ G_{k} (g_{k} - g^{*}) ‖ \\ \leq ‖ G_{k}^{- 1} ‖ \cdot ‖ α_{k} t (g_{k} - g^{*}) - G_{k} (x_{k} - x^{*}) ‖ + ‖ α_{k} (1 - t) λ (g_{k} - g^{*}) ‖ \\ \leq C ‖ \int_{0}^{1} G (x^{*} + μ (x_{k} - x^{*})) (x_{k} - x^{*}) d μ - G_{k} (x_{k} - x^{*}) ‖ + K λ ‖ x_{k} - x^{*} ‖ \\ \leq C \int_{0}^{1} ‖ G (x^{*} + μ (x_{k} - x^{*})) - G_{k} ‖ \cdot ‖ x_{k} - x^{*} ‖ d μ + K λ ‖ x_{k} - x^{*} ‖ \end{matrix}$

从而有 $‖ x_{k + 1} - x^{*} ‖ = ο ‖ x_{k} - x^{*} ‖$ ，既 ${x_{k}}$ 超线性收敛于。

4. 数值实验

本文从文献 [5] 中取出38个标准测试问题进行数值实验，目的是比较本文算法与几种经典无约束优化算法的数值效果以及对本文不同M值的算法的试验效果。所有数值实验都是在WINDOWS10操作系统，CPU频率为2.0 GHz，内存为2 GB的个人计算机上进行。各参数选取如下：， $σ = 0 .4$ ， $ρ = 0 .55$ ， $η = 10^{- 10}$ 。其中如果步2中 $λ_{k}$ 不满足(1.12)，则参数由下列式子给出：

$τ = {\begin{cases} 1, {‖ g_{k} ‖}_{2} > 1 \\ {‖ g_{k} ‖}_{2}^{- 1}, 10^{- 5} \leq {‖ g_{k} ‖}_{2} \leq 1 \\ 10^{5}, ‖ g_{k} ‖ < 10^{- 5} \end{cases}$ (4.1)

表1中列出了各计算结果，其中各列的代表含义如下：k：迭代次数；flag：函数值的计算次数； $f^{*}$ ：算法求得的最优值。文中的初始点 $x_{0}$ 采用文献 [5] 中给定的用来试验函数正确性的点作为初始点；终止条件采用 $‖ g_{k} ‖ \leq 10^{- 8}$ 。

表1选取M = 1，M = 2，M = 5，M = 10对本文算法进行比较，计算出不同的M值函数的迭代次数k，函数值的计算次数flag和函数值 $f^{*}$ ，并进行了比较。凸组合参数t的选取是通过比较t = 0.4, 0.5, 0.55，0.6，0.618这几个参数选取的，通过比较发现当 $t = 0.618$ 时，表现效果较佳，因此选择。其次从表中可以看出当M = 10时，该算法在最优函数值，函数值的计算次数以及迭代次数上对更多函数都是好的，因此选用M = 10时的函数计算效果与其他方法进行比较。表2中主要把共轭梯度法，BFGS拟牛顿法同本文中的算法进行比较。

Table 1. Different algorithms with the comparison of this algorithm

表1. 不同算法同本文算法的比较

Table 2. Comparing different M value algorithm

表2. 不同M取值的算法比较

从表2中能明显地看出，本文的算法在很大一部分函数中都有很好的计算效果，在27个函数中，其中对最优函数值表现好的有20个，对迭代次数表现好的有14个，而从函数值的计算次数来看，几乎处处表现良好。因此我们得到了一个相对比较好的算法。

5. 总结

本文通过介绍牛顿法与谱梯度法的凸组合搜索方向提出一种求解无约束优化问题的牛顿–谱梯度法，该算法实现了好的数值实验结果，即使在牛顿方向奇异的情况。我们在数值试验过程中还发现该方法在某些情况下依然会带有牛顿法中无法达到最优点的问题，但是当添加适当的选择条件时可能会取得更好的实验结果。

参考文献

[1]	An, H.B., Mo, Z.Y. and Liu, X.P.J. (2007) A Choice of Forcing Terms in Inexact Newton Method. Journal of Computational and Applied Mathematics, 200, 47-60. [Google Scholar] [CrossRef]
[2]	唐声平. 非线性偏微分方程多解计算的加速增广部分牛顿法[D]: [硕士学位论文]. 长沙: 湖南师范大学, 2017.
[3]	Qi, L. and Sun, J.J. (1993) A Nonsmooth Version of Newton’s Method. Mathematical Programming, 58, 353-367. [Google Scholar] [CrossRef]
[4]	Li, Y.J. and Li, D.H.J. (2009) Truncated Regularized Newton Method for Convexminimizations. Computational Optimization & Applications, 43, 119-131. [Google Scholar] [CrossRef]
[5]	Mccrae, B. and Stacey, K. (1987) More Test Examples for Nonlinear Programming Codes. Springer, Berlin, 1-271.
[6]	Barzilai, J. and Borwein, J.M.J. (1988) Two-Point Step Size Gradient Methods. IMA Journal of Numerical Analysis, 8, 141-148. [Google Scholar] [CrossRef]
[7]	Grippo, L. and Lucidi, F.L.J. (1986) A Nonmonotone Line Search Technique for Newton’s Method. SIAM Journal on Numerical Analysis, 23, 707-716. [Google Scholar] [CrossRef]
[8]	Grippo, L., Lampariello, F. and Lucidi, S.J. (1991) A Class of Non-monotone Stabilization Method in Unconstrained Optimization. Numerische Mathematik, 59, 779-805. [Google Scholar] [CrossRef]
[9]	Grippo, L, and Sciandrone, M.J. (2002) Nonmonotone Globalization Techniques for the Barzilai-Borwein Gradient Method. Computational Optimization and Applications, 23, 143-169. [Google Scholar] [CrossRef]
[10]	Raydan, M. (1997) The Barzilai and Borwein Gradient Method for the Large Scale Unconstrained Minimization Problem. Society for Industrial and Applied Mathematics, 7, 26-33. [Google Scholar] [CrossRef]
[11]	Dai, Y.H., Huang, Y. and Liu, X.W.J. (2019) A Family of Spectral Gradient Methods for Optimization. Computational Optimization and Applications, 74, 43-65. [Google Scholar] [CrossRef]
[12]	Sun, D., Womersley, R.S. and Qi, H.J. (2002) A Feasible Semismooth Asymptotically Newton Method for Mixed Complementarity Problems. Mathematical Programming, 94, 167-187. [Google Scholar] [CrossRef]
[13]	Dai, Y.-H.J. (2002) R-Linear Convergence of the Barzilai and Borwein Gradient Method. IMA Journal of Numerical Analysis, 22, 1-10. [Google Scholar] [CrossRef]

为你推荐

友情链接