非凸优化问题的两步正则化牛顿法
The Two-Step Regularized Newton Method for Non-Convex Optimization Problems
DOI: 10.12677/AAM.2023.128363, PDF, HTML, XML, 下载: 218  浏览: 329 
作者: 朱俊霖:长沙理工大学数学与统计学院,湖南 长沙
关键词: 非凸优化正则化牛顿法局部误差界信赖域Non-Convex Optimization Regularized Newton Method Local Error Bound Trust Region
摘要: 本文提出了非凸的无约束优化问题的一种在信赖域框架下的两步正则化牛顿算法,其在适当条件下证明了该方法具有局部收敛性。在局部误差界的条件下,该方法具有三阶收敛速度。此外我们还进行了数值实验,数值结果显示,与单步正则化牛顿法相比我们有更少的迭代次数更快的迭代速度,说明两步正则化牛顿法比后者更有效。
Abstract: In this paper, we propose a two-step regularized Newton algorithm for solving non-convex uncon-strained optimization problems within the trust region framework. Under appropriate conditions, we prove that this method possesses local convergence. Under the condition of a local error bound, the method exhibits third-order convergence rate. Additionally, numerical experiments are con-ducted, and the results show that our two-step regularized Newton method outperforms the sin-gle-step regularized Newton method in terms of fewer iterations and faster convergence speed, in-dicating its higher efficiency.
文章引用:朱俊霖. 非凸优化问题的两步正则化牛顿法[J]. 应用数学进展, 2023, 12(8): 3651-3664. https://doi.org/10.12677/AAM.2023.128363

1. 引言

本文主要考虑如下的优化问题

min x R n f ( x ) (1)

其中 f : R n R 是二次连续的可微函数。牛顿法是求解问题(1)的经典算法之一,其具有如下的迭代格式:

x k + 1 = x k [ 2 f ( x k ) ] 1 f ( x k )

其中 f ( x k ) 为一阶梯度, 2 f ( x k ) 为二阶海瑟矩阵。

牛顿法是求解问题(1)的经典方法,他的突出特点是:当初始点离最优解较近且目标函数在最优处的Hessian阵非奇异而且在最优解附近的Hessian矩阵满足Lipschitz条件时,经典牛顿法具有快速的二次收敛速度,收敛速度快是牛顿法的显著特点。但是当初始点的选择离最优点较远的时候,牛顿法可能不收敛,通常采取正则化来保证牛顿法的全局收敛性。此外,当Hessian矩阵奇异的时候,牛顿法无法使用。2001年Yamashita和Fukushima [1] 证明了当 f ( x ) 在问题(1)的最优解 x * 的领域内,在提供局部误差界的假设下,证明了求解非线性方程组的Levebverg-marquardt方法在比非奇异假设更弱的局部误差界的条件下仍然具有局部的二次收敛速度。因此,研究在比Hessian阵非奇异假设更弱的局部误差界条件下牛顿算法有着研究价值,本文将进一步研究求解非凸优化问题的两步正则化牛顿法。

对于奇异凸优化问题,2004年Li [2] 等人通过近似计算如下线性方程组得到搜索方向 d k

( G k + μ k I ) d k + g k = r k , r k α μ k d k .

其中 μ k = C g ( x k ) ,Li等人证明了该算法在求解奇异凸优化问题时具有全局收敛性并且在局部误差界的条件下其仍具有二次收敛速度。

2009年Ueda和Yamashita,在文献 [3] 中对Levebverg-marquardt正则化进行了推广,当目标函数f是非凸函数的时候,使用Armijo步长规则,设 x k 为第k个迭代点,将梯度 f ( x k ) 和二阶海瑟矩阵 2 f ( x k ) ,分别用 g k H k 表示,令正则化参数 μ k = c 1 ψ k I + c 2 g k δ I ,其中, ψ k = max ( 0 , λ min ( H k ) ) λ 为矩阵 H k 的特征值, d k = ( H k + c 1 ψ k I + c 2 g k δ I ) 1 为下降方向, 0 < δ < 1 ,并证明了该算法在适当的条件下有着全局收敛性,并且具有超线性收敛速度,并加以延申,当 f ( x ) 是强凸的且 δ = 1 时该方法二阶收敛。

Homeier在文献 [4] [5] 里根据牛顿法提出了一种改进的牛顿法——两阶段牛顿法,算法如下:

{ y n = x n F ( x n ) 1 F ( x n ) , n 0 , x 0 D ; x n + 1 = x n F ( z n ) 1 F ( x n ) , z n = x n + y n 2 ,

用以解决具有F-可导的非线性方程 F ( x ) = 0 的近似解问题,其在特定的情况下有着全局收敛性以及局部收敛性,为我们提出两步牛顿法提供了理论支持。

Zhou和Chen在文献 [6] 中提出了一个基于凸函数无约束优化问题的两步正则化牛顿法,

( G k + λ k I ) d = g k ,

( G k + λ k I ) d ¯ = g ( y k ) , y k = x k + d k ,

x k + 1 = x k + s k ,

该方法结合了正则化牛顿法与信赖域方法,通过证明该算法求解凸的无约束优化问题在具有全局收敛和局部误差界的条件下具有三次收敛速度。

根据上述研究,我们发现凸函数的收敛性讨论的较多,而非凸函数的讨论较少,而关于非凸函数的无约束优化问题的两步正则化牛顿算法国内外研究还是甚少,所以本文将对此进行研究并去证明他的有效性,具有全局收敛性且是具有三阶收敛速度的。

2. 非凸优化问题的两步正则化牛顿法

首先,f R n R 的非凸函数且二阶连续可微,将梯度 f ( x k ) 和二阶海瑟矩阵 2 f ( x k ) ,分别用 g k H k 表示。用 . 表示2-范数。

该正则化牛顿法主要方案如下,在每次迭代中,求解如下方程:

( H k + λ k I ) d = g k , (2)

得到牛顿步长 d k ,其中 c 1 > 1 λ k 为合适的正则化参数,有:

λ k = c 1 ψ k + c k g k .

ψ k = max ( 0 , ν min ( H k ) ) .

ν 为矩阵 H k 的特征值。

再求解:

( H k + λ k I ) d = g ( y k ) , y k = x k + d k , (3)

得到的近似的牛顿步长 d k ¯

d k d ¯ k 由(2)和(3)给出,因为 H k + c 1 ψ k I + λ k I 正定,因此 d k f ( x ) x k 处的下降方向,但 d k + d ¯ k 可能不是,下面我们来讨论其是否为下降方向。

我们定义实际减少为:

A r e d k = f ( x k ) f ( x k + d k + d ¯ k ) . (4)

称为在第k次迭代时 f ( x ) 的实际减少。

我们记牛顿步长 d k 为下列问题的极小值,

min d R n φ k , 1 ( d ) = 1 2 d T H k d + g k T d + 1 2 λ k d 2 . (5)

令:

Δ k , 1 = d k = ( H k + λ k I ) 1 g k .

由 [7] 知, d k 也是如下最值问题的解:

min d R n 1 2 d T H k d + g k T d , s .t d k Δ k , 1 . (6)

根据 [7] ,得:

φ k , 1 ( 0 ) φ k , 1 ( d ) 1 2 g k min { d k , g k H k } . (7)

仿照 d k ,根据相似的式子也定义了 d ¯ k

min d R n φ k , 2 ( d ) = 1 2 d T H k d + g ( y k ) T d + 1 2 λ k d 2 .

d ¯ k 为下列信赖域问题的解,

min d R n 1 2 d T H k d + g ( y k ) T d , s .t d k Δ k , 2 .

其中:

Δ k , 2 = d ¯ k = ( H k + λ k I ) 1 g ( y k ) .

我们有,

φ k , 2 ( 0 ) φ k , 2 ( d ) 1 2 g ( y k ) min { d ¯ k , g ( y k ) H ( y k ) } . (8)

我们定义预测减少为:

P r e d k = φ k , 1 ( 0 ) φ k , 1 ( d ) + φ k , 2 ( 0 ) φ k , 2 ( d ) . (9)

且:

P r e d k 1 2 g k min { d k , g k H k } + 1 2 g ( y k ) min { d ¯ k , g ( y k ) H ( y k ) } (10)

根据定义 P r e d k 总是非负的,定义比率:

r k = A r e d k P r e d k . (11)

下面详细给出本论文的求解非凸无约束优化问题(1)的两步正则化牛顿法。

3. 收敛性分析

在本节中,我们主要研究该正则化牛顿法的全局收敛性,但由于f不是凸函数,由就算该正则化牛顿法全局收敛并不意味着该方法找到了全局最优解。并且在一定条件下有着超线性收敛性。

我们提出了如下的假设。

假设1:g(x)和H(x)都是lipschitz连续的,则有L > 0,有如下式子成立。

g ( x ) g ( y ) L x y . (12)

H ( x ) H ( y ) L x y . (13)

由lipschitz连续,我们有:

g ( y ) g ( x ) H ( x ) ( y x ) L y x 2 . (14)

假设2:

1) 存在该问题的局部最优解 x *

2) g ( x ) x * 的某个领域上提供了一个局部误差界,即存在两个正常数 c 1 b 1 ,使得:

g ( x ) c 1 d i s t ( x , X ) , x N ( x * , b 1 ) = { x | x x * b 1 } (15)

3) 海瑟矩阵H(x)是局部lipschitz连续的,即存在常数 b 2 ( 0 , 1 ) L H > 0 ,有:

H ( y ) H ( x ) L H y x , x N ( x * , b 1 ) . (16)

H ( y ) ( x y ) ( g ( x ) g ( y ) ) 1 2 L H y x 2 , x N ( x * , b 1 ) . (17)

由于f是两次连续可微的,因此存在正常数 L 1 , L 2

g ( x ) L 1 , x N ( x * , b 1 ) . (18)

g ( x ) g ( y ) L 2 x y , x N ( x * , b 1 ) . (19)

在本文的后面部分,我们用 x ¯ X 满足,

x ¯ x = d i s t ( x , X ) = inf y x y x . (20)

定理1:若假设1成立,如果f有界,根据AlgorithmI,我们有该算法终止于有限迭代或者满足 lim k inf g k = 0

证明:采用反证法,假设定理为假,则存在一个整数 k ¯ ,对 k k ¯ 有:

g k τ . (21)

在不失一般性的条件下,我们能假设 k ¯ = 1 ,我们令 T = { k | x k x k + 1 } ,我们有:

{ 1 , 2 , } = T { k | x k = x k + 1 } .

下面我们来考虑如下两种情况:

情况1:若T是无限的,我们能找到一个整数 k 1 ,有:

x k 1 = x k 1 + 1 = x k 1 + 2 =

通过上述算法的步4,我们有:

r k < p 0 , k k 1 .

由步5和式(21)我们有:

c k , λ k .

因为 x k = x k + 1 ,对任意 k k 1 都成立,得到:

d k = ( H k + c 1 ψ k I + λ k I ) 1 g k λ k 1 g k 0.

从步3,我们得到,

d ¯ k = ( H k + λ k I ) 1 g ( y k ) ( H k + c 1 ψ k I + c k I ) 1 ( g ( y k ) g k H k d k ) + ( H k + c 1 ψ k I + c k I ) 1 g k + ( H k + c 1 ψ k I + c k I ) 1 H k d k L c k 1 d k 2 + 2 d k m d k .

得到

| A r e d k P r e d k | = | f ( x k ) f ( x k + d k + d ¯ k ) ( φ k , 1 ( d ) φ k , 1 ( d ) + φ k , 2 ( d ) φ k , 2 ( d ) ) | | f ( y k + d ¯ k ) f ( y k ) 1 2 d ¯ T H k d g ( y k ) T d ¯ | + | f ( y k ) f ( x k ) d T H k d + g k T d | = ο ( d k 2 ) + ο ( d ¯ k 2 ) = ο ( d k 2 ) .

从(10)和(21)得到:

P r e d k 1 2 τ min { d k , τ L } 1 2 τ d k .

那么对于足够大的k,下式都成立,

| r k 1 | = | A r e d k P r e d k | P r e d k = ο ( d k 2 ) d k 0.

这意味着 r k 1 ,因此,根据算法中的步5,那么有一个正数 b 1 有: c k b 1

情况2:若T是有界的,那么有,

> f ( x 1 ) lim k inf f ( x k ) i = 1 f ( x i ) f ( x i + 1 ) = k T p 0 P r e d k k T p 0 ( 1 2 g k min { d k , g k L } + 1 2 g ( y k ) min { d ¯ k , g ( y k ) H ( y k ) } ) k T p 0 τ 2 min { d k , τ L } .

得:

lim k , k T d k = 0. (22)

由Step5可知,

λ k .

与情况1类似,我们有

d k ¯ b 2 d k , k T . (23)

根据(23)我们有,

s k = d k + d ¯ k ( 1 + b 2 ) d k , k T .

k T s k < .

这意味着,

x k x * , d k 0 , d ¯ k 0.

因为 ( H k + μ k g k δ I ) d = g k ,由(12) (14) (23),有:

c k d k = g k + H k d k + c 1 ψ k d k g k H k d k c 1 ψ k d k τ L d k .

有:

c k τ d k L .

由(11)可知, r k 1 。同理有那么有一个正数 b 2 有: c k b 1

根据这两个情况所得 c k 均我们的假设相矛盾。定理得证。

根据定理1,我们可以得到AlgorithmI是全局收敛的,且若f是凸函数,定理1可以保证AlgorithmI产生的解集 { x k } 收敛于全局最优解。但f是非凸函数,全局收敛并不能保证找到全局最优解,为了证明该算法的超线性收敛性,我们给出如下的引理。

引理1:若假设2成立,那么我们有

d k = ο ( x ¯ k x k ) .

d ¯ k = ο ( x ¯ k x k ) .

s k = ο ( x ¯ k x k ) .

证明:因为 x k x * X ,我们有:

d k = ( H k + c 1 ψ k I + c k g k I ) 1 g k = ( H k + c 1 ψ k I + c k g k I ) 1 ( g k f ( x ¯ k ) H k ( x k x ¯ k ) + H k ( x k x ¯ k ) ) ( H k + c 1 ψ k I + c k g k I ) 1 ( g k f ( x ¯ k ) H k ( x k x ¯ k ) ) + ( H k + c 1 ψ k I + c k g k I ) 1 H k ( x k x ¯ k )

( H k + c 1 ψ k I + c k g k I ) 1 g k f ( x ¯ k ) H k ( x k x ¯ k ) + ( H k + c 1 ψ k I + c k g k I ) 1 H k ( x k x ¯ k ) ( L H 2 x k x ¯ k 2 + H k x k x ¯ k ) ( H k + c 1 ψ k I + c k g k I ) 1 = L H 2 d i s t ( x k , X ) 2 ( H k + c 1 ψ k I + c k g k δ I ) 1 + d i s t ( x k , X ) ( H k + c 1 ψ k I + c k g k δ I ) 1 H k .

其中

( H k + c 1 ψ k I + c k g k I ) 1 = v max ( ( H k + c 1 ψ k I + c k g k δ I ) 1 ) = 1 v min ( H k + c 1 ψ k I + c k g k δ I ) 1 c k g k 1 c k L d i s t ( x k , X * ) .

下面我们考虑 ( H k + c 1 ψ k I + c k g k I ) 1 H k ,我们称 v k ( l ) H k 中第l大的特征值。那么 ( H k + c 1 ψ k I + c k g k I ) 1 H k 的特征值为

v k ( l ) v k ( l ) + c 1 ψ k + c k g k , 1 l n .

下面我们分两种情况讨论:1) v k ( l ) 0 ,2) v k ( l ) < 0

1) | v k ( l ) | | v k ( l ) + c 1 ψ k + c k g k | 1.

2) 因为:

ψ k = v min ( H k ) v k ( l ) < 0 ,

v k ( l ) v min ( H k ) 0 ,

| v k ( l ) | | v min ( H k ) | .

因此,我们有

| v k ( l ) | | v k ( l ) + c 1 ψ k + c k g k | = | v k ( l ) | | ( v k ( l ) v min ( H k ) ) ( c 1 1 ) v min ( H k ) + c k g k | | v k ( l ) | v k ( l ) v min ( H k ) + ( c 1 1 ) | v min ( H k ) | + c k g k 1 c 1 1 .

那么我们有

| v k ( l ) | | v k ( l ) + c 1 ψ k + c k g k | max ( 1 , 1 c 1 1 ) .

因此,我们有

d k L H 2 c k L d i s t ( x k , X * ) + max ( 1 , 1 c 1 1 ) d i s t ( x k , X * ) L 1 d i s t ( x k , X * ) .

同理

d ¯ k = ( H k + c 1 ψ k I + c k g k I ) 1 g ( y k ) = ( H k + c 1 ψ k I + c k g k I ) 1 ( g ( y k ) f ( x k ) H k ( y k x k ) + H k ( y k x k ) ) ( H k + c 1 ψ k I + c k g k I ) 1 ( g ( y k ) f ( x k ) H k ( y k x k ) ) + ( H k + c 1 ψ k I + c k g k I ) 1 H k ( y k x k ) ( H k + c 1 ψ k I + c k g k I ) 1 g ( y k ) f ( x k ) H k ( y k x k )

+ ( H k + c 1 ψ k I + c k g k I ) 1 H k ( y k x k ) ( L H 2 y k x k 2 + H k y k x k ) ( H k + c 1 ψ k I + c k g k I ) 1 = L H 2 d k 2 ( H k + c 1 ψ k I + c k g k I ) 1 + d k ( H k + c 1 ψ k I + c k g k I ) 1 H k m d i s t ( x k , X ) + max ( 1 , 1 c 1 1 ) d i s t ( x k , X ) max ( 1 , 1 c 1 1 ) d i s t ( x k , X )

s k = d k + d ¯ k = ο ( x ¯ k x k ) .

引理成立。

引理2:若假设2成立,那么我们总有一个常数 c 2 ,有 c k c 2

证明:从

φ k , 1 ( 0 ) φ k , 1 ( d k ) 1 2 g k min { d k , g k G k } 1 2 c 1 x k x ¯ k min { d k , c 1 L x k x ¯ k } c 2 x k x ¯ k .

对于某个 c 2 来说成立

从(11)我们得到

| r k 1 | = | A r e d k P r e d k P r e d k | = ο ( d k 2 ) x k x ¯ k min { x k x ¯ k , d k } 0.

因此有 r k 1 ,我们由算法中的步骤5的更新规则推断出,存在一个常数 c 2 ,有 c k c 2

引理得证。

引理3:若假设2成立,我们有

ψ k L H d i s t ( x k , X )

证明:

情况1):当 H k 0 时,我们有 ψ k = 0

情况2):当 H k < 0 时,我们假设 v min ( H k ) < 0 ,我们称 v k ( l ) ¯ 2 f ( x ¯ k ) 中第l大的特征值。

因为 x ¯ k X ,我们有 v k ( l ) ¯ 0 ,根据假设,非凸函数 f ( x ) 满足二阶连续的条件,那么 2 f ( x ¯ k ) 是实对称矩阵,则存在正交矩阵 Q k ,有:

Q k T 2 f ( x ¯ k ) Q k = d i a g ( v k ( l ) ¯ ) .

其中 d i a g ( v k ( l ) ¯ ) 表示的为对角线元素为 v k ( l ) ¯ 的对角矩阵,

v min ( H k ) I Q k T H k Q k = v min ( H k ) I Q k T ( 2 f ( x ¯ k ) + ( H k 2 f ( x ¯ k ) ) ) Q k = v min ( H k ) I d i a g ( v k ( l ) ¯ ) Q k T ( H k 2 f ( x ¯ k ) ) Q k .

因为 Q k T H k Q k 总会有特征值 v min ( H k ) ,因此我们有 v min ( H k ) I Q k T H k Q k 是奇异的,因此 v min ( H k ) I d i a g ( v k ( l ) ¯ ) Q k T ( H k 2 f ( x ¯ k ) ) Q k 也是奇异的。因为 v min ( H k ) < 0 v k ( l ) ¯ 0 Math_201#是非奇异的。我们令:

M = ( v min ( H k ) I d i a g ( v k ( l ) ¯ ) ) 1 v min ( H k ) I d i a g ( v k ( l ) ¯ ) Q k T ( H k 2 f ( x ¯ k ) ) Q k .

根据引理,我们有:

1 I M = I ( I ( v min ( H k ) I d i a g ( v k ( l ) ¯ ) ) 1 ) Q k T ( H k 2 f ( x ¯ k ) ) Q k = ( v min ( H k ) I d i a g ( v k ( l ) ¯ ) ) 1 Q k T ( H k 2 f ( x ¯ k ) ) Q k ( v min ( H k ) I d i a g ( v k ( l ) ¯ ) ) 1 Q k T ( H k 2 f ( x ¯ k ) ) Q k = ( v min ( H k ) I d i a g ( v k ( l ) ¯ ) ) 1 H k 2 f ( x ¯ k ) .

我们分别考虑 ( v min ( H k ) I d i a g ( v k ( l ) ¯ ) ) 1 H k 2 f ( x ¯ k )

因为 v min ( H k ) < 0 ,且 v k ( l ) ¯ 0

( v min ( H k ) I d i a g ( v k ( l ) ¯ ) ) 1 = max 1 l n | ( v min ( H k ) I d i a g ( v k ( l ) ¯ ) ) 1 | = 1 min 1 l n | v min ( H k ) I d i a g ( v k ( l ) ¯ ) | 1 | v min ( H k ) | = 1 ψ k .

根据假设2,我们有

H k 2 f ( x ¯ k ) L H x k x ¯ k = L H d i s t ( x k , X ) .

因此,我们有:

ψ k L H d i s t ( x k , X ) .

引理得证。

根据上述引理,我们有:

λ k = c 1 ψ k + c k g k c k g k m c d i s t ( x k , X ) = m c x k x ¯ k .

λ k = c 1 ψ k + c k g k L H d i s t ( x k , X ) + c k g k c x k x ¯ k

即: λ k , c k 等价于 x k x ¯ k

λ k = x k x ¯ k , c k = x k x ¯ k . (24)

引理4:若假设2成立,我们有

d i s t ( x k + 1 , X ) = ο ( d i s t ( x k , X ) 2 ) .

证明:由(18)可知

k 1 d i s t ( x k + 1 , X ) g k + 1 = g ( y k + d ¯ k ) g ( y k + d ¯ k ) g ( y k ) G ( y k ) d ¯ k + g ( y k ) + G ( y k ) d ¯ k L d ¯ k 2 + g ( y k ) + G ( x k ) d ¯ k + ( G ( y k ) G ( x k ) ) d ¯ k L d ¯ k 2 + ( ψ k + λ k ) d ¯ k + L d k d ¯ k = ο ( d i s t ( x k , X ) 2 .

定理2:若假设成立,我们假设 { x k } 是由AlgorithmI生成的序列,那么我们称 d i s t ( x k , X ) 是二阶收敛于0,且 { x k } 是局部收敛于最优解 x * 的。

证明:由引理4,我们总能找到一个序列 { x k } 使得 d i s t ( x k , X ) 2阶趋近于0的。

而根据 [1] ,我们总能找到序列 { x k } ,在其中找出两个元素 x p , x q { x k } ,使得 | x p x q | ε

那么我们可知, { x k } 是一个柯西序列那么其肯定是一个收敛数列,定理得证。

引理5 [7] :如果 { x k } 是超线性收敛于 x * 的,那么有:

lim k x k + 1 x k x k x * = 1.

由引理4我们有

x ¯ k x k x ¯ k + 1 x k + 1 + x k + 1 x k 2 s k

由引理5可得, s k 等价于 x k x * 。因此有 x k x * 等价于 x ¯ k x k

我们知道 H ( x * ) 0 ,又 H ( x * ) 是对称的,而且, H ( x * ) + c 1 ψ * I ,是半正定的,且 ψ * 0 ,此时 G ( x * ) = H ( x * ) + c 1 ψ * I 0 ,因此存在正交矩阵U使得:

G ( x * ) = ( U 1 , U 2 ) ( Σ 1 * 0 0 0 ) ( U 1 , U 2 ) T ,

其中 Σ 1 * 是一个正对角矩阵,类似的,我们假设 H ( x ) 的奇异值分解为:

G ( x ) = ( U 1 , U 2 ) ( Σ 1 0 0 Σ 2 ) ( U 1 , U 2 ) T = U 1 Σ 1 U 1 T + U 2 Σ 2 U 2 T .

其中 R a n k ( Σ 1 ) = R a n k ( Σ 1 * ) Σ 2 随着 x x * 收敛于0。在后文中,我们将 G ( x k ) 简写成 G k ,则根据矩阵扰动理论 [8] [9] ,我们有:

Σ 1 Σ 2 + Σ 2 G k G ( x * ) L x k x * .

即: Σ 1 Σ 1 * L x ¯ k x k Σ 2 x ¯ k x k

引理6:若假设成立,我们有:

g ( y k ) = o ( x k x ¯ k 2 ) , U 2 U 2 T g ( y k ) = o ( x k x ¯ k 3 ) .

证明:根据式(24),我们有 g k + G k d k = λ k d k = o ( x k x ¯ k 2 )

相似的,我们有: g k + G k d ¯ k = λ k d ¯ k = o ( x k x ¯ k 2 )

因此,我们有,

g ( y k ) = g ( x k + d k ) g k G k d k + g k + G k d k = o ( x k x ¯ k 2 ) .

y ¯ k y k L g ( y k ) = o ( x k x ¯ k 2 ) .

M k = U 1 Σ 1 U 1 T t k = M k + g ( y k ) 。那么我们易得 t k 是如下最小二乘算法的解:

min g ( y k ) + M k t k .

因此:

U 2 U 2 T g ( y k ) = g ( y k ) + M k t k g ( y k ) + M k ( y ¯ k y k ) g ( y k ) G ( y k ) ( y ¯ k y k ) + ( G ( y k ) G k ) ( y ¯ k y k ) + ( G k M k ) ( y ¯ k y k ) L y ¯ k y k 2 + L d k y ¯ k y k + Σ 2 y ¯ k y k = o ( x k x ¯ k 3 ) .

引理7:若假设成立,我们有: d ¯ k = o ( x k x ¯ k 2 )

证明: d ¯ k = ( H k + λ k I ) 1 g ( y k ) = ( G k + c k I ) 1 g ( y k ) = U 1 ( Σ 1 + c k I ) 1 U 1 T g ( y k ) U 2 ( Σ 2 + c k I ) 1 U 2 T g ( y k ) .

因为 x k x * ,令 Σ 1 Σ 1 * ,那么我们有 Σ 1 1 是一致有界的,即存在一个常数 c 4 ,有: Σ 1 1 c 4

因此我们有:

d ¯ k Σ 1 1 U 1 U 1 T g ( y k ) + c k 1 U 2 U 2 T g ( y k ) c 4 g ( y k ) + c k 1 U 2 U 2 T g ( y k ) = o ( x k x ¯ k 2 ) .

定理3:若假设成立,我们假设 { x k } 是由AlgorithmI生成的序列,那么我们称 d i s t ( x k , X ) 是三阶收敛于0,且 { x k } 是局部收敛于最优解 的。

证明:

x ¯ k + 1 x k + 1 g ( x k + 1 ) = g ( y k + d ¯ k ) g ( y k + d ¯ k ) g ( y k ) G ( y k ) d ¯ k + g ( y k ) + G ( y k ) d ¯ k L d ¯ k 2 + ( G ( y k ) G k ) d ¯ k + g ( y k ) + G k d ¯ k L d ¯ k 2 + L d k d ¯ k + λ k d ¯ k = o ( x k x ¯ k 2 ) .

定理得证。

4. 数值实验

下面求解两个不等式约束优化问题的数值算例,验证AlgorithmI的有效性,并与[3]进行比较,算法在MATLB R2022a编程实现,数值实验在windows系统中进行。实验中,我们取终止条件为 ε s t o p 10 7 ,取初始的正则化参数为, c 1 = 2 c k = 2 ,比率的取值为 p 0 = 0.1 p 1 = 0.2 p 2 = 0.3

考虑如下无约束优化问题且统一算例的初始值相同,实验结果见下表,每组表都给出了选取的初值 x 1 ,并在所取初值相等的情况下比较,所需迭代次数k、迭代点 x * 和此时函数的值 f ( x * )

例1:考虑如下无约束优化问题

min f ( x ) = 1 2 x 1 2 + 1 2 x 1 2 x 2 2

例2:考虑如下无约束优化问题

min f ( x ) = sin x 1 + cos x 2 + x 1 x 2 2

例3:考虑如下无约束优化问题

min f ( x ) = x 1 2 + x 2 2 + x 3 2 + x 1 x 2 + x 2 x 3 + x 1 x 3

从上述例子我们可以看出,上述例子对于非凸函数的无约束优化问题的最优解是有效的,而在取不同的初始值时,迭代效果依旧强于单步正则化牛顿法,于是我们说该算法是可行的。

5. 结论

本文根据非凸无约束优化问题的单步正则化牛顿法进行改进提出了非凸无约束优化问题的两步正则化牛顿法,并对方法的收敛性进行研究。证明了在一定的条件下该方法是全局收敛的并且在局部误差界下具有三次收敛速度。理论分析证明,该算法有着良好的性质并证明了对应算法的全局收敛性。根据所提出的方法进行了部分数值实验,并将运算结果与单步的正则化牛顿法进行了对比,我们的方法有着更好的性质,进一步验证了本文算法的有效性。

参考文献

参考文献

[1] Yamashita, N. and Fukushima, M. (2001) On the Rate of Convergence of the Levenberg-Marquardt Method.
https://doi.org/10.1007/978-3-7091-6217-0_18
[2] Li, D.H., Fukushima, M., Qi, L., et al. (2004) Regularized Newton Methods for Convex Minimization Problems with Singular Solutions. Computational Optimization and Appli-cations, 28, 131-147.
https://doi.org/10.1023/B:COAP.0000026881.96694.32
[3] Ueda, K. and Yamashita, N. (2010) Convergence Properties of the Regularized Newton Method for the Unconstrained Nonconvex Optimization. Applied Mathematics & Optimization, 62, 27-46.
https://doi.org/10.1007/s00245-009-9094-9
[4] Homeier, H.H.H. (2003) A Modified Newton Method for Rootfinding with Cubic Convergence. Journal of Computational and Applied Mathematics, 157, 227-230.
https://doi.org/10.1016/S0377-0427(03)00391-1
[5] Homeier, H.H.H. (2004) A Modified Newton Method with Cubic Convergence: The Multivariate Case. Journal of Computational and Applied Mathematics, 169, 161-169.
https://doi.org/10.1016/j.cam.2003.12.041
[6] Zhou, W. and Chen, X. (2013) On the Convergence of a Modified Regularized Newton Method for Convex Optimization with Singular Solutions. Journal of Computational and Applied Mathematics, 239, 179-188.
https://doi.org/10.1016/j.cam.2012.09.030
[7] Sun, W. and Yuan, Y.X. (2006) Optimization Theory and Methods: Nonlinear Programming. Springer Science & Business Media, Berlin.
[8] 孙继广. 矩阵扰动分析[M]. 北京: 科学出版社, 2001.
[9] Bogaevski, V.N. and Povzner, A. (1991) Matrix Perturbation Theory. In: Algebraic Methods in Non-linear Perturbation Theory. Springer, New York.
https://doi.org/10.1007/978-1-4612-4438-7