凸约束优化问题的杂交三阶投影HS-PRP方法
A Hybrid Three-Term Projected HS-PRP Method for Optimization with Convex Constraint
DOI: 10.12677/AAM.2022.118607, PDF, HTML, XML, 下载: 202  浏览: 314 
作者: 周姣利:长沙理工大学数学与统计学院,湖南 长沙
关键词: 投影共轭梯度法线搜索全局收敛Projected Conjugate Gradient Method Line Search Global Convergence
摘要: 本文提出了一种杂交三阶投影HS-PRP共轭梯度法求解凸约束优化问题并证明了该算法的全局收敛性,该方法是求解无约束优化问题的三阶HS共轭梯度法的推广。数值实验结果表明,该算法是有效的。
Abstract: In this paper, we propose a hybrid third-term projected HS-PRP conjugate gradient method for solving convex constrained optimization problems and establish its global convergence, which is a generalization of the third-term HS conjugate gradient method for unconstrained optimization. Numerical experimental results show that the algorithm is effective.
文章引用:周姣利. 凸约束优化问题的杂交三阶投影HS-PRP方法[J]. 应用数学进展, 2022, 11(8): 5750-5759. https://doi.org/10.12677/AAM.2022.118607

1. 引言

自共轭梯度法被提出以来,因其具有良好的收敛性质,且所需存储量小,因此被广泛用于求解大规模无约束优化问题。

共轭梯度法的基本迭代格式如下:

x k + 1 = x k + α k d k ,

d k = { g k , k = 0 g k + β k d k , k > 0 ,

其中 α k 为步长因子,由某种线搜索确定; d k 为搜索方向, β k 为共轭参数, g k = f ( x k )

共轭参数 β k 的经典选取方式有Fletcher-Reeves [1],Polak-Ribière-Polyak [2],Hestenes-Stiefel [3],Dai-Yuan [4],Conjugate Descent [5],Liu-Storey [6] 六种,其具体表达式如下:

β k F R = g k 2 g k 1 2 , β k P R R = g k T ( g k g k 1 ) g k 1 2 , β k H S = g k T ( g k g k 1 ) d k 1 T ( g k g k 1 ) ,

β k D Y = g k 2 d k 1 T ( g k g k 1 ) , β k C D = g k 2 g k 1 T d k 1 , β k L S = g k T ( g k g k 1 ) g k 1 T d k 1 .

其中 表示Euclidean范数, y k 1 = g k g k 1 。由于分子不同,可将这六种经典的共轭梯度法分为两类。第一类如FR、CD和DY方法,其共轭参数 β k 有共同的分子 g k 2 ,虽然它们具有良好的全局收敛性,但数值表现一般;第二类如PRP、HS和LS方法,其共轭参数 β k 有共同的分子 g k T ( g k g k 1 ) ,虽然它们拥有良好的数值表现,但对全局收敛的条件要求较强。为得到数值实验和理论结果都较好的共轭梯度法,许多学者对这些经典方法做了修正 [7] [8] [9] [10]。

2007年,Zhang等人在 [11] [12] [13] 的基础上,提出了三阶HS共轭梯度法 [14],即TTHS方法,搜索方向 d k 的取法如下:

d k = g k + β k H S d k 1 + θ k y k 1 , θ k = g k T d k 1 d k 1 T y k 1 .

该方法的优点在于:生成的搜索方向 d k 总满足 g k T d k = g k 2 ,即不依赖任何线搜索而具有充分下降性。为了得到TTHS方法在标准Wolf线搜索下的全局收敛性,Zhang等人提出了以下两种算法。一种是截断TTHS方法(CTTHS方法):

d k = { g k , if s k T y k ε 1 g k r s k T s k , g k + β k H S d k 1 + θ k y k 1 , if s k T y k ε 1 g k r s k T s k ,

其中 ε 1 γ 是任意正常数。另一种是改进的TTHS方法(MTTHS方法):

d k = { g k if k = 0 , g k + β k M H S d k 1 θ k M z k 1 if k > 0 ,

其中

β k M H S = g k T z k 1 d k 1 T z k 1 , θ k M = g k T d k 1 d k 1 T z k 1 , z k 1 = y k 1 + t g k γ s k 1 .

t和 γ 为任意正常数, y k 1 = g k g k 1 , s k 1 = x k x k 1

为保证MTTHS方法在修改的Armijo线搜索下的全局收敛性,考虑做如下修改:

d k = { g k if k = 0 , g k + β k M H S d k 1 θ k M z k 1 if k > 0 ,

其中

β k M H S = g k T z k 1 d k 1 T z k 1 , θ k M = g k T d k 1 d k 1 T z k 1 , z k = y k + t k s k ,

其中

y k = g k +1 g k , s k = x k + 1 x k , r 0 , t k = 1 + max { y k T s k s k 2 , 0 } .

1990年,Touati-Ahmed和Storey首次引入了杂交共轭梯度法 [15],其共轭参数 β k 的取法为: β k T S = max { 0 , min { β k F R , β k P R P } } ,杂交共轭梯度法的提出,使得共轭梯度法的理论性质和数值试验都表现得更佳。随后,许多学者对杂交共轭梯度法做了进一步研究,见文献 [16] [17]。

在杂交共轭梯度法的启发下,本文考虑杂交三项HS-PRP共轭梯度法:

d k = { g k if k = 0 , g k + β k s k 1 θ k z k 1 if k > 0 ,

其中

β k = g k T z k 1 max { s k 1 T z k 1 , μ g k 1 2 } , θ k = g k T s k 1 max { s k 1 T z k 1 , μ g k 1 2 } , z k = y k + t k s k .

其中

y k = g k +1 g k , s k = x k + 1 x k , t k = 1 + max { y k T s k s k 2 , 0 } > 0 , μ 为任意正常数。

我们注意到,上述共轭梯度法旨在求解无约束优化问题,该方法并不适合直接用于求解约束优化问题。2021年,Zhou提出了一种求解凸约束优化问题的投影PRP方法 [18],利用投影的性质证明了该算法在修改的Armijo线搜索下具有全局收敛性。本文的目的是推广杂交三阶HS-PRP共轭梯度法求解凸约束优化问题,并证明该算法在修改的Armijo线搜索下的全局收敛性。

本文其余部分组织如下:第二部分详细介绍了求解凸约束优化问题的杂交三阶投影HS-PRP共轭梯度法;第三部分证明该算法的全局收敛性;第四部分给出数值实验结果。

2. 杂交三阶投影HS-PRP共轭梯度法

本文的目的是推广求解无约束优化问题的杂交三阶HS-PRP共轭梯度法用于求解以下凸约束优化问题:

min x Ω f ( x ) . (1)

其中 Ω R n 是闭凸集, f ( x ) R n R 的光滑函数。显然,若 x * 是问题(1)的局部极小点,那么 x * 一定是满足定义2.1的稳定点。

定义2.1. x * Ω 是问题(1)的稳定点当且仅当: g ( x * ) T ( x x * ) 0 , x Ω

定义2.2. 从 R n 到闭凸集 Ω 的投影算子为:

P Ω = arg min y Ω y x . (2)

r k = P Ω ( x k g k ) x k . (3)

显然, x k 是问题(1)的稳定点当且仅当 r k = 0

算法1. (杂交三阶投影HS-PRP方法)

步0. 取初始点 x 0 Ω , δ > 0 , μ > 0 , ρ ( 0 , 1 ) , 0 < λ min < λ max < 。选取一个正序列 { η k } 满足: k = 0 η k η < 。令

d 0 = g 0 , k : = 0 . (4)

步1. 若 r k = 0 , 则停止计算;否则,转步2。

步2. 按如下公式计算 d k

d k = { g k if k = 0 , g k + β k s k 1 θ k z k 1 if k > 0 , (5)

其中

β k = g k T z k 1 max { s k 1 T z k 1 , μ g k 1 2 } , θ k = g k T s k 1 max { s k 1 T z k 1 , μ g k 1 2 } , z k = y k + t k s k . (6)

其中

y k = g k +1 g k , s k = x k + 1 x k , t k = 1 + max { y k T s k s k 2 , 0 } > 0 . (7)

步3. 计算 α k = max { σ k ρ j , j = 0 , 1 , 2 , } 满足:

f ( P Ω ( x k + α k d k ) ) f ( x k ) δ α k d k 2 + η k , (8)

其中 σ k [ λ min , λ max ]

步4. 令 x k + 1 : = P Ω ( x k + α k d k ) , k : = k + 1 , s k = x k + 1 x k = P Ω ( x k + α k d k ) x k ,转步1。

注2.2.

1) 由(3)可知,若 g k = 0 ,则 r k = 0 ,则 x k 是问题(1)的稳定点;

2) 若 max { s k 1 T z k 1 , μ g k 1 2 } = 0 ,则 g k 1 = 0 ,这也就意味着 x k 1 是问题(1)的稳定点;

3) 由 d k 的定义可知:

d k T g k = g k 2 (9)

4) 由投影算子的连续性和 η k > 0 可知线搜索(8)对任意充分小的 α > 0 都成立。线搜索(8)来自文献 [19]。

接下来我们将介绍投影算子的一些重要性质,这些性质对我们后面证明该算法的全局收敛性非常有用。引理2.3和引理2.4来自文献 [20]。

引理2.3. 若 z Ω ,则有:

( P Ω ( x ) x ) T ( z P Ω ( x ) ) 0 , x R n , (10)

P Ω ( x ) P Ω ( y ) x y , x , y R n , (11)

引理2.4. 对任意 x Ω , P Ω ( x α g ( x ) ) x α α > 0 上非增。

引理2.5. 对任意 x k Ω 。有:

g k T ( x k P Ω ( x k α g k ) ) P Ω ( x k α g k ) x k 2 α , α > 0 , (12)

证明:由(10)和 x k Ω 可知:

g k T ( x k P Ω ( x k α g k ) ) = 1 α ( x k P Ω ( x k α g k ) + P Ω ( x k α g k ) ( x k α g k ) ) T ( x k P Ω ( x k α g k ) ) = P Ω ( x k α g k ) x k 2 α + 1 α ( P Ω ( x k α g k ) ( x k α g k ) ) T ( x k P Ω ( x k α g k ) ) P Ω ( x k α g k ) x k 2 α

证毕。

3. 全局收敛性

在这一部分,我们将讨论算法1在以下假设条件下的全局收敛性。首先,我们定义水平集:

Ω 1 = { x | f ( x ) f ( x 0 ) + η } Ω , (13)

其中 η 满足(4)。显然 x k Ω 1 对任意 k 0 都成立。

假设A.

1) 由(13)定义的水平集 Ω 1 是有界的;

2) 存在 Ω 1 的某些凸邻域N,使得梯度函数 g ( x ) N Ω 上Lipschitz连续,即存在常数 L > 0 ,使得:

g ( x ) g ( y ) L x y , x , y N Ω (14)

由假设A可知存在常数 M > 0 ,使得:

g ( x ) M , x N Ω (15)

显然,由线搜索(8)和(4)我们可以得到:

lim k α k d k = 0 (16)

引理3.1. 设 { x k } 是由算法1产生的序列且假设A成立,则对任意的 k 0 ,有:

z k y k + t k s k ( L + t k ) s k . (17)

s k T z k = s k T y k + t k s k 2 = { s k T y k + s k 2 s k 2 , s k T y k 0 s k T y k + s k 2 s k T y k = s k 2 , s k T y k < 0 . (18)

由(18)可知: s k T z k s k 2

引理3.2. 若假设A成立,则存在常数 C > 0 使得:

d k C , k 0 . (19)

证明:由(5)、(6)、(15)、(17)、(18)可知:

d k g k + 2 g k z k 1 max { s k 1 T z k 1 , μ g k 1 2 } s k 1 g k + 2 g k z k 1 s k 1 T z k 1 s k 1 M + 2 M ( L + t k 1 ) s k 1 s k 1 2 s k 1 = M + 2 M ( L + t k 1 )

C = M + 2 M ( L + t k 1 ) 即得(19),证毕。

定理3.3. 设 { x k } 是由算法1产生的序列且假设A成立,则有:

lim inf k r k = 0 . (20)

证明:反证法,假设结论不成立,则存在常数 τ > 0 使得:

r k τ , k 0 . (21)

由(21)可知存在常数 ε > 0 ,使得:

g k ε , k 0 . (22)

否则存在无限子集 K { 0 , 1 , 2 , } 使得:

lim k K , k r k = lim k K , k P Ω ( x k g k ) x k lim k K , k g k = 0 . (23)

最后一个不等式由(11)和 P Ω ( x k ) = x k 可得,因此上式与(21)矛盾,即(22)成立。

1) 若 lim sup k α k > 0 ,由(9)和(16)可得: lim inf k g k = 0 。这与(22)式矛盾。

2) 若 lim sup k α k = 0 ,则存在 α k = α k ρ 不满足不等式(8),即:

f ( P Ω ( x k + α k d k ) ) f ( x k ) > δ α k d k 2 + η k > δ α k d k 2 . (24)

由拉格朗日中值定理和引理2.5可得:

f ( P Ω ( x k + α k d k ) ) f ( x k ) α k = g ( ξ k ) T ( P Ω ( x k + α k d k ) x k ) α k = g k T ( P Ω ( x k α k g k ) x k ) α k + ( g ( ξ k ) g k ) T ( P Ω ( x k + α k d k ) x k ) α k + g k T ( P Ω ( x k + α k d k ) P Ω ( x k α k g k ) ) α k = g k T ( P Ω ( x k α k g k ) x k ) α k + Δ k P Ω ( x k α k g k ) x k 2 α k 2 + Δ k ,

其中 ξ k 介于 x k P Ω ( x k + α k d k ) 之间。上述不等式结合(24)可得:

P Ω ( x k α k g k ) x k 2 α k 2 | Δ k | + δ α k d k 2 . (25)

由(11)和(15)可得:

| Δ k | g ( ξ k ) g k P Ω ( x k + α k d k ) x k α k + g k P Ω ( x k + α k d k ) P Ω ( x k α k g k ) α k g ( ξ k ) g k d k + M d k + g k C g ( ξ k ) g k + M d k + g k ,

由(5)、(6)、(11)、(15)、(17)、(22)以及 α k 0 可得:

lim k d k + g k lim k 2 g k z k 1 max { s k 1 T z k 1 , μ g k 1 2 } s k 1 lim k 2 M ( L + t k 1 ) s k 1 μ g k 1 2 s k 1 lim k 2 M ( L + t k 1 ) α k 1 d k 1 2 μ ε 2 = 0 (26)

因此,由 g ( x ) 的连续性和 α k 0 以及(26)可知: Δ k 0

由(3)、(19)、(25),引理2.4以及 α k 0 ,我们可以得到:

r k 2 = P Ω ( x k g k ) x k 2 P Ω ( x k α k g k ) x k 2 α k 2 | Δ k | + δ α k d k 2 0 .

这与(21)矛盾,证毕。

4. 数值实验

在这一部分我们将通过数值实验来验证本文所提出算法的有效性。实验测试在PC机上完成,PC机配置:联想,Intel(R) Core(TM) i7-8700 CPU @ 3.20GHz 3.19GHz,8Gb内存,Windows10操作系统,所有代码用Matlab R2016b编写并运行。

测试对象:函数来自文献 [18],表达式如下:

f ( x ) = 1 2 i = 1 n 1 ( x i x i 1 ) 2 + 1 12 i = 1 n 1 γ i ( x i x i 1 ) 4 + 1 2 x T x .

约束集 Ω = { x | 10 x i 10 , i = 1 , 2 , , n } ,其中 γ i 0 ( i = 1 , 2 , , n 1 ) 为任意常数。

γ = [ γ 1 , γ 2 , , γ n 1 ] T

测试参数: δ = 0.1 , ρ = 0.1 , μ = 1 , λ max = λ min = 1 , η k = 0.5 k

初始点: x 0 = ( 1.2 , 1 , 1.2 , 1 , 1.2 , 1 ) T

终止条件:迭代次数 k 500 r k 10 5 ,其中 r k 表示迭代终止时 r k 的无穷范数。

采用本文提出的算法与Zhou在文献 [18] 中提出的投影PRP算法求解上述测试问题,分别记为算法1和算法2,测试结果见表1表2

Table 1. Test function with γ = ( 1 , 2 , ⋯ , n − 1 ) T

表1. 测试函数中 γ = ( 1 , 2 , , n 1 ) T

Table 2. Test function with γ = 1 n ( 1 2 , 2 2 , ⋯ , ( n − 1 ) 2 ) T

表2. 测试函数中 γ = 1 n ( 1 2 , 2 2 , , ( n 1 ) 2 ) T

表1表2的数据我们可以知道,在迭代次数和运行时间两个方面,本文提出的算法优于 [18] 提出的投影PRP方法。

5. 结束语

本文提出了一种求解凸约束优化问题的杂交三阶投影HS-PRP共轭梯度法,它是求解无约束优化问题的共轭梯度法的推广。利用投影的相关性质,我们证明了该算法在修改的Armijo线搜索下的全局收敛性。数值结果表明,本文所提出的算法较投影PRP算法更优。

参考文献

参考文献

[1] Fletcher. R. and Reeves, C.M. (1964) Function Minimization by Conjugate Gradients. The Computer Journal, 7, 149-154.
https://doi.org/10.1093/comjnl/7.2.149
[2] Polyak, B.T. (1969) The Conjugate Gradient Method in Ex-treme problems. USSR Computational Mathematics and Mathematical Physics, 9, 94-112.
https://doi.org/10.1016/0041-5553(69)90035-4
[3] Hestenes, M.R. and Stiefel, E. (1952) Method of Conjugate Gradient for Solving Linear System. Journal of Research of the National Bureau of Standards, 49, 409-436.
https://doi.org/10.6028/jres.049.044
[4] Dai, Y.H. and Yuan, Y. (1999) A Nonlinear Conjugate Gradient Method with a Strong Global Convergence Property. SIAM Journal on Optimization, 10, 177-182.
https://doi.org/10.1137/S1052623497318992
[5] Fletcher, R. (1987) Practical Methods of Optimization, Vol. 1: Unconstrained Optimization. Wiley & Sons, New York.
[6] Liu, Y. and Storey, C. (1991) Efficient Generalized Con-jugate Gradient Algorithms, Part 1: Theory. Journal of Optimization Theory and Applications, 69, 129-137.
https://doi.org/10.1007/BF00940464
[7] Zhou, W. and Li, D. (2014) On the Convergence Properties of the Un-modified PRP Method with a Non-Descent Line Search. Optimization Methods Software, 29, 484-496.
https://doi.org/10.1080/10556788.2013.811241
[8] Hager, W.W. and Zhang, H. (2005) A New Conjugate Gra-dient Method with Guaranteed Descent and an Efficient Line Search. SIAM Journal on Optimization, 16, 170-192.
https://doi.org/10.1137/030601880
[9] Gilbert, J.C. (1994) Convergence Properties of Conjugate Descent Method for Optimization. SIAM Journal on Optimization, 2, 24-32.
[10] 杨萌, 王祥玲. 修正HS共轭梯度法的全局收敛性[J]. 桂林电子科技大学学报, 2009, 29(4): 300-302.
[11] Zhang, L., Zhou, W. and Li, D. (2006) A Descent Modified Polak-Ribière-Polyak Conjugate Gradient Method and Its Global Convergence. IMA J Numerical Analysis, 26, 629-640.
https://doi.org/10.1093/imanum/drl016
[12] Zhang, L., Zhou, W. and Li, D. (2006) Global Convergence of a Modi-fied Fletcher Reeves Conjugate Gradient Method with Armijo-Type Line Search. Numerische Mathematik, 104, 561-572.
https://doi.org/10.1007/s00211-006-0028-z
[13] Li, D.H. and Fukushima, M. (2001) A Modified BFGS Method and Its Global Convergence in Nonconvex Minimization. Journal of Computational and Applied Mathematics, 129, 15-35.
https://doi.org/10.1016/S0377-0427(00)00540-9
[14] Zhang, L., Zhou, W. and Li, D. (2007) Some Descent Three-Term Conjugate Gradient Methods and Their Global Convergence. Optimization Methods and Software, 22, 697-711.
https://doi.org/10.1080/10556780701223293
[15] Touati-Ahmed, D. and Story, C. (1990) Global Con-vergent Hybrid Conjugate Gradient Method. Journal of Optimization Theory and Applications, 64, 379-397.
https://doi.org/10.1007/BF00939455
[16] Dai, Y.H. and Yuan, Y. (2001) An Efficient Hybrid Conjugate Method for Unconstrained Optimization. Annals of Operations Research, 103, 33-47.
https://doi.org/10.1023/A:1012930416777
[17] Dai, Z.F. and Wen, F.H. (2015) Comments on Another Hybrid Conjugate Gradient Algorithm for Unconstrained Optimization by Andrei. Numerical Algorithms, 69, 337-341.
https://doi.org/10.1007/s11075-014-9899-8
[18] Zhou, W. (2021) A Projected PRP Method for Optimization with Convex Constraint. Pacilici Journal of Optimization, 17, 47-55.
[19] Zhou W. (2013) A Short Note on the Global Con-vergence of the Unmodified PRP Method. Optimization Letters, 7, 1367-1372.
https://doi.org/10.1007/s11590-012-0511-7
[20] Calamai, P.H. and Moré, J.J. (1987) Projected Gradient Methods for Linearly Constrained Problems. Mathematical Programming, 39, 93-116.
https://doi.org/10.1007/BF02592073